Libro - de - Estadistica (Estadística Aplicada - Udep)

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 279

Probabilidades 1

Capítulo 1. Probabilidades
1.1 Modelos matemáticos
La aplicación de las matemáticas para describir el universo es una práctica que ha dado muy
buenos resultados durante siglos. Las matemáticas conforman un lenguaje completamente lógico que
puede aplicarse a la descripción de la naturaleza porque los sucesos y los objetos de la naturaleza tie-
nen propiedades que ofrecen un paralelo suficiente a las matemáticas. Aunque la descripción de la na-
turaleza en términos matemáticos nunca es completamente exacta, hay suficiente concordancia entre
las formas de la naturaleza y las de la expresión matemática para que la descripción sea aceptable. La
aproximación es a menudo tan grande que una vez que se ha aplicado la descripción matemática, se
puede proseguir con esa lógica matemática para hacer deducciones que también se apliquen a la natu-
raleza.

1.1.1 Definiciones:
Se denomina experimento a la reproducción controlada de un fenómeno cualquiera que ocurre
en la naturaleza.
Un modelo matemático se emplea para describir un fenómeno que ocurre en la naturaleza, y
puede ser: determinístico o no determinístico.
Un modelo es determinístico cuando las condiciones bajo las cuales se verifica el experimento
determinan su resultado. Por ejemplo: si se deja caer un cuerpo en el vacío, desde una altura h, hasta el
piso, la velocidad que alcanza es:
v = 2 gh

Este modelo determina la velocidad con que el cuerpo cae al piso todas las veces que se repita el
experimento, si se repiten las mismas condiciones del experimento.
Un modelo es no determinístico o probabilístico cuando las condiciones bajo las cuales se veri-
fica el experimento no determinan su resultado. Según el fenómeno que se estudie, es posible determi-
nar un modelo. Por ejemplo: si se quiere saber cuántos autos llegan a una gasolinera entre las 7 y las 8
a.m.; con base en datos históricos se puede diseñar un modelo que dé un resultado aproximado con
cierto grado de confiabilidad. La forma de diseñar este modelo se verá en el capítulo 4. Se sabrá, por
ejemplo, qué tan probable es que no llegue ningún vehículo, que lleguen menos de 5 vehículos, que
lleguen entre 6 y 10 vehículos, o que lleguen entre 11 y 15 vehículos, etc.
A diferencia del experimento anterior, no es posible mantener las mismas condiciones del expe-
rimento, pues no están al alcance del que investiga.

1.1.2 Características de un fenómeno probabilístico:


• Sin cambiar las condiciones bajo las cuales se verifica el experimento, se pueden obtener dis-
tintos resultados.
• Se puede describir el conjunto de todos los resultados posibles.
• Inicialmente los resultados parecen ocurrir en forma caprichosa; pero cuando el experimento
se repite muchas veces, aparece un modelo definido de regularidad que hace posible la cons-
trucción de un modelo matemático preciso, con el cual se puede analizar el fenómeno.
2 Probabilidades

1.2 Permutaciones y combinaciones


Para calcular ciertas probabilidades es necesario calcular permutaciones y combinaciones. Para
un mejor entendimiento de estas definiciones se emplean ejemplos sencillos, muchos de los cuales tie-
nen relación con los juegos de azar, aunque puedan resultar poco útiles para efectos prácticos.
Una permutación es un arreglo, en un determinado orden, de un conjunto de elementos. Por
ejemplo, con las letras del abecedario se pueden formar las siguientes permutaciones de dos letras: ab,
ba, ac, ca, bc, cb,..., xy, yx, yz, zy.
Una combinación es un arreglo, sin que importe el orden, de un conjunto de elementos. Por
ejemplo, con las letras del abecedario se pueden formar las siguientes combinaciones de tres letras:
abc, abd, abe,..., bcd, bce, bcf,..., cde,..., xyz.

1.2.1 Teoremas relativos a permutaciones y combinaciones


TEOREMA 1: El número de permutaciones de r elementos que se pueden formar a partir de un
conjunto de N elementos diferentes, es:
N!
P( N , r ) =
( N − r )!

Se demuestra este teorema de la siguiente manera: para escoger el primer elemento hay N posi-
bilidades, para escoger el siguiente hay (N – 1) posibilidades, luego (N – 2) posibilidades, y así suce-
sivamente. Se deduce que, para escoger el r-ésimo elemento hay N – (r – 1) posibilidades. El número
de formas en que se pueden permutar estas posibilidades es: N (N – 1) (N – 2)...N – (r – 1), que es
igual al cociente dado por el teorema.
Ejemplo 1:
¿Cuántos números de tres dígitos pueden formarse con los dígitos impares?
N = 5 (los dígitos impares son: 1, 3, 5, 7, 9)
r=3
5!
P( N , r ) = = 60
(5 − 3)!
Pueden formarse 60 números diferentes con los dígitos impares.
Ejemplo 2:
Se va a realizar una prueba de atletismo con 6 participantes. ¿De cuántas formas se pueden en-
tregar las medallas para los tres primeros puestos?
N=6
r=3
6!
P( N , r ) = = 120
(6 − 3)!
Las medallas para los tres primeros puestos se pueden entregar de 120 formas diferentes.

COROLARIO 1: El número de permutaciones de N elementos que se pueden formar a partir de


un conjunto de N elementos diferentes, es:
P( N , N ) = N!

Ejemplo:
¿Cuántos números de cinco dígitos pueden formarse con los dígitos impares?
N = 5 (los dígitos impares son: 1, 3, 5, 7, 9)
Probabilidades 3

P ( N , N ) = 5! = 120
Pueden formarse 120 números diferentes empleando los cinco dígitos impares.

COROLARIO 2: Dado un grupo de N elementos, conformado por k grupos diferentes, de tal


forma que n1 elementos iguales conforman el primer grupo, n2 elementos iguales conforman el segun-
do grupo, ..., nk elementos iguales conforman el k-ésimo grupo, donde n1 + n2 + ... + nk = N ; el núme-
ro de permutaciones que pueden formarse, tomando los N elementos a la vez, es:
N!
P ( N ; n1 , n 2 , ..., n k ) =
n1! n 2 !..., n k !

Este corolario puede comprobarse siguiendo el siguiente razonamiento: si los elementos del
primer grupo fuesen diferentes, el número total de permutaciones que pueden formarse quedaría mul-
tiplicado por n1!; y si los elementos del segundo grupo también fuesen diferentes, el total anterior que-
daría multiplicado por n2!; y si, al igual que los grupos anteriores, los elementos del k-ésimo grupo
también fuesen diferentes, el total también quedaría multiplicado por nk!; resultando finalmente que el
número total de permutaciones con N elementos diferentes es N!, como era de esperarse.
Ejemplo:
¿Cuántos números pueden formarse con los siguientes dígitos: 1, 1, 1, 1, 2, 2, 3, 4, 5, 5, 5, to-
mando todos a la vez?
P(11; 4, 2, 1, 1, 3) = 11!/ 4! 2! 1! 1! 3! = 138 600
Pueden formarse 138 600 números diferentes.

TEOREMA 2: El número de permutaciones de r elementos que se pueden formar a partir de un


conjunto de N elementos diferentes, si se admite repetición de los elementos, es:

PR ( N , r ) = N r

La demostración es similar a la del teorema 1, con la diferencia de que, para escoger cada uno de
los r términos, hay siempre N posibilidades, resultando N × N × ... × N, (r veces), es decir, N r permu-
taciones.
Ejemplo:
¿Cuántos números de tres cifras pueden formarse con los dígitos impares, si se admite repetición
de cualquiera de los dígitos?
PR (5, 3) = 53 = 125 números

TEOREMA 3: El número de combinaciones de r elementos que se pueden formar a partir de un


conjunto de N elementos diferentes, es:

N!
C(N , r) =
r!( N − r )!

Se demuestra este teorema considerando que C(N, r) multiplicado por el número de permutacio-
nes que se pueden formar con los r elementos, r!, debe ser igual a P(N, r), es decir, N! / (N – r)!
Ejemplo:
Un profesor quiere escoger 8 alumnos de un conjunto de 15. ¿De cuántas formas puede hacerlo?
Resulta evidente que no importa el orden en que se escogen los 8 alumnos
4 Probabilidades

15!
C (15, 8) = = 6 435
8!(15 − 8)!
El profesor puede escoger 8 alumnos de 6 435 formas.
TEOREMA 4: El número de combinaciones de r elementos que se pueden formar a partir de un
conjunto de N elementos diferentes, si se admite repetición de los elementos, es:

( N + r − 1)!
CR (N , r) =
r!( N − 1)!

Se demuestra por inducción matemática:


Para un conjunto de N elementos, sea r = 2. Se podrán formar las siguientes combinaciones:
(1,1), (1,2), (1,3), (1,4), …, (1,N) ⇒ N
(2,2), (2,3), (2,4), …, (2,N) ⇒ N – 1
N ( N + 1)  N + 1
(3,3), (3,4), …, (3,N) ⇒ N – 2 N +(N – 1)+(N – 2) + … + 1 = =  
2  2 

(N,N) ⇒ 1

Para r = 3 se podrán formar las siguientes combinaciones:


Cuando el primer dígito es 1:
(1,1,1), (1,1,2), (1,1,3), (1,1,4), …, (1,1,N)
(1,2,2), (1,2,3), (1,2,4), …, (1,2,N)
 N + 1
(1,3,3), (1,3,4), …, (1,3,N)  
 2 

(1,N,N)

Cuando el primer dígito es 2:


(2,2,2), (2,2,3), (2,2,4), …, (2,2,N)
(2,3,3), (2,3,4), …, (2,3,N)
N
(2,4,4), …, (2,4,N)  
2

(2,N,N)
 N − 1
Cuando el primer dígito sea 3, resultará:  
 2 
 2
Y así, cuando el primer dígito sea N, resultará:   = 1
 2
Considerando la siguiente propiedad:
N   N − 1  N − 2   k − 1
  =   +   + … +  
k   k −1   k −1   k − 1
El número de combinaciones para r = 3 será:
 N + 1  N   N − 1  N + 2
  +   +   + … + 1 =  
 2  2  2   3 
Probabilidades 5

 N + 3
Por inducción, el número de combinaciones, para r = 4 será:  
 4 
 N + r − 1 ( N + r − 1)!
Y así, para r, el número de combinaciones será:   =
 r  r! ( N − 1)!

Ejemplo:
Un club está conformado por ingenieros, administradores, médicos, contadores y economistas.
Considerando estas profesiones, ¿de cuántas formas se puede formar un comité de tres profesio-
nales?
N=5
r=3
7!
C R (5, 3) = = 35
3! (7 − 3)!

Problemas resueltos
1) Se extrae una “mano” de 5 cartas de una baraja completa.
a) ¿Cuántas “manos” distintas se pueden obtener?
52!
C (52, 5) = = 2 598 960
47!5!
b) ¿En cuántas de estas “manos” habrán tres ases?

Se tiene que calcular el número de formas en que se pueden escoger 3 ases de un total de 4 y
luego 2 cartas cualesquiera (sin considerar el as que queda) de las 48 restantes.
4! 48!
C (4, 3) ×C (48, 2) = × = 4 512
3!1! 46! 2!
2) ¿De cuántas maneras se pueden sentar 6 personas en una banca, de tal manera que dos de ellas,
Elena y Graciela, nunca estén juntas?
Para conseguir esto, conviene suponer que Elena y Graciela conforman un solo elemento, para
calcular así el número de formas en que se pueden permutar 5 elementos, multiplicado por 2,
pues Elena y Graciela pueden permutarse. Este resultado se resta del número de formas en que
se pueden permutar 6 elementos.
P (6, 6) − 2 P (5, 5) = 720 − 240 = 480
3) ¿De cuántas maneras se puede elegir un comité de 4 personas de un grupo de 10 personas, de tal
manera que esté el único abogado del grupo?
Primero se calculará el número de formas en que se puede escoger el único abogado y luego el
número de formas en que se puede escoger las 3 personas restantes, de las 9 que quedan.
C (1, 1) ×C (9, 3) = 84
4) En un aula de 30 alumnos hay 20 deportistas, de los cuales 8 practican deportes individuales y
12 deportes colectivos.
a) ¿Cuántos grupos de 5 alumnos se pueden formar?
Como no importa si los 5 alumnos son o no deportistas, el número de grupos de 5 alumnos
que se pueden formar es:
C(30, 5) = 142 506
Se pueden formar 142 506 grupos de 5 alumnos.
6 Probabilidades

b) ¿En cuántos grupos todos son deportistas?


Ahora hay que calcular el número de formas en que se pueden escoger 5 deportistas de un
total de 20.
C(20, 5) = 15 504
Se pueden formar 15 504 grupos donde todos son deportistas.
c) ¿En cuántos grupos hay 3 que practican deportes colectivos?
Como hay 12 alumnos que practican deportes colectivos y el resto no, hay que calcular el
número de formas en que se puede escoger 3 de esos 12 alumnos, y luego 2 de los restantes
18.
C(12, 3) × C(18, 2) = 33 660
Se pueden formar 33 660 grupos donde haya tres alumnos que practican deportes colectivos.
d) ¿En cuántos de los grupos donde todos son deportistas hay 3 que practican deportes colecti-
vos?
Considerando sólo los grupos donde todos los alumnos son deportistas, hay 12 alumnos que
practican deportes colectivos y el resto, 8, deportes individuales; se calcula entonces el nú-
mero de formas en que se puede escoger 3 de esos 12 alumnos y luego 2 de los 8 restantes.
C(12, 3) × C(8, 2) = 6 160
De los grupos donde todos son deportistas, hay 6 160 grupos donde 3 practican deportes co-
lectivos
e) ¿En cuántos grupos hay al menos un alumno que no practica deportes individuales?
Resulta más práctico calcular el número de grupos donde no haya ningún alumno que no
practique deportes individuales (todos practican deportes individuales) y restarlo del total de
grupos que se pueden formar.
C(30, 5) – C(8, 5) = 142 450
Se pueden formar 142 450 grupos donde al menos un alumno no practica deportes indivi-
duales
5) Las letras a, b, b, c, d, d, d se distribuyen al azar.
a) ¿Cuántos arreglos distintos pueden hacerse?
Considerando los 4 subgrupos que hay:
P(7; 1, 2, 1, 3) = 420
Se pueden hacer 420 arreglos distintos.
b) ¿En cuántos de estos arreglos las 3 letras “d” quedan juntas?
Si las 3 letras “d” quedan juntas, pueden considerarse como un solo elemento:
P(5; 1, 2, 1, 1) = 60
En 60 arreglos las 3 letras “d” quedan juntas.
6) ¿Cuántos números de tres cifras pueden formarse con los dígitos 1, 2, si se admite repetición?
N=2
r=3
N r = 23 = 8
Se pueden formar 8 números.
Probabilidades 7

1.3 Experimentos y eventos


Como ya se ha definido, un experimento es la reproducción controlada de un fenómeno. En Es-
tadística sólo se consideran experimentos que se pueden representar mediante modelos probabilísticos.
A los resultados de los experimentos se les denomina eventos, los cuales pueden ser simples o
compuestos. Los eventos compuestos pueden contener dos o más eventos simples.

1.4 Espacio muestra.


Es la representación de todos los eventos posibles de un experimento. Esta representación puede
ser gráfica o analítica, como se ve en los siguientes ejemplos.

1.5 Variable aleatoria.


Es una función definida sobre un espacio muestra S, donde a cada evento del espacio muestra le
corresponde un número real:
X(ei) = xi
Una variable aleatoria puede ser:
ƒ Discreta: si el número de eventos posibles es finito o numerablemente infinito.
ƒ Continua: si el número de eventos posibles es infinito (no numerable).
Dado un espacio muestra, se pueden definir varias variables aleatorias, como se verá en los si-
guientes ejemplos.

Problemas resueltos
1) Un experimento consiste en lanzar 2 monedas. La moneda puede mostrar cara (C) o sello (S).
El espacio muestra, que consta de 4 eventos simples, será:
S = {CC, CS, SC, SS}
Gráficamente, este espacio muestra se puede representar de dos formas (figura 1.1):

Cara
Segundo
Sello
Cara lanzamiento

Sello
Sello
Cara
Cara
Sello
Primer
Primer Segundo Cara Sello lanzamiento
lanzamiento lanzamiento

Figura 1.1. Representaciones de espacio muestra del lanzamiento de dos monedas

Un evento compuesto puede ser, por ejemplo, el resultado “una cara y un sello”: E = {CS, SC}
Para el espacio muestra S se podrían definir las siguientes variables aleatorias:
X = Número de caras
8 Probabilidades

Y = Número de sellos
Z = Número de caras – Número de sellos
W = 2(Número de caras) + (Número de sellos)2 …
etc.
En todos estos casos la variable aleatoria es discreta.
2) Un experimento consiste en lanzar 2 dados (o lanzar un dado dos veces).
El espacio muestra será en este caso: S = {(1, 1),(1, 2),...,(1, 6), ...,(6, 6)}. En la figura 1.2 se re-
presenta gráficamente este espacio muestra.

Segundo
lanzamiento

Primer
lanzamiento
1 2 3 4 5 6

Figura 1.2. Representación de un espacio muestra

Cada intersección de la figura 1.2 representa un evento simple. Hay, por lo tanto, 36 eventos
simples, es decir, 36 posibles resultados.
Para este espacio muestra, la variable aleatoria se podría definir de las siguientes formas:
X = suma de lo que muestran los dos dados.
Y = (Número que muestra el dado 1) – (Número que muestra el dado 2).
… etc.
En todos estos casos la variable aleatoria es discreta.
3) Un experimento consiste en pesar el contenido de café de una bolsa extraída al final de un pro-
ceso de llenado automático.
El espacio muestra será: S = {0,...,700}, suponiendo que las bolsas nunca pueden llegar a pesar
más de 700 gr.
Gráficamente, este espacio muestra se representa en la figura 1.3.
Probabilidades 9

Peso (gr)
700
Figura 1.3. Representación del espacio muestra de una variable aleatoria continua.
En este caso la variable aleatoria es continua.

1.6 Probabilidad
Se distinguen tres tipos de probabilidad: a priori, experimental y subjetiva.

1.6.1. Probabilidad a priori:


Si observamos algunos espacios muestra nos daremos cuenta de que, en la mayoría de los casos,
todos los eventos simples tienen la misma posibilidad de ocurrencia. Si cuantificamos estas posibilida-
des, llamándoles probabilidades, de tal forma que la suma de éstas sea la unidad, se puede entonces
definir la probabilidad de que ocurra un evento simple de la siguiente manera:
P(ei) = Número no negativo asociado al evento ei del espacio muestra S, de tal manera que:
∑ P(ei) = 1 y S = e1 ∪ e2 ∪ ... ∪ eN
Entonces, si, por ejemplo:
A = e1 ∪ e2 ∪ ... ∪ ek
se deduce que:
P(A) = P(e1) + P(e2) + ... + P(ek)
1 1 1 k
P ( A) = + + ... + =
N N N N
De esta forma, se puede decir que la probabilidad de que ocurra un evento cualquiera es posible
calcularla empleando la siguiente fórmula:
k n° de eventos éxito
P= =
N n° de eventos total

Problemas resueltos:
1) Se lanza un dado. ¿Cuál es la probabilidad de obtener 5?
P = 1/6
2) Se lanzan dos dados. ¿Cuál es la probabilidad de obtener suma 5?
P = 4/36 = 1/9
¿...de obtener suma menor que 5?
P = (1 + 2 + 3)/36 = 6/36 = 1/6
3) Se lanzan dos monedas. ¿Cuál es la probabilidad de obtener dos caras?
Eventos posibles: {CC, CS, SC, SS} Eventos éxito: {CC}
P = 1/4
¿Cuál es la probabilidad de obtener sólo una cara?
P = (1 + 1)/4 = 2/4 = 1/2
4) En un lote de 100 pernos hay 4 defectuosos. Si un comprador escoge 20 pernos aleatoriamente,
¿cuál es la probabilidad de que se lleve 2 pernos defectuosos?
10 Probabilidades

El comprador se lleva 2 pernos defectuosos, de un total de 4, y 18 pernos no defectuosos, de un


total de 96. Entonces:
C (4, 2) C (96,18)
P= = 0,1531
C (100, 20)
Ahora, el lector debe estar en condiciones de contestar la siguiente pregunta: ¿cuál es la proba-
bilidad de que el comprador se lleve al menos dos pernos defectuosos?
5) De una baraja completa de 52 cartas, se extrae una "mano" de 5 cartas. ¿Cuál es la probabilidad
de obtener:
a) dos espadas, dos corazones y un diamante?
Hay que determinar el número de formas en que se pueden escoger 2 espadas de un total de
13, y luego 2 corazones de un total de 13 y luego un diamante de un total de 13.
C (13, 2) C (13, 2) C (13, 1)
P= = 0,0304
C (52, 5)
b) un póker? (cuatro cartas con la misma numeración o letra)
C (13,1) C (48, 1)
P= = 2,4 ×10 − 4
C (52, 5)

1.6.2. Probabilidad experimental


En algunas ocasiones, los posibles resultados de un experimento no tienen la misma probabili-
dad de ocurrencia, lo cual dificulta la predicción de estas probabilidades.
Si un experimento de esta naturaleza se repitiera muchas veces, podríamos ver la frecuencia con
que ocurrirían los posibles resultados. Mientras más veces se repita el experimento, las frecuencias re-
lativas se aproximarán cada vez más a las verdaderas probabilidades de ocurrencia de cada uno de di-
chos resultados. Entonces:
frecuencia con que ocurre un resultado f
P= =
n° de veces que se repite el exp erimento N

En la práctica, la mayoría de las probabilidades sólo pueden determinarse por la vía experimen-
tal. Si, por ejemplo, se quiere saber cuál es la probabilidad de que un foco funcione por lo menos las
horas que especifica el fabricante, se tendrá que tomar una muestra grande de focos (N) y ver cuántos
de éstos cumplen con dicha especificación (f). Cuanto más grande sea N, el cociente f / N se aproxima-
rá más a la probabilidad requerida. Como se ve, la única forma de calcular una probabilidad de este
tipo es mediante la experimentación.
En muchas situaciones no hace falta experimentar pues se cuenta con datos históricos suficien-
tes. Por ejemplo, ¿cómo calcularía un pastelero la probabilidad de que la demanda de sus pasteles de
manzana en un día sea de 10 a 15 unidades? Necesitaría datos de la demanda de N días, para determi-
nar en cuántas ocasiones (f) la demanda fue de 10 a 15 unidades. La probabilidad será f / N.
Una probabilidad que ha sido calculada "a priori" puede verificarse, con cierta aproximación,
repitiendo el experimento. Por ejemplo, si queremos comprobar que la probabilidad de obtener dos ca-
ras y un sello, al lanzar tres monedas, es igual a 0,375; tenemos que lanzar las tres monedas una gran
cantidad de veces. A continuación se muestra la frecuencia con que se obtuvo dicho resultado, luego
de N lanzamientos.
Número de lanzamientos (N) 10 20 100 200 500 1 000 10 000
Frecuencia observada (f) 5 9 34 76 162 367 3 738
Probabilidad (f /N) 0,5 0,45 0,35 0,385 0,352 0,365 0,3724
Probabilidades11

Se puede concluir entonces que, conforme N crece, la frecuencia relativa o probabilidad experi-
mental tiende al verdadero valor de la probabilidad. Esta tendencia se visualiza mucho más en el gráfi-
co de la figura 1.4, donde la línea horizontal representa la probabilidad real: 0,375.

f/N
0,50

0,45

0,40

0,35

0,30 N
10 100 1000 10000

Figura 1.4. Tendencia de una probabilidad experimental

1.6.3 Probabilidad subjetiva


En muchas ocasiones se necesita determinar la probabilidad de que ocurra un fenómeno que es
imposible repetir, o cuya repetición no tiene significado.
Por ejemplo, si se va a construir un puente en cierto lugar, ¿cómo determinar la probabilidad de
que, a 10 m. de profundidad el terreno no sea arenoso sino de arcilloso? En este caso, la probabilidad
de que ocurra dicho suceso no puede ser más que una medida subjetiva del grado de confianza que
tenga un especialista para predecirlo. Si él opina que dicha probabilidad es de 0,25; estará expresando
un grado de credibilidad de su juicio; pues el terreno será arcilloso o no, pero no será arcilloso en el
25% de las observaciones que se haga.
La precisión de una probabilidad subjetiva depende de la habilidad o conocimiento que tenga
una persona para juzgar una determinada situación.
La probabilidad subjetiva también puede aplicarse a fenómenos repetitivos. Por ejemplo, un ins-
pector que está revisando unos lotes de artículos producidos en una jornada, puede hacer caso omiso a
su experiencia previa, y decidir revisar más artículos, porque tiene el presentimiento de que este día
hay más artículos defectuosos de lo habitual.

Ahora que se entiende claramente el concepto de probabilidad, se ve que es correcto afirmar que
una probabilidad se puede interpretar como una proporción, como una fracción o como un por-
centaje. Por ejemplo, si, en un supermercado, la probabilidad de elegir aleatoriamente a un cliente con
un consumo mayor de $20, es 0,16; se puede afirmar que el 16% de los clientes gasta más de $20, o
que la proporción de clientes que gasta más de $20 es 0,16.

1.7 Teoremas de probabilidad.


En este apartado se verán una serie de teoremas que son útiles, y en algunos casos indispensa-
bles para calcular ciertas probabilidades.

1.7.1 Suma de probabilidades:


Sean A y B dos eventos definidos en el espacio muestra S. La probabilidad de que ocurra el
evento A o el evento B, o ambos, es:
P ( A ∪ B ) = P ( A) + P ( B ) − P( A ∩ B)

donde:
12 Probabilidades

P(A) representa la probabilidad de ocurra A,


P(B) representa la probabilidad de ocurra B,
P(A ∪ B) representa la probabilidad de ocurra A o B, o ambos, y
P(A ∩ B) representa la probabilidad de ocurran A y B conjuntamente.
Cuando dos o más eventos están definidos de tal manera que la ocurrencia de uno imposibilita la
ocurrencia de los demás, se dice que son mutuamente excluyentes, y la probabilidad de que ocurran
conjuntamente es entonces igual a cero.
Se puede deducir que, para dos eventos mutuamente excluyentes, por ejemplo Q y R:
Q = {e1,e2,e3} ; R = {e4,e5} ;
Es evidente que:
P(Q) = P(e1) + P(e2) + P(e3)
P(R) = P(e4) + P(e5)
y por lo tanto:
P(Q ∪ R) = P(e1) + P(e2) + P(e3)+ P(e4) + P(e5) = P(Q) + P(R)
Si dos eventos A y B no son mutuamente excluyentes, como se muestra en el diagrama de Venn
de la figura 1.5, se puede deducir que:

A
B

A∩B
B ∩ A’

Figura 1.5. Eventos A y B no excluyentes

P(A ∪ B) = P(A) + P(B ∩ A')


P(B) = P(A ∩ B) + P(B ∩ A')
Sustituyendo P(B ∩ A') de la segunda ecuación en la primera, resulta:
P(A ∪ B) = P(A) + P(B) – P(A ∩ B)
con lo que queda demostrado el teorema.

Ejemplo:
Se lanzan dos dados. ¿Cuál es la probabilidad de que se obtenga una suma igual a 10 ó una dife-
rencia igual a 1?
Sean los eventos: A: suma igual a 10
B: diferencia igual a 1
Dado que A y B son mutuamente excluyentes (es fácil darse cuenta), se puede emplear la si-
guiente fórmula:
P(A ∪ B) = P(A) + P(B) = 3/36 + 10/36 = 13/36
Probabilidades13

En el gráfico de la figura 1.6 se aprecia que los dos eventos compuestos: el evento A, represen-
tado por círculos, y el evento B, representado por aspas, son mutuamente excluyentes.

Segundo
lanzamiento

Primer
1 2 3 4 5 6 lanzamiento

Figura 1.6. Eventos A y B mutuamente excluyentes

¿Y cuál será la probabilidad de obtener una suma igual a 8 ó una diferencia igual a 2?
Sean los eventos: C: suma igual a 8
D: diferencia igual a 2
En el gráfico de la figura 1.7 se aprecian estos dos eventos compuestos: el C, representado por
círculos, y el D, por aspas. Se puede apreciar que hay dos eventos simples que pertenecen a am-
bos eventos C y D; se concluye entonces que los eventos C y D no son excluyentes.

Segundo
lanzamiento

1
Primer
1 2 3 4 5 6 lanzamiento

Figura 1.7. Eventos C y D no mutuamente excluyentes


Dado que C y D no son mutuamente excluyentes:
P(C ∪ D) = P(C) + P(D) – P(C ∩ D) = 5/36 + 8/36 – 2/36 = 11/36
14 Probabilidades

El teorema de la suma se puede generalizar de la siguiente manera: la probabilidad de que ocurra


el evento E1, o el evento E2, ..., o el evento EN, es:
P( E1 ∪ E 2 ∪ ... E N ) = P ( E1 ) + P( E 2 ) + ... + P( E N ) − ∑ P( E i ∩ E j ) + ∑ P ( E i ∩ E j ∩ E k ) − ...
... ± P ( E1 ∩ E 2 ∩ ... E N )

Ejemplo:
Suponga que, en la ciudad de Piura, el 25 % de la población adulta lee el diario El Tiempo, el
40% lee el diario Correo, el 10% lee el diario República y el 25% restante lee otros diarios.
Además, se sabe que el 10% lee El Tiempo y Correo, el 5% lee El Tiempo y República, el 5%
lee El Tiempo y otros, el 8% lee Correo y otros, y el 3% lee El Tiempo, Correo y otros. Si se se-
lecciona aleatoriamente un poblador, ¿cuál es la probabilidad de que lea Correo, El Tiempo u
otros?
Aunque el diagrama de Venn de la figura 8 es suficiente para visualizar y determinar esta proba-
bilidad, a continuación se hace el cálculo aplicando el teorema generalizado de la suma:
P(Correo ∪ El T. ∪ otros) = P(Correo) + P(El T.) + P(otros) – P(Correo ∩ El T.)
– P(Correo ∩ otros) – P(El T. ∩ otros) + P(Correo ∩ El T. ∩ otros)
= 0,40 + 0,25 + 0,25 – 0,10 – 0,08 – 0,05 + 0,03 = 0,70
Dicha probabilidad se puede corroborar elaborando un diagrama de Venn, como el de la figura
1.8, e incluso se pueden calcular otras probabilidades con suma facilidad.

Figura 1.8. Diagrama de Venn del problema de los diarios.

1.7.2 Probabilidad condicional y regla de la multiplicación:


Sean dos eventos A y B:
P( A ∩ B)
P( A \ B) =
P( B)

donde P(A \ B) representa la probabilidad de que ocurra el evento A, dado que ha ocurrido el
evento B, y se le denomina probabilidad condicional.
Ejemplo:
Se lanzaron dos dados y se sabe que la suma resultó igual a 8. ¿Cuál es la probabilidad de que la
diferencia sea igual a 2?
Sean los eventos: A: diferencia igual a 2
B: suma igual a 8
Si la suma es 8, entonces el espacio muestra queda restringido a:
SB = {(2,6),(3,5),(4,4),(5,3),(6,2)}
Probabilidades15

por lo tanto, si de los 5 eventos posibles, se tendría éxito en 2 de ellos, (3, 5) y (5, 3):
P ( A \ B) = 2 / 5
Como se ve en la figura 1.7, el numerador "2" representa el número de veces en que pueden
ocurrir A y B conjuntamente, y el denominador "5" representa el número de veces en que puede
ocurrir B.
Entonces se puede deducir:
N ( A ∩ B) N ( A ∩ B) / N P( A ∩ B)
P( A \ B) = = =
N ( B) N ( B) / N P( B)
Aplicando esta fórmula al problema, se tiene el mismo resultado:
2 / 36 2
P( A \ B) = =
5 / 36 5
De la definición de probabilidad condicional se puede deducir que:
P(A ∩ B) = P(B) × P(A \ B)
P(A ∩ B) = P(A) × P(B \ A)
Estas expresiones resultan muy útiles para determinar una probabilidad conjunta, que usualmen-
te es más difícil de determinar que la probabilidad condicional.

Ejemplo:
Una caja contiene 4 canicas blancas y 6 negras. Si se extraen dos aleatoriamente, ¿cuál es la
probabilidad de que:
a) las dos sean blancas?
Sean los eventos:
1B: canica blanca en la primera extracción
2B: canica blanca en la segunda extracción
P(1B ∩ 2B) = P(1B) × P(2B\1B) = (4/10) × (3/9) = 2/15
b) la primera sea blanca y la segunda negra?
Sea el evento 2N: canica negra en la segunda extracción
P(1B y 2N) = P(1B) × P(2N\1B) = (4/10) × (6/9) = 4/15
c) una sea blanca y la otra negra?
Sea el evento 1N: canica negra en la primera extracción
Hay dos formas excluyentes de obtener una canica blanca y una negra:
P = P(1B) × P(2N\1B) + P(1N) × P(2B\1N) = 4/15 + 4/15 = 8/15

Sean los eventos E1, E2,..., EN ; se puede generalizar la regla de la multiplicación:

P ( E1 ∩ E 2 ∩ ... E N ) = P ( E1 ) × P ( E 2 \ E1 ) × P ( E3 \ E1 ∩ E 2 ) × ...× P( E N \ E1 ∩ E 2 ∩ ... E N −1 )

En el primer miembro se expresa la probabilidad de que ocurran conjuntamente los eventos E1,
E2,..., EN. Si la probabilidad de que ocurran estos N eventos, en cualquier orden, es siempre la misma;
entonces esa probabilidad se puede obtener multiplicando P( E1 ∩ E 2 ∩ ... E N ) por el número de for-
mas en que se pueden permutar los N eventos.
16 Probabilidades

Ejemplo 1:
En un lote de 100 pernos hay 4 defectuosos. Si un comprador escoge 20 pernos aleatoriamente,
¿cuál es la probabilidad de que se lleve 2 pernos defectuosos? (Esta probabilidad a priori ya fue
calculada en el ejemplo 4 del apartado 1.6.1).
Si el comprador se lleva 2 pernos defectuosos, de un total de 4; se llevará también 18 pernos no
defectuosos, de un total de 96.
 4 3   96 95 94 79  20!
P = × × × × × ... ×  × = 0,1531
 100 99   98 97 96 81  2!18!
Ejemplo 2:
De una baraja completa de 52 cartas, se extrae una "mano" de 5 cartas. ¿Cuál es la probabilidad
de obtener: (Estas probabilidades ya fueron calculadas en el ejemplo 5 del apartado 1.6.1).
a) dos espadas, dos corazones y un diamante?

 13 12   13 12   13  5!
P = × × × × × = 0,0304
 52 51   50 49   48  2! 2!1!
b) un póker?
 52 3 2 1   48  5!
P = × × × × × = 0,00024
 52 51 50 49   48  4!1!

1.7.3 Eventos independientes


Se dice que dos eventos A y B son independientes, si la ocurrencia (o no ocurrencia) de uno de
ellos no influye en la ocurrencia (o no ocurrencia) del otro. Es decir:
P(A \ B) = P(A) y P(B \ A) = P(B)
Si se cumple una de estas dos ecuaciones, también se verifica la otra. Por ejemplo, si:
P(A \ B) = P(A)
Entonces:
P ( A ∩ B ) P ( A) × P ( B \ A)
P ( A) = =
P( B) P(B)
Por lo tanto:
P(B \ A) = P(B), tal como se quería demostrar.
Finalmente se concluye que, para que dos eventos sean mutuamente independientes, es condi-
ción necesaria y suficiente que:
P(A ∩ B) = P(A) P(B)
Inversamente, si dos eventos A y B son mutuamente independientes, entonces es válida la ecua-
ción anterior.
Generalizando, la probabilidad de que ocurran conjuntamente N eventos independientes es:
P(E1 ∩ E2 ∩ ... ∩ EN) = P(E1) P(E2)...P(EN)

Problemas resueltos:
1) Una fábrica elabora los productos A, B, C y D mediante cuatro procesos que son independientes
entre sí. Usualmente son defectuosos el 3%, 5%, 5% y 4% de los productos A, B, C y D respec-
tivamente. Si se extrae aleatoriamente un producto de cada tipo, ¿cuál es la probabilidad de que:
Probabilidades17

a) los cuatro sean defectuosos?


P = 0,03 × 0,05 × 0,05 × 0,04 = 3 ×10 −6
b) A y B sean defectuosos, y C y D no lo sean?
P = 0,03 × 0,05 × 0,95 × 0,96 = 1,368 ×10 −3
2) De una ciudad donde fuman el 30% de los ciudadanos mayores de edad, se toma una muestra de
6 de ellos. ¿Cuál es la probabilidad de que 3 de ellos fumen?
Se calcula la probabilidad de que los tres primeros fumen y los tres últimos no fumen, y se mul-
tiplica por el número de formas en que se pueden ordenar tres fumadores y tres no fumadores.
6!
P = 0,3 × 0,3 × 0,3 × 0,7 × 0,7 × 0,7 × = 0,1852
3!3!
3) Un sistema consta de seis relés que están conectados en serie y en paralelo, tal como se muestra
en la siguiente figura 1.9.

2 4 5

A 1 B

3 6

Figura 1.9. Relés conectados en serie y paralelo


La probabilidad de que cada relé esté cerrado es 0,90. Si los relés funcionan independientemen-
te, ¿cuál es la probabilidad de que pase la corriente de A a B?
Sea Ci el evento: cerrado el i-ésimo relé. Para que pase la corriente de A a B debe pasar por el
relé 1, luego por el relé 2 ó por el relé 3, y luego por los relés 4 y 5 ó por el relé 6. Por lo tanto:
P = P[C1 ∩ (C2 ∪ C3) ∩ [(C4 ∩ C5) ∪ C6 ] ]
La probabilidad de que la corriente pase por 2 ó 3 (o por ambos) se puede calcular fácilmente
como: 1 – P(no pase por 2 ni 3). De la misma forma se puede calcular la probabilidad de que
pase por 4 y 5, o por 6, como se muestra a continuación:
P = (0,90)[1 – (0,10)(0,10)][1 – (1 – 0,90×0,90)(0,10)] = 0,874
4) Una persona lanza dos dados indefinidamente hasta obtener una suma igual a 2. ¿Cuál es la pro-
babilidad de que sea necesario realizar un quinto lanzamiento?
Para que sea necesario realizar el quinto lanzamiento, en los 4 primeros no debe haber salido
suma igual a 2. Por lo tanto:
P = (35/36)4 = 0,893

1.7.4 Teorema de suma y multiplicación: particiones


Sean los eventos E1, E2, E3 ... ,EN una partición del espacio muestra S, es decir, todos mutua-
mente excluyentes, de tal forma que la unión de todos conformen el espacio muestral S. Sea además
un evento E, perteneciente a S, como se muestra (sombreado) en la figura 1.10.
Entonces podemos decir:

P(E) = P(E ∩ S) = P [E ∩ (E1 ∪ E2 ∪ ... ∪ EN)]


P(E) = P(E ∩ E1) ∪ P(E ∩ E2) ∪ ... ∪ P(E ∩ EN)
P(E) = P(E1)P(E \ E1) + P(E2)P(E \ E2) + ... + P(EN)P(E \ EN)
P(E) = ∑ P(Ei)P(E \ Ei)
18 Probabilidades

Figura 1.10. Particiones de S.

Ejemplo 1:
Una empresa produce un componente mecánico. De la experiencia adquirida se ha determinado
que el 10% de la producción es defectuosa. La producción es sometida a un control de calidad
que acepta con una precisión del 95% los componentes que realmente son buenos, y rechaza
con una precisión del 85% los componentes que realmente son defectuosos. Determine la pro-
babilidad de que un componente sea aceptado.
Sean:
P(B) = 0,90 = probabilidad de que un componente sea bueno
P(D) = 0,10 = probabilidad de que un componente sea defectuoso
P(A) = probabilidad de que un componente sea aceptado
P(R) = probabilidad de que un componente sea aceptado
P(A \ B) = 0,95 ; P(R \ B) = 0,05
P(A \ D) = 0,15 ; P(R \ D) = 0,85
En la figura 1.11 se representa un diagrama de árbol donde se ve que un componente puede ser
aceptado de dos formas (mutuamente excluyentes): siendo bueno o siendo defectuoso.
Aceptado
0,95
Bueno

0,05 Rechazado
0,9

Aceptado
0,1
0,15
Defectuoso

0,85 Rechazado

Figura 1.11. Diagrama de árbol del problema de los componentes mecánicos


En la figura 1.12 se representa el mismo problema mediante un diagrama de Venn. En este caso
la probabilidades son representadas como porcentajes. El área sombreada representa el porcen-
taje de componentes mecánicos que han sido aceptados en el control de calidad, ya sean com-
ponentes buenos o defectuosos. Si el 95% de los componentes buenos son aceptados, se deduce
que el porcentaje de componentes aceptados y buenos será el 95% del 90%. Si el 15% de los
componentes defectuosos son aceptados, se deduce que el porcentaje de componentes aceptados
Probabilidades19

y defectuosos será el 15% del 10%. El porcentaje de componentes aceptados será entonces la
suma de 95×90/100 + 15×10/100, es decir 87%.

85% Defectuosos
15% 10%

Aceptados
Buenos
95% 90%

5%
Rechazados

Figura 1.12. Diagrama de Venn del problema de los componentes mecánicos

Aplicando el teorema de suma y multiplicación se llega a la misma respuesta:


P(A) = P(B)P(A \ B) + P(D)P(A \ D)
P(A) = (0,90)(0,95) + (0,10)(0,15) = 0,87
Es decir, el 87% de los componentes mecánicos son aceptados por el control de calidad.
Otra forma de visualizar este problema, expresando las probabilidades como porcentajes, se
muestra en la siguiente tabla, donde se resaltan los datos del problema.
Aceptado Rechazado Total
Bueno 0,95 × 90 = 85,5 0,05 × 90 = 4,5 90
Defectuoso 0,15 × 10 = 1,5 0,85 × 10 = 8,5 10
Total 85,5 + 1,5 = 87 4,5 + 8,5 = 13 100

La probabilidad de que el componente sea aceptado o de que sea rechazado puede calcularse
sumando las columnas correspondientes.
Ejemplo 2:
Un método muy empleado por investigadores estadísticos para obtener información es el de
efectuar encuestas personales. A menudo resulta importante investigar sobre temas muy perso-
nales, que pondrían en aprietos al sujeto encuestado, ocasionando que dé respuestas falsas o que
no conteste, deformando así los resultados de la encuesta. Para aminorar este problema, Warner
ideó la "Técnica de la respuesta aleatoria", que permite que el encuestado escoja al azar una de
dos preguntas: la pregunta personal, motivo de la encuesta, o una pregunta de control. Así, sólo
él sabrá qué pregunta contestó en realidad, y se mantiene su privacidad. Por ejemplo, supóngase
que se desea estimar el porcentaje de alumnos secundarios de una ciudad que no resuelven por
su cuenta las tareas para la casa. Se hacen 1000 encuestas con las siguientes instrucciones: An-
tes de contestar lance una moneda: si sale cara conteste la pregunta A, y si sale sello conteste la
pregunta B. Sólo conteste SÍ o NO.
A: ¿resuelve usted las tareas para la casa por su cuenta?
B: ¿nació su padre en enero, febrero, marzo, abril o mayo?
Supóngase que, una vez efectuadas las encuestas, hay 455 respuestas afirmativas y 545 negati-
vas. ¿Qué porcentaje de alumnos no resuelve por su cuenta las tareas para la casa? Esto equivale
a calcular la probabilidad de que un alumno no resuelva por su cuenta las tareas para la casa.

Sean: P(NO) = probabilidad de contestar NO a cualquiera de las dos preguntas.


P(A) = probabilidad de que al alumno conteste la pregunta A (que obtenga cara).
P(B) = probabilidad de que al alumno conteste la pregunta B (que obtenga sello).
20 Probabilidades

Considerando que se puede contestar NO de dos formas diferentes (a las dos preguntas), mu-
tuamente excluyentes, se plantea:
P(NO) = P(A)P(NO \ A) + P(B)P(NO \ B)
0,545 = (0,5)P(NO \ A) + (0,5)(7/12)
P(NO \ A) = 0,5067
En la figura 1.13 se traza un diagrama de árbol que nos permite visualizar con suma facilidad el
planteamiento anterior.

SI
?
A

? NO
0,5

SI
0,5
5/12
B

7/12 NO

Figura 1.13. Diagrama de árbol del problema de las encuestas

Se concluye que, aproximadamente, el 50,67 % de los alumnos secundarios de la ciudad no re-


suelve por su cuenta las tareas para la casa.
De la misma forma que con el problema anterior, se puede plantear la siguiente tabla:
SI NO Total
A 455 – 208,33 = 246,67 545 – 291,67 = 253,33 500
B 5/12 × 500 = 208,33 7/12 × 500 = 291,67 500
Total 455 545 1000

Como se ve, los datos de la primera fila pueden obtenerse restando los de la segunda fila del to-
tal. Se deduce entonces que la probabilidad de contestar NO, dado que se trata de la pregunta A
es: 253,33/500 = 0,5067. Esto equivale a decir que 50.67 % de los alumnos secundarios de la
ciudad no resuelve por su cuenta las tareas para la casa
Ejemplo 3:
Supóngase que el 35% de los alumnos de una universidad que estudian una carrera de ciencias
provienen de los estratos socioeconómicos A y B, y que el 55% de los que no estudian una ca-
rrera de ciencias también provienen de los estratos socioeconómicos A y B. Si el 40% de los
alumnos estudian una carrera de Ciencias, ¿qué porcentaje de alumnos provienen de los estratos
socioeconómicos A y B?
Sean: P(A y B) = probabilidad de un alumno provenga de los estratos A y B.
P(C) = probabilidad de que un alumno estudie Ciencias.
P(N) = probabilidad de que un alumno no estudie Ciencias.
P ( A y B) = P (C ) × P ( A y B \ C ) + P ( N ) × P( A y B \ N )
= 0,40 × 0,35 + 0,60 × 0,55 = 0,47
Por lo tanto, el 47% de los alumnos provienen de los estratos socioeconómicos A y B.
El lector estará ahora en condiciones de completar la siguiente tabla para calcular la probabili-
dad o porcentaje requerido:
Probabilidades21

C N Total
AyB
No A y B
Total 40 60 100

Aunque no haga falta para contestar la pregunta del problema, se podría completar también la
segunda fila de la tabla. Como ya se ha calculado previamente, el porcentaje de alumnos que
provienen de los estratos A y B debe resultar 47%.

1.7.5 Teorema de Bayes


Dada la misma partición conformada por los eventos E1, E2, ... ,EN; y el evento E, comentados en
el teorema de suma y multiplicación, se puede deducir fácilmente:
P( E k ∩ E )
P( E k \ E ) =
P( E )

P( E k ) P( E \ E k )
P( E k \ E ) =
ΣP ( E i ) P ( E \ E i )

Se trata de una probabilidad condicional, que incluye las reglas de suma y multiplicación de
probabilidades. Tiene mucha importancia pues ha servido para desarrollar la inferencia o estimación
bayesiana, que, mediante el empleo de datos experimentales llega a estimar probabilidades subjetivas
con buena precisión.
Ejemplo 1:
Suponga que el concesionario de la cafetería de la UDEP está tratando de reducir el número de
clientes no pagan sus cuentas al final del año. Él está dispuesto a cancelarles el crédito a los
clientes que se demoren más de una semana en los pagos que deben realizar a fin de cada mes.
El concesionario ha visto en sus archivos que, de todos los clientes que finalmente no pagaron
sus cuentas al final del año, el 95% se habían demorado más de una semana en sus pagos men-
suales. Además, sabe que el 4% de los clientes que tienen crédito no pagan su cuenta, y que, de
los que sí pagan su cuenta a fin de año, el 35% se ha demorado alguna vez más de una semana.
Determine la probabilidad de que un cliente que se ha demorado alguna vez más de una semana
en sus pagos mensuales, no pague su cuenta al final del año.
Los datos de este problema se pueden interpretar de la siguiente forma:
P(No pague) = 0,04; P(Sí pague) = 0,96
P(Haya demorado \ No pagó) = 0,95 ; P(No haya demorado \ No pagó) = 0,05
P(Haya demorado \ Sí pagó) = 0,35 ; P(No haya demorado \ Sí pagó) = 0,65
La probabilidad de que un cliente no pague, dado que se demoró será:
P ( No pague ∩ Demore)
P ( No pague / Demoró) = =
P ( Demore)

P ( No pague) P( Demore \ No pagó)


=
P ( Sí pague) P( Demore \ Sí pagó) + P( No pague) P ( Demore \ No pagó)

0,04 × 0,95 0,038


= = = 0,1016
0,96 × 0,35 + 0,04 × 0,95 0,374
La probabilidad de que un cliente que se ha demorado alguna vez más de una semana en sus pa-
gos mensuales no pague su cuenta al final del año es 0,1016. O sea que el 10,16% de los moro-
sos no pagan al final su cuenta.
22 Probabilidades

Nuevamente, se puede plantear este problema mediante una tabla, como la que se completa a
continuación:
Demore No demore Total
Pague 0,35 × 96 = 33,6 0,65 × 96 = 62,4 96
No pague 0,95 × 4 = 3,8 0,05 × 4 = 0,2 4
Total 33,6 + 3,8 = 37,4 62,4 + 0,2 = 62,6 100

Por lo tanto, la probabilidad de que un cliente que se ha demorado alguna vez más de una sema-
na en sus pagos no pague su cuenta al final del año es: 3,8/37,4 = 0,1016.
Ejemplo 2:
Con los datos del ejemplo 1 del apartado 1.7.4, determine la probabilidad de que un componente
que ha sido aceptado sea bueno.
P ( B ) P ( A / B ) 0,90 × 0,95 0,855
P ( B / A) = = = = 0,9827
P ( A) 0,87 0,87
Antes del control de calidad se tenía una certeza del 90% de producir un componente no defec-
tuoso. Después del control de calidad, se tiene una certeza del 98,27% de escoger un componen-
te no defectuoso.
Este mismo resultado se puede obtener a partir de la tabla que se elaboró en el problema 1 del
apartado 1.7.4. Verifique el lector este resultado.
Ejemplo 3:
Una persona tiene dos dados: uno normal que marca 1,2,3,4,5,6 en sus caras y otro anormal que
marca 2,2,4,4,6,6 en sus caras. Si se escoge un dado al azar, se lanza dos veces y en las dos oca-
siones se obtiene un número par, ¿cuál es la probabilidad de que el dado escogido sea el anor-
mal?
P( Anormal ) P( par , par / Anormal ) 0,5 × 1
P( Anormal / par , par ) = = = 0,8
P( par , par ) 0,5 × 0,25 + 0,5 × 1
donde: P(par, par) = P(Anormal) P(par, par / Anormal) + P(Normal) P(par, par / Normal)
Como era de esperarse, en vista del resultado de los dos lanzamientos, es más probable que el
dado escogido haya sido el dado anormal: 0,8 > 0,5.
Probabilidades23

Problemas propuestos.
1. Carmen y Mario lanzan 3 y 4 monedas, respectivamente. ¿Cuál es la probabilidad de que Mario
obtenga exactamente el doble de sellos que Carmen?
2. Un comerciante quiere comprar un lote de 25 piñas, y decide comprarlo solamente si al seleccio-
nar 3 aleatoriamente, ninguna está malograda. Supóngase que realmente hay 4 piñas malogradas
(el comerciante no lo sabe), ¿cuál es la probabilidad de que no compre el lote?
Respuesta: 0,4217
3. José, Bruno y Mónica lanzan sucesivamente una moneda. Si el primero en obtener cara gana el
juego:
a) ¿Cuáles son las respectivas probabilidades de ganar el juego si cada uno lanza sólo una vez?
Respuesta: P(gane José) = 1/2
P(gane Bruno) = 1/4
P(gane Mónica) = 1/8
b) ¿Cuáles son sus respectivas probabilidades de triunfo si, en caso sea necesario, el juego conti-
núa hasta un máximo de dos lanzamientos para cada uno?
Respuesta: P(gane José) = 9/16
P(gane Bruno) = 9/32
P(gane Mónica) = 9/64
4. Supóngase que, en Piura, la probabilidad de que un día sea nublado es 1/18 en verano y 5/54 en
cualquier otra estación. ¿Qué porcentaje de días del año se espera que sean nublados?
5. Se extraen aleatoriamente k boletos premiados de una urna que contiene n boletos enumerados 1,
2, ..., n. Determine la probabilidad de que:
a) El número premiado más alto sea el r.
b) El número premiado más alto sea el r y el más bajo sea el s.
AYUDA: Primero resuelva ambos apartados para n = 10; k = 5; r = 8; s = 2.
6. Suponga que hay tres semáforos entre la casa de Quique y la UDEP. Al llegar a cada uno de ellos,
éstos pueden estar en rojo (R) o verde (V). Considérese que el ámbar dura un tiempo despreciable.
Quique ha verificado que, en el primer semáforo, el rojo dura tanto como el verde; pero en el se-
gundo, el rojo dura el doble que el verde; y en el tercero, el verde dura el doble que el rojo. ¿Cuál
es la probabilidad de que en el siguiente viaje a la UDEP:
a) Tenga que parar por exactamente una luz roja?
Respuesta: 7/18
b) Tenga que parar al menos por una luz roja?
Respuesta: 8/9
7. Cuatro canicas A, B, C, D, se pueden colocar en cinco vasijas numeradas del 1 al 5. Por ejemplo,
A1,B2,C3,D1 significa que A está en la vasija 1, B en la vasija 2, C en la 3 y D en la 1. ¿De cuán-
tas formas se pueden colocar las 4 canicas en las 5 vasijas, si en cada una caben hasta:
a) 4 canicas?
Respuesta: 625
b) 3 canicas?
Respuesta: 620
8. Se eligen 5 cartas de una baraja completa de 52. La baraja está conformada por cuatro “palos” (co-
razones, espadas, tréboles y cocos) y por trece denominaciones (1, 2, ..., 13). ¿Cuál es la probabi-
lidad de que:
a) Todas las cartas sean del mismo palo?
b) Haya dos “1” y tres “13”?
c) Haya dos cartas de una denominación y tres de otra?
24 Probabilidades

d) Todas las cartas sean de distintas denominaciones?


9. En el curso de Estadística hay 5 alumnos del IV ciclo, 34 del V, 21 del VI, 5 del VII y 2 del VIII.
Si se eligiera un comité de 5 personas, ¿cuál es la probabilidad de que:
a) todos los ciclos estén representados en el comité?
Respuesta: 0,00369
b) sólo el VI ciclo tenga miembros en el comité?
Respuesta: 0,0021
10. Una familia tiene 5 hijos. Suponiendo que la probabilidad de que un hijo sea varón o mujer es la
misma, determine la probabilidad de que:
a) Los 5 sean del mismo sexo.
Respuesta: 1/16
b) Cuatro sean varones.
Respuesta: 0,15625
11. Se extraen tres cartas de una baraja. Determine la probabilidad de que:
a) Las tres sean de distinta figura.
Respuesta: 0,3976
b) Al menos dos números sean iguales.
Respuesta: 0,171764
12. Una urna contiene canicas numeradas 1, 2, ..., n. Si se escogen dos canicas al azar, ¿cuál es la pro-
babilidad de que los dos números sean consecutivos? Nota: Puede resolver este problema de dos
formas: dividiendo eventos éxito entre eventos totales o aplicando algún teorema.
13. Se lanzan tres monedas, y, si se obtienen 2 caras y un sello, se extraen dos canicas, aleatoriamente,
de una urna que contiene canicas numeradas del 1 al 100. Si las tres monedas muestran el mismo
resultado (tres caras o tres sellos), se extraen dos canicas, de otra urna que contiene canicas nume-
radas del 1 al 50. ¿Cuál es la probabilidad de que se extraigan dos canicas que muestren dos núme-
ros consecutivos?
Respuesta: 7/400
14. Una persona elige 10 números de una lista de números del 1 al 80. Luego, de una urna donde hay
80 canicas enumeradas del 1 al 80, se extraen 20 canicas. ¿Cuál es la probabilidad de que en la se-
gunda extracción no se extraiga ninguno de los 10 números elegidos al principio?
15. Una caja contiene nueve etiquetas numeradas consecutivamente del 1 al 9. Si se extraen dos de
estas etiquetas al azar, ¿cuál es la probabilidad de que sumen 8?
16. Dos amigos compraron pasajes para viajar en un pequeño ómnibus. El ómnibus consta de 48
asientos, en filas de 4, con 24 asientos al lado izquierdo y 24 al lado derecho. Si los asientos fue-
ron asignados aleatoriamente, determine la probabilidad de que los dos amigos,
a) Se sienten en el mismo lado.
Respuesta: 0,48936
b) Se sienten en la misma fila.
Respuesta: 0,06383
c) Se sienten juntos (uno al lado del otro o uno detrás del otro).
Respuesta: 0,06028
17. Hay 8 amigos solteros y la probabilidad de que cualquiera de ellos se case en los próximos 15 años
es 1/4. ¿Cuál es la probabilidad de que por lo menos uno se case?
Respuesta: 0,8999
18. ¿De cuántos modos puede dividirse una tarea de 10 ejercicios, en dos tareas de 5 ejercicios cada
una?
Respuesta: de 252 formas
Probabilidades25

19. Una persona compra un boleto de la LOTTO todas las semanas. Siempre apuesta a los mismos 6
números, seleccionados entre los enteros del 1 al 36. Para ganar, los seis números seleccionados
deben coincidir con los que se escogen al azar en una urna. Determine:
a) El tamaño del espacio muestra.
b) La probabilidad de que gane en una semana particular.
c) La probabilidad de que gane en cada una de las próximas tres semanas.
d) La probabilidad de que gane por lo menos una vez durante las próximas 52 semanas.
20. La empresa CRAG S.A. es demandada por supuesta violación de patente sobre el proceso de ma-
nufactura de un producto. El asesor de la empresa, que es un ingeniero industrial que sabe de mé-
todos cuantitativos para la toma de decisiones, ha hecho el diagnóstico de este problema emplean-
do un árbol de decisiones. Dentro de su análisis estima que la probabilidad de ganar un juicio es X,
y que la probabilidad de perder es 1 – X. Si CRAG S.A. gana el juicio, los demandantes pueden
apelar o no, con probabilidades 0,90 y 0,10 respectivamente. Si pierde el juicio, estima que CRAG
S.A. puede apelar o no, con probabilidades de 0,20 y 0,80 respectivamente. Además, estima que
quien gana el juicio tiene 0,75 de probabilidad de ganar la apelación correspondiente.
a) Si la probabilidad de ganar el juicio (X) es 0,40, ¿Cuál es la probabilidad de ganar el litigio?
Respuesta: 0,34
b) Si la probabilidad de ganar el litigio fuese 0,10, ¿Cuál sería entonces la probabilidad de ganar
el juicio (X)?
Respuesta: 0,069
c) ¿Cuál es la máxima probabilidad de ganar el litigio?
Respuesta: 0,775
21. Un estudiante de Ingeniería ha estimado que en 4 horas puede estudiar un tema para el examen del
día siguiente. Comienza a estudiar a las 8 p.m. con el riesgo de que haya un "apagón" en cualquier
momento. ¿Cuál es la probabilidad de que, como consecuencia de un "apagón", lo que le falte es-
tudiar sea menos de la quinta parte de lo que haya estudiado? Asuma que el apagón puede ocurrir
en cualquier instante debido a problemas con el generador.
Respuesta: 1/6
22. Los compradores de grandes volúmenes de mercancías utilizan el muestreo de aceptación para ca-
lificar las mercancías que compran. Los lotes de mercancías son rechazados o aceptados con base
en los resultados obtenidos al inspeccionar una muestra del lote. Suponga que un inspector de una
planta procesadora de alimentos ha aceptado el 97% de los lotes que son de calidad “buena”, y ha
rechazado, incorrectamente, 3% de lotes que eran de calidad “buena”. Además se sabe que el ins-
pector acepta el 95% de todos los lotes y que sólo el 3% de los lotes son de “calidad mala”. En-
cuentre la probabilidad de que:
a) un lote sea de calidad “buena” y que además sea aceptado.
Respuesta: 0,9409
b) un lote sea de calidad “mala” y que sea aceptado.
Respuesta: 0,0091
c) un lote de calidad “mala”sea aceptado.
Respuesta: 0,3033
23. Una persona lanza un dado cuyas seis caras muestran: un "1", dos "2" y tres "3". Si obtiene "1" en
el primer lanzamiento, gana el juego. Si no obtiene "1" puede seguir lanzando el dado y gana si
repite el resultado del primer lanzamiento. Si obtiene "1" antes de repetir el resultado del primer
lanzamiento, pierde el juego. ¿Cuál es la probabilidad de ganar? Nota: Puede ser útil la siguiente
fórmula: 1 + x + x2 + x3 + ... = 1/(1 – x), si 0 < x < 1.
Respuesta: 0,76388.
24. Una caja contiene 9 etiquetas numeradas consecutivamente del 1 al 9. Si se extraen dos de estas
etiquetas al azar, ¿cuál es la probabilidad de que sean consecutivas o sumen ocho?
Respuesta: 11/36
26 Probabilidades

25. En un conocido juego con dados (timba) el jugador participante lanza dos dados. Si obtiene suma
siete, gana. Si no, debe seguir lanzando hasta obtener el mismo resultado del primer lanzamiento,
antes de que salga siete. Si sale siete antes de conseguir el mismo resultado del primer lanzamien-
to, pierde.
a) Si el jugador obtiene suma cuatro en el primer lanzamiento. ¿Qué probabilidad tiene de ganar?
Respuesta: 1/3
b) ¿Cuál es la probabilidad de que el jugador obtenga suma tres en el primer lanzamiento, y lue-
go pierda el juego?
Respuesta: 1/24
26. Una urna contiene cuatro canicas enumeradas del 1 al 4. Si se extraen sucesivamente las canicas,
una por una, ¿cuál es la probabilidad de que por lo menos uno de los números extraídos coincida
con el orden de extracción de la canica? (Por ejemplo, que la tercera canica tenga el número 3)
Respuesta: 15/24
27. En un examen de Estadística sólo hay que contestar verdadero (V) o falso (F), para cada una de las
cinco preguntas
a) ¿De cuántas formas se puede contestar el examen?
b) Si contestase al azar, ¿cuál sería la probabilidad de contestar todas bien?
c) Si un alumno estima que la probabilidad de que conteste bien cada pregunta es 2/3, ¿cuál será
la probabilidad de que conteste bien al menos cuatro preguntas?
28. Diga si se trata de una probabilidad a priori, experimental o subjetiva:
a) Probabilidad de que haya empate entre los dos candidatos a la presidencia de un comité.
Respuesta: Subjetiva.
b) Probabilidad de que una lata de conservas de pescado contenga algún objeto extraño.
Respuesta: Experimental.
c) Probabilidad de que dentro de tres años ocurra el fenómeno de El Niño.
Respuesta: Subjetiva
d) Probabilidad de que encontremos un semáforo en rojo.
Respuesta: A priori.
29. En una urna hay siete esferas, que tienen marcadas las siguientes letras: C, A, L, C, U, L, O. Si se
extraen, una por una, las siete esferas, y se van colocando de izquierda a derecha, ¿cuál es la pro-
babilidad de que se forme la palabra CALCULO?
Respuesta: 7,94 × 10–4
30. Un vendedor estima que la probabilidad de venderle a un cliente en su primera visita es 0,4, pero
que aumenta a 0,55 en la segunda visita, si en la primera no efectuó la venta. Calcule la probabili-
dad de que:
a) El vendedor venda a un cliente
b) El cliente no compre
31. En una urna se colocan n esferas blancas numeradas 1, 2, ..., n; y n esferas rojas numeradas 1, 2,
..., n. Si se extraen luego dos esferas aleatoriamente, ¿cuál es la probabilidad de que:
a) Sean blancas y consecutivas?
b) Sean blancas o consecutivas?
c) Sean consecutivas de distinto color?
32. En una urna hay seis canicas blancas y seis negras. Se escogen nueve de éstas aleatoriamente y se
colocan en tres filas. Determine la probabilidad de que:
a) en cada fila haya sólo un color.
b) en cada fila hayan dos canicas blancas.
Probabilidades27

33. Una tabla para jugar está conformada por 15 casilleros. En 11 de éstos se encuentran las letras de
la palabra ESTADISTICA y los 4 restantes están en blanco. Un jugador debe escoger, descono-
ciendo lo que hay en cada casillero, casillero por casillero, hasta que conforme la palabra ESTA-
DISTICA, sin importar el orden. Por cada casillero en blanco que se escoja, al jugador se le quita
$20 de los $60 que le dan inicialmente. ¿Cuál es la probabilidad de que el jugador:
a) Gane $60
Respuesta: 1/1365
b) Gane $40
Respuesta: 11/1365
c) Gane $20
Respuesta: 66/1365
d) No gane
Respuesta: 286/1365
e) Pierda $20
Respuesta: 1001/1365
34. ¿De cuántas formas puede un sindicato elegir entre sus 30 miembros a: un presidente, un vicepre-
sidente, un secretario y tres vocales?
Respuesta: de 71 253 000 formas
35. Se lanza una moneda cuya probabilidad de que el resultado sea cara es 2/3. Si aparece cara, se ex-
trae una canica de una urna que contiene dos rojas y tres verdes. Si el resultado es sello, se extrae
una canica de otra urna que contiene dos rojas y dos verdes. ¿Cuál es la probabilidad de extraer
una canica roja?
36. De una baraja completa de 52 cartas se extrae una mano de 5 cartas al azar. ¿Cuál es la probabili-
dad de obtener una escalera? (5 números consecutivos).
37. Suponga que en una región se ha determinado que en un año lluvioso llueve aproximadamente el
50% de los días del año y en un año no lluvioso llueve aproximadamente el 25% de los días del
año. Un agricultor quiere tomar las previsiones del caso y, transcurrida la primera semana del año,
se percata de que ha llovido 2 días. ¿Cuál es la probabilidad de que se trate de un año no lluvioso?
Supóngase que el 40% de los años son considerados lluviosos.
Respuesta: 0,7402
38. Se lanzan cinco monedas. Determine la probabilidad de que:
a) El número de caras exceda al número de sellos en 2 ó más.
b) Los 5 resultados sean iguales.
39. Suponga que se escribe aleatoriamente un número de 4 dígitos (se permiten dígitos repetidos).
¿Cuál es la probabilidad de que no haya ningún dígito repetido?
40. En una urna hay 15 canicas blancas y seis negras. Se extrae una canica y luego otra hasta que ésta
sea negra. Determine la probabilidad de que haya que realizar una cuarta extracción, si:
a) Las canicas se extraen sin sustitución.
b) Las canicas se extraen con sustitución.
41. Se sabe que el veredicto dado por un jurado es un 90% confiable cuando el sospechoso es culpable
y un 98% confiable cuando es inocente. En otras palabras, declara inocente al 10% de los culpa-
bles y declara culpable al 2% de los inocentes. El sospechoso se selecciona entre un grupo de per-
sonas, de las cuales sólo el 5% ha cometido un delito alguna vez. Si el jurado lo declara culpable,
¿cuál es la probabilidad de que esa persona sea inocente?
Respuesta: 0,2969
42. Una urna contiene 3 canicas blancas y 5 negras. Si se extraen canicas al azar, una por una, hasta
que no quede ninguna, ¿cuál es la probabilidad de que las dos últimas canicas sean negras?
28 Probabilidades

Respuesta: 0,357
43. Doce estudiantes se disponen a sentarse en una sola fila, al azar. Si dos de ellos son hermanos,
¿Cuál es la probabilidad de que no se sienten juntos?
Respuesta: 5/6
44. Una asociación consiste en 14 miembros. Seis de los miembros son varones y los otros ocho
miembros son mujeres. Ellos desean seleccionar un comité de tres hombres y tres mujeres. ¿De
cuántas maneras puede seleccionarse este comité si :
a) no hay restricciones?
b) dos de los hombres se rehúsan a estar juntos en el comité si el otro está?
c) uno de los hombres y una de las mujeres rehúsan estar juntos en el comité si el otro está?
d) Ana sólo participará en el comité si Juana también participa?
e) el comité debe tener un presidente y un secretario y estos dos oficiales deben ser del mismo
sexo?
45. ¿De cuántas maneras se puede formar un equipo de fulbito que debe estar compuesto por cuatro
jugadores novatos y dos veteranos, a partir de un grupo de diez novatos y cinco veteranos, si todos
ellos pueden jugar en cualquier posición?
46. Un jugador lanza un dado y gana un juego si obtiene 5 ó 6. Si lanza varias veces seguidas hasta
que gane dos veces.
a) ¿Cuál es la probabilidad de que necesite hacer un mínimo de 5 intentos?
b) ¿Cuál es la probabilidad de que gane al menos dos veces en más de 4 intentos?
47. Una compañía procesadora de alimentos está considerando implantar una nueva línea de almuer-
zos instantáneos. Las estimaciones actuales indican una probabilidad de gran éxito de 0,1, una
probabilidad de éxito moderado de 0,4 y una probabilidad de no tener éxito de 0,5. La compañía
hace una prueba a nivel regional, antes de implantarla a nivel nacional y obtiene resultados signifi-
cativos, aunque no concluyentes. La confiabilidad de tal prueba está dada por las probabilidades
condicionales de la siguiente tabla:
La prueba indicó
Dado que un producto fue
Gran éxito Éxito moderado Sin éxito
Muy aceptado 0,6 0,4 0
Medianamente aceptado 0,2 0,6 0,2
No aceptado 0,1 0,3 0,6

Construya una diagrama de árbol y calcule las probabilidades condicionales:


a) P(muy aceptado \ prueba indica gran éxito)
b) P(muy aceptado \ prueba indica éxito moderado)
c) P(muy aceptado \ prueba indica sin éxito)
d) P(medianamente aceptado \ prueba indica gran éxito); etc.
48. En una prueba de aptitud conformada por 25 preguntas, 4 son de cultura general. Si a cada alumno
se le asignan 20 preguntas al azar, ¿Cuál es la probabilidad de que:
a) no se le asigne ninguna pregunta de cultura general?
Respuesta: 3,95 × 10–4
b) le asignen al menos 2 preguntas de cultura general?
Respuesta: 0,98379
49. Tres amigos comienzan un juego de dados llamado “dudo”. Cada uno debe lanzar 5 dados sin que
los demás vean su resultado (se cubre los dados con el vaso o “cacho”). Si a uno de ellos le toca el
siguiente resultado: 5, 1, 5, 5, 3; ¿cuál es la probabilidad de que:
a) En total haya 3 cincos?
b) En total haya un mínimo de 4 cincos?
Probabilidades29

50. Se tiene una baraja de 52 cartas. Si se seleccionan 5 cartas al azar, ¿cuál es la probabilidad de ob-
tener el 2 de espadas, el 2 de corazones y las otras tres cartas de diamantes?
Respuesta: 1,1 × 10-4
51. Un grupo de amigos están jugando "millonario" y uno de ellos desea obtener suma "4" al arrojar
los dados. Un dado tiene las opciones: 0, 0, 1, 2, 3, 4 y el otro dado: 0, 0, 1, 2, 2, 4. ¿Cuál es la
probabilidad de obtener la suma deseada?
Respuesta: 7/37
52. Un jugador tiene un dado normal. ¿Cuál es la probabilidad de que:
a) necesite hacer 8 ó más lanzamientos para obtener un seis?
Respuesta: 0,2790
b) en 8 lanzamientos sólo obtenga un seis?
Respuesta: 0,3721
c) recién obtenga un seis en el octavo lanzamiento?
Respuesta: 0,0465
53. Una persona tiene dos dados, uno de los cuales es normal y el otro tiene dos "2",dos "4" y dos "6".
Si se lanzan los dos dados, ¿cuál es la probabilidad de que:
a) ambos resultados sean pares?
b) un resultado sea par y el otro impar?
c) ambos resultados sean iguales?
54. En la UDEP aproximadamente el 52% del alumnado estudia Ingeniería, el 21% Administración de
Empresas, el 18% estudia Información y el 9% restante estudia Educación. En Ingeniería, el 82%
son varones, en Administración el 48%, en Información el 15% y en Educación el 5%. Si se esco-
ge una persona al azar y resulta que es varón.
a) ¿Cuál es la probabilidad de que no estudie Ingeniería?
b) ¿Cuál es la probabilidad de que estudie Administración o Información?
55. En la ciudad de Piura se publican los diarios A, B y C. Una encuesta indica que el 36% lee A, el
26% lee B y el 27% lee C; 11% leen A y B, 10% leen A y C, 6% leen B y C y 3% leen A, B y C.
Se escoge a una persona adulta al azar. Calcule la probabilidad de que:
a) lea al menos un diario.
b) lea sólo un diario.
c) lea al menos A y C, si se sabe que lee al menos uno de los diarios.
56. Un pequeño club formado por diez parejas de casados va a elegir a dos representantes al azar.
¿Cuál es la probabilidad de que:
a) no sea elegido un matrimonio.?
b) sean de sexo opuesto?
c) sean mujeres?
57. De 30 objetos elegimos 5 al azar, con sustitución.
a) ¿Cuál es la probabilidad de que ningún objeto sea elegido más de una vez?
Respuesta: 0,70373
b) ¿Cuál es la probabilidad de que sólo un objeto se repita una vez?
Respuesta: 0,27066
58. Un jugador tiene un dado normal.
a) ¿Cuál es la probabilidad de que necesite hacer 10 ó más lanzamientos para obtener un seis?
Respuesta: 0,1938
b) ¿Cuál es la probabilidad de que recién obtenga un seis en el décimo lanzamiento?
Respuesta: 0,0323
c) ¿Cuál es la probabilidad de que en 10 lanzamientos sólo obtenga un seis?
30 Probabilidades

Respuesta: 0,323
59. En un examen formado por 25 preguntas pueden omitirse 5 de ellas.
a) ¿Cuántas selecciones de 20 preguntas pueden hacerse?
Respuesta: 53 130
b) ¿En cuántas de éstas estarán las 6 preguntas más fáciles?
Respuesta: 11 628
60. En un grupo de 20 problemas hay dos muy fáciles y uno muy difícil. Si a un estudiante se le deja
un trabajo de 6 problemas, ¿Cuál es la probabilidad de que le toque el problema más difícil y uno
de los dos más fáciles?
61. Se lanzan tres dados. Si dos de los resultados son impares, ¿cuál es la probabilidad de que la suma
total sea menor que siete?
Respuesta: 4/27
62. Suponga que usted y dos amigos participan en un juego. Cada uno lanza cinco dados y sólo pue-
den ver su propio juego. Si usted tiene dos "1", ¿cuál es la probabilidad de que al menos hayan
cuatro "1" en total?
Respuesta: 0,5155
63. Un alumno de Estadística quiere medir la capacidad de un meteorólogo. Los datos recolectados en
el pasado indican lo siguiente:
- La probabilidad de que el meteorólogo prediga sol en días asoleados es 0.80
- La probabilidad de que el meteorólogo prediga sol en días nublados es 0.40
- La probabilidad de un día asoleado es 0.90
Determine la probabilidad de que:
a) Haya sol, si el meteorólogo lo pronosticó.
Respuesta: 0,9474
b) El meteorólogo pronostique que habrá sol.
Respuesta: 0,76
64. Una caja contiene esferas numeradas 1, 2, ..., n. Se escogen tres al azar. ¿Cuál es la probabilidad
de que los tres números sean consecutivos?
Respuesta: 6/n(n + 1)
65. Miguel lanza tres dados y sólo dice que no salió ningún 2 y ningún 6. ¿Cuál es la probabilidad de
que:
a) la suma de los tres dados sea par?
b) la suma de los tres dados sea mayor que 12?
66. Si a, b, c, c, d, d, e, f se distribuyen al azar. ¿Cuál es la probabilidad de que las dos letras "c" que-
den separadas?
Respuesta: 0,75
67. Se van a seleccionar cinco soldados de un grupo de doce voluntarios para una misión peligrosa.
a) ¿De cuántos modos se podrán seleccionar?
Respuesta: 792
b) ¿Cuántas veces podrán ser incluidos los dos más valientes?
Respuesta: 120
c) ¿Cuántas veces será incluido sólo uno de los dos más valientes?
Respuesta: 420
68. Se tiene una baraja de 52 cartas.
a) ¿Cuántas "manos" de 5 cartas se pueden seleccionar?
Probabilidades31

Repuesta: 2 598 960


b) ¿En cuántas de estas "manos" se tendrán tres números iguales?
Respuesta: 58 656
69. De un grupo de ocho hermanos se eligen tres al azar. Luis tiene 18 años, Jorge 17 años, Miguel 15
años, Raúl 12 años, Mario 10 años, Ana 9 años, Lucía 6 años y David 5 años. Determine la proba-
bilidad de que:
a) Luis sea elegido.
Respuesta: 3/8
b) Ana y Lucía sean elegidas
Respuesta: 3/28
c) la suma de las edades de los tres elegidos sea menor que 28.
Respuesta: 1/7
d) el menor de los tres sea Raúl.
Respuesta: 3/56
e) el mayor de los tres sea Raúl.
Respuesta: 3/28
f) el mayor de los tres sea Raúl, dado que este sí fue elegido.
Respuesta: 2/7
g) el mayor de los tres sea Raúl, si David no fue elegido.
Respuesta: 3/35
h) el mayor de los tres sea Raúl y David no sea elegido.
Respuesta: 3/56
70. Se va a elegir por sorteo un comité de seis personas a partir de un grupo de diez hombres; tres de
los cuales son profesionales. ¿Cuál es la probabilidad de que:
a) por lo menos haya dos profesionales en el comité?
Respuesta: 2/3
b) no haya ningún profesional en el comité?
Respuesta: 1/30
71. Las probabilidades que tienen tres alumnos de aprobar Estadística son: 0,20; 0,40; 0,50. Determine
la probabilidad de que:
a) Solamente apruebe uno.
Respuesta: 0,46
b) Solamente apruebe el segundo.
Respuesta: 0,16
c) Si aprueban al menos dos, esté incluido el primero.
Respuesta: 0,4666
72. Supóngase que de un grupo de 20 objetos se eligen 5, reponiendo cada uno de los que se va eli-
giendo antes de extraer el siguiente. ¿Cuál es la probabilidad de que:
a) sólo uno de los objetos se repita una vez?
b) ningún objeto salga repetido?
c) sólo dos objetos salgan elegidos?
73. Un club está conformado por 5 abogados, 10 ingenieros y 3 médicos.
a). De cuántas maneras se puede elegir un comité conformado por 2 abogados, 2 ingenieros y 2
médicos.
b). En cuántos de estos comités estarán la ingeniera Peralta y el doctor Zapata.
74. En una caja hay 10 canicas enumeradas del 1 al 10.
a) ¿De cuántas formas se pueden pintar, 3 de color rojo, 2 de color azul y 5 de color verde?
b) ¿En cuántas de éstas formas, las 3 canicas que se pinten de color rojo serán consecutivas?
c) ¿En cuántas de éstas formas, las 3 canicas rojas son consecutivas y las dos azules también?
32 Probabilidades

75. Aproximadamente 2/5 de las personas en el Perú pertenecen al grupo sanguíneo A. ¿Cuál es la
probabilidad de que, en una muestra aleatoria de cinco personas, al menos tres pertenezcan al gru-
po A?
76. En una escuela el 25% de los alumnos son hombres. El 25% de los hombres y el 20% de las muje-
res tuvieron muy buen rendimiento el año anterior. Si se escoge un alumno al azar. ¿Cuál es la
probabilidad de que haya tenido muy bien rendimiento el año anterior?
77. Un fabricante de computadoras ha indicado que la demanda mensual es de uno a siete equipos. Si
se supone que cualquier nivel de demanda (dentro del rango de 1 a 7) es igualmente probable, de-
termine las siguientes probabilidades:
a) Que se vendan dos computadoras en un mes determinado.
b) Que se vendan menos de cuatro computadoras en un mes determinado.
c) Que se vendan no más de cinco computadoras en un mes determinado.
d) Que se vendan por lo menos tres computadoras en un mes determinado.
78. Un inversionista cuenta con la opción de invertir en dos de cuatro tipos de acción. El inversionista
ignora que, de estos cuatro tipos, sólo dos aumentarán sustancialmente de valor dentro de los
próximos cinco años. Si el inversionista elige los dos tipos de acción al azar, determine el espacio
muestra correspondiente. Determine además qué eventos simples conforman los siguientes even-
tos compuestos:
a) Por lo menos uno de los tipos de acción redituable fue escogido.
b) Por lo menos uno de los tipos de acción redituable no fue escogido.
79. Se le pide a una ama de casa su opinión sobre cuatro marcas de conservas de atún (A, B, C y D),
indicando el orden de su preferencia, marcando con el 1 la que más prefiere, con el 2 la que le si-
gue, etc. Suponga que la señora en realidad no tiene ninguna preferencia por ninguna marca, y de-
cide dar los números del 1 al 4 al azar. ¿Cuál es la probabilidad de que:
a) la marca A quede como la 1?
Respuesta: 1/4
b) C quede en primer lugar y D en segundo?
Respuesta: 1/12
c) A quede en alguno de los dos primeros lugares?
Respuesta: 1/2
80. Una compañía produce un foco ahorrador en tres líneas de producción. Estos focos se envían en
grandes lotes y, debido a que la inspección de la calidad es destructiva, la mayoría de los compra-
dores muestrean un número pequeño de focos de cada lote. En general las tres líneas de produc-
ción trabajan al mismo ritmo y, el porcentaje de defectuosos, que es el mismo para las tres, es de
sólo 2%. Durante el mes de septiembre, la línea 1 sufrió un desperfecto y estuvo produciendo con
un porcentaje de 5% de defectuosos, lo cual se supo mucho después. Un cliente recibió un lote
producido en septiembre, del cual probó 3 focos, y resultó uno defectuoso. ¿Cuál es la probabili-
dad de que este lote haya venido de las líneas de producción 2 ó 3?
81. Suponga que en la UDEP el 44% de los alumnos estudian Ingeniería y el 12% de éstos son muje-
res. Además, el 60% de los otros programas son mujeres. Si se selecciona un alumno al azar y re-
sulta que es hombre. ¿Cuál es la probabilidad de que no estudie Ingeniería?
Respuesta: 0,3665
82. Se va a elegir por sorteo el Comité de Deportes de la Facultad de Ingeniería entre los 30 alumnos
que se han presentado a una reunión convocada por la Directora de Estudios. De estos 30 alumnos,
20 son hombres y 10 mujeres. Si el comité debe estar formado por 6 alumnos ¿Cuál es la probabi-
lidad de que:
a) en el comité haya el doble número de hombres que de mujeres?
b) en el comité no haya hombres?
Probabilidades33

83. Una fábrica de balones de básquet impone los siguientes controles de calidad: un balón se rechaza
si rebota demasiado o muy poco, o si tiene un defecto en su cuero. El 12% de los balones que se
producen, rebotan demasiado o muy poco, y el 50 % de éstos tienen defecto en el cuero. El 10%
de los balones producidos tienen defectos de cuero. ¿Qué porcentaje de balones:
a) serán rechazados por defecto en el rebote?
Respuesta: 12%
b) serán rechazados por defecto en el cuero?
Respuesta: 10%
c) serán rechazados por ambos tipos de defecto?
Respuesta: 6%
d) serán rechazados?
Respuesta: 16%
84. Una fábrica de harina de pescado clasifica su producción según la calidad: A, B y C. En promedio,
el 20% es de calidad A, el 30% de calidad B y el 50% de calidad C. Supóngase que procesa dos ti-
pos de pescado: 60% de la producción de harina proviene del pescado P1 y 40% del pescado P2,
con la característica de que no los mezcla durante el proceso. Supóngase además que el 40% de la
harina de calidad A proviene del pescado P1 y el 40% de la harina de calidad B proviene del pes-
cado P2. Determine la probabilidad de que:
a) Un saco de harina de calidad C provenga del pescado P1.
b) Un saco de harina proveniente del pescado P1 sea de calidad C.
85. Un empleado de una fábrica inspecciona siempre 10 unidades extraídas aleatoriamente de la pro-
ducción del día. Supóngase que un día se produjeron 50 unidades, 5 de las cuales eran defectuosas.
Si el gerente de producción llegase al puesto del empleado justo cuando le falta inspeccionar 2
unidades, ¿cuál es la probabilidad de que:
a) las 2 unidades sean defectuosas?
Respuesta: 0,008163
b) las 2 unidades sean defectuosas, si no había salido ninguna defectuosa antes?
Respuesta: 0,0116
86. Tres cajas iguales contienen dados de la siguiente manera: la primera contiene un dado normal y
dos anormales, la segunda contiene dos dados normales y uno anormal, y la tercera contiene tres
dados anormales. Un dado normal marca 1, 2, 3, 4, 5 y 6 en sus caras, mientras que un dado anor-
mal marca 2, 2, 4, 4, 6, 6 en sus caras.
a) Se extrae un dado de una de las cajas, en forma aleatoria y se lanza dos veces. ¿Cuál es la pro-
babilidad de que los dos dados muestren resultado par?
b) Se extrae un dado de una de las cajas, en forma aleatoria y se lanza dos veces, obteniéndose
par en los dos lanzamientos. ¿Cuál es la probabilidad de que el dado elegido sea el anormal?
87. Se estima que el 35% de los autos estacionados en Piura no tienen alarma contra robos. Además,
la probabilidad de que uno de estos autos sea robado es 0,10; en cambio esta probabilidad es 0,005
en los autos con alarma. Si se han robado un auto, ¿cuál es la probabilidad de que no tenga alar-
ma?
88. Se dispone de una urna con 6 canicas blancas y cuatro canicas negras. Se lanza un dado y, a conti-
nuación, se extraen de la urna tantas canicas como lo indica el resultado del dado. Suponiendo que
obtuvieron exactamente 3 canicas blancas, ¿cuál es la probabilidad de que el resultado del dado
haya sido 5?
89. Una hamburguesería ofrece a sus clientes cinco tipos de ingredientes: lechuga, tomate, papitas,
salsa de tomate y mayonesa. ¿Cuántos tipos de hamburguesas se pueden preparar? Considere que
es posible un tipo de hamburguesa sin ingredientes, o con uno o más ingredientes.
34 Introducción a la Estadística

Capítulo 2. Introducción a la Estadística


2.1 Definición de Estadística
Aunque estemos acostumbrados a que la palabra Estadística se emplee para designar descrip-
ciones numéricas o conjuntos de datos, es conveniente definirla como una ciencia que ha llegado a
emplearse en casi todas las ciencias.
Se dice con razón que la Estadística es el lenguaje universal de las ciencias. Se emplea, por
ejemplo, en: Producción, Calidad, Finanzas, Marketing, Logística, Economía, Psicología, Sociología,
Educación, Medicina, Informática, Biología, Química, etc.
La Estadística es la ciencia que recopila, clasifica, presenta, describe e interpreta conjuntos de
datos. Generalmente se ocupa de estudiar fenómenos aleatorios.

2.2 Definición de algunos términos básicos

2.2.1 Universo o población:


Es el conjunto de datos o elementos cuyas propiedades se van a analizar. Cuando se quiere reali-
zar una investigación estadística, debe definirse cuidadosamente el universo. Si se quiere investigar,
por ejemplo, qué proporción de la población de Piura fuma cigarrillos, debe definirse claramente el
universo, diciendo quiénes lo conforman. No sería correcto decir que lo conforman los adultos, pues
este término no está claramente definido. Podría definirse correctamente el universo diciendo, por
ejemplo, que lo conforman aquellos que tienen 18 años cumplidos. En este ejemplo el universo está
conformado por personas, o mejor dicho, por un atributo de dichas personas; pero el universo podría
estar conformado por atributos o mediciones de personas, objetos o animales.

2.2.2 Muestra
Es un conjunto de datos seleccionados de un universo, de tal forma que refleje las características
de éste. Se dice entonces que la muestra es representativa del universo.
A pesar de que sólo se debe llamar muestra a un conjunto de datos representativos del universo,
se suele clasificar las muestras en: probabilísticas y no probabilísticas. Las primeras suelen ser re-
presentativas de la población; las segundas no.
Se dice que una muestra es probabilística cuando cada elemento del universo tiene una probabi-
lidad conocida de ser seleccionado en la muestra. La muestra es no probabilística cuando sus elemen-
tos se eligen con base en el juicio o criterio del investigador. Esto puede dar lugar a una “muestra” que
no sea representativa del universo del cual fue extraída. Generalmente, cuando se hace una investiga-
ción, se extraen muestras probabilísticas, por razones evidentes.
Una muestra probabilística puede ser: muestra aleatoria simple, muestra estratificada o muestra
por conglomerados.
Se denomina muestra aleatoria simple a aquélla que es seleccionada de tal forma que cada
elemento del universo tiene la misma probabilidad de ser seleccionado. Un buen método para conse-
guir esto consiste en enumerar previamente todos los elementos que conforman el universo, y, em-
pleando números aleatorios, seleccionar la muestra del tamaño deseado.
Si el universo es de gran tamaño, puede resultar muy engorroso este último método, pues se ne-
cesitaría mucho tiempo y/o dinero. Conviene en este caso dividir el universo en estratos, y tratar a ca-
Introducción a la Estadística 35

da uno de éstos como un universo.


Se denomina muestra estratificada a aquélla que se obtiene dividiendo el universo en estratos,
para luego seleccionar “submuestras” de cada uno de éstos.
Se denomina muestra por conglomerados a aquélla que se obtiene estratificando el universo,
para luego tomar todos los elementos de algunos estratos, seleccionados aleatoriamente.
Como conclusión, es conveniente tener en cuenta que el tipo de muestra que se debe emplear
depende de lo que se va a investigar, y para seleccionar ésta adecuadamente, en caso que el universo
sea grande y complicado, conviene estudiar con más detalle la Teoría del Muestreo.

2.3 Estadística descriptiva e inferencial


La estadística se divide en dos partes: descriptiva e inferencial
La estadística descriptiva se encarga de recopilar, clasificar, presentar y describir un conjunto
de datos. Como generalmente se estudian poblaciones muy grandes, este conjunto de datos suele ser
una muestra.
La estadística inferencial se encarga de interpretar los datos estudiados por las técnicas descrip-
tivas. De los datos obtenidos de las muestras, saca conclusiones que da como válidas para todo el uni-
verso. Es de esperarse que al sacar estas conclusiones siempre exista una pequeña probabilidad de
error, pues la inferencia es inductiva. Existe, pues, cierta incertidumbre al sacar dichas conclusiones;
pero tal incertidumbre puede ser cuantificada.

2.4 Importancia de la Estadística


A continuación se presentan cuatro razones (Guilford y Fruchter) por las cuales es recomenda-
ble alcanzar cierto dominio de la Estadística:
1. Para poder leer literatura profesional.
Para nadie es un secreto que un buen profesional siempre debe estar leyendo sobre su especiali-
dad, y difícilmente podrá leer gran cosa sin encontrarse con símbolos, conceptos e ideas estadísti-
cas. Quienes esquivan estas partes seguramente no podrán opinar ni sacar conclusiones propias, y
tendrán que depender de lo que opinen los demás.
2. Para dominar técnicas que se necesitan en otras materias.
Generalmente es imposible hacer un buen análisis de los resultados sin emplear un mínimo de téc-
nicas estadísticas.
3. Porque es parte esencial de la formación profesional.
En casi todas las profesiones.
4. Porque es parte fundamental en la Investigación.
“El progreso de cualquier profesión y de la competencia de sus miembros depende de la perma-
nente actitud de investigación y de los esfuerzos de investigación de esos miembros”.
La estadística es fundamental en la investigación por las siguientes razones:
ƒ Permite describir con mayor exactitud cualquier fenómeno.
ƒ Obliga a ser claros y exactos en los procedimientos y en el pensar.
Sin el empleo de la Estadística se puede ser vago sin equivocarse; pero lo ideal es ser claro y
exacto sin equivocarse.
ƒ Permite resumir resultados significativamente.
Esto mediante distintos tipos de tablas y gráficos.
ƒ Permite deducir conclusiones generales.
36 Introducción a la Estadística

Además, se puede saber qué tan confiables son esas conclusiones generales sacadas en un es-
tudio, y hasta dónde se pueden ampliar nuestras generalizaciones.
ƒ Permite hacer predicciones.
Si se conocen las condiciones en que se encuentra algo o alguien, podemos predecir qué suce-
derá a futuro. Por ejemplo, si la producción en un proceso de manufactura se ve afectada por
diversos factores, y se tiene registrados valores que cuantifiquen estos factores, se puede de-
terminar una ecuación predictiva que relacione la producción con dichos factores.
ƒ Permite analizar algunos factores causales en sucesos complejos.
Se pueden determinar, por ejemplo, los factores causales por los que un producto tiene acepta-
ción en el mercado, y analizar cuánto influye cada uno.
Estadística Descriptiva 37

Capítulo 3. Estadística Descriptiva


3.1 Introducción
Si se tuviera que informar respecto a datos obtenidos en una investigación, no serviría de mucho
que éstos se presenten en un simple listado, o que sólo se exprese alguna medida descriptiva (por
ejemplo, la media o promedio) de dichos datos. En el primer caso la información resultará excesiva y
en el segundo puede ser pobre. Lo más práctico sería presentar los datos de una forma condensada, ya
sea mediante el uso de tablas o de gráficos.
En este capítulo se van a presentar las medidas descriptivas más empleadas en análisis de datos,
y las distintas formas de representar dichos datos en tablas y gráficos.

3.2 Medidas descriptivas


A continuación se definen las medidas descriptivas más usadas en las investigaciones estadísti-
cas, que nos permiten localizar con cierta precisión un conjunto de datos. Estas medidas pueden ser: de
tendencia central, de variabilidad, de posición y de forma.
Las medidas de tendencia central, como la media aritmética, la mediana y el modo, tratan de
ubicar la parte central de un conjunto de datos.

3.2.1 Media aritmética


Dado un conjunto de n datos de una muestra, se define la media aritmética:
n
1
x=
n
∑x
i =1
i

Dado un conjunto de los N datos de una población, se define la media aritmética:


N
1
µ=
N
∑ xi
i =1

Dada una muestra conformada por un conjunto de k valores; si cada uno de éstos se repite con
una frecuencia fi, o si cada uno tiene un peso o ponderado wi, entonces las medias aritméticas serán,
respectivamente:
k k
∑ f i xi ∑w i xi
i =1 i =1
x= k
x= k

∑ fi ∑w
i =1
i
i =1

A esta última se le denomina media aritmética ponderada.


Si en lugar de contar sólo con datos muestrales se tuviera todos los datos poblacionales, para
calcular la media aritmética se emplearían estas dos mismas fórmulas.
38 Estadística Descriptiva

Si se tienen k muestras de tamaños N1, N2, ... , Nk, con medias aritméticas x1 , x 2 , ... , x k , respec-
tivamente; entonces la media aritmética del conjunto será:
k

∑N
i =1
i xi
x= k

∑N
i =1
i

Ejemplo 1:
Una entidad financiera ofrece los siguientes intereses anuales, según los montos que depositen
los ahorristas a plazo fijo: 6% para depósitos A (de 1000 dólares); 8% para depósitos B (de
2000 dólares) y 10% para depósitos C (de 5000 dólares). ¿Cuál es el interés anual promedio que
está pagando el banco si hay 15 depósitos A, 10 depósitos B y 5 depósitos C?
15 × 6 + 10 × 8 + 5 × 10
x= = 7,33 %
30
Ejemplo 2:
Se han registrado los pesos de las bolsas de arroz empacadas por una empresa durante 7 horas,
resultando un promedio de 0,992 Kg. Si cada hora se embolsan 30 unidades, ¿cuál será el peso
promedio si en la octava hora se registra un peso promedio de 1,025 Kg?
En este caso se debe hallar la media de dos medias aritméticas, donde los pesos o ponderaciones
pueden ser 7 y 1, ó 210 y 30.
7 × 0,992 + 1×1,025
x= = 0,996 Kg.
8

3.2.2 La mediana
Dado un conjunto de n datos, la mediana es aquél que ocupa la posición central, cuando los da-
tos se ordenan en orden creciente (o decreciente). Si el número de datos es par, la mediana será la me-
dia aritmética de los dos datos que ocupen la posición central.
Si algunos datos se repiten con una determinada frecuencia, el cálculo de la mediana se compli-
ca; pero no vale la pena ahondar en esto, pues se puede recurrir a una herramienta tan accesible como
Excel para hacer este cálculo.

3.2.3 La moda
Dado un conjunto de datos, la moda (Mo) es el valor que se repite con mayor frecuencia. Cuan-
do dos o más datos son los que tienen la mayor frecuencia, se dice que el conjunto de datos es bimodal
o multimodal, respectivamente.

Las medidas de variabilidad, como la amplitud, la desviación media, la varianza y la desvia-


ción estándar, indican qué tan dispersos se encuentran los datos.
En muchas situaciones es importante conocer la variabilidad de los datos. Por ejemplo, entre dos
procesos de elaboración de planchas de acero del mismo espesor, es más eficiente aquél cuyas medi-
das de espesor tienen una menor variabilidad. Igualmente, entre dos negocios con similar promedio de
ganancias, quien tiene aversión al riesgo preferirá aquél que tenga menor variabilidad, pues así puede
evitar una posible ganancia muy baja o una pérdida.
Estadística Descriptiva 39

3.2.4 La amplitud
Dado un conjunto de datos, la amplitud es la diferencia entre el mayor y el menor. Es una medi-
da que puede ser muy útil, dada la facilidad con que se calcula; pero en ciertas ocasiones puede dar
una idea equivocada de la variabilidad de los datos; por ejemplo, cuando uno de los datos difiere signi-
ficativamente de los demás.

3.2.5 La desviación media


Dado un conjunto de datos, la desviación media es la media aritmética de los valores absolutos
de lo que se desvía cada valor respecto a la media aritmética. Es una medida poco usada debido a la
dificultad al hacer cálculos con la función valor absoluto.
n
1
D.M . =
n
∑x
i =1
i −x

3.2.6 La varianza
Dado un conjunto de n datos, se define la varianza:
n 2
1
s =2
n
∑ ( xi − x )
i =1

Dado un conjunto de k datos; si cada uno se repite con una frecuencia fi, la varianza será:
k 2
1
2
s =
n
∑ f i ( xi − x )
i =1

Algunos autores emplean n – 1 en lugar de n en las dos últimas fórmulas. Más adelante se verá
que es recomendable emplear n – 1 cuando la muestra extraída es pequeña. Para n grande esto no oca-
siona una diferencia numérica apreciable.
Si se cuenta con el total de datos (N) de una población, la varianza es:
N 2 k 2
1 1
σ = 2
N
∑ (xi − µ ) ó σ =
N
2
∑ f i ( xi − µ )
i =1 i =1

3.2.7 La desviación estándar


Es la raíz cuadrada positiva de la varianza. Es la medida de variabilidad que más se emplea, de-
bido a que se expresa en las mismas unidades que los datos y la media aritmética.

3.2.8 El coeficiente de variación


Se define como el cociente entre la desviación estándar y la media aritmética de un conjunto de
datos. Según se trate de una muestra o población, el coeficiente de variación será:
σ s
V= v=
µ x

Esta medida se suele usar para comparar el grado de dispersión de dos o más conjuntos de datos;
incluso si se trata de medidas diferentes. Suele ser de gran utilidad cuando se desea comparar las dis-
persiones de dos conjuntos de datos cuyas medias difieren significativamente.
Ejemplo:
Medio año después de haber sembrado 50 semillas, se miden las alturas de las plantas, obtenién-
dose una media de 43,6 cm. y una desviación estándar de 5,1 cm. Al cumplir un año, se vuelven
a medir las alturas de las plantas, encontrándose una media de 128,7 cm. y una desviación es-
tándar de 6,6 cm. Compare las dispersiones de las plantas en ambos momentos.
40 Estadística Descriptiva

Al medio año: V1 = 5,1/43,6 = 0,117


Al año: V2 = 6,6/128,7 = 0,051
Si se comparasen las desviaciones estándar, se afirmaría que la dispersión aumentó; pero com-
parando las dispersiones respecto a las alturas (representadas por las medias aritméticas), se
puede afirmar que la dispersión relativa ha disminuido.

Las medidas de posición, como los cuartiles y los percentiles, localizan los datos respecto a los
demás.

3.2.9 Los cuartiles


Dado un conjunto de datos ordenados en forma ascendente, los cuartiles lo dividen en cuatro
partes iguales.
El primer cuartil, Q1, es un valor tal que, a lo sumo, la cuarta parte de los datos es menor que Q1,
y, a lo sumo, las tres cuartas partes son mayores.
El segundo cuartil, Q2, coincide con la mediana.
El tercer cuartil, Q3, es un valor tal que, a lo sumo, las tres cuartas partes de los datos son meno-
res que Q3, y, a lo sumo, la cuarta parte es mayor.
Ejemplo 1:
12, 13, 15, 18, 19, 20, 21, 25, 26, 28, 30, 34

Q1=17,25 Q2=20,5 Q3=26,5

Ejemplo 2:
10, 12, 15, 16, 17, 19, 23, 26, 27, 28

Q1=15,25 Q2=18 Q3=25,25

Para el cálculo de los cuartiles se recomienda recurrir a una herramienta tan accesible y de tan
fácil uso como Excel. Obsérvese, en el ejemplo 1, que Q1 no es la media de 15 y 18.

3.2.10 Los percentiles


Dado un conjunto de datos ordenados en forma ascendente, los percentiles lo dividen en cien
partes iguales.
El k-ésimo percentil, Pk, es un valor tal que, a lo sumo, el k por ciento de los datos son menores
que Pk. Para determinar los percentiles se sigue el mismo procedimiento que para los cuartiles.

Las medidas de forma, como el coeficiente de asimetría y la curtosis, expresan la forma como
se distribuye un conjunto de datos.

3.2.11 Coeficiente de asimetría


Mide si un conjunto de datos están más dispersos por encima de la media aritmética o por deba-
jo de ella. Si hay más datos por encima de la media, el coeficiente de asimetría es positivo; si hay más
datos por debajo de la media, el coeficiente de asimetría es negativo; y si los datos están igualmente
dispersos por encima y por debajo de la media, el coeficiente de asimetría es cero.
El coeficiente de asimetría puede calcularse mediante la siguiente fórmula (de Excel), aunque lo
más práctico es calcularlo en Excel.
Estadística Descriptiva 41

3
n  xi − x 
sk =
(n − 1)(n − 2)
∑ 
 s 

Existen otras fórmulas para medir la asimetría, como el coeficiente de Asimetría de Pearson:
x − Mo
sk =
s

3.2.12 Curtosis
Mide el grado en que los datos están agrupados alrededor de la media aritmética. Si la mayor
parte de los datos están cerca de la media, la curtosis es positiva, y se dice que los datos tienen una dis-
tribución leptocúrtica; en caso contrario, si la mayor parte de los datos están lejos de la media, la cur-
tosis es negativa, y se dice que los datos tienen una distribución platocúrtica. Si los datos se distribu-
yen normalmente (capítulo 8), la curtosis es cero, y se dice que la distribución es mesocúrtica.
Es importante aclarar que la curtosis no es una medida de la variabilidad de los datos; que un
conjunto de datos tenga una distribución leptocúrtica no indica que tenga menor desviación estándar.
Para medir la curtosis se puede emplear la siguiente fórmula (de Excel), aunque lo más práctico
es calcularla en Excel.
4
n(n + 1)  xi − x  3(n − 1) 2
k=
(n − 1)(n − 2)(n − 3)
∑   −
 s  (n − 2)(n − 3)

3.3 Exactitud y precisión


La mayoría de la gente usa estos dos términos indistintamente, y por lo tanto, incorrectamente.
Exactitud es la proximidad de un resultado o de un conjunto de resultados de un experimento con el
resultado verdadero o real. Precisión es la cercanía entre los resultados de un experimento.
Así, se pueden tener resultados precisos pero no exactos, o exactos y precisos; aunque es difícil
tener resultados exactos e imprecisos. Los científicos experimentales hacen una distinción entre dos
tipos de errores: aleatorios y sistemáticos.
Los errores aleatorios provocan que los resultados se dispersen alrededor del valor promedio, es
decir, afectan la precisión o reproducibilidad de un experimento. La varianza o desviación estándar
miden qué tan grande o pequeño será el error aleatorio.
Los errores sistemáticos provocan que los resultados se desvíen en el mismo sentido, es decir,
afectan la exactitud de los resultados. La diferencia entre la media de los resultados y el valor verdade-
ro es una medida del error sistemático.
En 1936, A. Benedetti-Pichler ilustró estos conceptos, como se muestra en la figura 3.1.

Exacto y preciso

Preciso e inexacto

Impreciso e inexacto

Valor verdadero

Figura 3.1 Exactitud y precisión


42 Estadística Descriptiva

3.4 Medidas descriptivas en Excel


Resulta sumamente fácil calcular las medidas descriptivas de un conjunto de datos con Excel.
Sólo basta ingresar los datos en una hoja de cálculo, ubicarse en la celda donde se desea expresar la
medida, y hacer click en el icono . Excel abre un cuadro de diálogo con todas las funciones dispo-
nibles, por categorías, como se muestra en la figura 3.1.

Figura 3.1. Cuadro de diálogo de funciones de Excel

Una vez seleccionada una función, Excel indica, en el mismo cuadro de diálogo, qué resultado
va a devolver, y qué datos necesita, explicando en qué consiste cada uno de éstos. Las medidas des-
criptivas estudiadas en este capítulo que están en el listado de funciones de Excel se muestran en la ta-
bla 3.1.
Tabla 3.1. Funciones de Excel para el cálculo de algunas medidas descriptivas
Medida descriptiva Función de Excel
Media aritmética PROMEDIO
Mediana MEDIANA
Moda MODA
Varianza (muestra) VAR
Varianza (población) VARP
Desviación estándar (muestra) DESVEST
Desviación estándar (población) DESVESTP
Cuartil CUARTIL
Percentil PERCENTIL
Coeficiente de asimetría COEFICIENTE.ASIMETRÍA
Curtosis CURTOSIS

Cabe aclarar que las funciones VARP y DESVESTP emplean n en el denominador, a diferencia
de las funciones VAR y DESVEST que emplean n – 1.
Excel tiene también, en el menú de Herramientas, la opción Análisis de datos (si no aparece,
puede activarse en la opción Complementos, escogiendo la opción Herramientas para Análisis). Esta
opción Análisis de Datos abre un cuadro de diálogo con un listado de herramientas estadísticas. Una
de estas herramientas es: Estadística Descriptiva, que abre el cuadro de diálogo que se muestra en la
figura 3.2.
Estadística Descriptiva 43

Figura 3.2. Cuadro de diálogo de Estadística descriptiva de Excel para el ingreso de datos

Ejemplo:
Se ingresan los siguientes 20 datos en Excel, en una fila o columna; por ejemplo, desde la celda
A1 hasta la celda A20.
73 69 65 87 86 61 65 77 80 72 75 85 63 75 73 78 74 81 73 81.

En el rango de entrada del cuadro de diálogo saldrá: A1:A20. Ejecutando la opción Resumen de
estadísticas, Excel muestra el resultado que se muestra en la tabla 2.

Tabla 3.2. Medidas descriptivas del Análisis de datos de Excel

Fila1

Media 74,65
Error típico 1,67846264
Mediana 74,5
Moda 73
Desviación estándar 7,50631313
Varianza de la muestra 56,3447368
Curtosis -0,64638537
Coeficiente de asimetría -0,13330001
Rango 26
Mínimo 61
Máximo 87
Suma 1493
Cuenta 20
44 Estadística Descriptiva

3.5 Representaciones de datos

3.5.1 Distribución de frecuencias: diagrama de barras


Al repetirse sucesivamente un experimento, los resultados obtenidos constituyen los valores que
toma la variable aleatoria definida, X. Cada uno de estos resultados se representa con xi (minúscula).
La cantidad de veces que se repite cada resultado se denomina frecuencia, f.
Al conjunto de parejas de valores {xi, fi} se le denomina distribución de frecuencias, y se repre-
senta en una tabla de distribución de frecuencias como la que se muestra en la tabla 3.3.
Tabla 3.3. Tabla de distribución de frecuencias
X x1 x2 ... xn
f f1 f2 ... fn

Esta distribución de frecuencias suele representarse mediante diagramas de barras, que represen-
ta cada una de las frecuencias en barras proporcionales.
Ejemplo:
Los siguientes datos expresan las cantidades de piezas que produjeron 20 trabajadores durante
una semana en un taller de manufactura:
73 79 75 77 76 76 75 77 74 72 75 75 73 75 73 78 74 76 73 80

La distribución de frecuencias correspondiente a estos datos se expresa en la tabla 3.4, que da


una idea más clara de cómo están distribuidos los datos que conforman la muestra.
Tabla 3.4 Distribución de frecuencias de la piezas producidas por los 20 trabajadores
X 72 73 74 75 76 77 78 79 80
f 1 4 2 5 3 2 1 1 1

Para este ejemplo, el diagrama de barras de la figura 3.3 nos da una visión mucho más clara de
cómo están distribuidos estos datos. Como se ve, la mayoría de los trabajadores (14 de 20) elaboraron
entre 73 y 76 piezas.

f
6

0
72 73 74 75 76 77 78 79 80
Figura 3.3 Diagrama de barras del número de piezas producidas por los 20 trabajadores
Estadística Descriptiva 45

Si en una distribución de frecuencias se suman sucesivamente las frecuencias, de tal forma que
éstas se van acumulando: f1 , f1 + f2 , f1 + f2 + f3 , etc., se obtiene una distribución de frecuencias
acumuladas. Para el ejemplo anterior, esta distribución se representa en la tabla 3.5.
Tabla 3.5 Distribución de frecuencias acumuladas del número de piezas producidas por los 20 trabajadores
X 72 73 74 75 76 77 78 79 80
facum 1 4 7 12 15 17 18 19 20

3.5.2 Representaciones tallo-hoja


Las representaciones tallo-hoja (stem-and-leaf) muestran en la columna que está a la izquierda
de la barra, la(s) cifra(s) de la izquierda de cada dato (tallos), y a la derecha de la barra, las cifras de
las unidades (hojas). Así, cada hoja, junto con su tallo, conforma un dato. Si todos o casi todos los da-
tos de una muestra tienen la misma cifra de las decenas, como en el ejemplo anterior, la representación
tallo-hoja no es útil.
Ejemplo:
Se ha medido el tiempo que tarda vehículo que transporta productos terminados desde una fábri-
ca a uno de sus almacenes, durante 30 días, obteniéndose los siguientes resultados, en minutos:
41 33 47 56 56 58 30 42 55 34
47 41 31 35 36 40 38 40 46 40
41 40 56 44 42 39 58 53 59 37

La representación tallo-hoja para el ejemplo del apartado anterior se muestra en la figura 3.4.

3 3 0 4 1 5 6 8 9 7
4 1 7 2 7 1 0 0 6 0 1 0 4 2
5 6 6 8 5 6 8 3 9

Figura 3.4 Representación tallo-hoja de la piezas producidas por los 20 trabajadores


En este ejemplo, esta representación puede resultar útil para formarse una idea de la distribución
de los datos, decena por decena. Como se ve, los datos no necesitan ser representados en un orden de-
finido.

3.5.3 Diagrama de caja-bigote


Representa un conjunto de datos mediante una caja formada con los siguientes valores: mínimo,
máximo, primer cuartil, segundo cuartil y tercer cuartil. De esta forma se visualiza fácilmente cómo
están distribuidos un conjunto de datos.
Ejemplo:
El administrador de una gasolinera ha anotado el número de vehículos que llegan a su local cada
dos minutos, de 7 a 11 a.m. y de 3 a 7 p.m., con el propósito de comparar la afluencia de vehícu-
los por la mañana y por la tarde. A continuación se muestran los datos obtenidos en ambos ho-
rarios. Trace dos diagramas de caja y bigote.
Ingresando los datos a Excel, se calculan fácilmente los datos que se necesita para construir los
diagramas de caja – bigote, es decir:
Para el horario de la mañana:
Min = 2; Max = 17; Q1 = 7; Q2 = 8,5; Q3 = 11

Para el horario de la tarde:


Min = 1; Max = 15; Q1 = 6; Q2 = 7; Q3 = 10
46 Estadística Descriptiva

Tabla 3.4. Número de vehículos que llegan a una gasolinera cada dos minutos
Horario de la mañana Horario de la tarde
9 7 7 7 6 7 6 10 6 11 15 8 9 4 9 11 6 8 5 4 1 4 7 8
7 11 15 6 6 11 9 2 9 4 9 17 6 5 9 12 8 14 6 4 9 8 6 7
9 8 4 6 6 8 7 7 9 10 10 4 8 8 11 3 6 10 11 5 4 5 6 6
10 12 12 11 5 11 7 11 12 10 10 7 7 8 5 13 10 11 11 11 2 8 10 7
12 5 8 8 10 12 6 13 7 12 8 10 7 7 5 4 7 5 8 9 12 14 8 4
10 14 8 10 9 5 6 8 8 11 6 6 8 11 7 3 6 4 10 6 15 5 4 13
5 9 11 9 10 8 5 11 7 4 8 12 11 6 4 6 11 6 7 9 4 13 7 6
10 15 11 9 14 6 10 8 11 9 8 8 11 8 9 11 6 3 6 5 11 10 11 6
11 11 6 3 8 10 9 7 9 13 10 6 12 10 4 8 4 8 6 4 10 8 10 6
13 6 9 7 8 7 8 13 7 2 5 12 6 9 9 8 5 7 10 11 11 6 6 10

En la figura 3.5 se presentan los dos diagramas de caja – bigote, juntos y con la misma escala,
para poder hacer una comparación de ambos grupos de datos.

18 18
16 16
14 14
12 12
10 10
8 8
6 6
4 4
2 2
0 0

Figura 3.5. Diagramas de caja – bigote del número de vehículos que llegan a una gasolinera en dos minutos.

Aunque bastaría hallar las medias aritméticas de los dos turnos para darse cuenta que por la tar-
de hay una pequeña disminución en el número de vehículos que llegan a la gasolinera, los diagramas
de caja-bigote nos dan más información. Se puede afirmar, por ejemplo, que por la mañana, en la cuar-
ta parte (25%) de los intervalos de dos minutos llegaron entre 2 y 7 vehículos; sin embargo, por la tar-
de, en la mitad de los intervalos de dos minutos llegaron entre 1 y 7 vehículos.

3.6 Distribuciones de frecuencias agrupadas

3.6.1 Agrupación de datos.


Si se tiene un conjunto de datos que corresponden a una variable aleatoria continua, o a una va-
riable aleatoria discreta en cuya tabla de distribución de frecuencias hay demasiadas frecuencias, es
conveniente agrupar los datos en intervalos, pues el diagrama de barras correspondiente tendría dema-
siadas barras y no mostraría con claridad de qué forma se distribuyen dichos datos.
Agrupar un conjunto de datos en intervalos, y representarlo gráficamente, suele ser más un arte
que una técnica. Existen fórmulas matemáticas que se emplean para determinar el número de interva-
los que conviene tener, y a partir de este resultado se determinan los tamaños de estos intervalos, obte-
niéndose en la mayoría de los casos valores numéricos poco prácticos y/o inmanejables.
Para agrupar en forma adecuada un conjunto de datos, se propone seguir los siguientes pasos:

1) Determinar la amplitud, A.
Estadística Descriptiva 47

2) Determinar el número de agrupaciones o clases, m, y la longitud de cada clase, k, de tal for-


ma que el producto mk sea mayor o igual que A. Es recomendable que el número de clases
esté comprendido entre 6 y 15, para una mejor interpretación, y que la longitud de las clases
sea impar, si se quiere trabajar con las marcas de clase (se definen más adelante).

3) Determinar uno por uno los límites de cada clase, procurando que, los límites inferiores o
los superiores, sean múltiplos de 5, 10, 100, 1 000, etc., para facilitar su visualización.

4) Contar el número de elementos de cada clase.

Es muy importante establecer la precisión de las cifras con las que se va a trabajar. Por ejemplo,
si los datos representan diámetros de ciertas piezas cilíndricas, en mm.: 125,5; 127,3; 124,0; etc; los
límites se expresarán también con una cifra decimal.
Antes de seguir adelante, conviene definir:

1) Frecuencia de clase: Es el número de elementos que hay en cada clase.

2) Límites de clase: Son los valores extremos de cada clase.

3) Fronteras de clase: Son valores que no están presentes en los datos. Se localizan en los pun-
tos medios entre el límite superior de una clase, y el inferior de la clase siguiente. Incluyen
por lo tanto una aproximación superior a la que consideró al agrupar los datos (dos decima-
les para el ejemplo de los diámetros).

4) Longitud de clase: Es la extensión o tamaño de las clases. Se obtiene calculando la diferen-


cia entre las fronteras de una clase, o la diferencia entre dos límites superiores (o inferiores)
consecutivos.

5) Marca de clase: Es el punto medio de cada clase. Se obtiene calculando la semisuma de los
límites superior e inferior de cada clase.

Vale la pena aclarar que, dado un conjunto de datos, éstos se pueden agrupar de varias maneras,
sin que se pueda decir en muchos casos que sólo una es la manera correcta. Se podría decir, sin em-
bargo, que la mejor agrupación es aquella que se elabora de una forma rápida y que permite mostrar de
una manera clara cómo se distribuyen los datos, ya sea de forma tabular o gráfica.
Ejemplo:
Suponga que los siguientes datos representan el número de piezas que produjeron 100 trabajadores
durante la última semana:
23 20 16 18 30 22 26 15 13 18
14 17 11 37 21 16 10 20 22 25
19 19 19 20 12 23 24 17 18 16
27 26 28 26 15 29 19 18 20 17
12 24 21 22 20 15 18 16 23 24
15 24 28 19 24 22 17 19 8 18
17 18 23 21 25 19 20 22 21 21
16 20 19 11 23 17 23 13 17 26
26 14 15 16 27 18 21 24 33 20
21 27 18 22 17 20 14 21 22 19

A continuación se siguen los pasos recomendados:

1) A = 37 – 8 = 29
48 Estadística Descriptiva

2) Podría ser: k = 5 y m = 6, de tal forma que: mk = 30 > 29.

3) Así, los límites de clase serían:

1a. clase: de 8 a 12
2a. clase: de 13 a 17
3a. clase: de 18 a 22
... ...
6a. clase: de 33 a 37
También podrían agruparse de esta forma:
1a. clase: de 5 a 9
2a. clase: de 10 a 14
3a. clase: de 15 a 19
... ...
6a. clase: de 30 a 34
7a. clase: de 35 a 39
que resulta mucho más cómodo para trabajar.

Tomando esta última agrupación, se tendrá finalmente:

Límites de clase Fronteras de clase Marca de clase Frecuencia Frecuencia acumulada


5 – 9 4,5 – 9,5 7 1 1
10 – 14 9,5 – 14,5 12 10 11
15 – 19 14,5 – 19,5 17 37 48
20 – 24 19,5 – 24,5 22 36 84
25 – 29 24,5 – 29,5 27 13 97
30 – 34 29,5 – 34,5 32 2 99
35 – 39 34,5 – 39,5 37 1 100

En esta tabla se puede apreciar la ventaja de que la longitud de clase sea impar, ya que así las
marcas de clase resultan con la misma aproximación decimal que los datos y límites de clase.
Las fronteras de clase, en cambio, tienen una cifra decimal más.

3.6.2 Histograma, polígono de frecuencias y ojiva.


Aunque la tabla de distribución de frecuencias agrupadas nos da una idea de cómo están distri-
buidos los datos, una representación gráfica nos permitirá mejorar esta idea.
El histograma es una gráfica que expresa la frecuencia con que sucede cada clase. La forma que
tenga el histograma permitirá formarse una idea no sólo de cómo están distribuidos los datos, sino, en
muchos casos, descubrir por qué causa(s) los datos están distribuidos de esa forma.
En el eje de abcisas se identifica la variable X, ya sea mediante las fronteras de clase, las marcas
de clase, o mediante los límites inferiores o superiores de clase. En el eje de ordenadas se expresan las
frecuencias de clase. Cada clase formará un rectángulo de altura igual a su frecuencia y base igual a la
longitud de clase.
El polígono de frecuencias se puede trazar fácilmente sobre el mismo histograma, uniendo los
puntos medios de la parte superior de cada rectángulo, partiendo y finalizando en dos clases ficticias
de frecuencia cero y de la misma longitud de clase.
Las figuras 3.6 y 3.7 muestran el histograma y el polígono de frecuencias correspondientes al
ejemplo anterior.
Considerando que las alturas de los rectángulos del histograma vienen dadas por las frecuencias
de cada clase, y que la base de estos rectángulos es k, la longitud de clase; se puede deducir el área que
hay bajo el histograma:
Estadística Descriptiva 49

A = f1 k + f2 k + ... + fN k = (∑ fi) k = Nk

x
4,5 9,5 14,5 19,5 24,5 29,5 34,5 39,5

2 7 12 17 22 27 32 37 42
Figura 3.6. Histograma y polígono de frecuencias

Observando la figura 3.6 se deduce que el área que hay bajo el polígono de frecuencias es tam-
bién igual a Nk. Más adelante (capítulo 6) se verá la importancia que tiene esta área.
Se le denomina ojiva a la representación gráfica de la distribución de frecuencias acumuladas,
expresando las fronteras de clase en el eje de abcisas y las frecuencias acumuladas en el eje de ordena-
das. Para el ejemplo anterior se tiene la ojiva de la figura 3.7.
facum

100
90
80
70
60
50
40
30
20

10
x
4,5 9,5 14,5 19,5 24,5 29,5 34,5 39,5

Figura 3.7. Ojiva: frecuencias acumuladas


50 Estadística Descriptiva

3.6.3 Cálculo de algunas medidas descriptivas.


Cuando se cuenta con una distribución de frecuencias agrupadas, y no con el conjunto de datos,
puede hacerse el cálculo de la media aritmética, la varianza y la desviación estándar, considerando que
los valores de X son las marcas de clase. Los resultados que se consiguen de esta forma son muy
aproximados a los verdaderos.

3.7 Tablas y gráficas para la representación de datos en Excel

3.7.1 Tabla y gráfico de distribución de frecuencias no agrupadas


Dado un conjunto de datos, conformado por valores discretos, se puede elaborar una tabla de
distribución de frecuencias con la ayuda de Excel. Como ya se dijo antes, Excel muestra un cuadro de
diálogo con todas sus funciones al hacer click en el icono de función (fx). La función FRECUENCIA
calcula las frecuencias (fi) con que se repiten los valores (xi) de un conjunto de datos y las devuelve en
una matriz vertical de números. Seleccionando un número de celdas verticales donde se desea que apa-
rezcan las frecuencias y escogiendo luego la función FRECUENCIA, aparece un cuadro de diálogo
donde Excel pide:
• Datos: aquí se ingresa el rango de celdas donde están los datos.
• Grupos: aquí se ingresa el rango de celdas donde están los valores xi.
Generalmente no se conocen todos los valores xi del conjunto de datos; pero como tales valores
son discretos, es posible determinarlos hallando previamente el menor y el mayor de todos los datos,
empleando las funciones MIN y MAX, respectivamente.
Para que la fórmula ingresada sea matricial, una vez seleccionadas las celdas donde irán los re-
sultados, se digita control–shift–enter al final de la fórmula.
El número de elementos de la matriz devuelta puede superar en una unidad el número de ele-
mentos de Grupos. El elemento adicional de la matriz devuelta corresponde a la suma de todos los va-
lores superiores al mayor xi.
Para construir el diagrama de barras correspondiente basta con recurrir al asistente de gráficos
de Excel. Si se tiene problemas para construir este diagrama, conviene ingresar primero los datos de
frecuencias y luego, en el cuadro de diálogo de Datos de origen, añadir el rango de los xi en Rótulos
del eje de categorías (X).

3.7.2 Tabla de distribución de frecuencias agrupadas e histogramas en Excel


Dado un conjunto de datos que convenga agrupar en intervalos, se puede recurrir a Excel para
que haga la agrupación de acuerdo a su criterio (de Excel), o definir los límites superiores de clase que
se consideren apropiados (ver apartado 3.6.1).
Esta opción se encuentra en Herramientas/Análisis de datos/Histograma. Excel abre un cuadro
de diálogo que pide:
Para los datos de entrada:
• Rango de entrada: aquí se ingresa el rango de celdas donde están los datos.
• Rango de clases: aquí se ingresa el rango de celdas donde están los límites superiores de cla-
se, que el usuario ha ingresado previamente en Excel. Si no se ingresa nada en Rango de cla-
ses, es Excel quien escoge los límites superiores de clase. Estos límites pueden servir de guía
para que el usuario escoja unos límites más apropiados.
Para los datos de salida, se puede escoger entre las siguientes tres opciones de salida:
• Rango de salida: aquí se ingresa la celda desde donde se va a construir la tabla de distribución
de frecuencias agrupadas y el histograma, si se desea hacerlo en la misma hoja de cálculo.
• En una hoja nueva: aquí se puede ingresar el nombre de la hoja de cálculo donde se desea
construir la tabla de distribución de frecuencias agrupadas y el histograma. Si se deja en blan-
co, Excel le asignará un nombre, por ejemplo, Hoja4.
Estadística Descriptiva 51

• En un libro nuevo: se elige esta opción si se desea construir la tabla de distribución de fre-
cuencias agrupadas y el histograma en un nuevo archivo. Excel le asigna un nombre a este ar-
chivo, por ejemplo, Libro2. Posteriormente, si lo desea, el usuario puede cambiarle el nombre
a este archivo.
Finalmente se selecciona la opción Crear gráfico, y Porcentaje acumulado, si se desea graficar
la ojiva. La opción Pareto, que no es recomendable, ordena el histograma en orden descendente de
frecuencias.
Ejemplo:
Elabore un histograma a partir del siguiente conjunto de 100 datos:
397,00 393,10 396,73 416,61 385,56 374,22 406,94 400,72 422,06 404,44
387,22 383,10 396,30 383,88 391,53 414,48 403,23 408,30 414,44 406,18
402,44 381,53 413,43 405,39 384,78 387,20 390,60 408,62 413,04 402,13
412,76 390,22 399,15 409,02 396,37 393,46 397,59 393,63 401,13 389,73
411,98 392,26 398,14 419,19 399,68 407,58 401,32 390,77 400,02 412,38
417,33 378,82 394,87 399,15 400,28 404,67 405,58 411,11 404,54 396,89
378,16 394,32 419,72 394,76 396,77 408,75 401,39 387,99 399,74 391,60
397,66 395,96 408,66 406,75 421,95 405,96 390,89 384,41 389,45 391,79
410,95 401,35 423,76 396,19 382,58 386,28 418,85 407,11 382,25 395,71
389,13 396,35 393,45 407,58 392,64 388,84 404,87 406,38 408,28 395,47

En este ejemplo se van a trazar dos histogramas: en el primero se dejará que Excel decida el
número de clases, y, en el segundo, el usuario elegirá el número de clases, siguiendo las suge-
rencias vistas en el apartado 3.5.1.
En la figura 3.8 se muestra el cuadro de diálogo que muestra Excel al entrar al menú: Herra-
mientas/Análisis de datos/Histograma. Nótese que ya se ha ingresado el rango de entrada y se
ha seleccionado una hoja nueva como opción de salida, con el nombre Histograma1.

Figura 3.8. Cuadro de diálogo de Histograma1


Además, se ha dejado en blanco el rango de clases; de esta manera Excel elegirá los límites su-
periores de clase.
En la figura 3.9 se muestra el resultado de esta operación, con unos límites superiores de clase
inadecuados, y un número de clases muy pequeño (m = 4).
.
52 Estadística Descriptiva

Clase Frecuencia
374.22 1 Histograma
390.73 20
407.25 54
60
y mayor... 25
50

40

Frecuencia
30 Frecuencia

20

10

0
374.22 390.73 407.25 y mayor...
Clase

Figura 3.9. Histograma1


Para conseguir que dichos parámetros sean adecuados, habría que averiguar antes el menor y el
mayor de los datos, que en este caso son 374,22 y 423,76. Así, se ve conveniente que los límites
superiores de clase sean, por ejemplo: 380, 390, 400, 410, 420, 430. Precisamente estos datos se
ingresan en unas celdas de Excel, las cuales se seleccionan como Rango de clases, tal como se
muestra en la figura 3.10.

Figura 3.10. Cuadro de diálogo de Histograma2


En la figura 3.11 se muestra el resultado de esta operación. Los límites superiores son mucho
más claros (múltiplos de 10) y el número de clases (m = 6) es el adecuado para el conjunto de
100 datos. Además se ha mejorado la presentación del histograma, como se puede apreciar cla-
ramente, empleando algunas opciones que da Excel con el clic derecho.
Vale la pena aclarar que los valores en el eje X del histograma que construye Excel correspon-
den al límite superior de cada barra, y que el límite inferior de la primera clase comienza en
370.
Estadística Descriptiva 53

Clase Frecuencia
380 3 Histograma
390 16
400 34
40
410 30
420 14 35
430 3
30
y mayor... 0
25

Frecuencia
20

15

10

0
380 390 400 410 420 430 y
mayor...
Clase

Figura 3.11. Histograma2


54 Estadística Descriptiva

Problemas propuestos.
1. El promedio de sueldos de los empleados de una fábrica es una cierta cantidad. ¿Qué contestaría
usted, como Jefe de Personal, ante una queja de que nadie debería ganar por debajo del promedio,
sea cual fuere éste?
Respuesta: La única forma de satisfacerlos es haciendo que todos ganen igual, lo cual no es posi-
ble.
2. Hasta el semestre pasado un alumno de la UDEP había aprobado 108 de 141 créditos matricula-
dos, con un índice acumulado de 10,43. Si este semestre se ha matriculado en 21 créditos, ¿Hasta
cuánto puede subir su índice acumulado como máximo?
Respuesta: Hasta 11,67
3. ¿Puede la desviación media tener un valor cero? ¿Puede ser negativa?
4. ¿Qué puede decirse de una distribución en la que s = 0?
5. Una asociación de ahorro y préstamo tiene las siguientes hipotecas con sus respectivas tasas de in-
terés: $40 000 al 10%; $25 000 al 9%; $20 000 al 8%; $10 000 al 7% y $5 000 al 6%. ¿Cuál es la
tasa de interés promedio que se paga?
6. En las cuatro aulas donde se rindió una prueba de Estadística hubieron 14, 27, 27 y 36 alumnos.
Las medias (o promedios) en estas aulas fueron 14,4; 12,1; 9,9 y 10,2 respectivamente. ¿Cuál es la
media general?
7. Un grupo de amigos que salieron juntos del colegio, egresaron de la UDEP el último semestre.
Cuatro de Ingeniería con un índice promedio de 14,95; seis de Administración de Empresas con un
índice promedio de 14,12 y tres de Información con un índice promedio de 15,10. ¿Cuál es el índi-
ce promedio del grupo? ¿Cuál es la desviación estándar?
8. Dada la siguiente distribución de salarios, en dólares, en una empresa extranjera:
80 52 92 75 82 96 80
70 90 69 83 94 67 63
61 96 88 63 78 83 99
85 75 81 73 97 109 87
100 85 95 88 98 78 98
98 76 100 58 108 89 84
88 64 81 70 105 64 64
81 91 59 72 97 77 97

a) Construya una tabla de distribución de frecuencia, utilizando intervalos de $10, desde $50.
b) Dibuje el histograma y el polígono de frecuencia.
c) Determine la media y la desviación estándar.
d) Comente brevemente cómo es la distribución de salarios en esta empresa.
e) Construya una tabla de frecuencias acumulativas.
f) Encuentre el salario sobre el cual está el 25% de los empleados.
9. El diámetro de 180 tornillos varía entre 0,829 a 1,286 cm. Sugiera un agrupamiento indicando sus
límites, fronteras y marcas de clase.
10. Considere la siguiente muestra: resistencia de 50 lotes de algodón (Kg. necesarios para romper una
madeja)
7,4 10,0 9,0 9,9 9,7 8,9 10,8 9,4 8,7 7,9
10,1 9,0 10,5 8,3 9,1 9,6 8,1 9,8 8,1 9,8
10,5 11,0 9,1 9,9 10,1 9,4 10,6 9,8 9,3 8,2
9,0 8,6 9,6 8,8 9,7 10,3 8,5 10,6 9,2 11,5
9,7 10,1 10,2 9,6 10,0 7,6 9,6 8,1 10,1 9,3
a) Haga una tabla de distribución de frecuencias de la muestra no agrupada y represéntela gráfi-
camente.
Estadística Descriptiva 55

b) Agrupe la muestra de tal forma que las marcas de clase sean 75, 80, 85, etc. y represente gráfi-
camente la distribución de frecuencias resultante.
c) Calcule la media y la desviación estándar de los datos no agrupados.
d) Calcule la media y la desviación estándar de los datos agrupados y compare estos resultados
con el apartado anterior.
11. El grosor de 400 arandelas varía entre 0,421 y 0,563 centímetros. Determine las fronteras y marcas
de clase para el primero y último intervalos de clase.
12. En una muestra de 125 valores de la resistencia a la ruptura bajo cargas de tensión (en lb/pulg2) de
cilindros de concreto, el mínimo es 408 y el máximo es 465. Determine los límites, fronteras y
marcas de clase que mejor le parezca.
13. Los precios de venta de 60 casas en una comunidad varían de $58050 a $184900. Determine unos
límites de clase considerando 7 clases en las cuales se podría agrupar estos precios.
14. En la oficina de un periódico, el tiempo empleado en colocar los tipos de la página frontal fue re-
gistrado durante 50 días. A continuación se muestran los datos:
20,8 22,8 21,9 22,0 20,7 20,9 25,0 22,2 22,8 20,1
25,3 20,7 22,5 21,2 23,8 23,3 20,9 22,9 23,5 19,5
23,7 20,3 23,6 19,0 25,1 25,0 19,5 24,1 24,2 21,8
21,3 21,5 23,1 19,9 24,2 24,1 19,8 23,9 22,8 23,9
19,7 24,2 23,8 20,7 23,8 24,3 21,1 20,9 21,6 22,7

a) Agrupe estos datos expresándolos en una tabla de distribución de frecuencias, empleando lon-
gitudes de clase de 0,8 minutos.
b) Construya el histograma y el polígono de frecuencia correspondientes.
c) Calcule la media aritmética y la varianza, a partir de la tabla elaborada, considerando que los
valores de X están dados por las marcas de clase.
15. En un taller donde se confecciona calzado a mano, se anotó cada día el número de unidades que
confeccionaron 10 trabajadores elegidos aleatoriamente, como se muestra en la siguiente tabla.
a) Construya un diagrama de barras con los 100 datos de la tabla y comente el resultado.
b) Trace un diagrama de caja bigote para cada semana y comente los resultados.

Semana 1 Semana 2
Lun Mar Miér Juev Vier Lun Mar Miér Juev Vier
7 5 5 5 5 10 7 9 7 8
4 5 3 6 5 9 8 10 8 9
4 5 5 6 6 9 10 5 12 4
2 6 7 6 4 10 6 9 7 6
3 1 5 2 6 8 8 9 5 9
6 7 8 5 3 5 9 9 10 9
6 6 6 7 5 9 5 8 5 7
3 6 3 4 6 7 7 7 9 8
4 6 4 4 6 9 7 9 8 7
6 4 4 4 5 7 10 6 10 7
16. Una muestra de 60 barras de manjar blanco producidas por una empresa da los siguientes pesos
(en gramos):
499,6 498,3 500,3 501,7 501,6 502,3 497,2 499,7 501,4 498,6 499,1 497,8 497,6 498,7 499,0
497,2 499,3 499,5 500,2 499,5 499,6 499,5 501,7 499,9 499,8 499,3 502,6 501,1 503,1 499,1
502,2 497,9 500,7 501,2 502,5 499,9 499,3 500,9 499,5 501,0 498,1 498,9 498,0 499,5 500,0
500,0 499,6 502,9 497,7 499,0 496,6 501,9 498,3 499,2 501,0 500,6 501,1 500,8 498,2 498,5

a) Construya una tabla de distribución de frecuencia.


b) Dibuje el histograma y el polígono de frecuencia.
56 Estadística Descriptiva

c) Interprete el histograma.
17. Se ha anotado la velocidad a la que pasaron por el kilómetro 25 de la carretera Piura–Paita, de una
muestra de 60 autos, durante este verano. En la siguiente tabla se muestran los datos.
76 95 78 87 60 94
83 92 105 75 52 87
66 92 86 87 83 75
72 89 81 65 73 87
99 83 75 76 78 65
94 92 97 75 68 76
75 86 106 71 66 75
66 75 54 67 80 71
73 90 105 69 70 67
68 69 94 69 74 69

a) Trace un histograma e interprételo.


b) Trace un diagrama caja–bigote e interprételo. (Q1 = 69; Q2 = 75,5; Q3 = 87).
c) ¿Cree usted que valga la pena hacer una tabla de distribución de frecuencias no acumuladas?
¿Por qué?
18. Los datos de la siguiente tabla son los cobros de electricidad durante un mes, de una muestra de 50
casas de Piura.
96 171 202 178 147 102 153 197 127 82
157 185 90 116 172 111 148 213 130 165
141 149 206 175 123 128 144 168 109 167
95 163 150 154 130 143 187 166 139 149
108 119 183 151 114 135 191 137 129 158
a) Trace un diagrama tallo hoja.
b) Trace un histograma.
c) Comente cómo son los pagos mensuales de electricidad en Piura.
19. Un alumno de Estadística de la UDEP quiere averiguar cómo se distribuyen los pagos que hacen
los alumnos universitarios por una habitación individual en las casas de una urbanización cercana
a la UDEP. Después de unos días tomando datos, casa por casa, ha averiguado que en 15 casas pa-
gan S/.200, en 21 casas pagan S/.210, en 29 casas pagan S/.220, en 41 casas pagan S/.230, en 21
casas pagan S/.240, en 15 casas pagan S/.250, en 11 casas pagan S/.260 y en 8 casas pagan S/.270.
(Nota: suponga que sólo existen estos 8 tipos de pagos)
a) Halle la pensión promedio y la desviación estándar de los pagos por habitación en esa muestra
de casas.
b) Represente gráficamente los pagos por habitación de esa muestra y haga un comentario res-
pecto a dichos pagos
20. ¿Qué medida descriptiva utilizaría para medir la eficiencia de una máquina que debe cortar plan-
chas de una pulgada de espesor? ¿Por qué?
21. Se toma una muestra de 60 alumnos de la Facultad de Ingeniería de la Universidad de Piura, a
quienes se les pregunta el número de horas que estudia en una semana, fuera de las horas de clase,
obteniéndose las siguientes respuestas:
20 17 23 22 20 28 4 17 22 28 16 24 27 21 30 29 17 30 19 17
15 17 15 10 13 21 26 13 14 17 15 10 25 4 19 29 10 14 20 23
21 10 22 16 26 14 5 17 27 18 19 21 12 8 24 11 18 23 21 24

a) Trace un histograma y comente cómo ve la distribución del número de horas que estudian los
alumnos de UDEP semanalmente.
b) Trace un diagrama de caja y coméntelo. Los cuartiles 1, 2 y 3 son: 14,75; 19 y 23 respectiva-
mente.
Estadística Descriptiva 57

22. Los precios de venta de 160 casas en una comunidad varían de $28050 a $124900. Determine
unos límites de clase adecuados.
23. Se han tomado muestras de 64 sacos de un alimento balanceado para ganado que han enviado dos
proveedores, para medir el porcentaje de proteína. En la siguiente tabla se muestran los valores ob-
tenidos. Trace un histograma y comente el resultado
73,8 69,9 76,0 80,1 79,8 59,3 67,4 65,3
81,9 66,3 74,1 79,4 70,7 59,5 63,7 64,6
72,2 68,2 67,6 71,1 71,9 64,4 69,9 62,3
66,5 72,7 73,4 75,5 73,5 64,0 64,9 68,1
73,7 73,5 77,4 74,7 74,3 64,8 64,4 66,0
72,9 82,9 78,5 84,5 72,4 67,1 61,5 60,3
81,6 68,6 77,2 78,6 82,7 64,0 70,9 60,5
76,7 72,9 77,7 73,5 78,0 62,5 64,0 64,2
58 Función de Probabilidad

Capítulo 4. Función de probabilidad


4.1 Definición de función de probabilidad.
Una función de probabilidad (f. de p.) de una variable aleatoria discreta X, se define como el
conjunto de parejas ordenadas {xi, f(xi)}, donde xi representa un valor que puede tomar X, y f(xi) es la
probabilidad de que X asuma dicho valor, de tal forma que ∑ f(xi) = 1.
Se le suele llamar distribución de probabilidad a dicho conjunto de parejas, y función de pro-
babilidad a la función f(x), la cual asigna las probabilidades a los valores que puede tomar X.
Ejemplo 1:
Un experimento consiste en lanzar un dado, cargado de manera que la probabilidad de ocurren-
cia de cada cara es proporcional al número de puntos que tiene. Si se define X como el resultado
de un lanzamiento, se deduce que:
x
f(x) =
21
de manera que:
x 1 2 3 4 5 6
1 2 3 4 5 6
f(x)
21 21 21 21 21 21
Ejemplo 2:
Se lanzan dos monedas. Si se define X como el número de caras que se obtiene en un lanza-
miento, no hay forma de expresar f(x) como en el ejemplo anterior; la función de probabilidad
se expresa simplemente con la tabla:
x 0 1 2
1 1 1
f(x)
4 2 4

La f. de p. se suele representar gráficamente con diagramas de barras, tal como la distribución de


frecuencias no agrupadas.
Ejemplo 3:
Se quiere determinar la distribución de probabilidad del número de pacientes que llegan a una
clínica dental en un intervalo de una hora. En primer lugar, se debe tomar datos del número de
pacientes que llegan a la clínica dental, en varios intervalos de una hora, durante varios días. Su-
póngase que se obtienen los siguientes resultados:
1 1 2 3 0 1 1 2 1 3 1 3 3 4 4 3 2 2 4 3
3 3 2 1 4 1 3 3 4 1 3 3 2 4 4 1 3 0 0 3
0 1 1 0 2 2 3 7 1 1 0 1 2 0 1 1 2 2 2 3
2 1 2 2 2 3 3 0 1 3 3 3 1 0 1 1 1 1 5 1

En segundo lugar, se construye una tabla de distribución de frecuencias:


x 0 1 2 3 4 5 6 7
f 9 24 17 21 7 1 0 1
Función de Probabilidad 59

Finalmente, se estiman las probabilidades “experimentales” f(x), dividiendo cada frecuencia en-
tre la suma de frecuencias, que es 80, resultando:
x 0 1 2 3 4 5 6 7
f(x) 0,1125 0,3000 0,2125 0,2625 0,0875 0,0125 0 0,0125
Lógicamente, estas probabilidades experimentales serán más certeras mientras mayor sea el nú-
mero de veces que se repite el experimento, es decir, mientras más datos se tomen del número
de pacientes que llegan a la clínica en un intervalo de una hora.

4.2 La función de distribución (acumulativa).


La función de distribución, F(x), acumula en forma sucesiva las probabilidades f(x) de la si-
guiente forma: si los posibles valores que puede tomar X, ordenados en forma ascendente, son: x1, x2,
x3, ... , xn; entonces:
F(x1) = f(x1)
F(x2) = f(x1) + f(x2)
F(x3) = f(x1) + f(x2) + f(x3)
...
F(xn) = f(x1) + f(x2) + f(x3) + ... + f(xn) = 1

El conjunto de parejas de valores {x ,F(x)} se expresa en una tabla, tal como la f.de p., y gráfi-
camente en forma escalonada, tal como la distribución de frecuencias acumulativas no agrupadas.

4.3 El valor esperado de una variable aleatoria discreta.


Se ha visto que la media aritmética de un conjunto de n datos se calcula mediante la expresión:
n n
1  fi 
x=
n
∑f
i =1
i xi = ∑  n  x
i =1
i

Cuando n tiende a ser un valor muy grande, fi / n puede sustituirse por la probabilidad f(x), ya
que representa una probabilidad experimental, tal como se vio en el primer capítulo. Así, dicha media
aritmética representa la media de la población o el valor esperado de la variable aleatoria X.
Por lo tanto, dada una variable aleatoria con f.de p. {x, f(x)}, la media aritmética teórica o valor
esperado de X es:
n
µ = E ( x) = ∑ f (x )x
i =1
i i

Si un experimento se repite indefinidamente y se anotan los resultados que se van obteniendo; es


decir, los valores que va tomando la variable aleatoria X, la media aritmética de éstos tenderá a µ.
Ejemplo 1:
Se lanza un dado normal. ¿Cuál es el valor esperado?
Conocida la función de probabilidad, se calcula:
µ = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 3,5
Se entiende que, si un dado se lanza varias veces, la media de los resultados que se van obte-
niendo se aproxima cada vez más a 3,5.
Ejemplo 2:
En un juego de azar, el jugador participante debe escoger aleatoriamente 3 esferas de una urna
que contiene 9 esferas numeradas del 1 al 9. Si los tres números son consecutivos, el jugador
ganará $2. Si sólo 2 números son consecutivos, ganará $4. Si no obtiene números consecutivos
perderá $6. ¿Cuál es la ganancia o pérdida esperada?
60 Función de Probabilidad

P(3 consec) = 7/C(9,3) = 1/12


2C (6,1) + 6C (5,1)
P(2 consec) = = 1/2
C (9,3)
P(no consec) = 1 – 1/12 – 1/2 = 5/12
La f.de p. correspondiente será:
x 2 4 –6
f(x) 1/12 1/2 5/12

Y el valor esperado será µ = 2(1/12) + 4(1/2) + (–6)(5/12) = – 0,333, que representa la ganancia
esperada.
No sería correcto concluir que un jugador espera perder $0,33 si participa en este juego una vez,
pues él ganará $2 o $4, o perderá $6; pero si juega muchas veces, en promedio perderá $0,33
por juego.
Ejemplo 3:
¿Cuántos pacientes se espera que lleguen a la clínica dental (ejemplo 3 del apartado 4.1) en un
intervalo de una hora?
El valor esperado será: µ = 0(0,1125) + 1(0,3000) + … + 7(0,0125) = 2,013 pacientes.
Se ve claramente que, aunque el número de pacientes que llegue a la clínica dental en un inter-
valo de una hora, puede ser 0, 1, 2, … etc., es correcto afirmar que el número esperado de pa-
cientes que llegan es 2,013, interpretándose este valor como un promedio. Por lo tanto, no tiene
sentido redondear dicho valor, argumentando que se trata de una variable aleatoria discreta.

4.4 Varianza y desviación estándar de una variable aleatoria discreta


A partir de la definición de varianza muestral, se deduce fácilmente la varianza de una variable
aleatoria, con f.de p. conocida:
k 2 k
1  fi 
2
s =
n
∑ f i (xi − x )
i =1
= ∑  n (x
i =1
i − x)

Cuando n tiende a ser un valor muy grande, fi / n puede sustituirse por la probabilidad f(x), ya
que representa una probabilidad experimental, y la media muestral ( x ) puede sustituirse por la media
poblacional (µ). Así, esta varianza representa la varianza de la población o la varianza de la variable
aleatoria X.
n
σ2 = ∑ f ( x )( x
i =1
i i − µ) 2

También se deduce fácilmente que:


n
σ2 = ∑ f ( x )( x )
i =1
i i
2
− µ2

La desviación estándar es la raíz cuadrada positiva de la varianza.


Ejemplo:
Determine la desviación estándar del número de pacientes que llegan a la cínica dental del pro-
blema anterior.
σ 2 = 0,1125(0)2 + 0,3000(1)2 + 0,2125(2)2 + … + 0,0125(7)2 – (2,013)2 = 3,825
σ = 1,956
Función de Probabilidad 61

Generalmente el valor numérico de la desviación estándar de una variable aleatoria, por sí solo,
no da información de qué tan dispersos están los valores que tome dicha variable aleatoria, salvo que
ésta tenga una distribución normal, como se verá en el capítulo 8. Sin embargo, puede ser útil para
compararlo con el valor numérico de la desviación estándar de otra muestra.

4.5 Teoremas sobre el valor esperado y la varianza.


Definida una variable aleatoria X, se deducen el valor esperado y la varianza de una función
h(X):

E [h( X )] = µ h ( x ) = ∑ f ( x ) h( x )
i i

∑ f ( x )[h( x ) − E[h( x )] ]
2
σ 2 h( X ) = i i i

Se deducen además seis teoremas, que se presentan a continuación con sus respectivas demos-
traciones:
T1. E(kX) = kE(X)
E(kX) = Σ f(xi)(kxi) = k Σf(xi)(xi) = kE(X).

T2. E(X+k) = E(X)+k


E(X+k) = Σ f(xi)(xi + k) = Σ f(xi)(xi) + k Σ f(xi) = E(X) + k

T3. E(k) = k
E(k) = Σ f(xi)k = k Σ f(xi) = k

T4. E(X – µ) = 0
E(X – µ) = Σ f(xi)(xi – µ) = Σ f(xi)(xi) – µ Σ f(xi) = µ – µ = 0

T5. σ 2kX = k2 σ 2X

σ 2kX = Σ f(xi)(kxi – µkX)2 = k2 Σ f(xi)(xi – µ x)2 = k2σ 2X

T6. σ 2X+a = σ2X


σ 2X+a = Σ f(xi)[(xi + a) – µ X+a]2 = Σ f(xi)(xi – µX)2 = σ 2X

A partir de la varianza σ 2 h(X) se deduce fácilmente que la varianza de X es el valor esperado del
cuadrado de la desviación de la media µ, es decir:
σ 2 x = E(X − µ)2
NOTA: Estos teoremas también son válidos para la media aritmética de una muestra, x ,y para la
varianza de una muestra, s.
Ejemplos:
1) Dada la siguiente función de probabilidad:

x 1 2 3 4
f(x) 0,1 0,2 0,3 0,4
62 Función de Probabilidad

Si Y = 2X + 5, determine el valor esperado y la varianza de Y.


E(X) = 1(0,1) + 2(0,2) + 3(0,3) + 4(0,4) = 3
E(Y) = 2E(X) + 5 = 2(3) + 5 = 11
σ2X = 12 (0,1) + 22 (0,2) + 32 (0,3) + 42 (0,4) – 32 = 1
σ2Y = 22 (1) = 4
2) La calificación promedio en una prueba de Estadística fue 9,24, con una desviación estándar
igual a 1,25. El profesor desea ajustar todas las calificaciones por igual, de manera que el pro-
medio resulte 11 y la desviación estándar 2,50. ¿Qué debe hacer para conseguirlo?
Sean las variables: X, las calificaciones iniciales.
Y, las calificaciones corregidas.
Evidentemente: Y = kX + a
sY = ksX
Entonces: 11 = 9,24k + a
2,5 = 1,25k
Resolviendo: k = 2 ; a = – 6,52
El profesor debe multiplicar cada calificación por 2, y luego restarle 6,52.

4.6 La desigualdad de Tchebycheff.


Sea una variable aleatoria X, cuya f.de p. {xi, f(xi)} está definida. Denomínense x'i a todos los va-
lores que se desvían de la media, µ, por lo menos k veces la desviación estándar; es decir, a todos los
valores xi que cumplen la siguiente condición:
|xi – µ | ≥ kσ ... para todo k > 1,
Se sabe que: Σ f(xi)(xi – µ)2 = σ 2
Entonces, se cumplirá que: Σ f(x'i)(x'i – µ)2 ≤ σ 2
Y por lo tanto: Σ f(x'i) k2σ2 ≤ σ 2
1
∑ f (x' ) ≤ k
i 2

Esta desigualdad se conoce como el teorema de Tchebycheff y se interpreta de la siguiente


forma: "La probabilidad de que un valor de X, escogido aleatoriamente, se desvíe de la media por lo
menos k veces la desviación estándar, no es mayor que 1/k2".
El teorema de Tchebycheff puede aplicarse también a una muestra, con una distribución cual-
quiera. En este caso se le daría la siguiente interpretación: "La fracción de elementos que se desvían de
la media por lo menos k veces la desviación estándar, no es mayor que 1/k2".
Ejemplo:
Una máquina que se utiliza para llenar cajas de cereales descarga en promedio 12 onzas por ca-
ja. El fabricante quiere que la descarga real, en onzas, quede a una onza del promedio al menos
el 75% de las veces. ¿Cuál es la mayor desviación estándar que se puede admitir si deben cum-
plirse los objetivos del fabricante?
Sea: X = descarga real (onzas)
µ = 12 onzas
P(|X – 12| ≤ 1) ≥ 0,75 ; P(|X – 12| ≥ 1) ≤ 0,25
Función de Probabilidad 63

Según Tchebycheff: P(|xi – µ | ≥ kσ) ≤ 1/k2


Entonces: 1/k2 = 0,25 y kσ = 1
Por lo tanto: σ = 0,5
La mayor desviación estándar que se puede admitir es 0,5 onzas.

4.7 La función bivariante de probabilidad.


En algunas ocasiones surge la necesidad de analizar simultáneamente dos características de al-
gún fenómeno aleatorio, y conviene definir por lo tanto dos variables aleatorias.

4.7.1 Definición de función bivariante de probabilidad.


Si X e Y son dos variables aleatorias discretas, se define la función bivariante de probabilidad:
f(x, y) = P(X = xi ; Y = yj) ; para: i = 1, 2,..., m.
j = 1, 2,..., n.
donde f(x, y) representa la probabilidad de que X e Y asuman los valores xi e yj, respectivamente,
de manera que: Σi Σj f(x, y) = 1.
La distribución bivariante de probabilidad se representa de la siguiente manera:

x/y y1 y2 ... yn f(x)


x1 P(x1, y1) P(x1, y2) ... P(x1, yn) f(x1)
x2 P(x2, y1) P(x2, y2) ... P(x2, yn) f(x2)
... ... ... ... ... ...
xm P(xm, y1) P(xm, y2) ... P(xm, yn) f(xm)
f(y) f(y1) f(y2) ... f(yn) 1

A f(x) y f(y) se les denomina funciones de probabilidad marginales.


Ejemplo:
Se tiene un lote de 20 artículos de la producción diaria de una fábrica, de los cuales 14 han sido
clasificados de calidad A, 4 de calidad B y 2 de calidad C. Se seleccionan aleatoriamente 2 artí-
culos de este lote. Sea X el número de artículos de calidad A e Y el número de artículos de cali-
dad B. Determine la distribución de probabilidad bivariante de X e Y.
La siguiente tabla se construye calculando previamente las probabilidades de que ocurran las 9
combinaciones posibles:

X/Y 0 1 2 Total
0 1/190 8/190 6/190 15/190
1 28/190 56/190 0 84/190
2 91/190 0 0 91/190
Total 120/190 64/190 6/190 1

Nótese que en las columnas que dan los totales están expresadas las funciones de probabilidad
marginales: f(x) y f(y), que se muestran a continuación:

x 0 1 2
f(x) 15/190 84/190 91/190

y 0 1 2
f(y) 120/190 64/190 6/190
64 Función de Probabilidad

Se deduce, por lo visto en el capítulo de probabilidades, que las variables X e Y de una función
bivariante de probabilidad son independientes si se cumple que: f(xi, yj) = f(xi) f(yj).
En la función bivariante del ejemplo anterior:
f(0, 0) = 1/190 ≠ f(0) f(0) = 180/3610
f(0, 1) = 28/190 ≠ f(0) f(1) = 1008/3610
..................... .............................
f(2, 2) = 0 ≠ f(2) f(2) = 546/36100
Verificándose, como era de esperarse, que X e Y son dependientes.

4.7.2 El valor esperado de funciones de dos variables.


A continuación se ven algunos teoremas relativos a los valores esperados de algunas funciones
de dos variables aleatorias X e Y, como: X + Y, X – Y, XY.
Teorema 7: E(X ± Y) = E(X) ± E(Y)
Demostración:
E(X ± Y) = Σi Σj f(xi, yj)(xi ± yj)
= Σi Σj f(xi, yj)xi ± Σi Σj f(xi, yj)yj
= Σi xiΣj f(xi, yj) ± Σj yj Σi f(xi, yj)
= Σi xi f(xi) ± Σj yj f(yj)
= E(X) ± E(Y)
En el ejemplo anterior, ¿cuál es el valor esperado de la suma de artículos útiles y recuperables?
E(X + Y) = E(X) + E(Y) = 266/190 + 76/190 = 1,8
Este teorema puede generalizarse para varias variables:
E(X1 + X2 + X3 + ...+ Xn) = E(X1) + E(X2) + E(X3) +...+ E(Xn)
La demostración se puede hacer por inducción matemática, considerando que ya se ha hecho la
demostración para n = 2.
El valor esperado del producto de dos variables aleatorias X e Y es:
E(XY) = Σi Σ j f(xi, yj)(xi yj)
Para el ejemplo anterior:
56 56
E ( XY ) = 0 + 0 + 0 + 0 + (1) (1) + 0 + 0 + 0 + 0 =
190 190
Teorema 8: Si X e Y son independientes, con función bivariante de probabilidad f(x, y), enton-
ces: E(XY) = E(X)E(Y).
Demostración:
E(XY) = Σi Σj f(xi, yj)(xi yj)
= Σi Σ j f(xi) f(yj)xi yj
= Σi f(xi)xi Σj f(yj)yj = E(X)E(Y)

4.7.3 Varianza y covarianza de dos variables aleatorias.


Se define la covarianza de dos variables aleatorias X e Y:
σXY = E(X – µ X)E(Y –µ Y) = Σi Σj f(xi, yj)(xi – µ X)(yj – µY)
Función de Probabilidad 65

Para el ejemplo anterior, la covarianza será:


1  266  76  8  266  76  6  266  76 
σ XY = 0 −  0 − + 0 − 1 − + 0 −  2 − 
190  190  190  190  190  190  190  190  190 

28  266  76  56  266  76 
+ 1 −  0 − + 1 − 1 −  +0
190  190  190  190  190  190 
91  266  76 
+ 2 −  0 −  + 0 + 0 = −0,2653
190  190  190 

Si la varianza de una variable X es: σ 2X = E(X – µ X)2, se puede definir la varianza de la suma o
diferencia de dos variables aleatorias:
σ 2 X±Y = E[(X ± Y) – µ X±Y)]2
Entonces:
σ 2 X±Y = E[(X ± Y) – (µ X ± µY)]2
= E[(X – µX) ± (Y – µ Y)]2
= E[(X – µX)2 ± 2(X – µX)(Y – µY) + (Y – µY)2]
= E(X – µX)2 ± 2E(X – µX)(Y – µY) + E(Y – µY)2

σ 2 X ±Y = σ 2 X ± 2σ XY + σ 2 Y
Teorema 9: σ XY = E ( XY ) − E ( X )E (Y )
Demostración:
σ XY = E[(X – µX)(Y – µY)]
= E(XY – µXY – µ YX + µXµY )
= E(XY) – µX E(Y) – µYE(X) + µXµY
= E(XY) – E(X)E(Y)
Aplicando este último teorema resulta más fácil el cálculo de la covarianza. Para el ejemplo an-
terior, la covarianza es:
56  266  76 
σ XY = −   = −0,2653
190  190  190 
tal como se había calculado.
Se deduce de los dos teoremas anteriores que si X e Y son dos variables aleatorias independien-
tes, su covarianza es cero.
Se deduce también que si X e Y son dos variables aleatorias independientes, entonces:
σ2X±Y = σ2X + σ 2Y

4.8 Distribuciones de probabilidad en Excel


Existe una herramienta de Excel que puede ayudar a interpretar correctamente la función de
probabilidad. Esta herramienta genera un conjunto de números aleatorios que sigue una función de
probabilidad determinada.
Ejemplo:
La demanda semanal de cierto artículo es una variable aleatoria, cuya función de probabilidad es
la siguiente:
66 Función de Probabilidad

x 0 1 2 3 4 5
f(x) 0,10 0,20 0,30 0,20 0,15 0,05

Simule la demanda de este artículo durante 400 semanas consecutivas y verifique si la demanda
promedio coincide con el valor esperado de la demanda semanal, es decir, µ.
Ingresando a Herramientas/Análisis de datos/Generación de números aleatorios, Excel muestra
un cuadro de diálogo que pide:
• Número de variables: aquí se ingresa el número de columnas donde se generarán los números.
• Cantidad de números aleatorios: aquí se ingresa la cantidad de números que se generarán en
cada columna.
• Distribución: aquí se escoge la distribución discreta
• Rango de entrada de valores y probabilidades: aquí se ingresa el rango de celdas donde están
las parejas de valores {xi, f(xi)} (en dos columnas).

En la figura 4.1 se muestra este cuadro de diálogo con los valores ya ingresados.

Figura 4.1. Cuadro de diálogo de Generación de números aleatorios.


A continuación se muestran los números aleatorios generados por Excel, que simulan las de-
mandas semanales durante 400 semanas consecutivas. El promedio de estos valores es 2,278,
que es bastante aproximado al valor de µ = 2,25.
2 2 3 2 4 3 1 1 1 2 3 1 1 2 2 2 4 3 4 2
4 1 5 0 5 2 3 0 3 2 2 3 1 1 4 1 3 2 0 2
3 3 1 2 2 4 3 1 3 3 5 1 0 2 2 0 2 3 3 4
4 3 1 3 5 2 4 4 4 2 3 3 2 0 1 3 4 2 2 2
1 0 1 0 1 4 3 1 3 2 2 2 4 3 3 1 3 4 3 2
2 4 2 1 3 3 4 2 1 0 1 2 1 1 4 2 3 2 1 4
1 5 1 2 4 1 1 4 1 1 2 1 1 2 3 1 0 3 4 3
3 1 0 4 3 3 3 1 1 1 2 2 1 4 0 3 1 3 3 4
2 1 0 3 4 2 1 2 1 5 2 3 2 1 2 0 2 2 2 1
1 2 2 4 3 3 3 4 1 0 4 4 1 3 0 2 0 4 1 2
Función de Probabilidad 67

3 1 0 2 4 1 2 3 0 1 0 1 0 4 2 5 4 4 2 0
2 2 3 1 0 0 4 4 2 2 1 3 0 4 1 4 3 1 1 0
1 3 2 4 3 3 4 5 4 2 2 2 4 5 0 3 3 3 1 3
2 0 4 4 4 1 0 2 0 3 2 4 3 3 0 0 5 3 0 2
1 0 3 3 3 4 3 4 2 2 3 2 2 4 1 4 1 1 1 3
3 1 3 4 2 4 5 4 2 4 5 3 5 3 1 1 1 2 4 1
5 2 2 4 3 0 4 4 3 2 5 1 2 4 2 2 1 2 4 0
0 3 1 2 3 3 2 5 1 0 2 2 1 2 2 4 2 2 2 3
0 1 2 4 4 5 2 2 0 2 2 3 4 2 4 1 0 2 2 5
2 2 3 1 3 2 4 3 2 1 3 3 2 4 1 2 3 0 4 2

A manera de ejercicio, el lector podría ingresar estos 400 datos a Excel, construir la tabla de dis-
tribución de frecuencias (con la función FRECUENCIA) y luego, dividiendo entre 400 cada una de las
frecuencias, determinar la distribución de probabilidad, que debería corresponder, aproximadamente,
con la distribución de probabilidad dada al inicio del problema.
68 Función de Probabilidad

Problemas propuestos.
1. Una persona que está participando en un juego, lanza un dado. Si sale un número par, el juego
termina y gana $10. Si no sale par, debe lanzar el dado nuevamente. Si sale un resultado mayor
que el del primer lanzamiento, gana $5; de lo contrario, pierde $20. ¿Cuánto espera ganar o per-
der? Interprete este resultado.
2. Una persona que participa en un juego lanza un dado. Si obtiene 5 ó 6 en el primer lanzamiento
gana $10. Si no, vuelve a lanzar el dado, y si repite el resultado del primer lanzamiento, gana $8.
Si no repite este resultado, pero obtiene un número mayor, gana $4; pero si obtiene un número
menor, lanza el dado por tercera vez. Si esta vez repite el resultado del primer lanzamiento, se re-
tira sin ganar ni perder; pero si no se repite dicho resultado, pierde $20. ¿Le parece que el juego es
justo? Explique.
3. En una urna hay seis dados blancos y cuatro dados negros. Una persona debe escoger un dado al
azar y lanzarlo. Si el dado escogido es blanco o negro, pierde o gana tantos dólares como puntos
muestre la cara superior, respectivamente. ¿Cuánto espera ganar o perder?

Respuesta: µ = – 0,7
4. La calificación promedio en una prueba de Estadística fue 42,5. El profesor desea ajustar las cali-
ficaciones de manera que el promedio sea 50. ¿Qué debe hacer?
5. Un dado está cargado de forma tal que la probabilidad de que quede hacia arriba cualquiera de sus
lados es proporcional al número de puntos que tiene dicho lado.
a) Sea X el número de puntos que quedan hacia arriba después de arrojar el dado ¿Cuál es el va-
lor esperado de X?
Respuesta: 4,33
b) Si a usted le proponen el siguiente juego con este dado cargado: gana $1 000 si el resultado de
lanzamiento es par, y pierde $1 000 si es impar. ¿Aceptaría jugar? Explique su respuesta y
fundaméntela.
Respuesta: Aceptaría, pues esperaría ganar $142,81 por juego, después de muchos juegos.
6. La demanda semanal de cierto artículo es una variable aleatoria cuya función de probabilidad es la
siguiente:
x 0 1 2 3 4 5
f(x) 0,10 0,20 0,30 0,20 0,15 0,05
Un fabricante puede producir estos artículos a un costo unitario de $300, fijando su precio de ven-
ta en $800 cada uno; pero, por cada artículo que no venda en la semana, debe pagar $50 por alma-
cenaje. Si el fabricante dice producir tres artículos semanales, ¿cuál es su utilidad semanal espera-
da?
7. Se tiene el siguiente juego de azar: El jugador participante debe hacer un máximo de 2 lanzamien-
tos de tres monedas. Si obtiene tres caras o tres sellos en cualquiera de estos lanzamientos, gana
$10. Si no ocurre esto, y repite el resultado del primer lanzamiento, gana $5. Si no ocurre ninguna
de estas dos cosas, pierde $20. Determine la ganancia o pérdida esperada, interpretando este resul-
tado.
8. Se lanzan dos dados cuyas caras muestran: (0,0,1,2,3,4) y (0,0,1,2,2,3).
a) Construya una función de probabilidad para la suma obtenida y construya su gráfico.
b) Grafique la función de distribución.
c) Determine el valor esperado y la desviación estándar.
9. Suponga que usted tiene dos dados como los del problema 8. Si al lanzarlos obtiene una suma me-
nor que tres, pierde $100; si obtiene suma 3 no gana ni pierde; y si obtiene una suma mayor que 3
gana $100. ¿Cuál es la ganancia esperada?
Función de Probabilidad 69

10. La calificación promedio en una prueba de Matemáticas fue 65,2 con una desviación estándar de
10. El profesor desea ajustar todas las calificaciones de manera que el promedio sea 70 y la des-
viación estándar de 8. ¿Qué debe hacer?
11. Una moneda se lanza al aire 4 veces. Represéntense los resultados cara y sello por "0" y "1" res-
pectivamente. Sea X la suma de los resultados de los 2 primeros lanzamientos e Y la suma de los
resultados de los 4 lanzamientos.
a) Represente el espacio muestra.
b) Construya la tabla de la función bivariante de probabilidad.
c) Determine: E(XY), E(X + Y), E(X – Y), σXY.
Respuesta: 2,5; 3; –1; 0,5.
12. Un grupo de alumnos de la UDEP está conformado por 6 alumnos de Ingeniería, de los cuales 3
son hombres y 3 son mujeres; y 4 de Administración de Empresas, de los cuales 2 son hombres
y 2 son mujeres. Se va a seleccionar aleatoriamente un comité de 2 personas para que organicen
la fiesta de fin de semestre. Sea X el número de mujeres seleccionados e Y el número de estu-
diantes de Ingeniería seleccionados.
a) Elabore la tabla de la función bivariante de probabilidad.
b) Si en el comité hay sólo una mujer, ¿cuál es la probabilidad de que las dos personas sean de
Ingeniería?
Respuesta: 9/25.
c) Si en el comité no hay nadie de Ingeniería, ¿cuál es la probabilidad de que las dos personas
sean mujeres?
Respuesta: 1/6.
13. Dos jugadores A y B tienen 18 y 24 cartas, respectivamente, rojas y negras. A extrae una carta
de B, y B extrae una de A, simultáneamente. Se considera que un jugador tiene éxito cuando ex-
trae una carta roja. La probabilidad de que B tenga éxito es 1/4, la probabilidad de que ambos
fracasen simultáneamente es 1/3 y la probabilidad de que B tenga éxito y A fracase es 1/9.
¿Cuántas cartas rojas tiene cada jugador?
Respuesta: A tiene 10 y B tiene 6.
14. Una máquina que llena bolsas de café descarga en promedio 200 g. por bolsa. El gerente de pro-
ducción, que sabe que lo adecuado en el proceso de llenado es la menor variabilidad posible,
quiere que el peso de las bolsas no se aleje más de 2 g. del promedio en más del 90% de las bol-
sas. ¿Cuál es la máxima desviación estándar que debe tener este proceso para que se cumpla el
objetivo del gerente de producción?
15. En un juego de azar, la probabilidad de ganar es de 9/20. Un jugador participa en 20 juegos con-
secutivos, apostando un dólar en cada juego.
a) ¿Cuál es la ganancia o pérdida esperada?
b) ¿Cuál es la probabilidad de que su ganancia sea, por lo menos, tres dólares?
16. A un constructor le aseguran que las bolsas de cemento que está comprando tienen un peso pro-
medio de 50 Kg. con una desviación estándar de 0,11 Kg. ¿Qué porcentaje de bolsas espera que
pesen menos de 49 Kg?
17. Los registros de ventas diarias de una empresa fabricante de computadoras muestran que se ven-
derán 0, 1 ó 2 sistemas centrales de cómputo con las siguientes probabilidades:
Número de ventas 0 1 2
Probabilidad 0,7 0,2 0,1

a) Determine la distribución de probabilidad del número de ventas en un período de 2 días, supo-


niendo que las ventas son independientes de un día a otro.
Respuesta:
Número de ventas 0 1 2 3 4
Probabilidad 0,49 0,28 0,18 0,04 0,01
70 Función de Probabilidad

b) Calcule la probabilidad de que al menos se formalice una venta en un período de 2 días.


Respuesta: 0,51
18. Se tiene el siguiente juego de azar: el jugador participante debe hacer un máximo de dos lanza-
mientos de tres monedas. Si obtiene tres caras o tres sellos en cualquiera de estos lanzamientos,
gana S/.10 000. Si no ocurre esto, y repite el resultado del primer lanzamiento, gana S/.5 000.
Si no ocurre ninguna de estas dos cosas, pierde S/.20 000. Determine la ganancia o pérdida es-
perada e interprete este resultado.
19. Si un alumno contesta las 144 preguntas de un examen verdadero/falso lanzando una moneda
(cara = verdadero; sello = falso).
a) ¿Cuál es la probabilidad de contestar correctamente más de 48 y menos de 96 preguntas?
b) Determine la misma probabilidad empleando la desigualdad de Tchebychev.
20. Considere el experimento de lanzar dos dados al aire. Sea X la variable aleatoria que representa
el valor absoluto de la diferencia de los valores observados. Encuentre la función de probabili-
dad de X.
Respuesta:
x 0 1 2 3 4 5
P(x) 6/36 10/36 8/36 6/36 4/36 2/36
21. Un aparato electrónico tiene cuatro transistores, de los cuales se sabe que dos están defectuosos.
Los transistores se prueban siempre, uno a la vez, hasta identificar los dos defectuosos. Sea n1 el
número de pruebas hasta encontrar el primer transistor defectuoso y n el número de pruebas adi-
cionales hasta encontrar el segundo. Encuentre la función conjunta de probabilidad de n1 y n2.
(Escriba esta función en forma de tabla expresando las probabilidades con fracciones).
22. Se tiene el siguiente juego de azar: el jugador participante debe lanzar una moneda sucesivamen-
te. Si la diferencia entre el número de caras y de sellos (o viceversa) llega a ser igual a 3 al tercer
lanzamiento, gana $20. Si esto ocurre al quinto lanzamiento, gana $10. Si ocurre al séptimo lan-
zamiento, gana $5. Si necesita más de 7 lanzamientos para conseguir dicha diferencia, pierde
$10. ¿Cuál es la ganancia esperada?
Distribuciones discretas de probabilidad 71

Capítulo 5. Distribuciones discretas de probabilidad


5.1 La distribución uniforme discreta
Si una variable aleatoria discreta X puede tomar cualesquiera de n valores distintos: x1, x2, …, xn,
igualmente probables, se dice que tiene una distribución uniforme discreta. Por lo tanto la probabilidad
de que X tome un valor xi será:
1
f ( xi ) =
n
El valor esperado y la varianza de una variable uniforme discreta se calculan de la siguiente ma-
nera:
n
n
1 1
∑ ; σ = ∑ (x − µ) ⋅
2 2
µ= xi ⋅ i
i =1 n i =1 n
Un caso especial de distribución uniforme discreta se tiene cuando X = 1, 2, 3, …, n. En este ca-
so el valor esperado y la varianza resultan:
n n
1 1 1 n (n + 1) n + 1
µ= ∑
i =1
xi ⋅ =
n n
∑x
i =1
i =
n

2
=
2

n +1
µ=
2
n n n n n
1 1 1 1 1
σ2 = ∑ ( x i − µ )2 ⋅ = ∑ ( x i − µ )2 =
i =1 n n i =1 n
∑i =1
xi2 +
n

i =1
µ2 −
n
∑x µ =
i =1
i

=
(n + 1)(2n + 1)  n + 1  (n + 1)(2n + 1) (n + 1)

2
= −
2
=
n 2 −1
 
6  2  6 4 12

n 2 −1
σ2 =
12

5.2 La distribución binomial

5.2.1 Probabilidad binomial


A continuación se muestran dos ejemplos donde se calcula la probabilidad de que, de una mues-
tra de n elementos, una cantidad x cumpla con cierta característica, conociendo cuál es la proporción
de la población que cumple con dicha característica. Esta proporción puede interpretarse como la pro-
babilidad de que un elemento de la población tenga la mencionada característica.
Ejemplo 1
El 30% de todos los vehículos que llegan por una calle a cierta intersección giran hacia la iz-
quierda. Si en un determinado momento se encuentran en dicha intersección 8 autos detenidos
por la luz roja del semáforo ¿cuál es la probabilidad de que giren hacia la izquierda exactamente
tres?
72 Distribuciones discretas de probabilidad

Aplicando el teorema generalizado de la multiplicación, para eventos independientes, y multi-


plicando por el número de formas en que se pueden ordenar los 8 autos, que conforman un sub-
grupo de 3 autos que giran hacia la izquierda y otro subgrupo de 5 autos que no giran hacia la
izquierda:
8!
P = (0,3)(0,3)(0,3)(0,7)(0,7)(0,7)(0,7)(0,7)
3!5!
8!
P= (0,3)3(0,7)5 = 0,2541
3!5!
Ejemplo 2
La probabilidad de que un operario haga menos de 10 piezas en una jornada de trabajo es 0,20.
Determine la probabilidad de que durante la próxima semana (de 6 días laborables), en 3 días
haga menos de 10 piezas por jornada.
6!
P = (0,2)(0,2)(0,2)(0,8)(0,8)(0,8)
3!3!
6!
P= (0,2)3 (0,8)3 = 0,0819
3!3!
Se puede notar que en ambos problemas se calcula la probabilidad de que, de una muestra de n
elementos, x tengan cierta característica, y los restantes (n – x) no la tengan; siendo constante la pro-
babilidad (p) de que un elemento cualquiera tenga dicha característica, así como la probabilidad de que
no tenga la mencionada característica (q = 1 – p).
Nótese que, aunque se extraen varios elementos de la población, todos juntos o uno por uno, la
probabilidad de que sea extraído un elemento cualquiera (p) se mantiene constante.
En situaciones como ésta, la probabilidad de que, de una muestra de n elementos, x tengan dicha
característica, es:
n!
P( x) = p x qn−x
x!(n − x)!

A esta probabilidad, P(x), se le denomina probabilidad binomial. Usualmente a n se le denomina


número de pruebas binomiales, a p probabilidad de éxito, y a q probabilidad de fracaso, en cada prue-
ba binomial.

5.2.2 La función binomial de probabilidad.


La función binomial de probabilidad, o distribución binomial, está formada por el conjunto de
parejas ordenadas {xi, P(xi)}, donde X puede tomar los valores 0, 1, 2, 3, ... , n; y P(x) es la probabili-
dad binomial ya definida. Se dice entonces que la variable X (número de elementos de la muestra que
tienen cierta característica) tiene una distribución binomial.
Es necesario probar que ∑ P(x) es igual a 1. Para esto veamos el siguiente desarrollo binomial
(binomio de Newton):
 n  n  n   n
(p + q)n =   p0 qn +   p1 qn + ... +   pn – 1 q1 +   pn q0
 0 1  n − 1  n
Los términos de esta sumatoria coinciden con las probabilidades binomiales P(0), P(1), ..., P(n).
Dado que (p + q)n es siempre igual a 1, queda demostrado que ∑ P(x) = 1. De esta propiedad de-
riva el nombre de "probabilidad binomial".
La distribución binomial se representa gráficamente mediante diagramas de barras. A estos dia-
gramas trazados con barras de ancho unitario se les suele llamar histogramas binomiales. A continua-
ción (figura 5.1) se muestran algunos ejemplos de histogramas binomiales.
Distribuciones discretas de probabilidad 73

n = 6; p = 0,2 n = 10; p = 0,9

0,6 0,6
0,4 0,4
P(x)

P(x)
0,2 0,2
0 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8 9 10
x x

n = 12; p = 0.5 n = 12; p = 0,3

0,3 0,3
0,2 0,2
P(x)

P(x)
0,1 0,1
0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 0 1 2 3 4 5 6 7 8 9 10 11 12
x x

Figura 5.1 Histogramas binomiales


Estos histogramas binomiales son muy útiles para visualizar qué tan probables son los posibles
resultados de un muestreo. Por ejemplo, si en una población, conformada por familias de Piura, el 50%
consumen leche en polvo; la probabilidad de que, de una muestra de 12 familias, 8 consuman leche en
polvo (resulta aproximadamente 0,12) está representada por el rectángulo que corresponde a x = 8 en
el tercer gráfico. Si el porcentaje de familias de Piura que consumen leche en polvo fuese 30%, la pro-
babilidad de que, de una muestra de 12 familias, 8 consuman leche en polvo, está representada por el
rectángulo que corresponde a x = 8 en el cuarto gráfico. Como se ve, esta última probabilidad es casi
nula (aproximadamente 0,008). Se podría afirmar, inclusive, que es prácticamente improbable que,
dado que el 30% de las familias consumen leche en polvo, en una muestra de 12 familias, 8 ó más
consuman leche en polvo.

5.2.3 El valor esperado y la varianza


El valor esperado de una variable X es Σxi f(xi). En el caso de la función binomial de probabili-
dad, donde X puede tomar los valores 0, 1, 2, 3, ... , n; se tendrá:
µ = ΣxP(x)
 n  n n!
µ = Σ x   p x q n − x donde   =
 x  x  x!(n − x)!
 n
µ = p Σ x   p x −1 q n − x
 x
Pero:
δ  n  n
Σ   p x q n − x = Σ x   p x −1 q n − x
δp  x   x
Entonces:
74 Distribuciones discretas de probabilidad

δ  n  δ 
µ=p  Σ   p x q n − x  = p  ( p + q ) n 
 δp  x   δp 
µ = pn (p + q)n – 1 = pn
µ = np
Si p representa la proporción de la población que tiene cierta característica, np representará , ló-
gicamente, cuántos elementos de la muestra se espera que tengan dicha característica.
La varianza de X, con función binomial de probabilidad, será:
 n
σ 2 = Σx2P(x) – µ2 = Σ x2   p x q n − x – µ2
 x
Pero:
δ2  n  n
2
Σ   p x q n − x = Σ x(x – 1)   p x − 2 q n − x =
δp  x  x
 n  n
= Σ x2   p x − 2 q n − x – Σ x   p x − 2 q n − x =
 x  x
 1   n  1   n
=  2  Σ x2   p x q n − x – 
p 
2
 Σ x   p x q n − x =
p   x    x

 1   n  1 
=  2  Σ x2   p x q n − x –  
 p 2  np =
p   x  
Pero también:
δ2
2
(p + q)n = n(n – 1)( p + q)n – 2 = n(n – 1) = n2 – n
δp
Entonces:
 1  2  n x n− x  1 
   
 p 2  Σ x  x  p q –
2
 p 2  np = n – n
     
 n
Σ x2   p x q n − x = n2 p2 – np2 + np
 x
Por lo tanto:
σ 2 = n2 p2 – np2 + np – n2 p2
σ 2 = np – np2 = np(1 – p)
σ 2 = npq

5.2.4 Cálculo de probabilidades binomiales acumulativas.


El cálculo de probabilidades binomiales puede simplificarse considerablemente mediante el em-
pleo de tablas, como las del apéndice (pág. 253), que nos proporcionan directamente probabilidades
acumulativas. Esta tabla permite calcular probabilidades acumulativas para distribuciones binomiales
con p = 0,05; 0,10; 0,15; 0,20; 0,25; ... 0,50; y para n = 1, 2, 3, ..., 19, 20. Para estos dos parámetros, n
y p, se puede calcular:
Distribuciones discretas de probabilidad 75

n
n
∑  x  p
x=k
x
qn−x ... donde k puede ser: 1, 2, 3,..., ó n.

Por ejemplo, para n = 8 se tiene:


p
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
8 1 0,3366 0,5695 0,7275 0,8322 0,8999 0,9424 0,9681 0,9832 0,9916 0,9961
2 0,0572 0,1869 0,3428 0,4967 0,6329 0,7447 0,8309 0,8936 0,9368 0,9648
3 0,0058 0,0381 0,1052 0,2031 0,3215 0,4482 0,5722 0,6846 0,7799 0,8555
4 0,0004 0,0050 0,0214 0,0563 0,1138 0,1941 0,2936 0,4059 0,5230 0,6367
5 0,0000 0,0004 0,0029 0,0104 0,0273 0,0580 0,1061 0,1737 0,2604 0,3633
6 0,0000 0,0000 0,0002 0,0012 0,0042 0,0113 0,0253 0,0498 0,0885 0,1445
7 0,0000 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0085 0,0181 0,0352
8 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0017 0,0039

Ejemplo 1:
Para el primer ejemplo de este capítulo (n = 8; p = 0,3), determine la probabilidad de que por lo
menos 3 vehículos giren hacia la izquierda.
8
8
P(X ≥ 3) = P(3) + P(4) + ... + P(8) = ∑  x  0,3
x =3
x
0,7 8 − x

En la tabla encontraremos, para n = 8, p = 0,30 y k = 3


P(X ≥ 3) = 0,4482
Ejemplo 2:
¿Y cuál será la probabilidad de que giren hacia la izquierda menos de 5 vehículos?
4
8
P(X < 5) = P(0) + P(1) + ... + P(4) = ∑  x  0,3
x=0
x
0,7 8 − x = 1 – [P(5) + P(6) + ... + P(8)] =

8
8
=1– ∑  x  0,3
x =5
x
0,7 8 − x

Viendo en la tabla, para p = 0,30 y k = 5


P(X < 5) = 1 – 0,0580 = 0,9420
Ejemplo 3:
Supongamos que el 60% de los vehículos siguen de frente. ¿Cuál es la probabilidad de que, del
grupo de 8, al menos 5 sigan de frente?
8
8
P = P(5) + P(6) + P(7) + P(8) = ∑  x  0,6
x=5
x
0,4 8 − x

Considerando aquella propiedad del desarrollo binomial, por ejemplo, de (p + q)n, que los tér-
minos equidistantes resultan iguales si se intercambian los exponentes de p y q, se tiene:
8
8 x 3
8
∑   0,6 0,4 8 − x =
x=5 x
∑  x  0,4
x=0
x
0,6 8 − x

Por lo tanto:
76 Distribuciones discretas de probabilidad

8
8
P=1– ∑  x  0,4
x=4
x
0,6 8 − x

P = 1 – 0,4059 = 0,5941

5.2.5 La proporción muestral como estimación de la proporción poblacional.


Si X, que representa cuántos elementos de una muestra de tamaño n tienen cierta característica,
es una variable binomial, siendo p la proporción de la muestra que tiene dicha característica; la varia-
ble X/n, que representa la proporción de la muestra que tiene tal característica, también es binomial
con media igual a p y desviación estándar igual a pq / n .

Según el teorema de Tchebycheff, la probabilidad de que X/n se desvíe de la media p una distan-
cia mayor o igual a kσ, no puede ser mayor que 1/k2. Es decir:
1
P≤
k2
Si a la distancia kσ se le llama d:

d = kσ = k pq / n
Se puede deducir que:
1 pq / n
= 2
k2 d
Por lo tanto:
pq
P≤
d 2n
Cuando n tiende a infinito, esta probabilidad tiende a cero, lo que indica que X/n será práctica-
mente igual a p.

5.2.6 La distribución binomial en Excel


La función DISTR.BINOM de Excel permite calcular una probabilidad binomial específica o
probabilidades acumulativas, para cualesquiera valores de n y p.
Aprovechando las bondades de Excel, es posible calcular todas las probabilidades P(x) que con-
forman una función binomial de probabilidad y trazar el histograma binomial correspondiente.

5.3 La distribución binomial negativa


La probabilidad de que, de una muestra de n elementos, una cantidad x cumpla con cierta carac-
terística, conociendo qué proporción de la población tiene dicha característica (p), es la probabilidad
binomial P(x).
Como se ha visto en los ejemplos de probabilidad binomial del apartado 5.2.1, la extracción de n
elementos puede interpretarse como una extracción sucesiva de elementos, uno por uno, hasta comple-
tar n. Recuérdese que a p se le denomina probabilidad de éxito, o también, la probabilidad de que un
elemento de la población tenga cierta característica; y a q probabilidad de fracaso, o también, la pro-
babilidad de que un elemento de la población no tenga dicha característica.
En algunas situaciones puede resultar interesante calcular la probabilidad de que en la n-ésima
extracción ocurra el k-ésimo éxito. Para que esto ocurra, es necesario que en las n – 1 extracciones an-
teriores hayan ocurrido k – 1 éxitos, y que en la siguiente extracción (la n-ésima) ocurra otro éxito (el
k-ésimo). Esta probabilidad será entonces:
Distribuciones discretas de probabilidad 77

 n − 1 k −1 n − k
P =   p q ⋅ p
 k − 1
Lo que resulta:

 n − 1 k n − k
P(n; k , p ) =   p q para n = k, k + 1, k + 2, …
 k − 1
Por lo tanto, el número de la extracción en la cual ocurre el k-ésimo éxito es una variable aleato-
ria que tiene una distribución binomial negativa con parámetros k y p.
El nombre distribución binomial negativa se debe a que los valores de P(n; k, p), para n = k, k +
−k
1 q
1, k + 2, …, son los términos sucesivos del desarrollo binomial de  −  .
 p p
A la distribución binomial negativa se le conoce también como distribución de Pascal.
Ejemplo 1:
Una máquina que produce cierto tipo de piezas mecánicas no está bien ajustada, por lo que el
porcentaje de piezas defectuosas es 4,2%.
a) ¿Cuál es la probabilidad de que produzca la décima pieza buena cuando ya se han producido
dos piezas defectuosas?
p = 1 – 0,042 = 0,958
n = 12
k = 10

 n − 1 k n − k 11
P(n; k, p) = P(12; 2, 0,042) =   p q =   (0,958)10 (0,042) 2 = 0,06317
 k − 1  9
b) ¿Cuál es la probabilidad de que produzca la décima pieza buena cuando se han producido
más de dos piezas defectuosas?
Esta probabilidad es igual a uno menos la probabilidad de que se produzca la décima pieza
buena cuando ya se han producido menos de dos piezas defectuosas:
 9 10  11
1 – P =   (0,958)10 (0,042) 0 +   (0,958)10 (0,042)1 +   (0,958)10 (0,042) 2 = 0,01225
 9 9 9
P = 0,98775
Ejemplo 2:
El 30% de los niños expuestos a cierta enfermedad contagiosa, la contraen. ¿Cuál es la probabi-
lidad de que el octavo niño expuesto a esa enfermedad, sea el tercero en contraerla?
 7
P(8; 3, 0,3) =   (0,3) 3 (0,7) 5 = 0,0953
 2

5.4 La distribución de Poisson.

5.4.1 La función de probabilidad de Poisson


e−µ µ x
Sea X una variable aleatoria que puede tomar los valores: 0, 1, 2, 3, ... . Si P ( x) = , en-
x!
tonces la variable aleatoria discreta X tiene una función de probabilidad de Poisson, con parámetro µ.
78 Distribuciones discretas de probabilidad

La probabilidad de Poisson, P(x), expresa, por ejemplo, la probabilidad de que, en un determi-


nado intervalo de tiempo, ocurran exactamente x eventos, siendo µ la frecuencia media de ocurrencia,
es decir, el valor esperado de X.
Muchas variables aleatorias siguen distribuciones de Poisson. Por ejemplo, el número de vehícu-
los que llegan a una gasolinera, o el número de clientes que llegan a un banco en un determinado in-
tervalo de tiempo, o el número de defectos que hay en un lote de unidades producidas.
Se demuestra a continuación que {x, P(x)} es una función de probabilidad:
∞ ∞
e−µ µ x  µ µ µ 

x =0
P( x) = ∑
x =0 x!
= e − µ 1 + + + + ...  = e − µ e µ = 1
 1! 2! 3! 
Ejemplo 1:
En un taller donde cada operario trabaja con su respectiva máquina, hay un promedio de 3 má-
quinas en reparación. Si el taller cuenta con 4 máquinas de repuesto, ¿cuál es la probabilidad de
que haya dos operarios desocupados?
Se asume que el número de máquinas que hay en reparación tiene una distribución de Poisson.
Habrá dos operarios desocupados cuando haya 6 máquinas en reparación. La probabilidad de
que haya 6 máquinas en reparación es:
e − µ µ x e −3 × 3 6
P ( 6) = = = 0,0504
x! 6!
La probabilidad de que haya dos operarios desocupados es por lo tanto 0,0504.
Ejemplo 2:
Supóngase que número de clientes que llega a un banco sigue una distribución de Poisson, con
una media de 36 clientes por hora. ¿Cómo será la distribución de probabilidad del número de
clientes que llega cada 5 minutos?
36 × 5
El promedio de clientes que llega cada 5 minutos será: µ = = 3 clientes
60
Aplicando la fórmula, para x = 0, 1, 2, ... se obtiene:
x 0 1 2 3 4 5 6 7 8 9 10 > 10
P(x) 0,0498 0,1494 0,2240 0,2240 0,1680 0,1008 0,0504 0,0216 0,0081 0,0027 0,0008 0,0003

Como se puede apreciar, ya resulta poco probable que en 5 minutos lleguen más de 6 clientes.

5.4.2 El valor esperado y la varianza.


Se demuestra que el valor esperado de una variable aleatoria con distribución de Poisson, es
igual al parámetro µ.

e−µ µ x ∞ e−µ µ x
E ( x) = ∑
x =0
x⋅
x!
= ∑
x =1 ( x − 1)!

Haciendo el siguiente cambio de variable: s = x – 1



e − µ µ s +1 ∞
e−µ µ s
E ( x) = ∑
s =0
x⋅
s!


s =0 s!

Una característica de una variable con distribución de Poisson es que la varianza resulta igual al
valor esperado. Esto se demuestra a continuación:
σ 2 = E(x 2 ) − µ 2
Distribuciones discretas de probabilidad 79


e−µ µ x ∞ e−µ µ x
E(x 2 ) = ∑
x =0
x2 ⋅
x!
= x⋅
x =1

( x − 1)!
Haciendo el cambio de variable: x = s – 1

e − µ µ s +1 ∞
e−µ µ s ∞
e−µ µ s
E(x 2 ) = ∑
s =0
( s + 1) ⋅
s!

= µ s⋅
s =0 s!
+µ ∑
s =0 s!
= µ2 + µ

Por lo tanto:
σ 2 =µ2 +µ −µ2 =µ
En la figura 6.1 se muestran distribuciones de Poisson para distintos valores de µ. Para evitar
superposiciones de barras, se han trazado gráficos continuos en vez de los clásicos gráficos de barras.

0.40
µ=1
0.35

0.30
µ=2

0.25
µ=3
P(x)

0.20 µ=4
µ=5

0.15 µ=7
µ=9

0.10

0.05

0.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Figura 6.1 Distribuciones de Poisson

5.4.3 Cálculo de probabilidades acumulativas de Poisson


Para calcular probabilidades acumulativas de Poisson se puede recurrir a algunas tablas, como la
del apéndice (pág. 258), que ha sido elaborada para distintos valores de µ , que van desde 0,1 hasta 10,
con incrementos de 0,1; y desde 11 hasta 20, con incrementos de 1.
Ejemplo:
El número de órdenes de trabajo que llegan a una oficina es una variable con una distribución de
Poisson. Si en promedio llegan 5 órdenes por hora, ¿cuál es la probabilidad de que en la próxi-
ma hora lleguen menos de 5 órdenes?
Siendo µ = 5
4
e −5 5 x
P = P(0) + P(1) + ... + P(4) = = ∑
x =0 x!
0,4405

La probabilidad de que en la próxima hora lleguen menos de 5 órdenes es 0,4405.


80 Distribuciones discretas de probabilidad

5.4.4 Aproximación de la distribución binomial a la distribución de Poisson.


En el apartado 5.2.2 se vio que la probabilidad binomial es:
n! n (n − 1) (n − 2) ... (n − x + 1) x n − x
P ( x) = p x qn− x = p q
x!(n − x)! x!

µ
Sustituyendo: p =
n
x n− x
n ( n − 1) ( n − 2) ... ( n − x + 1)  µ   µ 
P( x) =   1 − 
x! n  n

Dividiendo cada uno de los x factores del numerador entre n, resulta:


 µx   1   2   µ n  µ − x
P ( x) =   (1) 1 −  1 −  ... 1 −  1 − 
  n  n  n  n
 x! 
Cuando n tiende a infinito y p tiende a cero, de tal forma que np se mantiene constante, la pro-
babilidad binomial P(x) tiende a:
 µx 
P ( x) =   e − µ
 x! 
Y esta es precisamente la probabilidad de Poisson definida en el apartado 5.4.1:
e−µ µ x
P( x) =
x!

Ejemplo:
En una fábrica, el 0,5% de la producción es defectuosa. ¿Cuál es la probabilidad de que haya
menos de 5 defectuosos:
a) en un lote de 2000 artículos?
n = 2000; p = 0,005
µ = np = 10
P = P(0) + P(1) + ... P(4) = 0,0293
b) en un lote de 1000 artículos?
n = 1000 ; p = 0,005
µ = np = 5
P = P(0) + P(1) + ... P(4) = 0,4405

5.4.5 La distribución de Poisson en Excel


La función POISSON de Excel permite calcular una probabilidad de Poisson específica o pro-
babilidades acumulativas, para cualquier valor de µ.
Aprovechando las bondades de Excel, es posible calcular todas las probabilidades P(x) que con-
forman una función de probabilidad de Poisson.
Distribuciones discretas de probabilidad 81

5.5 La distribución hipergeométrica.

5.5.1 La probabilidad hipergeométrica


A continuación se muestra un ejemplo donde se calcula la probabilidad de que, de una muestra
de n elementos, una cantidad x cumpla con cierta característica, conociendo cuántos elementos de la
población cumplen con dicha característica.
A diferencia de la probabilidad binomial, que considera poblaciones muy grandes; en este caso
se consideran poblaciones pequeñas, de tal manera que al seleccionar uno a uno los elementos de la
muestra, la probabilidad de seleccionar cada elemento no es constante.
Ejemplo:
Un fabricante de motores debe enviar un lote de 30 unidades de un modelo a un distribuidor. Por
un problema con el material de un proveedor, en el lote hay 5 motores defectuosos. Si el pro-
veedor selecciona aleatoriamente 6 motores para inspeccionarlos, ¿cuál es la probabilidad de
que escoja dos motores defectuosos?
Se va a calcular la probabilidad de que, de 25 motores buenos y 5 defectuosos, seleccione 3
buenos y 3 defectuosos.
La probabilidad que el primer motor seleccionado sea bueno es: 25/30.
La probabilidad que el segundo motor seleccionado sea bueno es: 24/29.
La probabilidad que el tercer motor seleccionado sea bueno es: 23/28.
La probabilidad que el cuarto motor seleccionado sea defectuoso es: 5/27.
La probabilidad que el quinto motor seleccionado sea bueno es: 4/26.
La probabilidad que el sexto motor seleccionado sea bueno es: 3/25.
Entonces, aplicando el teorema generalizado de la multiplicación, la probabilidad de seleccionar
3 motores buenos y 3 defectuosos es:
 25 24 23 5 4 3  6!
P = ⋅ ⋅ ⋅ ⋅ ⋅  = 0,03874
 30 29 28 27 26 25  3!3!
Pero, si la muestra fuese más grande, resultaría mucho más práctico calcular esta probabilidad
de la siguiente manera:
C (25, 3) × C (5, 3)
P= = 0,03874
C (30, 6)
Es decir:
 25   5 
   
3 3
P =   
 30 
 
6

Se puede notar que, de una población de N elementos donde k tienen la característica y N – k no


la tienen, se ha calculado la probabilidad de que se extraiga una muestra de n elementos, de tal manera
que x tengan dicha característica, y los restantes (n – x) no la tengan.
A dicha probabilidad se le denomina probabilidad hipergeométrica:

k  N − k 
   
 n   n − x 
P ( x , n, N , k ) =
N
 
n
82 Distribuciones discretas de probabilidad

5.5.2 La distribución hipergeométrica


Sea una variable aleatoria discreta X, que puede tomar los valores 0, 1, …, n. Se dice que X si-
gue una distribución hipergeométrica si P(x) es igual a:
k N − k
   
 n  n − x 
P ( x , n, N , k ) =
N
 
n

5.5.2 La media y la varianza


La media y la varianza de la distribución hipergeométrica son:
nk nk ( N − k )( N − n)
µ= ; σ2 =
N N 2 ( N − 1)
Distribuciones discretas de probabilidad 83

Problemas propuestos.
1. Luego de una serie de experimentos se determinó que la probabilidad de que una tachuela caiga en
cierta posición es de 0,45. ¿Cuál es la probabilidad de que, en un nuevo experimento se lance la
tachuela 18 veces y caiga en dicha posición 5 veces o menos?
2. La probabilidad de un lanzamiento exitoso es igual a 0,8. Si se hacen lanzamientos sucesivamente,
¿Cuál es la probabilidad de que en el décimo lanzamiento ocurra el quinto éxito, luego en el deci-
moquinto lanzamiento ocurra el octavo éxito, y, finalmente, en el vigésimo lanzamiento ocurra el
décimo éxito?
3. Un profesor de Estadística tiene una moneda deformada. Después de experimentar con ella, ha lle-
gado a la conclusión de que si la lanza muchas veces, obtendrá el triple número de caras que de se-
llos. Si se lanza dicha moneda 20 veces, ¿cuál es la probabilidad de obtener más de 15 caras?
4. En general, el 40% de los estudiantes que ingresan a una universidad terminan satisfactoriamente
la carrera. En un grupo de 18 recién ingresados escogidos aleatoriamente, ¿cuál es la probabilidad
de que al menos el 75% termine la carrera satisfactoriamente?
Respuesta: 0,0013
5. Supóngase que en cierta población el 55% son mujeres. Si una familia tiene 5 hijos. ¿Cuál es la
probabilidad de que no todos sean del mismo sexo?
Respuesta: 0,9312.
6. En un examen de Estadística conformado por 10 preguntas, sólo se debe contestar verdadero (V) o
falso (F) en las 5 primeras, y escoger una de cinco respuestas en cada una de las 5 restantes. Si un
alumno decide contestar todas las preguntas, al azar:
a) ¿Cuál es el número esperado de respuestas correctas? Interprete este valor.
Respuesta: Si el alumno repite este experimento muchas veces, en promedio tiende a contestar
3,5 preguntas correctamente.
b) Si todas las preguntas tienen el mismo puntaje, y no hay descuentos por preguntas mal contes-
tadas, ¿cuál es la probabilidad de aprobar?
Respuesta: 0,08229
7. Una persona participa en un juego donde la probabilidad de ganar es 0,40. ¿Cuántas veces debe
jugar si quiere que la probabilidad de ganar al menos 3 veces sea mayor que 0,80?
Respuesta: Debe jugar más de 10 veces.
8. Un experimento consiste en realizar pruebas binomiales hasta que ocurran exactamente k éxitos. Si
la probabilidad de éxito en cada prueba binomial es p, ¿cuál es la probabilidad de concluir dicho
experimento con x fracasos?
9. En una empresa que vende artefactos domésticos se sabe que la oportunidad de vender es mayor
mientras más contactos realicen con los clientes potenciales. Si la probabilidad de que una persona
compre una lustradora después de la visita es constante e igual a 0,20, y si las visitas son indepen-
dientes unas de otras, ¿cuántos clientes potenciales debe visitar un vendedor, para que la probabi-
lidad de vender por lo menos una lustradora sea al menos 0,8?
10. En un juego de azar, la probabilidad de ganar es de 9/20. Un jugador participa en 20 juegos conse-
cutivos, apostando un dólar en cada juego.
a) ¿Cuál es la ganancia o pérdida esperada?
Respuesta: Espera perder 2 dólares.
b) ¿Cuál es la probabilidad de que su ganancia sea, por lo menos, tres dólares?
Respuesta: 0,1308.
11. El número de clientes que llega a un banco es una variable aleatoria de Poisson. Si en promedio
llegan 120 clientes por hora ¿Cuál es la probabilidad de que:
84 Distribuciones discretas de probabilidad

a) en un minuto lleguen por lo menos 4 clientes?


b) en 5 minutos lleguen menos de 10 clientes?
12. El jefe del centro de cómputo de un banco afirma que la probabilidad de que las digitadoras pulsen
la tecla de un carácter incorrectamente, es igual a 0,001. Bajo este supuesto, ¿cuál es la probabili-
dad de que, de 10 000 teclas pulsadas, se cometan más de 15 errores?
13. Se ha estimado que el 2% de los alumnos de la UDEP provienen de Morropón. ¿Cuál es la proba-
bilidad de que, en una muestra de 400 alumnos, 15 sean de Morropón?
14. El número de errores que comete cierta secretaria al escribir una página, tiene una distribución de
Poisson, con un promedio de 2 errores. Si escribe un trabajo de 75 páginas, ¿en cuántas páginas
espera encontrar:
a) un error?
Respuesta: en 20,3
b) dos errores?
Respuesta: en 20,3
c) tres errores?
Respuesta: en 13,533
d) más de tres errores?
Respuesta: en 10,717
15. En cierto distrito escolar donde hay 2 000 maestros, la proporción media de maestros ausentes por
día escolar es de 0,5%. Determine la probabilidad de que un cierto día todos los maestros estén en
su trabajo.
16. En general, el 1% de ciertas piezas son defectuosas. Si se compran 200, ¿cuál es la probabilidad de
que haya menos de 8 defectuosas?
Respuesta: 0,998903
17. El jefe de seguridad de una planta industrial dio a conocer el número de accidentes semanales ocu-
rridos en los últimos años, mediante la siguiente tabla:
N° de accidentes 0 1 2 3 4 5 6 7 8 9 10 11 12 13
Frecuencia 0 3 9 18 27 31 34 27 21 14 8 5 2 1
a) ¿Se ajusta a una distribución de Poisson la distribución de frecuencias de accidentes semanales
en dicha planta?
b) ¿Qué probabilidad hay de cuatro a más accidentes semanales?
Respuesta: Aproximadamente 0,8488 (con µ = 6)

18. Se encuentran en promedio 9,4 ralladuras por cada 10 m2 de planchas de acero que se producen en
una fábrica. ¿Cuál es la probabilidad de que una plancha de 1 m2 no tenga ralladuras?
19. El inspector de productos terminados de una fábrica debe hacer una rápida inspección de una
muestra de 8 unidades, extraída de un lote de 20 unidades. Si en el lote hay 3 unidades defectuosas
a) ¿Cuál es la probabilidad de que no extraiga ninguna unidad defectuosa?
b) ¿Cuántas unidades defectuosas espera extraer el inspector?
20. Un alumno contesta las 20 preguntas de un examen verdadero/falso lanzando una moneda (cara =
verdadero; sello = falso). Cada pregunta bien contestada vale +1; mal contestada -0,5.
a) ¿Cuál es la probabilidad de aprobar el examen?
b) ¿Cuál es la nota esperada?
c) Otro alumno que rinde este mismo examen ha estudiado lo suficiente como para afirmar que la
probabilidad de acertar cualquier respuesta es 0,8. ¿Cuál es la probabilidad de que apruebe el
examen, si también contesta las 20 preguntas? ¿Cuál es su nota esperada?
21. Una experta tiradora falla en el 5% de los tiros al blanco. ¿Cuál es la probabilidad de que falle por
segunda vez en el tiro número 15?
Distribuciones discretas de probabilidad 85

22. El número promedio de descomposturas por mes de una PC es 1,8. Determine la probabilidad de
que esta PC funcione durante un mes:
a) sin descomposturas
Respuesta: 0,1653
b) con al menos 3 descomposturas.
Respuesta: 0,2694
23. Se selecciona una caja con 20 CDs producidos mediante un nuevo proceso. Si en esta caja se espe-
ra encontrar 2 CDs defectuosos, ¿cuál es la probabilidad de que haya más de dos CDs defectuo-
sos?
24. La central telefónica de una empresa recibe un promedio de dos llamadas por minuto. Si la telefo-
nista se distrae durante un minuto, ¿cuál es la probabilidad de que no haya respondido al menos
una llamada?
25. Supóngase que el 90% de los cables que se producen en una fábrica soportan una tensión mayor
que 200 Kg. ¿Cuál es la probabilidad de que, de una muestra de 6 cables:
a) todos soporten una tensión mayor que 200 Kg?
Respuesta: 0,5314
b) recién el quinto cable muestreado no soporte una tensión mayor que 200 Kg?
Respuesta: 0,0656
26. El director de un centro de cómputo se pregunta si el número de solicitudes para acceso a una
computadora sigue aproximadamente una distribución de Poisson. Para verificarlo, cuenta con los
datos de la siguiente tabla:
Nº de solicitudes de acceso por hora 0 1 2 3 4 5 6 7 8 9 y más
Frecuencia 55 61 50 32 18 9 5 2 1 0
a) Verifique si la media y la varianza son similares.
b) Determine las frecuencias que se esperaría tener si realmente el número de solicitudes para ac-
ceso a una computadora sigue una distribución de Poisson, y compárelas con las frecuencias
reales
27. Suponga que el número de clientes que salen de un consultorio médico tiene una distribución de
Poisson, con una media de 4,6 clientes por hora. Determine la probabilidad de que salgan más de 3
pacientes del consultorio en el lapso de media hora.
86 Distribuciones continuas de probabilidad

Capítulo 6. Distribuciones continuas de probabilidad


6.1 La función densidad de probabilidad.

6.1.1 Introducción
Dado un conjunto de datos que definen una variable aleatoria continua, se puede conformar una
distribución de frecuencias agrupadas, cuyo histograma y polígono de frecuencias nos dan una idea
clara de cómo se distribuye dicha variable aleatoria. Si el número de clases es pequeño, el polígono de
frecuencias se verá claramente discontinuo como se ve en la figura 6.1; pero si el número de clases es
muy grande, el polígono se parecerá más a una curva continua.

f f

x x
Figura 6.1 Polígono de frecuencias cuando la longitud de clase decrece

El área bajo el polígono de frecuencias es Nk (N = nº de datos; k = longitud de clase). Dividien-


do cada frecuencia fi entre Nk, se consigue que dicha área sea igual a 1, como se ve en la figura 6.2.

f
Nk

A=1

x
Figura 6.2 Polígono de frecuencias con área igual a 1.

El área entre dos valores cualesquiera de X, por ejemplo a y b, representará la probabilidad de


que la variable aleatoria X tome un valor que esté comprendido entre a y b.
La función f(x), cuya gráfica es la curva límite que se obtiene a partir del polígono de frecuen-
cias cuando la longitud de las clases tiende a cero, es decir, cuando el número de clases tiende a infini-
to, es la función densidad de probabilidad para la variable aleatoria continua X.

6.1.2 La función densidad de probabilidad.


Se define la función densidad de probabilidad como aquella función f(x), tal que:
Distribuciones continuas de probabilidad 87

1) f(x) ≥ 0, para: – ∞ < x < ∞


+∞
2) ∫ f ( x) dx =1
−∞
b
3) P(a ≤ x ≤ b) = ∫ f ( x) dx
a

donde a y b son dos valores cualesquiera, como se ve en la figura 6.3.

f(x)

a b x
Figura 6.3 Probabilidad de que X tome un valor comprendido entre a y b.

Se deduce, a partir del gráfico, que la probabilidad de que X tome exactamente un valor xi es ce-
ro. Esto no significa que es imposible que X tome ese valor; sino que es muy poco probable. Por ejem-
plo, la probabilidad de que un alumno escogido al azar en un colegio, pese exactamente 65,3492 Kg.,
es prácticamente nula.
Para las distintas variables aleatorias continuas que se puedan analizar en los distintos campos
de la ciencia, se tendrán distribuciones cuyos polígonos de frecuencia serán muy parecidos a ciertas
funciones densidad de probabilidad. El análisis de estas variables se simplifica enormemente em-
pleando las funciones densidad de probabilidad que resulten más apropiadas. A partir de este capítulo
se estudiarán algunas de éstas, como la función normal, uniforme, t de Student, Ji-cuadrada y F.

6.1.3 La media y la varianza.


A partir de las definiciones de valor esperado y varianza de una variable aleatoria discreta, y
considerando la definición de la función densidad de probabilidad, se deduce que, para una variable
aleatoria continua, el valor esperado y la varianza serán:
+∞
µ = ∫ x ⋅ f ( x) dx
−∞

+∞
σ 2 = ∫ ( x − µ ) 2 f ( x) dx
−∞

6.2 La distribución normal

6.2.1 La función densidad normal de probabilidad


En investigaciones realizadas sobre una gran cantidad de variables aleatorias continuas, se ha
visto que éstas tienen una distribución bastante simétrica en forma de campana, como se ve en la figu-
ra 6.4.
Se puede afirmar inclusive que la gran mayoría de medidas que se puedan tomar en cualquier
proceso productivo tienen esta distribución simétrica en forma de campana, si el proceso está bajo
control.
88 Distribuciones continuas de probabilidad

f(x)

x
Figura 6.4 Histograma simétrico en forma de campana

Variables aleatorias como ésta, pueden analizarse tomando como modelo una función denomi-
nada función densidad normal de probabilidad.
La función densidad normal de probabilidad es la siguiente:
2
1  x− µ 
1 −  
f ( x) = e 2 σ 

2π σ
Su representación gráfica, conocida como curva normal o "campana de Gauss", se muestra en la
figura 6.5.
f(x)

µ x
Figura 6.5. Curva normal o campana de Gauss

La curva normal es simétrica y asintótica al eje x. Además, puede comprobarse, integrando la


función f(x), que el área bajo la curva normal es igual a uno.
Los parámetros µ y σ representan la media y la desviación estándar, respectivamente, de la va-
riable aleatoria X, y determinan la posición y la forma (variabilidad) de la función f(x).
En la figura 6.6 se puede apreciar cómo cambia la posición de la curva normal al variar la me-
dia. Se ve que: µ 1 < µ 2 < µ 3 ; y que las tres desviaciones estándar son iguales.

f(x)

µ 1 µ 2 µ 3 x
Figura 6.6. Curvas normales con distinta media.
Distribuciones continuas de probabilidad 89

En la figura 6.7 se ve, en cambio, cómo cambia la forma de la curva al cambiar la desviación es-
tándar. Evidentemente, si aumenta desviación estándar, la curva normal se hace más ancha, y por lo
tanto más baja. Recuérdese que el área bajo cualquier curva normal es siempre igual a uno. Se puede
apreciar que: σ 1 < σ 2 < σ 3 , y que las tres medias son iguales.

f(x)

σ1

σ2

σ3

µ x
Figura 6.7. Curvas normales con distinta desviación estándar

6.2.2 La forma estandarizada.


La ventaja de tomar la función densidad normal de probabilidad como modelo de muchas distri-
buciones está en la facilidad de calcular probabilidades. Si, por ejemplo, los pesos de las bolsas de de-
tergente que llena una máquina automática tienen una distribución normal, con un promedio de 30 on-
zas y una desviación estándar de 0,3 onzas, se podría determinar, por ejemplo, qué porcentaje pesa
menos de 29,5 onzas, es decir, cuál es la probabilidad de que una bolsa pese menos de 29,5 onzas.
Considerando la diversidad de variables cuya distribución es normal, se hace necesario emplear
una función densidad normal que sea independiente de los valores y unidades que puedan tomar di-
chas variables. Para esto, se define la variable estandarizada, Z, de la siguiente forma:
x− µ
z=
σ
Esta variable estandarizada mide el número de desviaciones estándares que un valor de X se
desvía de la media µ. Del ejemplo anterior, si una bolsa de detergente pesa 30,45 onzas, se puede
afirmar que se desvía de la media 0,45 onzas, o sea, z = (30,45 – 30)/0,30 = 1,5 desviaciones estándar.
Para esta variable estandarizada, se define la función densidad normal estandarizada, cuya repre-
sentación gráfica, conocida como curva normal estandarizada, se aprecia en la figura 6.8.
φ (z)

1
1 − z2
φ( z ) = e 2

z
Figura 6.8. Curva normal estandarizada.
90 Distribuciones continuas de probabilidad

El área bajo la curva normal estandarizada es también igual a uno; la media es cero y la desvia-
ción estándar uno. Esto último puede verificarse fácilmente aplicando los teoremas 4, 5 y 6 del aparta-
do 4.5.
El empleo de esta forma estandarizada ha permitido construir una única tabla para calcular pro-
babilidades, en vez de hacerlo para cada una de las infinitas funciones densidad normal de probabili-
dad que existen.
En la figura 6.9 se muestran tres curvas normales con medias 50, 100 y 150, y desviaciones es-
tándar 10, 20 y 10, respectivamente. Para cada curva se ha señalado un valor de X que se desvía de su
respectiva media 1,5 desviaciones estándar (z = 1,5). A la derecha se muestra la curva normal estanda-
rizada que representa a las tres curvas normales, con el valor de z correspondiente.

f(x) φ (z)

50 65 100 130 150 165 x 1,5 z

Figura 6.9. Representación de tres curvas normales mediante la curva normal estandarizada.

6.2.3 Áreas bajo la curva normal.


La probabilidad de que X esté comprendido entre dos valores x1 y x2 es igual al área que hay en-
tre dichos valores, bajo la curva normal, y es igual al área comprendida entre sus correspondientes va-
lores z1 y z2, bajo la curva normal estandarizada.
Así, por ejemplo, en la figura 6.9, el área que hay a la derecha de 65, 130 y 165, bajo cada una
de las tres curvas normales, es la misma, y corresponde al área que hay hacia la derecha de z = 1,5 bajo
la curva normal estandarizada.
Para calcular áreas bajo esta última curva se puede recurrir a la tabla del apéndice (pág. 264),
que permite hallar el área que hay desde cualquier valor no negativo de Z hasta infinito. Cualquier otra
área puede deducirse a partir de dicha tabla, que aquí se presenta en forma resumida:

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,500000 0,496011 0,492022 0,488033 0,484047 0,480061 0,476078 0,472097 0,468119 0,464144
0,1 0,460172 0,456205 0,452242 0,448283 0,444330 0,440382 0,436441 0,432505 0,428576 0,424655
0,2 0,420740 0,416834 0,412936 0,409046 0,405165 0,401294 0,397432 0,393580 0,389739 0,385908
... ... ... ... ... ... ... ... ... ... ...
0,9 0,184060 0,181411 0,178786 0,176186 0,173609 0,171056 0,168528 0,166023 0,163543 0,161087
... ... ... ... ... ... ... ... ... ... ...
4,8 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001
4,9 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000

Por ejemplo, el área que hay desde z = 0,24 hacia la derecha es 0,405165; el área que hay desde
z = 0,90 hacia la izquierda es 1 – 0,184060 = 0,815939.

6.2.4 Ordenadas de la curva normal.


Empleando una tabla similar a la anterior, que se muestra en el apéndice (pág. 265), se pueden
determinar las ordenadas de la curva normal estandarizada, para ciertos valores de la variable Z.
Esto resulta de mucha utilidad para trazar curvas normales, como se verá más adelante.
Distribuciones continuas de probabilidad 91

6.2.5 Propiedades de la curva normal.


La curva normal es simétrica y asintótica al eje de abscisas (X o Z).
Presenta: • un máximo para x = µ , (z = 0)
• puntos de inflexión para: x = µ – σ , (z = –1)
x = µ + σ , (z = +1)
Usando la tabla normal del apéndice (página 264), se puede determinar que:
µ+σ 1


µ−σ

f ( x)dx = φ( z )dz = 0,6826
−1

µ + 2σ 2

∫ f ( x)dx = ∫ φ( z)dz = 0,9544


µ − 2σ −2

µ + 3σ 3


µ −3 σ

f ( x)dx = φ( z )dz = 0,9974
−3

Estas áreas nos dan una buena idea de cómo es una distribución normal. La primera integral nos
indica que el 68,26% de los datos de una población normal se alejan de la media una cantidad menor
que una desviación estándar. La segunda integral nos indica que el 95,44% de los datos de una pobla-
ción normal se alejan de la media una cantidad menor que dos desviaciones estándar. La tercera inte-
gral nos indica que el 99,74% de los datos de una población normal se alejan de la media una cantidad
menor que tres desviaciones estándar. En la figura 6.10 se muestran estas áreas características.

f(x)

x
µ−3σ µ−2σ µ−σ µ+σ µ+2σ µ+3σ
0,6826
0,9544
0,9974

Figura 6.10. Áreas características bajo la curva normal

De esto último se puede afirmar que, con muy buena aproximación, casi el 100% de los datos de
una distribución normal están comprendidos entre µ – 3σ y µ + 3σ.
Ejemplos
1) La cantidad de arroz que una máquina vierte en sacos de 50 Kg. se considera como una variable
aleatoria con una distribución normal cuya media es 51,5 Kg., y su desviación estándar 700 g.
¿Qué porcentaje de sacos estima que pesan menos de 50 Kg?
92 Distribuciones continuas de probabilidad

µ = 51,5 kg.
σ = 0,70 kg.

50 − 51,5
z= = − 2,14
0,70

A = 0,0162

48.5 49 49.5 50 50.5 51 51.5 52 52.5 53 53.5 54 54.5

Respuesta: se estima que el 1,62% de los sacos de arroz pesan menos de 50 Kg.
2) La demanda mensual de cierto producto
tiene una distribución normal con una
media de 200 unidades y una desviación
estándar de 40 unidades. ¿Qué tan grande
debe ser el inventario disponible a
principio de un mes para que la
probabilidad de que la existencia se agote
no sea mayor de 0,05?
µ = 200 unidades xd
0 100 200 300 400
σ = 40 unidades
Para que la existencia xd se agote, la demanda debe ser mayor o igual que xd, y la probabilidad
de que esto ocurra debe ser menor de 0,05.
x d − 200
z 0,05 = 1,645 = ; xd = 265,8
40
Respuesta: debe tener un inventario de 266 unidades a principio de mes.

6.2.6 Aproximación a la distribución binomial.


A continuación se muestra cómo determinadas distribuciones binomiales se aproximan a una
distribución normal, a tal punto que puede ser sustituida por ésta en situaciones en que el manejo de la
distribución binomial se torna complicado para el cálculo de probabilidades acumulativas.
En la figura 6.11 se muestra el histograma binomial para una distribución con n = 10 y p = 0,5;
véase que hay simetría gracias a que p es igual a q. Nótese que se parece mucho a una curva normal.
f(x)
0.3
0.25
0.2
0.15
0.1
0.05
0 x
0 1 2 3 4 5 6 7 8 9 10
Figura 6.11. Histograma binomial para n = 10 ; p = 0,5
Distribuciones continuas de probabilidad 93

Para una distribución binomial con n = 10 y p = 0,1 el histograma binomial resulta bastante asi-
métrico, como se ve en la figura 6.12.
f(x)
0.5

0.4

0.3

0.2

0.1

0 x
0 1 2 3 4 5 6 7 8 9 10
Figura 6.12. Histograma binomial para n = 10; p = 0,1.

En esta última distribución binomial, con n = 10 y p = 0,1, el histograma binomial resulta menos
simétrico que el anterior porque p y q difieren mucho; sin embargo, para n = 60 y p = 0,1 el histogra-
ma binomial es casi simétrico a pesar de la diferencia entre p y q, como se muestra en la figura 6.13.

f(x)
0.2

0.15

0.1

0.05

0 x
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Figura 6.13. Histograma binomial para n = 60; p = 0,1
Se ha podido apreciar que mientras más cercanos estén los valores de p y q a 0,5, y mientras más
grande sea n, más simétrico resulta el histograma binomial y más se parece a una curva normal.
Por experiencia, se ha determinado que si se cumplen las siguientes condiciones:
np > 5 ; nq > 5
la aproximación de la distribución binomial a la distribución normal es buena.
Cuando se emplee la distribución normal para calcular probabilidades binomiales, será necesario
aplicar un factor de corrección. Si se desea calcular, por ejemplo, la probabilidad (binomial) de que X
esté comprendido entre x1 y x2 (incluidos), como se muestra en el histograma binomial de la figura
6.14, se tendrá que sumar las áreas de cada uno de los rectángulos sombreados. En dicha figura se
aprecia que el área total sombreada se aproxima mucho al área bajo la curva normal comprendida en-
tre (x1 – 0,5) y (x2 + 0,5).
Como se ve, se emplea un factor de corrección de + 0,5 cuando se quiere calcular un área desde
cierto valor de X hacia la izquierda, o de – 0,5 cuando se quiere calcular un área desde cierto valor de
X hacia la derecha.
94 Distribuciones continuas de probabilidad

x1 x2 x

x1 - 0,5 x2 + 0,5

Figura 6.14. Aplicación del factor de corrección

La curva normal que se está ajustando tiene la misma media y desviación estándar que la distri-
bución binomial; es decir:
µ = np
σ = npq

La variable estandarizada para dicha distribución normal será, entonces:


x ± 0,5 − np
z=
npq
Ejemplo:
Un distribuidor compra pernos a un fabricante que afirma que tiene un máximo de 5% de defec-
tuosos. Ante la duda, decide probar si esto es cierto y toma una muestra aleatoria de 120 pernos.
¿Cuál es la probabilidad de que encuentre al menos 10 defectuosos?
µ = 120(0,05) = 6 pernos
σ = 120 × 0,05 × 0,95 = 2,387 pernos.
10 − 0,5 − 6
z= = 1,47
2,387
A = 0,0708
Respuesta: La probabilidad de que encuentre al menos 10 pernos defectuosos en una muestra de
120 pernos es 0,0708.

6.2.7 Ajuste de la curva normal.


Si se sospecha que una variable aleatoria tiene una distribución aproximadamente normal, se
puede conseguir una buena cantidad de datos de dicha variable y construir un histograma; y, sobre és-
te, trazar la curva normal que más se le ajuste.
Distribuciones continuas de probabilidad 95

Para trazar esta curva normal se estima que la media y la desviación estándar del conjunto de da-
tos corresponden a µ y σ, respectivamente. Luego, para las marcas de clase del histograma se deter-
minan las frecuencias normales siguiendo los siguientes pasos:
xi − µ
1) Determinar los zi para cada marca de clase xi, haciendo: zi =
σ
2) Determinar los φ(zi) empleando la tabla del apéndice (página 265).
3) Determinar los f(xi), haciendo: f(xi) = φ(zi) /σ
4) Determinar finalmente las frecuencias normales f 'i, a partir de: f 'i = f(xi)(nk)
donde n es la suma de frecuencias y k la longitud de clase del histograma.
Una vez trazada la curva normal sobre el histograma, se puede determinar, por simple inspec-
ción, si la variable aleatoria tiene una distribución aproximadamente normal. Más adelante se verá un
método analítico (prueba de bondad de ajuste con la distribución Ji-cuadrada) que determinará si este
ajuste es aceptable o no.
Ejemplo:
En un análisis de los diámetros de los pistones fabricados en un taller, se tomó una muestra de
140 pistones, cuya distribución de frecuencias se muestra en la siguiente tabla. Trace la curva
normal que más se ajuste a dicha distribución.
Límites Frecuencia
7,20 – 7,24 3
7,25 - 7,29 7
7,30 - 7,34 12
7,35 - 7,39 16
7,40 - 7,44 19
7,45 - 7,49 24
7,50 - 7,54 22
7,55 - 7,59 19
7,60 - 7,64 12
7,65 - 7,69 6

La media y la desviación estándar de dicha muestra son: x = 7,466; s = 0,1101. Se estima que
estos dos valores se aproximan a µ y σ, respectivamente.
Siguiendo los pasos establecidos previamente, se construye la siguiente tabla. Por comodidad,
los valores de z se han redondeado a dos cifras decimales, evitando así el tener que interpolar en
la tabla de ordenadas de φ(z).
x z φ (z) f (x) f'
7,22 -2,24 0,0325 0,2947 2,06
7,27 -1,78 0,0818 0,7430 5,20
7,32 -1,33 0,1647 1,4958 10,47
7,37 -0,88 0,2709 2,4593 17,22
7,42 -0,42 0,3653 3,3164 23,22
7,47 0,03 0,3988 3,6206 25,34
7,52 0,49 0,3538 3,2125 22,49
7,57 0,94 0,2565 2,3287 16,30
7,62 1,39 0,1518 1,3786 9,65
7,67 1,85 0,0721 0,6543 4,58
7,72 2,30 0,0283 0,2572 1,80

Para el cálculo de las f ' se ha considerado que n = 140 y k = 0,05, siendo n el tamaño de la
muestra y k la longitud de clase.
96 Distribuciones continuas de probabilidad

En la siguiente figura se traza la curva normal que más se ajusta al histograma que representa la
distribución de los diámetros de los pistones.
30

25

20

15

10

0
7.22 7.27 7.32 7.37 7.42 7.47 7.52 7.57 7.62 7.67 7.72

Se puede concluir que los diámetros de los pistones tienen una distribución aproximadamente
normal.

6.3 La distribución uniforme continua


Una variable aleatoria continua, X, tiene una distribución uniforme continua si su función densi-
dad de probabilidad es:
 1
 para a < x < b
f ( x) =  b − a
 0 en los demás casos

donde: a y b son constantes y a < b.


En la figura 6.15 se muestra esta función densidad de probabilidad, donde resulta evidente que
b
1
el área total bajo dicha función es igual a uno, es decir,
a

b−a
dx = 1

f(x)

1/(b-a)

a b x

Figura 6.15. Distribución uniforme continua


Distribuciones continuas de probabilidad 97

A partir de las fórmulas del apartado 6.1.3, se obtienen, por integración, la media y la varianza
de esta variable aleatoria continua con distribución uniforme:

a+b (b − a) 2
µ= σ2 =
2 12
Ejemplo 1:
La cantidad de café que despacha diariamente una máquina ubicada en la sala de espera del ae-
ropuerto de Piura está distribuida uniformemente entre 6 y 10 litros.
a) Determine la probabilidad de que hoy día se despache un máximo de 9,2 litros.
9,2 − 6
P ( X ≤ 9,2) = = 0,8
10 − 6
b) ¿Cuántos litros se espera que despache un día?
10 + 6
µ= = 8 litros
2
Ejemplo 2:
Ricardo y Eduardo se ponen de acuerdo para encontrarse en la puerta Nº 1 del estadio entre la
1:00 y la 2:00 p.m. Si cada uno no esperará al otro más de 10 minutos y Ricardo llega a la 1:20
p.m., ¿cuál es la probabilidad de que se encuentren?
Como Ricardo estará en la puerta del estadio entre la 1:20 y la 1:30, Eduardo debe llegar entre
la 1:10 y la 1:30 p.m. La probabilidad de que se encuentren será entonces:
20 1
P= = = 0,333
60 3
98 Distribuciones continuas de probabilidad

Problemas propuestos.
1. Una máquina está programada para llenar recipientes con 20 onzas de líquido. Sin embargo, se sa-
be que la variabilidad inherente a cualquier tipo de máquina es la causa de que las cantidades de
contenido sean distintas de recipiente a recipiente. La distribución de dichos contenidos es normal
con una desviación estándar de 0,02 onzas. ¿Cuál debe ser la cantidad media de llenado para que
sólo el 4% de los recipientes reciban menos de 20 onzas?
Respuesta: 20,035 onzas.
2. Un estudiante de Estadística ha comprobado que los pesos y las estaturas de los alumnos de la
UDEP siguen distribuciones aproximadamente normales con media y desviación estándar de 72
Kg, 4,6 Kg. y 1,74m; 0,08 m. respectivamente. Determine la probabilidad de que un grupo de 10
alumnos escogidos aleatoriamente, la mayoría esté por encima de 70 Kg. y 1,70 m.
3. Suponga que los índices acumulados de los alumnos de la Facultad de Ingeniería están distribuidos
normalmente alrededor de 12,50. Si el 75% de estos índices están comprendidos entre 9,5 y 15,5,
¿Qué porcentaje de alumnos tendrá índice aprobado? (índice ≥ 11).
4. La demanda mensual de cierto producto A tiene distribución normal con una media de 200 unida-
des y desviación estándar igual a 40 unidades. La demanda de otro producto B también tiene una
distribución normal con media de 500 unidades y desviación estándar igual a 80 unidades. Un co-
merciante que vende estos productos tiene en su almacén 280 unidades de A y 650 de B al co-
mienzo de un mes. ¿Cuál es la probabilidad de que en el mes se vendan todas las unidades de am-
bos productos?
5. Una fábrica produce pistones cuyos diámetros no tienen la precisión deseada. Se ha encontrado
que los pistones tienen un diámetro que oscila alrededor de 5 cm. con una desviación estándar de
0,001 cm. El control de calidad ha determinado que si el diámetro del pistón es menor que 4,998
se desecha, y si es mayor que 5,002 se puede reprocesar. ¿Qué porcentaje de pistones se aceptan
inmediatamente?
6. Los diámetros de unas piezas mecánicas están distribuidos normalmente con media 0,4008 pulga-
das y desviación estándar 0,0020 pulgadas. Los límites de especificación están dados como 0,4000
± 0,0010 pulgadas. ¿Cuál es el porcentaje de unidades defectuosas?
Respuesta: 64,43%
7. Los diámetros de unas piezas mecánicas están distribuidos normalmente con media 0,4002 pulga-
das. Los límites de especificación están dados como 0,4000 ± 0,0010 pulgadas. ¿Cuál es la máxi-
ma desviación estándar aceptable que permitirá no más de un defectuoso de cada mil producidos?
Respuesta: 0,000097 pulgadas.
8. Las estaturas de 200 empleados se distribuyen así:
Estaturas en pulgadas Frecuencia observada
57,5 - 60,5 9
60,5 - 63,5 20
63,5 - 66,5 45
66,5 - 69,5 55
69,5 - 72,5 43
72,5 - 75,5 17
75,5 - 78,5 11
TOTAL 200
Determine la curva normal que más se ajuste a esta distribución.
9. Una máquina troqueladora produce tapas de latas cuyos diámetros están normalmente distribuidos,
con una desviación estándar de 0,01 pulgadas. ¿En qué diámetro "nominal" promedio debe ajus-
tarse la máquina de tal manera que no más del 5% de las tapas producidas tengan diámetros que
excedan las 3 pulgadas?
Distribuciones continuas de probabilidad 99

Respuesta: 2,98355 pulgadas.


10. La puntuación media de un examen fue 72 y la desviación media 8. De un total de 90 alumnos, a
los 18 mejores se les quiere dar la calificación A. ¿Cuál es el puntaje mínimo que un alumno debe
tener para recibir un A? Suponga que los puntajes obtenidos se distribuyen normalmente.
Respuesta: 78,72.
11. Suponga que la lluvia anual que cae en el Departamento de Piura es una variable distribuida nor-
malmente con un promedio de 75,4 mm. y desviación estándar 4,2 mm.
a) ¿Cuál es la probabilidad de que se tenga un año con más de 85 mm?
Respuesta: 0,011
b) ¿Se podrá admitir un pronóstico de más de 100 mm. para el próximo año? Explique.
Respuesta: Se puede admitir, pero es muy poco probable.
12. Una academia pre-universitaria de mucho prestigio cuenta con tres aulas A, B y C con capacidades
para 50, 70 y 80 alumnos, para Ingeniería. Como se han presentado 500 alumnos, se les ha hecho
rendir un examen de ingreso. Los puntajes obtenidos por los 500 alumnos se distribuyen normal-
mente con media 151 y desviación estándar 85. Si se desea seleccionar a los mejores en las aulas
A, B y C sucesivamente, ¿qué puntajes se deben establecer como mínimos para ingresar a cada au-
la?
Respuesta: 260 para A, 211 para B y 172 para C.
13. Suponga que los promedios de prácticas de los alumnos de Estadística están distribuidos normal-
mente alrededor de 12. Si el 95% de estos promedios están comprendidos entre 09 y 15. ¿Qué por-
centaje de alumnos estarán aprobados? (Nota aprobatoria mínima: 10,5)
Respuesta: 83,65%
14. Los postulantes a una Escuela Militar tienen estaturas que se distribuyen normalmente alrededor
de 1,72m., con una desviación estándar de 0,04m. Las calificaciones que obtuvieron se encuentran
distribuidas también normalmente alrededor de 220 puntos, con una desviación estándar de 65. Si
se desea que ingresen 200 postulantes de un total de 880, con una estatura mínima de 1,70m.,
¿cuál debe ser la calificación mínima para ingresar?
Respuesta: 249.
15. Suponga que se ha medido el nivel intelectual en la escala para preescolar y primaria WPPSI de
Wechsler en Piura (la máxima puntuación posible es 50), y se llegó a afirmar que tal medida sigue
una distribución muy aproximada a la distribución normal con media 24 y desviación estándar 6,5.
a) ¿Qué porcentaje de la población piurana tiene un nivel intelectual mayor a 40?
b) ¿Cuál es la probabilidad de que un alumno de primaria de Piura escogido al azar tenga un ni-
vel intelectual comprendido entre 10 y 20?
16. La cantidad real de café instantáneo que coloca una máquina llenadora en bolsas se puede conside-
rar como una variable aleatoria distribuida normalmente con desviación estándar 0,04 onzas. Un
requerimiento importante es que sólo el 2% de las bolsas contengan menos de 6 onzas de café.
¿Cuál debe ser el contenido medio de las bolsas?
17. Los diámetros de unas piezas mecánicas están distribuidos normalmente con media 0,4001 pulga-
das. Los límites de especificación están dados como 0,4000 ± 0,06 pulgadas. ¿Cuál es la máxima
desviación estándar aceptable que permitirá no más de un defectuoso de cada diez producidos?
Respuesta: 0,000289 pulgadas.
18. Una empresa que tiene una flota de autos de alquiler ha averiguado que la duración de las zapatas
del freno tiene una distribución normal, con una media de 88 000 Km. y una desviación estándar
de 7 200 Km. ¿Cuál es la probabilidad de que, de 8 zapatas, al menos 5 duren más de 100 000
Km?
100 Distribuciones continuas de probabilidad

19. En una fábrica de cables eléctricos, un tipo de cable tiene las siguientes especificaciones: diáme-
tro nominal: 8,50 mm.; diámetro mínimo: 8,28 mm.; diámetro máximo: 8,72 mm. Se selecciona
una muestra de 800 cables, obteniéndose un diámetro promedio de 8,58 mm. y una desviación es-
tándar de 0,10 mm.
a) ¿Cuántos cables se espera que no cumplan con las especificaciones?
b) Si ajustando la maquinaria se consigue cambiar el diámetro promedio, manteniendo constante
la desviación estándar, ¿cuál es el mínimo porcentaje de cables defectuosos que se puede con-
seguir?
c) ¿Qué se debe hacer para reducir a cero el porcentaje de cables defectuosos?
20. Considerando que existen 10 dígitos, halle la probabilidad de que, de 100 000 elecciones aleato-
rias, el dígito 6 salga al menos 9 971 veces.
21. Una persona que viaja diariamente a su trabajo en ómnibus hace un trasbordo. Tanto en la parada
frente a su casa como en la parada donde hace el trasbordo, el tiempo de espera está distribuido
uniformemente entre 0 y 10 minutos. ¿Cuál es la probabilidad de que, de los 20 viajes que hace en
un mes, en menos de 5 viajes la espera total no supere los 15 minutos? Ayuda: para calcular la
probabilidad de que en un viaje el tiempo de espera no supere los 15 minutos, trace cada tiempo de
trasbordo en cada eje del sistema de coordenadas cartesianas.
22. Un fabricante de insecticidas asegura que el 85% de los zancudos que son rociados por su produc-
to, mueren ¿Cuál es la probabilidad de que en una sala con 200 zancudos se aniquilen al menos
150 zancudos con este insecticida?
23. Supóngase que el 65% de los gerentes en el Perú tienen un grado de maestría. Si se toma una
muestra de 100 gerentes, ¿cuál es la probabilidad de que haya menos de 50 que tengan grado de
maestría?
Distribuciones de proporciones 101

Capítulo 7. Distribuciones de proporciones


7.1 La distribución multinomial.
Ejemplo:
El 30% de todos los vehículos que llegan por una calle a cierta intersección, giran hacia la iz-
quierda, el 20% giran a la derecha y el 50% restante siguen derecho. Si en un determinado mo-
mento se encuentran en dicha intersección 8 autos detenidos por la luz roja del semáforo ¿cuál
es la probabilidad de que 3 giren hacia la izquierda, 2 giren a la derecha y 3 sigan de frente?
Aplicando el teorema generalizado de la multiplicación, y considerando independencia entre lo
que hagan los conductores:
8!
P = (0,3) 3 (0,2) 2 (0,5) 3
3! 2!3!
Se puede generalizar esta fórmula de probabilidad para los casos en que, de una muestra de n
elementos, x1 tengan cierta característica, x2 tengan otra característica,..., y xk tengan otra característi-
ca; siendo p1 , p2 ,..., pk , las probabilidades de que un elemento tenga cada una de las características
mencionadas, de tal forma que ∑xi sea igual a n, y ∑ pi sea igual a 1. Entonces:
n!
P= ( p1 ) x1 ( p 2 ) x2 ... ( p k ) xk
x1! x 2 !... x k
es denominada probabilidad multinomial, por parecerse mucho a la probabilidad binomial, con
la diferencia de que presenta k posibilidades para cada elemento de la muestra, en lugar de dos.
A la distribución conjunta de x1, x2, ..., xk, se le conoce como distribución multinomial.
Considerada en forma independiente, cada variable Xi es binomial con parámetros pi y n; por lo
tanto tiene un valor esperado igual a npi y una varianza igual a npi(1 – pi).

7.2 La distribución de una proporción.


Si la variable binomial X, que representa el número de elementos de una muestra de tamaño n
que poseen cierta característica, se divide entre n, resulta otra variable aleatoria, X/n, que representa la
proporción de elementos de la muestra, que tienen dicha característica. A la proporción de elementos
de la población que poseen tal característica se le denomina p.
Se ha visto que la variable estandarizada:
x ± 0,5 − np
z=
npq

se distribuye normalmente cuando np y nq > 5.


Si se divide cada término de la fracción entre n, resulta lo siguiente:
x 1 1
± − p p1 ± −p
z= n 2 n = 2 n
pq pq
n n
102 Distribuciones de proporciones

donde a la proporción X/n se le ha denominado p1.


Esta última expresión nos dice que la proporción p1 se distribuye normalmente alrededor de p,
con desviación estándar igual a pq / n . En la figura 7.1 se muestra esta distribución normal.

p p1

Figura 7.1. Distribución de p1 alrededor de p.

Es importante resaltar que esta nueva variable p1 es discreta, aunque no tome valores enteros.
Como se puede deducir, la desviación estándar disminuye al aumentar el tamaño de la muestra,
lo cual se expresa en la figura 7.2, donde σ 1 < σ 2 < σ 3.

σ1

σ2

σ3

p p1
Figura 7.2. Disminución de la variabilidad al aumentar el tamaño de la muestra

Se deduce fácilmente que al aumentar el tamaño de la muestra, es decir, al disminuir la variabi-


lidad de p1, los valores de p1 que se puedan obtener estarán más cerca de p, lo cual equivale a afirmar
que se reduce el error de estimación, conocido como error muestral, e.
e = p1 – p
Ejemplo:
En la fabricación de cierto tipo de pernos se ha determinado que, en promedio, el 15% de la pro-
ducción no es de calidad óptima. Ante esta situación, el jefe de mantenimiento decidió hacer al-
gunos cambios en el proceso de producción, con el propósito de bajar considerablemente dicho
porcentaje. Suponiendo que los cambios que se hizo no hubieran bajado el porcentaje de pro-
ductos que no son de calidad óptima, ¿cuál es la probabilidad de que en una muestra de 200
pernos se encuentre que el porcentaje que no son de calidad óptima sea del 10% o menos?
Distribuciones de proporciones 103

En primer lugar, se verifica si la distribución de p1 es aproximadamente normal:


np = 200(0,15) = 30 > 5
p1 es aproximadamente normal
nq = 200(0,85) = 170 > 5

0,15 × 0,85
σ= = 0,0252
200

1
0,10 − − 0,15
z= 2 × 200 = − 2,08 P = 0,0188
0,0252
Como se puede ver, es muy poco probable que en una muestra de 200 pernos se encuentre que
el porcentaje que no son de calidad óptima sea del 10% o menos; por lo tanto se puede concluir
que es muy probable que el verdadero porcentaje de pernos que no son de calidad óptima ya no
sea 15% sino menor.

7.3 Determinación del tamaño de una muestra en poblaciones infinitas

7.3.1 Determinación del tamaño de una muestra para estimar una proporción de una población infini-
ta
Generalmente se desea determinar proporciones (o porcentajes, que es lo mismo) poblacionales
que resultan de interés para las fábricas, empresas, o para la sociedad; pero esto no es posible porque
las poblaciones de interés suelen ser muy grandes. Por ejemplo, se desea saber:
• El porcentaje de productos defectuosos que elaboran en una fábrica.
• El porcentaje de clientes que no están satisfechos con el servicio que dan en un banco.
• El porcentaje de ciudadanos que aprueban la gestión del presidente de un país.
• El porcentaje de familias que consumen un determinado jabón.
• El porcentaje de familias que ven un determinado programa de TV.
Como no es posible determinar con precisión tales porcentajes (o proporciones), porque se nece-
sitaría invertir mucho dinero y/o tiempo para encuestar a toda la población, se recurre a la estimación
de dicha proporción poblacional, extrayendo una muestra de la población y calculando la proporción
muestral correspondiente.
Por ejemplo, para estimar el porcentaje de familias de Piura que compran un determinado jabón,
bastará con extraer una muestra de 400 familias y encuestarlas. Si hay 75 familias que lo compran, la
proporción muestral será:
x 75
p1 = = = 0,1875 = 18,75%
n 400
Pero este es el porcentaje de familias de la muestra que compran ese jabón, que puede ser una
buena estimación del porcentaje de familias de Piura que compran dicho jabón. Se dice que p1 es un
estimador puntual de p.
Lógicamente, mientras más grande sea la muestra, p1 será mejor estimación de p. ¿Pero qué tan
grande debe ser la muestra? La respuesta lógica será: lo más grande que sea posible. ¿Y hasta cuánto
será posible? Esto dependerá del presupuesto y tiempo disponibles.
Generalmente, para definir el tamaño de una muestra el interesado se fija los siguientes paráme-
tros, limitados por el dinero y tiempo disponibles.
Confiabilidad
Cuando se quiere hacer una estimación de una proporción poblacional, el interesado quiere tener
cierta probabilidad de acertar, es decir, cierta confiabilidad. Por ejemplo, puede querer estar
95% seguro de acertar el verdadero valor de la proporción poblacional. Tal estimación se hace
104 Distribuciones de proporciones

dando un rango, dentro del cual debería estar la proporción poblacional. Para tener dicha confia-
bilidad necesitará elegir un determinado tamaño de muestra. Si quisiera una confiabilidad ma-
yor, necesitará, lógicamente, una muestra más grande.
Error muestral
A la diferencia entre la proporción muestral hallada y la verdadera proporción poblacional (des-
conocida) se le llama error muestral.
e = p1 – p
Cuando se quiere estimar una proporción poblacional, el interesado quiere aproximarse lo más
que pueda a dicha proporción. Lógicamente, mientras más grande sea la muestra, más se acerca-
rá a la proporción poblacional, y por lo tanto menor será el error muestral.

Si la población es bastante grande (N → ∞), la muestra será lo suficientemente grande y enton-


ces: np y nq > 5; por lo tanto p1 se distribuiría normalmente alrededor de p, como se ha visto anterior-
mente. Para efectos prácticos, se suele considerar infinita una población conformada por 100 000 ele-
mentos ó más.
Ejemplo:
En la figura 7.3 se representa la distribución de una proporción muestral p1 cuando se quiere es-
timar una proporción poblacional p con una confiabilidad del 95% de que el error muestral no
supere el 5%.

95%

p - 0,05 p p + 0,05 p1

Figura 7.3. Estimación de p con 95% confiabilidad de un error muestral máximo del 5%

Como se ve en la figura 7.3, el máximo error muestral que se desea cometer es 5%.
Entonces, en general, para p1 = p + emax la variable estandarizada será:
p1 − p emax
z= =
pq pq
n n
No se ha considerado el factor de corrección ± 1/2n pues resulta despreciable para muestras
grandes, como las que se emplean cuando se requiere al menos una confiabilidad del 95% y un error
muestral máximo de 5%.
De esta última expresión se puede despejar n, es decir, el tamaño de la muestra:
Distribuciones de proporciones 105

z 2 pq
n= 2
emax
Donde:
• z: queda determinado por la confiabilidad que se desee. Con la ayuda de la tabla que
proporciona áreas bajo la curva normal, se puede determinar el valor de la variable es-
tandarizada z que corresponde a una determinada confiabilidad. Por ejemplo, para una
confiabilidad del 95%, el área de la cola derecha a partir de (p + emax) es 0,025; a esta
área le corresponde un valor de z = 1,96
• pq: será 0,25 en el peor de los casos. (el máximo valor que puede tener pq es 0,25).
• emax : es el máximo error muestral que se está dispuesto a cometer.

Si se define el tamaño de una muestra y la confiabilidad, el error muestral se obtiene fácilmente,


despejando emax:

pq
emax = z
n
Ejemplo 1:
¿Cuál será el tamaño de muestra necesario para estimar el porcentaje de familias de Piura que
compran un determinado jabón, si se quiere tener una confiabilidad del 95% de que el error
muestral no supere el 5%?
z 2 pq 1,96 2 × 0,25
n= 2
= = 384,16
emax (0,05) 2
Será necesario entonces entrevistar a 385 familias. (Nótese que con n = 384 el error muestral su-
peraría el 5%).
O sea que si el verdadero valor de p fuese 0,20; es decir, si realmente el 20% de las familias de
Piura compraran cierto jabón, y, si con una muestra de 385 familias se determina, por ejemplo,
p1 = 0,1875 = 18,75%, entonces el error muestral sería: e = 0,1875 – 0,20 = – 0,0125 = – 1,25%
El resultado de esta encuesta se hubiese expresado de la siguiente manera: El porcentaje de fa-
milias de Piura que consume dicho jabón es:
p = 18,75% ± 5%
Como resultado de dicha encuesta se afirma entonces que, con una confiabilidad del 95%, el
porcentaje de familias de Piura que consume dicho jabón está comprendido entre 13,75% y
23,75%. Como se ve, la encuesta ha acertado con el resultado; pero, ¿qué tan probable era no
acertar? Precisamente había una probabilidad del 5% de no acertar.
Ejemplo 2:
Supóngase que se desea estrechar el rango de la estimación, es decir, disminuir el máximo error
muestral posible. Para esto será necesario aumentar el tamaño de la muestra:
Sean: confiabilidad = 95% y emax = 2%
z 2 pq 1,96 2 × 0,25
n= 2
= = 2401
e max (0,02) 2
O sea que si el verdadero valor de p fuese 0,20; es decir, si realmente el 20% de las familias de
Piura compran cierto jabón, y, si con una muestra de 2401 familias se determina, por ejemplo, p1
= 0,1924 = 19,24%, entonces el error muestral hubiese sido: e = 0,1924 – 0,20 = – 0,0076 = –
0,76%
106 Distribuciones de proporciones

El resultado de esta encuesta se hubiese expresado de la siguiente manera: El porcentaje de fa-


milias de Piura que consume dicho jabón es:
p = 19,24% ± 2%
Como resultado de dicha encuesta se afirma entonces, con una confiabilidad del 95%, que el
porcentaje de familias de Piura que consume dicho jabón está comprendido entre 17,24% y
21,24%.

7.3.2 Determinación del tamaño de una muestra estratificada para estimar proporciones de los estra-
tos de una población infinita.
Si se quiere estimar una proporción poblacional para cada uno de los estratos en que se ha divi-
dido una población, se tendrá que fijar la confiabilidad y el máximo error muestral que se desea tener
en cada uno de estos estratos. Prácticamente, es como si se considerase cada estrato como una pobla-
ción.
Para decidir el tamaño de cada uno de los estratos de la muestra se pueden seguir dos métodos:
Método 1: Estratos de la muestra proporcionales a los estratos de la población.
Ejemplo:
¿Cuál debe ser el tamaño de una muestra y cómo debe estar constituida, para estimar el porcen-
taje de familias de los estratos socioeconómicos AB, C y D de Piura que compran un determi-
nado jabón (J), si se quiere tener una confiabilidad del 95% de que el error muestral no supere el
5% en ningún caso?
Supóngase que en Piura los estratos socioeconómicos tienen la siguiente distribución:
Estrato socioeconómico AB C D
Porcentaje 11,3 33,7 55

Si la muestra fuese de tamaño n = 385 familias, como se obtuvo en el ejemplo anterior, debería
estar conformada de la siguiente manera:
Estrato socioeconómico AB C D
ni 43,51 129,75 211,75

Por lo tanto, redondeando: nAB = 44 ; nC = 130 ; nD = 212


Pero si se considerasen estas muestras, cuando se expresen los resultados de la encuesta para ca-
da estrato, se tendrá que considerar el error muestral máximo que se comete con cada estrato, y
éste se tendrá que calcular a partir de la misma fórmula que se ha deducido antes:

pq
emax = z
n
Para cada estrato, los errores muestrales serán:

0,25
eAB max = 1,96 = 0,1477 = 14,77 %
44

0,25
eC max = 1,96 = 0,0860 = 8,60 %
130

0,25
eD max = 1,96 = 0,0673 = 6,73 %
212
Distribuciones de proporciones 107

Como se ve, aunque los errores muestrales para la estimación en los estratos C y D no son tan
grandes, para el estrato más pequeño (el AB), el error muestral es demasiado grande: 14,77%.
Si se quisiera mantener las proporciones de los estratos, de tal manera que el error muestral del
estrato más pequeño, es decir, el máximo de los errores muestrales, no supere el 5%, la muestra
del estrato AB tendría que ser:
1,96 2 × 0,25
nAB = = 385 familias.
0,05 2
De esta manera, el error muestral máximo del estrato más pequeño (AB) será:
eAB max = 5%.
Si esta muestra representa el 11,3%, la muestra total tendrá que ser de tamaño:
n = 385 × 100 / 11,3 =3 407,08 ⇒ 3 407 familias.
El error muestral máximo de la muestra completa será:

0,25
emax = 1,96 = 0,0168 = 1,68 %
3407
El tamaño de la muestra del estrato C se puede calcular a partir del tamaño de la muestra total:
nC = 3 407 × 33,7 / 100 = 1 148,16 ⇒ 1 148 familias.
El error muestral máximo del estrato C será:

0,25
eC max = 1,96 = 0,0290 = 2,89 %
1148
El tamaño de la muestra del estrato D será:
nD = 3 407 × 55 / 100 = 1 873,85 ⇒ 1 874 familias.
El error muestral máximo del estrato D será:

0,25
eD max = 1,96 = 0,0226 = 2,26 %
1874
En la siguiente tabla se presentan las muestras y sus respectivos errores muestrales máximos:

Estrato socio-económico Tamaño de la submuestra Error muestral máximo


AB 385 5%
C 1 148 2,89%
D 1 874 2,26%
Total 3 407 1,68%

De esta forma, si, por ejemplo, las encuestas realizadas mostrasen los siguientes resultados:

Estrato socio-económico Familias consumen jabón J % que consumen jabón J


AB 34 8,83%
C 210 18,29%
D 412 21,99%

Se deduce fácilmente, para toda la muestra, el porcentaje de familias que consumen jabón J:
34 + 210 + 412
p1 = = 0,1925 = 19,25%
3407
También se podría calcular este porcentaje como una media ponderada:
108 Distribuciones de proporciones

8,83 × 11,3 + 18,29 × 33,7 + 21,99 × 55


p1 = = 19,25%
100
Finalmente, ¿qué porcentaje de familias de Piura, de los distintos estratos, se estima que com-
pran el jabón J?
PAB = 8,83% ± 5%
PC = 18,29% ± 2,89%
PD = 21,99% ± 2,26%
El porcentaje estimado de familias de Piura que consumen jabón J será:
P = 19,25% ± 1,68%

Método 2: Estratos de la muestra no proporcionales a los estratos de la población.


El método 1 tiene un inconveniente que salta a la vista: el número de encuestas que hay que
hacer es muy grande. ¿Cómo se podría evitar esto, sin llegar a tener algún error muestral máxi-
mo muy elevado?
Una solución posible es considerar el mismo error muestral máximo para cada estrato; así se
tendría el mismo tamaño de muestra para cada estrato.
Ejemplo:
Si se decide tener una confiabilidad del 95% de que el error muestral máximo de cada estrato
sea el 5%, se tendría:
1,96 2 × 0,25
nAB = = 385 familias.
0,05 2

1,96 2 × 0,25
nC = = 385 familias.
0,05 2

1,96 2 × 0,25
nD = = 385 familias.
0,05 2
Una vez realizadas las encuestas y obtenidos los porcentajes de familias que compran jabón J, se
tendrá que calcular el porcentaje de familias de todo Piura que consumen ese jabón.
Supóngase que en las encuestas se obtuvieron los siguientes resultados:

Estrato socio-económico Familias consumen jabón J % que consumen jabón J


AB 31 8,05%
C 74 19,22%
D 93 24,16%

Se deduce, para toda la muestra, que el porcentaje de familias que consumen jabón J es:
8,05 × 11,3 + 19,22 × 33,7 + 24,16 × 55
p1 = = 20,67%
100
¿Qué porcentaje de familias de Piura, de los distintos estratos, se estima que compran el jabón J?
PAB = 8,05% ± 5%
PC = 19,22% ± 5%
PD = 24,16% ± 5%
Distribuciones de proporciones 109

El porcentaje estimado de familias de Piura que consumen jabón J será:


P = 19,25% ± ¿? %
¿Cuál será el error muestral máximo para la muestra total?
Como la muestra total es de tamaño: 385 × 3 = 1155, entonces:

0,25
emax = 1,96 = 0,0288 = 2,88 %
1155

7.4 Determinación del tamaño de una muestra en poblaciones finitas


Cuando se trata de estimar una proporción de una población finita, se recomienda emplear la si-
guiente fórmula que demuestra Hásek (1960) para determinar el tamaño de la muestra:
z 2 pqN
n= 2
e max ( N − 1) + z 2 pq
Donde:
• N: es el tamaño de la población.
• z: queda determinado por la confiabilidad que se desee. Con la ayuda de la tabla que
proporciona áreas bajo la curva normal, se puede determinar el valor de la variable es-
tandarizada z que corresponde a una determinada confiabilidad. Por ejemplo, para una
confiabilidad del 95%, el área de la cola derecha a partir de (p + emax) es 0,025; a esta
área le corresponde un valor de z = 1,96.
• pq: será 0,25 en el peor de los casos. (el máximo valor que puede tener pq es 0,25).
• emax : es el máximo error muestral que se está dispuesto a cometer.

Se suele considerar finita una población cuando su tamaño es N < 100 000.
Si se define el tamaño de una muestra y la confiabilidad, el error muestral se obtiene fácilmente,
despejando emax:

pq N −n
emax = z
n N −1

7.5 La distribución de la diferencia de dos proporciones.


Sean dos universos independientes donde px y py representan proporciones de elementos con
cierta característica en cada uno. De ambos universos se extraen dos muestras de tamaño Nx y Ny, don-
de x e y indican la cantidad de elementos de cada muestra que tienen tal característica, de modo que:
x y
p1 = ; p2 =
nx ny

Si ambas proporciones p1 y p2 se distribuyen normalmente alrededor de px y py respectivamente;


entonces la diferencia (p1 – p2) también se distribuye normalmente alrededor de la diferencia (px – py).
Si p1 y p2 son independientes, la desviación estándar de (p1 – p2) será, tal como se vio al final del capí-
tulo 4:
σ (2p1 − p2 ) = σ 2p1 + σ 2p2

px qx p y q y
σ (2p
1 − p2 )
= +
nx ny
110 Distribuciones de proporciones

La variable estandarizada correspondiente será:


( p1 − p 2 ) − ( p x − p y ) ± f .c.
z=
px qx p y q y
+
nx ny

donde el factor de corrección (f.c.) es:


1 1 nx + n y
f .c. = + =
2 nx 2n y 2 nx n y

Las aplicaciones de la diferencia de dos proporciones se ven en el capítulo 9 (Contrastes de


hipótesis).
Distribuciones de proporciones 111

Problemas propuestos.
1. Las compañías auditoras generalmente seleccionan una muestra aleatoria de los clientes de un
banco y verifican los balances contables reportados por el banco. Si una compañía de este tipo se
encuentra interesada en estimar la proporción de cuentas para las cuales existe una discrepancia
entre el cliente y el banco, ¿cuántas cuentas deberán seleccionarse de manera tal que con una con-
fiabilidad del 99%, la proporción de la muestra se encuentre a menos de 0,02 de la proporción re-
al?
2. Un fabricante de insecticidas asegura que el 85% de los zancudos que son rociados por su produc-
to, mueren ¿Cuál es la probabilidad de que en una sala con 200 zancudos se aniquilen al menos el
75% con este insecticida?
Respuesta: 0,999975
3. Un estudiante de Estadística quiere estimar la proporción de familias de la Urbanización Miraflo-
res que ve un determinado programa de televisión. Debido al elevado número de familias, resulta-
ría muy laborioso tomar los datos de todas éstas. El alumno desea tomar una muestra y estimar di-
cha proporción con una probabilidad de 0,98 no exceder un error de ± 10% ¿Qué tamaño de mues-
tra debe tomar?
4. Un dado tiene tres caras rojas, dos blancas y una azul. Si este dado se lanza nueve veces, ¿cuál es
la probabilidad de que cada uno de los colores aparezca tres veces?
5. Un comerciante quiere comprar un lote muy grande de tornillos. Para decidir si compra el lote ex-
trae en primer lugar 150 tornillos. Si encuentra más de 5% defectuosos, no compra el lote; en caso
contrario, escoge 150 tornillos más. Si encuentra más de 3% defectuosos, no compra el lote; en ca-
so contrario, compra el lote. Si realmente el porcentaje de tornillos defectuosos es del 3%, ¿cuál es
la probabilidad de que el comerciante no compre el lote de tornillos?
6. Suponga que un grupo de estudiantes de Estadística encuestó a pobladores de cuatro ciudades del
norte del Perú (Tumbes, Piura, Chiclayo y Trujillo) para saber si están de acuerdo con unas decla-
raciones del Ministro de Economía. Suponga que las poblaciones de dichas ciudades son: 100 000,
300 000, 400 000 y 700 000 habitantes, respectivamente. Para ahorrar tiempo y dinero, decidieron
considerar una confiabilidad del 90% y encuestar a 200 pobladores de cada ciudad, obteniendo
que 46, 42, 54 y 56 pobladores de las respectivas ciudades sí estaban de acuerdo con dichas decla-
raciones.
a) ¿Qué % de cada ciudad están de acuerdo con dichas declaraciones?
b) ¿Qué % de las cuatro ciudades están de acuerdo con dichas declaraciones?
7. Una empresa encuestadora afirma que hay “empate técnico” entre dos candidatos de electorales.
¿Qué datos le pediría usted a dicha empresa para verificar tal afirmación?
8. Un estudiante de Estadística diseñó una encuesta para averiguar, entre otras cosas, qué porcentaje
de la población universitaria del Perú estudia más de 20 horas semanales. Él quiso estar 90% segu-
ro de estimar correctamente dicho porcentaje, y decidió encuestar a 450 alumnos, encontrando que
300 estudiaban más de 20 horas semanales. Suponiendo que la población universitaria en el Perú
es de 200 000 alumnos, ¿cuántos alumnos diría usted que estudian más de 20 horas semanales en
el Perú?
9. Supóngase que el 65% de los gerentes en el Perú tienen un grado de maestría. Si se toma una
muestra de 100 gerentes, ¿cuál es la probabilidad de que haya menos de 50 que tengan grado de
maestría?
10. Suponga que el gerente de CRASA quiere averiguar qué porcentaje de cada uno de los estratos so-
cioeconómicos A, B y C de la ciudad (de 10 millones de habitantes) han comprado alguna vez en
su cadena de supermercados. Antes de hacer una encuesta averigua que los porcentajes de dichos
estratos en la ciudad son: 5%, 15% y 30%. ¿Qué muestra recomendaría (detallada) si desea que el
error muestral no supere el 2% en ningún caso, si:
112 Distribuciones de proporciones

a) se considera la muestra con las mismas proporciones de los estratos de la población?


b) se considera la muestra de tal forma que las proporciones de los estratos sean iguales?
Suponga que el gerente de CRASA decide encuestar a 3000 personas de los estratos A, B y C
(1000 personas de cada estrato), y obtiene los siguientes resultados:
- En la muestra A, el 23,5% han comprado alguna vez CRASA.
- En la muestra B, el 19,2% han comprado alguna vez CRASA.
- En la muestra C, el 13,1% han comprado alguna vez CRASA.
c) ¿Qué porcentajes de cada estrato de la ciudad han comprado alguna vez CRASA?
d) ¿Qué porcentaje de la ciudad ha comprado alguna vez CRASA?
11. Se desea averiguar qué porcentaje de la población de Piura y Castilla consume gas para la cocina.
Para esto, se están discutiendo dos posibilidades:
• A: tener una confiabilidad del 97% de que el error muestral no supere el 5%.
• B: tener una confiabilidad del 97% de que el error muestral no supere el 2%.
Evidentemente la segunda posibilidad implica una muestra mucho más grande, por lo cual se opta
por una solución intermedia (C): un tamaño de muestra que sea el promedio de los tamaños que
implicarían las dos posibilidades mencionadas, pero con un error muestral máximo del 3%.
a) ¿Qué confiabilidad tendría este muestreo?
b) Trace las curvas que representan cómo se distribuye la proporción muestral para los tres mues-
treos descritos (A, B y C).
c) ¿Cuál es la probabilidad de que se estime el porcentaje de la población de Piura y Castilla que
consume gas para la cocina con un error muestral menor del 1%?
12. Un ingeniero industrial cree que el 30% de todos los accidentes industriales en su planta se deben
a que los empleados no cumplen con las disposiciones de seguridad.
a) Si eso es cierto, ¿cuál es la probabilidad de que, entre 80 accidentes que ocurrieron el año pa-
sado, menos de 20 se deban a ese motivo?
b) Si realmente el 40% de todos los accidentes industriales en su planta se deben a que los em-
pleados no cumplen con las disposiciones de seguridad, ¿cuál es la probabilidad de que, entre
los 80 accidentes que ocurrieron el año pasado, menos de 20 se deban a ese motivo?
13. Una muestra de 400 amas de casa de Piura que realizan sus compras semanales en el mercado re-
vela que 360 incluyen leche en sus compras. ¿Con qué confiabilidad se podrá afirmar que el por-
centaje de amas de casa de Piura que incluyen leche en sus compras semanales en el mercado está
entre 88% y 92%? Asuma que dicho porcentaje es 90%.
Respuesta: 81,65%
14. Una encuestadora ha publicado los siguientes resultados de su última encuesta realizada a una
muestra de 600 votantes de Lima:
Candidato A: 38,2 %
Candidato B: 34,8 %
Suponiendo que se consideró una confiabilidad del 95%, ¿se puede afirmar que hay empate técni-
co, como afirma el comentarista de un diario?
15. Si p > 0,1; determine si la probabilidad P(p1 < 0.1) es mayor o menor cuando se toma una muestra
n1 o cuando se toma una muestra n2, siendo n1 > n2.
Distribución de las medias muestrales 113

Capítulo 8: Distribución de las medias muestrales


8.1 Introducción
En este capítulo se estudia la distribución que sigue la media de una muestra extraída de una po-
blación y la distribución que sigue la diferencia de las medias de dos muestras extraídas de la misma
población, o de poblaciones diferentes.
Una media puede ser, por ejemplo, el promedio de las edades de los suscriptores a una revista
económica, en el Perú, o el diámetro promedio de los pistones que se elaboran en una fábrica, o el pe-
so promedio de las bolsas de sal que se empacan automáticamente en una fábrica, o el promedio men-
sual de las ventas de un supermercado, etc.
En todos los casos, para estimar la media poblacional, se extrae una muestra y se calcula la me-
dia aritmética de dicha muestra.

8.2 Distribución de la media muestral


Teorema del límite central
Si se extraen varias muestras de tamaño n de cualquier población con media µ y desviación es-
tándar σ, las medias de estas muestras (medias muestrales) tendrán una distribución aproximadamente
normal con media µ y desviación estándar σ / n , si n es grande. Si la población tiene distribución
normal, la media muestral tendrá también distribución normal aunque n sea pequeño.
Puede ilustrarse este teorema mediante el siguiente ejemplo: se seleccionan aleatoriamente, de
una empresa, 100 muestras de 50 vendedores cada una. Considerando que cada vendedor ha efectuado
un determinado número de ventas durante el último mes, se calcula la media del número de ventas en
cada una de las muestras. Las 100 medias calculadas se agrupan en clases y se traza el histograma que
las representa. Este histograma se aproxima mucho a una curva normal. Si se supiera el verdadero va-
lor de la media y la desviación estándar del número de ventas efectuadas por los vendedores de esa
empresa en el Perú (parámetros poblacionales), se estaría verificando también que la media de las me-
dias de las 100 muestras casi coincide con la media poblacional y la desviación estándar de las medias,
dividida entre n casi coincide con la desviación estándar poblacional.
La variable estandarizada correspondiente es:
x− µ
z=
σ/ n
Si no se conociera la desviación estándar de la población (σ ) y la muestra fuese grande, se po-
dría estimar ésta calculando la desviación estándar de la muestra (s).
Ya que la desviación estándar de la media muestral es σ / n , se deduce fácilmente que la preci-
sión de la media muestral para estimar la media de la población aumenta conforme aumenta el tamaño
de la muestra, como se aprecia en la figura 8.1.
114 Distribución de las medias muestrales

n1

n2

n3

µ x
Figura 8.1. Distribuciones de la media muestral para n1 > n2 > n3

Viendo cómo se estrecha la distribución normal alrededor de la verdadera media de la población


conforme aumenta el tamaño de la muestra, se deduce que para hacer una buena estimación de la me-
dia poblacional es necesario considerar muestras muy grandes, que tiendan a infinito. La figura 8.2
muestra cómo varía la desviación estándar de la media muestral conforme aumenta el tamaño de la
muestra.
σx
σ x Figura 2. Variación de la desviación estándar de la media muestral

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0
0 10 20 30 40 50 60 70 80 90

Figura 8.2. Variación de la desviación estándar de las medias muestrales

Como se ve en la figura 8.2, la desviación estándar de la media muestral disminuye rápidamente


al aumentar n, el tamaño de la muestra, hasta n = 30; pero a partir de n = 50 la disminución se hace ca-
da vez más lenta. A partir de este tamaño de muestra se puede considerar que es lo suficientemente
grande para hacer una buena estimación de la media de la población a partir de la media de una mues-
tra.

8.3. Distribución de la diferencia de las medias muestrales


Teorema
Si se extraen dos muestras independientes de tamaños nx y ny, de dos poblaciones cualesquiera

n
Distribución de las medias muestrales 115

con medias µx y µy, y desviaciones estándar σx y σy, respectivamente, la diferencia de las medias
muestrales, x − y , se distribuye normalmente alrededor de la diferencia de las medias de las poblacio-
nes, con una desviación estándar σ x − y , siempre que las muestras sean lo suficientemente grandes (no
menores que 50).

σ x2 σ y2
σ x−y = +
nx ny

Si las poblaciones de procedencia son normales, es decir, si X e Y se distribuyen normalmente,


entonces la distribución de x − y será normal aunque las muestras sean pequeñas. La variable estanda-
rizada correspondiente será entonces:
( x − y ) − ( µx − µ y )
z=
2 2
σx σ y
+
nx ny

Si se desconocen las desviaciones estándar σx y σy , y las muestras extraídas son grandes, éstas
pueden estimarse calculando las desviaciones estándar de las muestras, sx y sy.

8.4. La distribución t de Student: aplicaciones a las medias poblacionales


Se ha dicho que si la desviación estándar de una población es desconocida, como suele ocurrir
casi siempre, es posible estimarla calculando la desviación estándar de una muestra grande (no menor
de 50); pero, ¿qué hacer si no se puede extraer una muestra grande? Para muestras pequeñas, la des-
viación estándar calculada suele ser muy distinta de la desviación estándar de la población, y se come-
terá un error considerable si se emplea la distribución normal con desviación estándar s en vez de σ.
Ante esta situación, se puede emplear la distribución t de Student en vez de la distribución normal.

8.4.1 La distribución t de Student


Es una distribución muy parecida a la distribución normal, que depende de un parámetro nl, lla-
mado número de grados de libertad. La función densidad de probabilidad de la variable t de Student es
la siguiente:

 t2  − n2+1
f (t ) = k 1 + 

 nl 
Esta función es simétrica con media igual a cero (igual que la normal estandarizada). Su desvia-
ción estándar es nl /( nl − 2) .

En el apéndice se presenta una tabla (pág. 266) que proporciona valores de t (no negativos) para
determinadas áreas de cola derecha, para nl = 1, 2, … , 50, 60, 120, ∞.
Conforme aumenta nl, la curva de Student se parece más a la curva normal. Compárese, por
ejemplo, el valor de t que le corresponde a un área bajo la curva de Student igual a 0,05, para nl = ∞,
con el valor de z que le corresponde a la misma área bajo la curva normal.

8.4.2 Distribución t de la media muestral


Si se extraen varias muestras de tamaño n (menor que 50), de una población normal con media µ
y desviación estándar σ desconocida, entonces la siguiente variable:
x−µ
t=
s / n −1

tiene una distribución de Student con nl = n – 1 grados de libertad.


116 Distribución de las medias muestrales

Se ha definido la desviación estándar s con denominador n; pero, cuando se extraen muestras


pequeñas, el mejor estimador de la desviación estándar de la población emplea n – 1 como denomina-
dor. Se distinguen entonces:
n n

∑i =1
( xi − x ) 2 ∑ (x
i =1
i − x)2
sn = ; s n −1 =
n n −1

En conclusión, cuando n es pequeño conviene usar sn-1 para estimar σ, y cuando n es grande am-
bas expresiones dan prácticamente el mismo valor.
Se puede deducir fácilmente que:
n −1
sn = s n −1
n
Si se sustituye este valor de sn en lugar de s, en la expresión de t, el denominador resultará:
sn −1 / n
que es como lo presentan algunos autores.
El concepto de grados de libertad se puede explicar de la siguiente manera: al calcular la desvia-
ción estándar de una muestra de tamaño n, se suman los cuadrados de n desviaciones respecto a la me-
dia muestral. Como la suma de estas desviaciones es igual a cero, se tendrá libertad para asignar valo-
res a cualesquiera n – 1 desviaciones. La restante ya queda determinada y no se le puede dar cualquier
valor.

8.4.3 Distribución t de la diferencia de las medias muestrales.


Cuando se quiere inferir respecto a la diferencia de las medias de dos poblaciones normales cu-
yas desviaciones estándar son desconocidas, a partir de la diferencia de las medias de dos muestras
pequeñas, no se pueden utilizar las desviaciones estándar de las muestras como estimaciones de las
desviaciones estándar de dichas poblaciones. En situaciones como ésta, la siguiente variable:
( x − y) − (µ x − µ y )
t=
 nx sx 2 + nx s y 2  1 
  + 1 
 n x + n y −2  nx n y 

  

tiene una distribución t de Student con nx + ny – 2 grados de libertad, siempre que las desviacio-
nes estándar de las dos poblaciones sean iguales.
Si las desviaciones estándar de las poblaciones fuesen diferentes, no se podría emplear la distri-
bución t de Student. En 9.7 se explica cómo probar si las desviaciones estándar de dos poblaciones son
iguales.
Distribución de las medias muestrales 117

Problemas propuestos
1. La duración media de una resistencia es de 1 000 horas, con una desviación estándar de 100 horas.
Se utilizan 3 resistencias de manera consecutiva en el mismo aparato, es decir, apenas se quema
una resistencia, se coloca la siguiente.
a) ¿Cuál es la probabilidad de que el aparato funcione al menos 3 600 horas?
Respuesta: 0,00027
b) Y si tuviera 20 resistencias, ¿cuál sería la probabilidad de que el aparato funcione más de 19
500 horas?
Respuesta: 0,846136
2. Para controlar un proceso de llenado automático de bebidas gaseosas, se toman muestras de 10 bo-
tellas cada hora, durante 20 horas. A continuación se muestra el volumen promedio (en ml.) de ca-
da muestra:
499,82 499,23 500,15 500,77 500,72 501,04 498,69 499,86 500,66 499,35
499,59 498,99 498,89 499,41 499,54 498,73 499,66 499,76 500,08 499,78
¿Cuál es la probabilidad de que una botella contenga más de 501,5 ml?
3. Una panificadora envía diariamente una remesa de panes a sus tiendas. Cada día se pesa una
muestra de 35 panes en cada una de las tiendas. El administrador ha visto que el 80% de los pro-
medios (pesos) obtenidos en dichas muestras están comprendidos entre 24,7 y 25,3 g., con un
promedio de 25g. ¿En qué rango estará comprendido el 99% de los pesos de los panes de esta pa-
nificadora? Asuma que los pesos de los panes se distribuyen normalmente.
Respuesta: Entre 21,43 g. y 28,57g.
4. Suponga que el peso promedio de los pobladores de una ciudad es de 75 Kg., con una desviación
estándar de 8,75 Kg. La población de pesos está normalmente distribuida. Si la capacidad máxima
de un ascensor con capacidad para 16 personas es de 1 250 Kg., ¿cuál es la probabilidad de que el
ascensor nunca exceda su capacidad máxima?
5. El recorrido promedio de viaje (ida y vuelta a casa) de todos los trabajadores de una fábrica es de
50,5 Km. con una desviación estándar de 3,6 Km. La población de recorridos está normalmente
distribuida. ¿Cuál es la probabilidad de que una muestra de 25 trabajadores revele una distancia
promedio que se encuentre a un máximo de 1 Km. de la media poblacional?
6. El dueño de una empresa de taxis sabe que la duración de las zapatas de los frenos con los que
cuenta varía normalmente con una media de 80 000 Km. y una desviación estándar de 7 200 Km.
a) ¿En qué rango se espera que esté la duración media de 8 zapatas, con una confiabilidad del
99%?
b) ¿Cuál es la probabilidad de que la duración media de las 8 zapatas sea inferior a 83 200 Km?
118 Contrastes de hipótesis

Capítulo 9: Contrastes de hipótesis


9.1. Introducción
Una hipótesis es una aseveración que se hace sobre una población. Generalmente, tal asevera-
ción se refiere al valor numérico de algún parámetro poblacional, como la media o la proporción. Por
ejemplo, una hipótesis puede establecer que la tensión de ruptura promedio de un material para solda-
dura es de 250 lb., o que el ensamble de una computadora promedia al menos 40 minutos, o que la
proporción de piezas defectuosas en un proceso de manufactura es de menos de 0,05, o que el porcen-
taje de clientes exclusivos de un banco es menor del 5%.
Una prueba o contraste de hipótesis es una prueba de la validez de la aseveración, y se lleva a
cabo mediante un análisis de datos extraídos de una muestra.

9.2. Hipótesis nula e hipótesis alternativa


Muchas veces se quiere investigar si un parámetro poblacional tiene una determinada caracterís-
tica o no; por ejemplo, que menos del 25% de los consumidores de detergente usan detergente Real, es
decir, que la proporción de consumidores de detergente Real es menor que 0,25. Como no se conoce
con exactitud cuál es esa verdadera proporción, se establece como hipótesis que es igual a 0,25, y se
contrasta esta hipótesis contra la hipótesis de que dicha proporción es menor que 0,25. Para hacer este
contraste se extrae una muestra de consumidores de detergente y se calcula qué proporción de la mues-
tra usa detergente Real. Lógicamente, si esa proporción es mayor que 0,25, se aceptará la hipótesis ini-
cial; pero, ¿cuándo se podrá afirmar que es menor? Si la proporción encontrada en la muestra es lige-
ramente menor que 0,25, se podría aceptar la hipótesis inicial, pues esa pequeña diferencia puede ser
consecuencia del azar, y, efectivamente la verdadera proporción puede no ser menor que 0,25. Para
estar seguro de no cometer un grave error, rechazando “injustamente” la hipótesis inicial, se podría
tomar la decisión de rechazarla sólo si la proporción de la muestra resulta mucho menor que 0,25, es
decir, si se tiene un resultado inusual o poco probable. Pero, ¿a partir de qué valor de la proporción
que se encuentre en la muestra se podrá afirmar que es mucho menor que 0,25?
En el ejemplo, a la aseveración concreta de que la proporción de consumidores de detergente
Real es 0,25 (o más), se denomina hipótesis nula (H0). Se denomina hipótesis alternativa (H1), a la
hipótesis que motivó la investigación, es decir, a la aseveración de que la proporción de consumidores
de detergente Real es menor que 0,25. Para este ejemplo, estas hipótesis se expresan matemáticamente
de la siguiente forma:
H0: p ≥ 0,25
H1: p < 0,25

9.3. Regiones de aceptación y de rechazo


Definidas la hipótesis nula y la alternativa, el investigador debe precisar qué resultados del
muestreo harán que se acepte la hipótesis nula, y qué resultados harán que se rechace la hipótesis
nula a favor de la hipótesis alternativa.
Se denomina región de aceptación al conjunto de los posibles resultados del muestreo que lleva-
rían a aceptar H0. Se denomina región de rechazo al conjunto de los posibles resultados del muestreo
que llevarían a rechazar H0, y por lo tanto a aceptar H1.
Contrastes de hipótesis 119

Para definir estas regiones se suele usar el siguiente criterio: para rechazar la hipótesis nula se
tiene que dar un resultado muy poco usual en el muestreo. Por ejemplo, si la muestra está compuesta
por 40 consumidores de detergente (n = 40) y si es cierto que el 25% de la población consume deter-
gente Real (p = 0,25), se espera encontrar 10 consumidores de detergente Real (µ = np = 10). Si se en-
cuentran 8 ó más consumidores de detergente Real, se puede aceptar H0; pero, ¿a partir de qué valor ya
conviene rechazar H0? ¿7?, ¿6? Siguiendo el criterio de rechazar H0 cuando se obtiene un resultado
muy poco usual, es decir, muy poco probable, se puede considerar que encontrar menos de 7 consumi-
dores de detergente Real es muy poco probable (p1 = 6/40 = 0,15 parece considerablemente menor que
0,25). Concretamente:
6
40!
P(X < 7) = ∑ (40 − x)! x! 0,25
x =0
x
0,75 40− x = 0,096 (calculada con Excel)

Así, el investigador puede tomar la siguiente decisión: extraer una muestra de 40 consumidores
de detergente. Si hay 6 ó menos consumidores de detergente Real, rechaza H0; en caso contrario, acep-
ta H0. En la figura 9.1 se representan estas regiones de aceptación y rechazo con las probabilidades bi-
nomiales (barras verticales) correspondientes a, 0, 1, …, etc.

0.16

0.14

0.12

0.10

0.08

0.06

0.04 α

0.02

0.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Región de rechazo Región de aceptación


Figura 9.1. Regiones de aceptación y rechazo

9.4. Error tipo I y error tipo II


Una vez que el investigador ha definido las regiones de aceptación y de rechazo para la hipótesis
nula, se puede llevar a cabo la prueba; pero se pueden cometer dos tipos de error:
1) Rechazar la hipótesis nula cuando es verdadera. A esto se le conoce como error tipo I, y a la
probabilidad de cometerlo se le designa α.
Para el ejemplo de la proporción, este error se cometería si se rechaza la aseveración de que la
proporción de consumidores de detergente Real es igual a 0,25 (ó más), es decir, si se acepta
que dicha proporción es menor que 0,25, cuando realmente es 0,25. La probabilidad de cometer
este error es α = P(X < 7) = 0.096 (ver figura 9.1).
2) Aceptar la hipótesis nula cuando es falsa. A esto se le conoce como error tipo II, y a la probabi-
lidad de cometerlo se le designa β.
Para el ejemplo de la proporción, este error se cometería si se acepta la aseveración de que la
proporción de consumidores de detergente Real es igual a 0,25, es decir, si se rechaza que dicha
proporción es menor que 0,25, cuando realmente es menor que 0,25.
120 Contrastes de hipótesis

Supóngase que la verdadera proporción de consumidores de detergente Real (desconocida) es


0,12. Se cometerá el error tipo II cuando se acepte que p = 0,25, y esto ocurrirá cuando 7 ó más con-
sumidores de detergente de la muestra consuman detergente Real. La probabilidad de cometer este
error es:
40
40!
β = P(X ≥ 7) = ∑ (40 − x)! x! 0,12
x =7
x
0,88 40 − x = 0,198 (calculada con Excel)

En la figura 9.2 se representa la probabilidad de cometer el error tipo II (β ) cuando la verda-


dera proporción de consumidores de detergente Real (desconocida) es 0,12. Como se ve, para la ver-
dadera proporción p = 0,12 se tiene otra distribución binomial con media igual a np = 40(0,12) = 4,8.

0.20

0.18 Histograma binomial con p = 0,12

0.16

0.14
β
0.12

0.10

0.08
α Histograma binomial con p = 0,25

0.06

0.04

0.02

0.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Región de rechazo Región de aceptación


Figura 9.2. Probabilidad de cometer los errores tipo I y tipo II.

Se deduce que mientras más difiera la verdadera proporción de la proporción establecida como
hipótesis nula, menor es la probabilidad de cometer el error tipo II.
En una investigación, lo usual es que se defina el tamaño de la muestra y el máximo valor que se
desea de α (0,10; 0,05; 0,025 ó 0,01), y luego se determinen las regiones de aceptación y rechazo.

9.5. Contrastes de hipótesis sobre proporciones


Ejemplo 1:
En el ejemplo que se ha venido analizando sobre la proporción de consumidores de detergente
Real, se cumple la condición de que np y nq > 5, por lo tanto la proporción de la muestra (p1 =
x/n) tiene una distribución aproximadamente normal con media p y desviación estándar pq / n .

Supóngase que se toma una muestra de 40 consumidores de detergente (n = 40) y se define α =


0,05. Si se encuentra que 6 consumen detergente Real, ¿se podrá afirmar que el porcentaje de
consumidores de detergente Real es menor del 25%?
Las hipótesis son: H0: p ≥ 0,25
H1: p < 0,25
Es posible determinar las regiones de aceptación y rechazo en términos de x (número de consu-
midores de detergente que usan detergente Real), o en términos de p1 (proporción de consumido-
Contrastes de hipótesis 121

res que usan detergente Real). Para esta segunda opción, se denomina p1* al valor que limita las
regiones de aceptación y rechazo.
La variable estandarizada que le corresponde a p1* debe tener un área igual a 0,05 en la cola iz-
quierda de la curva normal; este valor es z* = –1,645. Por lo tanto:
p1 * − 0,25 + 1 / 80
–1,645 =
0,25 × 0,75 / 40
Resolviendo, resulta:
p1* = 0,1249
En la figura 9.3 se representa la distribución normal de p1 y las regiones de aceptación y rechazo
delimitadas por p1*.

0.16

0.14

0.12

0.10

0.08

0.06

0.04

0.02 α = 0,05

0.00
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70

Región de rechazo Región de aceptación


p 1*= 0,1249

Figura 9.3. Regiones de aceptación y rechazo para el contraste de hipótesis (de cola izquierda)
de una proporción

La proporción encontrada en la muestra es p1 = 6/40 = 0,15, que está en la región de aceptación;


por lo tanto, se acepta la hipótesis nula, y se rechaza la hipótesis alternativa. En otras palabras,
no se podrá afirmar que el porcentaje de consumidores de detergente Real es menor del 25%.
A partir de p1* se puede determinar con precisión las regiones de aceptación y rechazo:
x*
p1 * = 0,1249 =
40
x* = 4,996
Por lo tanto: Región de rechazo: x = 0, 1, 2, …, 4
Región de aceptación: x = 5, 6, 7, …, 40
Dividiendo cada valor x entre 40, se determinan las regiones de aceptación y rechazo de la va-
riable p1:
Región de rechazo: p1 = 0; 0,025; 0,050, …; 0,100
Región de aceptación: p1 = 0,125; 0,150; …; 1.
122 Contrastes de hipótesis

El verdadero valor de α se puede determinar calculando la probabilidad de que p1 esté en la re-


gión de rechazo, usando la aproximación normal:
1
0,1 + − 0,25
2( 40)
z= = − 2,008 ≈ − 2,01
0,25 × 0,75
40
α = 0,0222
¿Cuál sería la probabilidad de aceptar la hipótesis nula si el verdadero valor de p fuese 0,20?
En este caso, la hipótesis nula (H0: p ≥ 0,25) sería falsa, por lo tanto, dicha probabilidad, es de-
cir, la probabilidad de que p1 esté en la región de aceptación, es β:
1
0,125 − − 0,20
2(40)
z= = − 1,38
0,20 × 0,80
40

β = 1 – 0,0838 = 0,9162
En la figura 9.4 se muestran las áreas que representan a α y β, incluyendo las áreas que se aña-
den en cada caso.
0.18

0.16

0.14

0.12

0.1

0.08

0.06 β

0.04

0.02
α
0
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70

Región de rechazo Región de aceptación


0,125

Figura 9.4. Representación gráfica de α y β del ejemplo 1.


Ejemplo 2:
Supóngase que un grupo de profesionales de la educación ha venido aplicando un método espe-
cial para mejorar el nivel educativo de los alumnos del departamento de Piura. Se quiere investi-
gar si el porcentaje de alumnos con promedio mayor de 15 es superior en Piura que en el resto
del país. Para esto, se toman dos muestras: la primera, de 200 alumnos del resto del país, donde
se encuentran 38 alumnos con promedio mayor de 15; la segunda, de 100 alumnos de Piura,
donde se encuentran 23 alumnos con promedio mayor de 15. ¿Se podrá afirmar que dicho por-
centaje es mayor en Piura, con α = 0,05?
Contrastes de hipótesis 123

Nótese que no se sabe cuáles son esas proporciones en las dos poblaciones consideradas en esta
investigación; pero se sabe que si en ambos casos np y nq > 5, la diferencia de las proporciones
se distribuye normalmente alrededor de la diferencia de las proporciones de las poblaciones, con
una desviación estándar que se puede estimar gracias a que las muestras tomadas son grandes.
Sean px y py las proporciones de alumnos con promedio mayor de 15 en Piura y el resto del país,
respectivamente.
Sean además:
Para Piura: Nx = 100 Para el resto del país: Ny = 200
p1 = 23/100 = 0,23 p2 = 38/200 = 0,19
Conviene asumir, como hipótesis nula, que las proporciones px y py son iguales. La hipótesis que
motiva la investigación es que px > py. Por lo tanto, las hipótesis son:
H0: px – py = 0
H1: px – py > 0
En primer lugar se deben definir las regiones de aceptación y rechazo, considerando que esta úl-
tima estará en la cola derecha. El límite entre ambas regiones (p1 – p2)* se determina de la si-
guiente manera:
( p1 − p 2 ) * − 0 − 0,0075
1,645 =
0,2033 × 0,7967 0,2033 × 0,7967
+
100 200
x+ y 23 + 38 100 + 200
donde: px = py ≅ = = 0,2033 ; qx = qy = 1 – px ; f.c. = = 0,0075
N x + N y 100 + 200 2(100)(200)

(p1 – p2)* = 0,089


La diferencia (p1 – p2) encontrada en las muestras es: 0,23 – 0,19 = 0,04 < 0,089. Por lo tanto se
acepta la hipótesis nula (ver figura 9.5), es decir, no se puede afirmar que el porcentaje de alum-
nos con promedio mayor de 15 es mayor en Piura que en el resto del país.

-0.20 -0.15 -0.10 -0.05 0.00 0.05 0.10 0.15 0.20

Región de aceptación Región de rechazo


(p 1 - p 2)*= 0,089

Figura 9.5. Regiones de aceptación y rechazo para el contraste de hipótesis


de cola derecha de una diferencia de dos proporciones (ejemplo 2).
124 Contrastes de hipótesis

9.6. Contrastes de hipótesis sobre medias muestrales


Ejemplo 3:
El encargado de un taller ha estimado que el promedio del número de piezas producidas sema-
nalmente por cada uno de los trabajadores es de 55. Se quiere saber si una modificación en el
proceso productivo que se ha aplicado recientemente ha aumentado el nivel de producción. Para
esto se toma una muestra de 60 trabajadores y se obtiene un promedio de 58 piezas producidas
en una semana y una desviación estándar igual a 9. ¿Indica este resultado que el promedio de
piezas producidas semanalmente por cada trabajador ha aumentado, es decir, es superior a 55?
Considere α = 0,05.
Teniendo en cuenta el motivo de la investigación, se plantean las siguientes hipótesis:
H0 : µ = 55
H1 : µ > 55
Para definir las regiones de aceptación y rechazo se determina el valor x * que las limita:
x *− 55
1,645 = ⇒ x * = 56,91
9 / 60
En la figura 9.6 se muestran las regiones de aceptación y rechazo para este problema. El prome-
dio encontrado en la muestra está en la región de rechazo (58 > 56,91); por lo tanto se rechaza la
hipótesis nula, es decir, se acepta la afirmación de que el promedio de piezas producidas sema-
nalmente por cada trabajador es mayor de 55, como consecuencia de la modificación efectuada
en el proceso.
0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
50 51 52 53 54 55 56 57 58 59

Región de aceptación Región de rechazo


x * =56,91

Figura 9.6. Regiones de aceptación y rechazo para el contraste de hipótesis de cola derecha
de una media muestral (ejemplo 3)
Ejemplo 4:
Respecto al problema anterior, ¿se hubiese llegado a la misma conclusión si la muestra extraída
hubiese sido mucho más pequeña y se hubiese obtenido el mismo promedio de 58 y la misma
desviación estándar igual a 9, con una muestra de 26 trabajadores? Se asume que el número de
piezas producidas semanalmente por cada trabajador sigue una distribución normal.
Como la muestra es pequeña y no se conoce la desviación estándar de la población, ésta no se
Contrastes de hipótesis 125

puede estimar. Se recurre entonces a la distribución t de Student para determinar el valor x *


que limita las regiones de aceptación y de rechazo.
Se plantean las mismas hipótesis del ejemplo anterior:
H0 : µ = 55
H1 : µ > 55
Además:
n = 26
nl = n – 1 = 25 (grados de libertad)
x * − 55
t* = 1,7081 = ⇒ x * = 58,075
9 / 26 − 1

El promedio encontrado en la muestra está en la región de aceptación (58 < 58,075); por lo tanto
se acepta la hipótesis nula, es decir, se rechaza la afirmación de que el promedio de piezas pro-
ducidas semanalmente por cada trabajador es mayor de 55, como consecuencia de la modifica-
ción efectuada.
Ejemplo 5:
Supóngase que, aunque no se conoce el promedio de las puntuaciones que obtienen los alumnos
del cuarto año de secundaria de los departamentos de Piura y Lambayeque en una prueba de ap-
titud académica, se cree que es el mismo. Sin embargo, algunos profesores sospechan que estos
promedios son diferentes. Se investiga si son diferentes, y para esto se toma una muestra de 80
alumnos de Lambayeque, encontrándose un promedio de 57 puntos y 10 puntos de desviación
estándar. En Piura se extrae una muestra de 70 alumnos, encontrándose un promedio de 54 pun-
tos y 9 puntos de desviación estándar. Con base en estos resultados, ¿se podrá afirmar que los
promedios son diferentes?
Sean:
µ x : la media de las puntuaciones en Lambayeque.
µ y : la media de las puntuaciones en Piura.
n x : el tamaño de la muestra de Lambayeque.
ny : el tamaño de la muestra de Piura.
x : la media de las puntuaciones obtenidas en la muestra de Lambayeque.
y : la media de las puntuaciones obtenidas en la muestra de Piura.
Se plantean las siguientes hipótesis:
H0 : µ x – µ y = 0
H1 : µ x – µ y ≠ 0
A diferencia de los contrastes de hipótesis vistos hasta ahora, en este caso se rechazará la hipóte-
sis nula cuando la diferencia de los promedios sea significativa, sin importar cuál es mayor. Se
tendrán entonces dos regiones de rechazo: una en cada cola de la distribución normal, como se
muestra en la figura 9.7.
En primer lugar, se determinan los valores ( x − y )* que limitan las regiones de aceptación y de
rechazo. Téngase en cuenta que el área de cada cola debe ser 0,025.
(x − y) * − 0
± 1,96 =
10 2 9 2
+
80 70
Se ha asumido que las varianzas de las muestras son iguales a las varianzas poblacionales, debi-
do a que las muestras son suficientemente grandes (nx > 50; ny > 50).
126 Contrastes de hipótesis

α/2 = 0,025 α/2 = 0,025

-7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7

Región de rechazo Región de aceptación Región de rechazo


(x− y )*2 =-3,041 (x− y )*2 = 3,041

Figura 9.7. Regiones de aceptación y rechazo para el contraste de hipótesis de dos colas
de una diferencia de medias (ejemplo 5)

Resolviendo:
( x − y )* = ± 3,041
La diferencia x − y encontrada en las muestras es 3; valor que cae en la región de aceptación.
Por lo tanto se acepta que los promedios en ambos departamentos es el mismo. La diferencia en-
contrada no es “significativa”.
Ejemplo 6:
Supóngase que, en el ejemplo 5, las muestras que se extraen de Lambayeque y Piura son peque-
ñas, de tamaños 17 y 12, respectivamente, y que las medias y desviaciones estándar encontradas
son las mismas. Con base en estos resultados, ¿se podrá afirmar que los promedios son diferen-
tes?
En primer lugar, se asume que las puntuaciones obtenidas en Lambayeque y Piura se distribuyen
normalmente, y que las desviaciones estándar de dichas puntuaciones en ambas poblaciones son
iguales. (Más adelante se podrá aplicar la Prueba F para corroborar si son iguales).
Se plantean nuevamente las siguientes hipótesis:
H0 : µ x – µ y = 0
H1 : µ x – µ y ≠ 0
Las regiones de aceptación y rechazo son las mismas que las del ejemplo 5 (figura 9.7); pero con
otros límites.
Se determinan los valores ( x − y )* que limitan las regiones de aceptación y rechazo:
( x − y) * − 0
t* = ± 2,0518 =
 17 × 10 2 + 12 × 9 2  1
  + 
1

 17 + 12 − 2   17 12 
 
Contrastes de hipótesis 127

Como se ve, el número de grados de libertad es: 17 + 12 – 2 = 27


( x − y )* = ± 7,696
La diferencia x − y encontrada en las muestras es 3, que cae en la región de aceptación. Por lo
tanto se acepta que los promedios en ambos departamentos es el mismo. La diferencia encontra-
da no es “significativa”.

9.7 La distribución F: comparación de varianzas.


Se incluye en este capítulo la distribución F, empleada para comparar varianzas, por lo impor-
tante que es verificar si las varianzas de dos universos son iguales.
La función densidad de probabilidad de la variable F es:

− ( n1 + n2 ) / 2
(n1 / 2 )−1 n1F 
f ( F ) = kF 1 + n 
 2 

donde n1 y n2 representan grados de libertad, y k es una constante que depende de n1 y n2.


En la figura 9.8 se representa esta función:

f(F)

Figura 9.8. Distribución F

Como hay dos tipos de grados de libertad, resultaría muy trabajoso tabular áreas bajo la función
F tan detalladamente como se hace con las funciones χ2 y t. En el apéndice se muestra una tabla que
da los valores de F*, a partir de los cuales el área bajo la función F es 5% ó 1%, para distintas combi-
naciones de n1 y n2. A estos valores se les suele denominar Fn1, n2; p (págs. 268-269).
Teorema:
Si se extraen dos muestras de tamaños N1 y N2 del mismo universo, con varianzas s12 y s22, el
cociente s12 / s22 tiene una distribución F con:
n1 = N1 – 1
n2 = N2 – 1, grados de libertad.
Como la distribución F es asimétrica, y las tablas (pág.268; 269) sólo proporcionan áreas en la
cola derecha, se suelen plantear las siguientes hipótesis para hacer la comparación de varianzas:
H0 : σ 12 = σ 22
H1 : σ 12 > σ 22
Así entonces, al extraer las dos muestras, conviene denominarle s12 a la mayor de las varianzas.
Cabe esperarse que el valor F* a partir del cual se rechaza la hipótesis nula, sea menor conforme
aumenten los tamaños de las muestras. Así, cuando N1 y N2 tienden a infinito, F* tiende a 1; pues
cuando las muestras representen casi la totalidad de sus universos, sólo se debe admitir que las varian-
zas de dichos universos son iguales si lo son también las varianzas de las muestras.
128 Contrastes de hipótesis

Ejemplo:
Una máquina está programada para llenar recipientes con 20 onzas de líquido. El jefe de pro-
ducción está pensando aumentar la velocidad de llenado; pero teme que la variabilidad aumente
significativamente. Para asegurarse, toma una muestra de 16 recipientes llenados a velocidad
normal, encontrando una desviación estándar de 0,020 onzas. Luego toma una muestra de 25 re-
cipientes llenados a la nueva velocidad, encontrando una desviación estándar de 0,028 onzas.
¿Se podrá afirmar que con la nueva velocidad de llenado la varianza aumenta? Considere un ni-
vel de significación del 5%.
Se investiga:
H0: σ 12 = σ 22 f(F)
H1: σ 1 > σ
2
2
2

Sean: s1 = 0.028; N1 = 25
s2 = 0.020; N2 = 16
Para: n1 = 25 – 1 = 24
n2 = 16 – 1 = 15
Resulta: F* = 2,29
F* = 2,29 F
Región de aceptación Región de rechazo
s12
(0,028) 2
Según las muestras: F = 2 = = 1,96 < 2.29.
s 2 (0,020) 2
Se acepta H0 y se concluye que la varianza no ha aumentado.

9.8 Contrastes de hipótesis en Excel

9.8.1 Prueba t para medias de dos muestras suponiendo varianzas iguales.


Ejemplo:
En un programa de capacitación industrial algunos aprendices son instruidos con el método A,
que consiste en instrucciones mecanizadas, y otros son capacitados con el método B, que entraña
también la atención personal de un instructor. Se seleccionaron aleatoriamente aprendices ins-
truidos con los dos métodos, encontrándose las siguientes calificaciones (la calificación máxima
es 100):
Método A 68 75 69 71 73 66 68 71 71 68
Método B 72 77 79 78 70 68 77 77 72 66

¿Se puede afirmar que el método B es mejor? Considere α = 0,05.


Se trata de una prueba de hipótesis de diferencia de medias, a partir de muestras pequeñas. Co-
mo el propósito es investigar si el método B es mejor, se plantea:
H0 : µ B – µ A = 0
H1 : µ B – µ A > 0
Ingresando al menú Herramientas/Análisis de datos/Prueba t para dos muestras suponiendo va-
rianzas iguales se abre el cuadro de diálogo que se muestra en la figura 9.9, que en este caso ya
tiene ingresados los datos del problema:
Contrastes de hipótesis 129

Figura 9.9. Cuadro de diálogo de Excel de la prueba t para la diferencia de medias


suponiendo varianzas iguales.
Cabe aclarar que los datos del método B fueron ingresados en el rango B1:K1 y los datos del
método A fueron ingresados en el rango B2:K2; con lo cual Excel asignó la Variable 1 a las ca-
lificaciones del método B y Variable 2 a las calificaciones del método A.
Aceptando los datos ingresados en el cuadro de diálogo, se obtiene el siguiente resultado:
Variable 1 Variable 2
Media 73.6 70
Varianza 21.156 7.333
Observaciones 10 10
Varianza agrupada 14.244
Diferencia hipotética de las medias 0
Grados de libertad 18
Estadístico t 2.133
P(T<=t) una cola 0.023
Valor crítico de t (una cola) 1.734
P(T<=t) dos colas 0.047
Valor crítico de t (dos colas) 2.101

Como se trata de una prueba de cola derecha, la región de rechazo está hacia la derecha del va-
lor crítico t*. Por lo tanto se rechaza H0, pues t = 2,133 >1,734 = t*.
Se llega a la misma conclusión, que t está en la región de rechazo, observando que:
P(T <= t) = 0,023 < 0,05 = α
Por lo tanto, se rechaza H0, se acepta H1; o sea que sí se puede afirmar que el método B es mejor
que el método A.

9.8.2 Prueba t para medias de dos muestras suponiendo varianzas desiguales.


En este caso se procede de la misma forma que en el apartado anterior, ingresando al menú
Herramientas/Análisis de datos/Prueba t para dos muestras suponiendo varianzas desiguales.
Para saber si las varianzas de dos poblaciones son iguales o diferentes, se debe hacer la prueba
F, tal como se explicó en el apartado 9.7.
130 Contrastes de hipótesis

9.8.3 Prueba z para medias de dos muestras cuando se conocen la varianzas de las poblaciones
Ejemplo:
Una encuesta de hábitos de consumo de alimentos realizada en Piura y Chiclayo revela los re-
sultados que se muestran a continuación. En Piura fueron encuestadas 25 amas de casa y en
Chiclayo se entrevistaron 35 amas de casa. Se conocen las desviaciones estándar de ambas po-
blaciones: S/.55 para Piura y S/.65 para Chiclayo. ¿Se puede afirmar que el gasto es menor en
Piura que en Chiclayo? Considere α = 0,05
364,98 316,11 392,21 443,82 439,91 466,65 270,82 368,29 370,69 386,74
Piura 434,75 325,66 345,48 295,47 363,65 361,48 447,13 375,73 361,72 359,79
287,65 331,11 341,32 274,10 351,60
514,02 370,92 312,07 317,54 316,27 370,06 377,13 263,26 337,49 369,07
479,56 386,97 382,27 310,30 325,19 375,86 449,72 401,05 468,66 471,17
Chiclayo
366,80 324,06 367,80 384,09 501,57 250,12 363,10 327,29 452,14 434,47
316,12 359,47 389,47 407,21 310,85

Se trata de una prueba de hipótesis de diferencia de medias, cuando se conocen las varianzas de
las poblaciones. Como el propósito es investigar si el gasto es menor en Piura, se plantea:
H0 : µ P – µ Ch = 0
H1 : µ P – µ Ch < 0

Ingresando al menú Herramientas/Análisis de datos/Prueba z para medias de dos muestras, se


abre el cuadro de diálogo que se muestra en la figura 9.10, que ya tiene ingresados los datos del
problema. En este caso los datos de la Variable 1 corresponden a Piura y los de la Variable 2 a
Chiclayo.

Figura 9.10. Cuadro de diálogo de Excel de la prueba z para la diferencia de


medias cuando se conocen las varianzas de las poblaciones

Aceptando los datos ingresados en el cuadro de diálogo, se obtiene el siguiente resultado.


Como se trata de una prueba de cola izquierda, la región de rechazo está hacia la izquierda del
valor crítico z*.
Contrastes de hipótesis 131

Variable 1 Variable 2
Media 363.0744 370.804
Varianza (conocida) 3025 4225
Observaciones 25 35
Diferencia hipotética de las medias 0
z -0.49717
P(Z<=z) una cola 0.3095
Valor crítico de z (una cola) -1.64485
P(Z<=z) dos colas 0.6191
Valor crítico de z (dos colas) 1.95996

Por lo tanto se acepta H0, pues z = –0,49717 > –1,64485 = z*. Se llega a la misma conclusión,
que z está en la región de aceptación, observando que:
P(Z <= z) = 0,3095 > 0,05 = α
O sea que no se puede afirmar que el gasto por consumo de alimentos en Piura es menor que en
Chiclayo.

9.8.4 Prueba de una media cuando se conoce o no la varianza de la población


Excel permite hacer pruebas de hipótesis respecto a una media, cuando se conoce la varianza de
la población y cuando se desconoce. En el segundo caso considera la desviación estándar de la mues-
tra, como se expresa en el cuadro de diálogo de Excel que se muestra en la figura 9.11.
La función de Excel que se emplea es PRUEBA.Z; aunque cuando la muestra que se emplea es
pequeña, se trate realmente de una prueba t.
Para ambos casos, Excel sólo considera una prueba de dos colas; sin embargo, se puede emplear
esta función para pruebas de una sola cola, comparando el valor de P que da Excel (que representa el
área que hay desde la media de la muestra hasta ∞), con el valor de α. Si P es menor que α, la media
de la muestra está en la región de rechazo, pues α contendría a P.
En el siguiente ejemplo se hace un contraste o prueba de hipótesis de una media, de una cola,
cuando se conoce la varianza de la población.
Ejemplo:
El dueño de un restaurante ha muestreado 20 clientes para averiguar si el consumo promedio por
cliente es de más de S/.31, encontrando los siguientes consumos:

33,85 28,47 36,84 42,52 42,09 45,03 23,49 34,21 41,52 29,52
31,70 26,20 25,34 30,12 31,25 23,85 32,38 33,28 36,24 33,49

Si se sabe que los consumos de los clientes de este restaurante están distribuidos normalmente
con una desviación estándar igual a 6,4 ¿se podrá afirmar que el consumo promedio por cliente
es de más de S/.31? Considere α = 0,05
Como el propósito es investigar si el consumo promedio de los clientes del restaurante es mayor
que S/. 31, se plantea:
H0 : µ = 31
H1 : µ > 31
Insertando la función PRUEBA.Z, Excel muestra el cuadro de diálogo que se muestra en la figu-
ra 9.11. Nótese que en este cuadro ya se han ingresado los datos del problema, incluyendo la
desviación estándar (sigma) de la población.
Haciendo clic en Aceptar, Excel devuelve el valor P = 0,07 > 0,05. Por lo tanto se rechaza H0, se
acepta H1; o sea que el consumo promedio por cliente es de más de S/.31.
132 Contrastes de hipótesis

Figura 9.11. Cuadro de diálogo de Excel de la prueba z de una media

9.8.5 Comparación de varianzas


Con Excel se puede realizar la prueba de comparación de varianzas utilizando la herramienta es-
tadística Prueba F para varianzas de dos muestras que se encuentra en el menú Herramientas/Análisis
de datos. A continuación se resuelve un problema.
Ejemplo:
Una empresa de servicios encuesta semanalmente a sus clientes para medir y controlar su nivel
de satisfacción. En una de las preguntas de la encuesta los clientes deben puntuar entre 1 y 5 la
profesionalidad de los empleados que los acaban de atender. Suponga que en las últimas 16 se-
manas la empresa obtuvo los siguientes promedios de la profesionalidad de sus empleados, de
las encuestas hechas en las oficinas de Piura y Chiclayo:
Piura 3,37 2,98 3,59 4,01 3,97 4,19 2,62 3,40 3,93 3,06 3,22 2,82 2,76 3,10 3,19 2,65
Chiclayo 2,53 3,76 3,29 2,80 2,62 3,61 2,88 3,15 2,92 2,97 3,00 2,81 3,64 2,50 3,15 3,15

¿Se puede afirmar que la variabilidad es mayor en Piura, y que por lo tanto los empleados de
Piura son menos homogéneos en cuanto a la profesionalidad? Considere α = 0,05
Se plantean las siguientes hipótesis:
H0 : σP2 = σCh2
H1 : σP2 > σCh2
Recuérdese que esta prueba es siempre de una sola cola (derecha), debido a que las tablas F sólo
están tabuladas para calcular áreas en la cola derecha de la función F.
Ingresando al menú Herramientas/Análisis de datos/Prueba F para varianzas de dos muestras,
se abre el cuadro de diálogo que se muestra en la figura 9.12, que ya tiene ingresados los datos
del problema. En este caso los datos de la Variable 1 corresponden a Piura y los datos de la Va-
riable 2 a Chiclayo.
Contrastes de hipótesis 133

Figura 9.12. Cuadro de diálogo de la prueba de comparación de varianzas

Aceptando los datos ingresados en el cuadro de diálogo, se obtiene el siguiente resultado.


Variable 1 Variable 2
Media 3.30375 3.04875
Varianza 0.257745 0.14573167
Observaciones 16 16
Grados de libertad 15 15
F 1.76862727
P(F<=f) una cola 0.14032574
Valor crítico para F (una cola) 2.40344633

Por lo tanto se acepta H0, pues F = 1,7686 < 2,4034 = F*. Se llega a la misma conclusión, que F
está en la región de aceptación, observando que:
P(F <= f) = 0,1403 > 0,05 = α
O sea que no se puede afirmar que la variabilidad es mayor en Piura, es decir, que los emplea-
dos de Piura son menos homogéneos en cuanto a la profesionalidad.
134 Contrastes de hipótesis

Problemas propuestos
1. En una fábrica que produce artículos en serie, el 75% son, en promedio, de óptima calidad. El jefe
de producción cree que con cierto cambio en el proceso, conseguirá aumentar dicho porcentaje en
forma considerable. Para asegurarse, un día efectúa dicho cambio, pone el proceso en marcha y
toma una muestra de 20 artículos, encontrando que 18 son de óptima calidad. Considerando α =
10%:
a) ¿Afirmaría usted que ese cambio hará aumentar el porcentaje de artículos de óptima calidad?
Respuesta: Sí afirmaría que aumenta el % de artículos de óptima calidad.
b) ¿Estaría usted completamente seguro de la respuesta que ha dado en el apartado anterior?
¿Cuál es la probabilidad de que usted esté equivocado?
Respuesta: No estaría tan seguro; hay una probabilidad del 9,13% de estar equivocado.
c) Suponga que el cambio efectuado sí da los resultados que esperaba el jefe de producción, pero
existe una probabilidad de 7,55% de no descubrirlo. ¿A cuánto ha aumentado el porcentaje de
artículos de óptima calidad?
2. Un profesor de Estadística tiene una moneda deformada. Después de experimentar con ella, ha lle-
gado a la conclusión de que si la lanza muchas veces, obtendrá el triple número de caras que de se-
llos. Un grupo de alumnos cree que el profesor está equivocado, pero no están seguros si tienden a
salir más caras o sellos. Otro grupo también cree que el profesor está equivocado, pero no de tal
modo, pues opinan que deben salir aún más caras que sellos.
a) Determine qué regiones de aceptación y rechazo debe plantear cada grupo de alumnos, si de-
ciden lanzar dicha moneda 20 veces, considerando un α = 10%.
b) Determine, para cada grupo de alumnos, para qué valores de p, β es menor del 30%.
3. El 80% de los pacientes que reciben cierto tratamiento reaccionan favorablemente. De un grupo de
15 pacientes de un hospital, 8 reaccionaron favorablemente.
a) ¿Podría aceptarse la hipótesis de que los pacientes de este hospital reaccionan menos favora-
blemente a este tratamiento? Sea α = 0,05.
Respuesta: Se acepta que los pacientes de este hospital reaccionan menos favorablemente al
tratamiento.
b) ¿Cuál es realmente la probabilidad de cometer el error tipo I?
Respuesta: αreal = 0,0181
c) Si realmente se recuperan el 70% de los pacientes del hospital, ¿cuál es la probabilidad de
aceptar la hipótesis inicial?
Repuesta: β = 0,8689
4. En una compañía que produce ciertos artículos se afirma que, en promedio, el 5% son defectuosos.
El jefe de producción quiere investigar si dicho porcentaje es mayor, tomando primeramente una
muestra de doce artículos. Si en la muestra se encuentran más de dos artículos defectuosos, no
aceptará la afirmación inicial. En caso contrario, tomará otra muestra de doce artículos y, si el nú-
mero de artículos defectuosos es 2 como máximo, aceptará la afirmación inicial.
a) Determine el valor de α
Respuesta: α = 0,0388
b) Si el porcentaje de artículos defectuosos es realmente 10, ¿cuál es la probabilidad de cometer
el error tipo II?
Respuesta: β = 0,7905
5. El profesor de Estadística ha informado a la Dirección de Estudios que el porcentaje de alumnos
de la Universidad que llega tarde a clases es 20%. El director de estudios inició un plan de aseso-
ramiento personal con el propósito de reducir ese porcentaje. Un alumno de Estadística quiere
comprobar si dicho plan ha dado buenos resultados y muestrea aleatoriamente 20 alumnos, encon-
trando que cinco de éstos llegaron tarde. Si considera α = 0,05, ¿a qué conclusión llegará?
Contrastes de hipótesis 135

6. Un candidato a la alcaldía afirma que por lo menos el 55% de los ciudadanos votarán por él. Se
hizo una encuesta a 20 votantes para investigar su afirmación y sólo 8 dijeron que votarían por él.
Sea α = 0,05.
a) ¿Se aceptará la afirmación del candidato?
Respuesta: Sí se acepta
b) Si en las elecciones, el mencionado candidato obtiene el 40% de los votos, ¿Cuál es la proba-
bilidad de que hayamos aceptado su afirmación?
Respuesta: 0,75
7. Un peluquero afirma que por lo menos el 80% de sus clientes seguirán acudiendo a su peluquería,
a pesar de un fuerte incremento que está haciendo en su tarifa. Su ayudante no está muy seguro de
ello y consulta con 15 de sus clientes, tomados aleatoriamente, resultando que 11 de ellos piensan
seguir acudiendo a su peluquería. Considerando α = 5%, ¿qué opina sobre la afirmación del pelu-
quero?
8. Se sabe que la proporción de artículos defectuosos en un proceso de producción es de 0,15. Con el
objeto de mejorar la producción, se hizo una modificación en una de las máquinas y se contrató
más personal. Estas acciones dieron origen a una discusión entre dos Ingenieros de Planta. A pen-
saba que la proporción de artículos defectuosos había disminuido y B por el contrario sostenía que
había aumentado. Tomando una muestra de 20 artículos en un día de producción, y considerando
α = 0,10:
a) Determine las regiones de aceptación y rechazo para A y B.
b) Si realmente la proporción de defectuosos bajó a 0,10. ¿Quién puede cometer el error tipo II?
¿Cuál es la probabilidad de que lo cometa?
9. El jefe del centro de cómputo de un banco afirma que la probabilidad de que las digitadoras pulsen
la tecla de un carácter incorrectamente, es igual a 0,001. Si en un documento de 10,000 caracteres
se pulsaron erróneamente 15 teclas, ¿concluiría que dicha probabilidad es realmente mayor que
0,001? Considere α  = 0,10.
10. Se ha estimado que no más del 2% de los alumnos de la UDEP provienen de Morropón. Si de una
muestra de 400 alumnos, 15 son de Morropón, ¿que diría de esa estimación? Considere α = 0,10.
11. El departamento médico desea actualizar su información con respecto a los alumnos que fuman.
Con base a estudios previos se cree que la proporción es del 58%. El departamento lleva a cabo
una encuesta tomando una muestra aleatoria de 600 alumnos, a los cuales se les pregunta si fuman.
De los 600, 367 son fumadores. ¿Afirmaría usted, tomando este resultado, que el porcentaje de
alumnos que fuman ha aumentado? Considere α = 0,10.
12. Un fabricante afirma que en general el 8% de las piezas que produce son defectuosas. Un ingenie-
ro industrial propone un control de calidad y afirma que así reducirá considerablemente el porcen-
taje de defectuosos. El fabricante quiere comprobarlo, y escoge aleatoriamente 100 piezas, una vez
que se está aplicando el control de calidad, encontrando 5 defectuosas. Con α = 0,05:
a) ¿Aceptaría la afirmación del Ingeniero?
b) Si con este control de calidad, el fabricante escoge 100 piezas diarias durante 50 días, encon-
trando que sólo en ocho días se verifica su hipótesis. ¿Cuál es aproximadamente el verdadero
porcentaje de piezas defectuosas?
13. En un grupo de 20 cartas están incluidos los cuatro ases. En 80 extracciones son sustitución se ob-
tienen 21 ases.
a) ¿Se puede considerar este resultado fuera de lo usual? Sea α = 0,05
b) ¿Cuál es el mínimo número de ases que debo obtener para considerar el resultado como usual?
Sea α = 0,05
14. Uno de los dos candidatos a la presidencia del Club Grau afirma que al menos el 45% de los so-
cios votarán por él. Si se hace una encuesta a una muestra aleatoria de 200 socios (α = 0,05)
136 Contrastes de hipótesis

a) ¿Cuántos socios del total de encuestados tendrán que afirmar que votarán por él para que se
acepte su afirmación?
Respuesta: Por lo menos, 78 socios deberán afirmar que votarán por él, para que se acepte su
hipótesis.
b) Si luego de las elecciones se determina que se equivocó, y que la probabilidad de aceptar su
afirmación era 0,84, ¿qué porcentaje de votos obtuvo?
Respuesta: Obtuvo aproximadamente el 42% de los votos.
15. Se sabe que la proporción de artículos defectuosos en un proceso de manufactura es de 0,15. El
proceso se vigila en forma periódica, tomando muestras aleatorias de tamaño 40 e inspeccionando
las unidades, con el propósito de detectar un aumento de dicha proporción; en cuyo caso se detiene
el proceso y se considera como "fuera de control". Si se desea que en menos del 5% de las inspec-
ciones se declare que el proceso está "fuera de control", cuando realmente la proporción de artícu-
los defectuosos no ha aumentado:
a) Enunciar las hipótesis nula y alternativa apropiadas.
b) Determine las regiones de aceptación y rechazo.
c) Suponiendo que la proporción de artículos defectuosos es 0,20, ¿en qué porcentaje de inspec-
ciones se declarará que el proceso está fuera de control? ¿Y si dicha proporción es 0,30?
16. El 5% de los productos de una fábrica son defectuosos. Se hizo una modificación del proceso de
producción y se investigó una posible mejoría mediante una muestra de 120 unidades, encontrán-
dose 3 defectuosas. Sea α = 0,05 ¿Podría decirse que la modificación redujo el porcentaje defec-
tuoso?
Respuesta: No se redujo el porcentaje defectuoso.
17. Hay 2 candidatos a la Alcaldía para las próximas elecciones en la ciudad de Piura. Según el candi-
dato A, alcanzará como mínimo el 65% de los votos. Si en las encuestas el candidato A obtiene el
56% de los votos. ¿De qué tamaño fue la muestra si los resultados fueron aceptables, a un nivel del
5%?
18. En una prueba de Estadística tomada a un grupo de 70 alumnos, 52 alumnos contestaron correcta-
mente la primera pregunta y 57 alumnos contestaron correctamente la segunda pregunta. ¿Se po-
drá afirmar que la segunda pregunta es más fácil? Sea α = 0,10.
19. Un fabricante afirma que las llantas que produce tienen una duración media de 50 000 Km., con
una desviación estándar de 7 300 Km. Una organización de protección al consumidor selecciona
una muestra de 100 de estas llantas, encontrando una duración promedio de 47 000 Km. ¿Debe
dudar dicho organismo de la aseveración del fabricante? Sea α = 0,10.
20. Se ha asegurado que el peso promedio de las alumnas de la UDEP es de 54,4 Kg. Uno de los pro-
fesores no cree que tal aseveración sea correcta y reúne una muestra aleatoria de 100 pesos. De
ello resulta una media de 53,75 Kg. y una desviación estándar de 5,4 Kg. ¿Es esta evidencia sufi-
ciente para rechazar la afirmación inicial? Sea α = 0,10.
Respuesta: No es suficiente para rechazar la afirmación inicial.
21. Suponga que las calificaciones en matemáticas de los alumnos de dos escuelas siguen distribucio-
nes normales. Para investigar si tales calificaciones son significativamente mayores en una de las
escuelas, se toman muestras aleatorias de 40 alumnos en ambas, encontrándose un promedio de 80
puntos y una desviación estándar de 9,5 puntos para la primera escuela, y un promedio de 75 pun-
tos con una desviación estándar de 7 puntos para la segunda escuela. Considere un nivel de signi-
ficancia del 5%:
a) ¿Se podrá aceptar que en una escuela se obtienen mayores calificaciones que en la otra?
Respuesta: Sí se acepta.
b) ¿A partir de qué valor de la diferencia entre las calificaciones de las dos muestras, se podrá
aceptar que en una escuela se obtienen mayores calificaciones que en la otra?
Respuesta: A partir de 3,15.
Contrastes de hipótesis 137

22. Un laboratorista piensa modificar el proceso para producir cal viva a partir de la caliza. Hará la
modificación sólo si la cal viva promedio que se obtiene por este nuevo proceso aumenta su valor
con respecto al proceso actual. Con base en un experimento de laboratorio y mediante el empleo
de dos muestras aleatorias de tamaño 11, una para cada proceso, se obtuvo lo siguiente: la cantidad
del cal viva promedio del proceso actual fue de 24,5 con una desviación estándar de 2,2, y para el
proceso propuesto fue de 28,1 con una desviación estándar de 2,6. ¿Cree usted que debe adoptarse
el nuevo proceso? Haga las consideraciones y pruebas necesarias para contestar esta interrogante.
Respuesta: Debe aceptarse el nuevo proceso.
23. Se espera que dos operadores produzcan, en promedio, el mismo número de unidades terminadas
en el mismo tiempo. A continuación se muestra la cantidad de unidades terminadas para ambos
trabajadores, en una semana de trabajo. Considere un nivel de significancia (α) del 5%.
Operador 1 12 11 18 16 13
Operador 2 15 18 17 16 17

a) ¿Se puede discernir alguna diferencia entre los operadores?


Respuesta: No hay diferencia.
b) Si cree necesario, diga qué condiciones deben cumplir las variables aleatorias en estudio. Diga
además qué representan esas variables.
Respuesta: σx debe ser igual a σy. X e Y representan el número de unidades terminadas por los
operadores 1 y 2 respectivamente; deben tener distribución normal.
c) Si realmente hay una diferencia de una unidad entre los promedios mencionados, ¿cuál sería la
probabilidad de cometer el error tipo II? ¿En que consistiría este error?
Respuesta: Aproximadamente 0,93.
24. Una compañía adquirió mil pistones de un nuevo proveedor que, aunque dando un precio más bajo
que el productor anterior, garantiza la misma calidad. Al llegar el embarque, la compañía selec-
cionó una muestra de 30 artículos, encontrando que el diámetro promedio es de 7,504 cm. con una
desviación estándar 0,018 cm. Las especificaciones requieren que no se sobrepase un diámetro
promedio de 7,500 cm. Suponiendo que se acepta un riesgo del 10% de una acusación falsa, ¿con-
sideraría usted que el proveedor está cumpliendo con el acuerdo? Considere un nivel de signifi-
cancia del 5%
Respuesta: El proveedor sí está cumpliendo con el acuerdo.
25. Supóngase que en una línea aérea se desea determinar si el peso promedio del equipaje que llevan
los pasajeros que van de Piura a Lima es de más de 15 Kg. Se selecciona aleatoriamente una
muestra de 40 pasajeros y se pesa su equipaje, encontrando una media de 16 Kg. Supóngase que se
sabe que la desviación estándar de los pesos es de 2,8 Kg. ¿Debería llegarse a la conclusión de que
el peso promedio del equipaje es de más de 15 Kg?
Respuesta: Sí, el peso promedio es mayor que 15.
25. El gerente de una refinería piensa modificar el proceso para producir gasolina a partir del petróleo
crudo; pero hará la modificación sólo si la gasolina promedio que se obtenga por este nuevo pro-
ceso (expresada como porcentaje del crudo) aumenta su valor con respecto al proceso en uso. Con
base en un experimento de laboratorio y mediante el empleo de dos muestras aleatorias de tamaño
25 para cada proceso, la cantidad de gasolina promedio del proceso en uso fue de 26,34 con una
desviación estándar de 2,4, y para el proceso propuesto fue de 28,8 con una desviación estándar de
2,9. El gerente piensa que los resultados proporcionados por los dos procesos son variables aleato-
rias independientes normalmente distribuidas. Considere α = 0,05.
a) ¿Se podrá afirmar que las varianzas de los dos procesos son iguales?
b) ¿Debe adoptarse el nuevo proceso?
26. Una organización va a probar la distancia de frenado, a una velocidad de 80 Km/h, de dos marcas
distintas de automóviles. Para la primera marca se seleccionaron 10 automóviles y se probaron en
un medio controlado, obteniendo las siguientes distancias (en metros): 50,8; 53,5; 48,5; 49,6; 51,1;
138 Contrastes de hipótesis

52,3; 52,7; 50,5; 57,1; 48,8. Para la segunda marca se seleccionaron 8 automóviles y se obtuvo:
40,5; 45,9; 50,1; 47,4; 46,2; 49,0; 43,3; 41,6. Con base en esta evidencia, ¿existe alguna razón para
afirmar que los autos de la segunda marca tienen un mejor frenado? Considere α = 0,05.
27. Un comerciante piensa comprar a un productor una gran cantidad de material para soldar. Éste
asegura al comerciante que la tensión de ruptura del material que emplea es de 250 lb., con una
desviación estándar de 25 lb. El comerciante envía a uno de sus técnicos indicándole que compre
el material sólo si una muestra de 64 especimenes da una tensión de ruptura promedio de por lo
menos 245 lb. Pero, por error, el productor muestrea 94 especimenes. ¿Qué tensión de ruptura
promedio debe tener la muestra, como mínimo, para que el técnico decida comprar el material,
cumpliendo con los requerimientos del comerciante?
28. Supongamos que la estatura media de los alumnos de la UDEP es 1.70m. Un alumno que quiere
investigar esto, toma una muestra aleatoria de 10 de sus compañeros, midiéndoles: 1,66; 1,82;
1,75; 1,58; 1,73; 1,72; 1,64; 1,63; 1,58 y 1,65m. ¿Se puede considerar esta muestra representativa?
Considere α = 0.05
Respuesta: Sí es representativa.
29. Se quiere saber si el nivel en el primer ciclo de la Facultad de Ingeniería ha mejorado respecto al
semestre pasado. Un alumno toma una muestra de 14 alumnos del primer ciclo del semestre pasa-
do y calcula un promedio de notas 10,18 con desviación estándar 1,77. Luego toma una muestra
de 17 alumnos del primer ciclo del semestre actual y calcula un promedio 10,77 con desviación es-
tándar 2,07. Sea α = 0,05. ¿Se podrá afirmar que el nivel ha mejorado?
Respuesta: No se puede afirmar que ha mejorado.
30. Un fabricante requiere fibra de algodón con una resistencia media a la tensión de 6,50 onzas y
desviación estándar 0,25 onzas. Investigó un nuevo lote de fibras mediante una muestra de 17 pie-
zas y encontró una resistencia media de 6,35 onzas. Suponga que la desviación estándar no ha
cambiado. ¿Se puede afirmar que la resistencia media a este lote no se ajusta a sus requerimientos?
Sea α = 0,05.
31. La experiencia indica que la resistencia a la rotura del alambre comprado a cierta compañía está
distribuida normalmente con una resistencia media de 100 Kg. y una desviación estándar de 5 Kg.
Un comprador emplea estos alambres colocando 8 en paralelo, con el propósito de aumentar la re-
sistencia a la rotura a 800 Kg. Si se toma una conexión de estos alambres y resiste 755 Kg. ¿Diría
usted que los alambres de esta compañía no soportan 100 Kg? Sea α = 0,05.
32. Una muestra de 100 familias encuestadas en Lima revela que 10 familias consumen jugo de frutas
envasado. ¿Con qué nivel de significancia (α) se podrá afirmar que el porcentaje de familias de
Lima que consumen jugo de frutas envasado es de menos del 15%?
33. La SUNAT estima que el 25% de todas las devoluciones de impuestos contienen errores aritméti-
cos. Se toma una muestra aleatoria de 20 devoluciones. Sea α = 0,10.
a) ¿Cuántas de estas devoluciones tendrían que contener errores para poder afirmar que el
porcentaje de las devoluciones de impuestos que contienen errores aritméticos es mayor del
25%?
b) ¿Cuántas de estas devoluciones tendrían que contener errores aritméticos para poder afirmar
que el porcentaje de las devoluciones de impuestos que contienen errores aritméticos es menor
del 25%?
34. Se afirma que la media poblacional en madurez lectora en los colegios de Piura es menor que 10
(Test ABC de Filho). Se aplica este test a una muestra de 36 niños y se obtienen los resultados que
se muestran. ¿Qué opina de la afirmación inicial?
18 17 7 12 15 6 7 10 9 4 2 7 20 9 10 13 11 2
16 8 3 9 4 2 19 14 15 9 8 11 10 13 10 4 10 3
La distribución ji-cuadrada 139

Capítulo 10. La distribución ji-cuadrada (χ2)


10.1 Introducción.
La distribución ji-cuadrada (χ2) se usa con mucha frecuencia en investigaciones estadísticas; y
es, después de la distribución normal, la más empleada.
La más importante aplicación de esta distribución es la prueba de bondad de ajuste, donde se in-
vestiga si una determinada distribución de frecuencias se ajusta a una distribución de frecuencias teó-
rica, analizando qué tanto difieren las frecuencias observadas y las frecuencias esperadas, las cuales
son calculadas a partir de la distribución teórica.
Otra aplicación es la prueba de independencia, donde se investiga si dos variables cualitativas
son independientes.
Además, se emplea en pruebas de hipótesis respecto a la varianza de una población.

10.2 La función densidad de probabilidad ji-cuadrada.


La función densidad de probabilidad ji-cuadrada es la siguiente:
2
y=k e−χ 2(χ2)(n/ 2)−1
donde: n = número de grados de libertad (se explica más adelante)
k = constante que depende de n
Dado que n es el único parámetro de esta función, su valor determina la forma de ésta. En la fi-
gura 10.1 se muestran algunas curvas de la función ji-cuadrado, donde se aprecia que la asimetría dis-
minuye conforme aumenta n.

0.6

0.5 n =1

0.4

0.3
n =2

0.2 n =4
n =6
n =8
0.1

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Figura 10.1. Curvas ji-cuadrado para distintos grados de libertad


140 La distribución ji-cuadrada

Para valores grandes de n, χ2 tiene una distribución aproximadamente normal.


La media y la varianza de la función χ2 son:
µ=n
σ 2 = 2n
verificándose lo dicho anteriormente, que la función χ2 queda determinada con n.
Por tratarse de una función densidad de probabilidad, el área bajo la curva χ2 es igual a 1, y, por-
ciones de esta área representan probabilidades.
Existen tablas que permiten determinar áreas bajo esta función, como la que se muestra en el
apéndice (pág. 267). Esta tabla no puede ser tan detallada como la que determina áreas bajo la curva
normal estandarizada; pues para ello se tendría que tabular cada curva χ2 que corresponde a cada valor
posible de n. La tabla muestra los valores de χ2 correspondientes a determinadas áreas (las más em-
pleadas) de la cola derecha de la curva.
Para n > 30, la curva χ2 se aproxima mucho a una curva normal, y, como sugiere E. Mode, resul-
ta muy buena aproximación emplear la siguiente expresión:

z = 2 χ 2 − 2n − 1 y usar la tabla de áreas bajo la curva normal.

10.3 Pruebas de bondad de ajuste.


Una prueba de bondad de ajuste es una prueba de hipótesis donde se investiga si una variable
aleatoria tiene una distribución dada. Las hipótesis nula y alternativa que se plantean son las siguien-
tes:
H0: X tiene una distribución ... (se especifica cuál).
H1: X no tiene dicha distribución.
Para llevar a cabo esta prueba, se toma una muestra y se elabora una tabla de distribución de fre-
cuencias. Estas frecuencias observadas (fi) se comparan con las frecuencias esperadas o teóricas (fi)
que se obtienen a partir de la distribución teórica especificada en la hipótesis nula. Si la muestra, de
tamaño n, tiene m frecuencias, se puede demostrar que la siguiente suma:
m
( fi − f 'i ) 2
∑i =1 f 'i
tiene aproximadamente una distribución χ2, con m – 1 grados de libertad, siempre que ninguna
frecuencia esperada sea menor de 5.
Esto se puede comprobar de la siguiente manera: se toma una muestra de tamaño n y se calcula
χ21, luego otra muestra de tamaño n y se calcula χ22, y así sucesivamente hasta tener la suficiente can-
tidad de valores para construir un histograma. Así, se podrá ver que el polígono de frecuencias corres-
pondiente se parece mucho a la curva χ2 con m – 1 grados de libertad.
Se puede apreciar que aquella sumatoria, que se denomina χ2, da una medida de la discrepancia
que hay entre las frecuencias observadas y las frecuencias esperadas; por lo que valores grandes de χ2
nos harán rechazar la hipótesis nula. Dependiendo del valor de α, se puede determinar el valor de χ2
que limita las regiones de aceptación y rechazo, lo que permitirá decidir finalmente si se acepta o re-
chaza la hipótesis nula.
Para que la prueba χ2 sea confiable, es recomendable que ninguna frecuencia esperada resulte
menor que 5. Esto se consigue agrupando clases vecinas o aumentando el tamaño de la muestra. Es re-
comendable también que m sea un valor comprendido entre 5 y 20.
El número de grados de libertad refleja el hecho de que, en una muestra de tamaño n, tabulada
con m frecuencias, existe libertad para asignar valores a m – 1 de ellas; una vez fijadas éstas, la restan-
te queda determinada por la ecuación:
La distribución ji-cuadrada 141

∑f
i =1
i =n

Cabe señalar que, por cada medida descriptiva muestral que se emplee para estimar algún pará-
metro de la población, ya sea µ o σ , se pierde un grado de libertad.

10.3.1 Distribución multinomial.


A continuación se muestra un caso de prueba de bondad de ajuste de una determinada distribu-
ción multinomial. Aunque es recomendable que el número de frecuencias sea mayor que 5 y menor
que 15, la prueba es confiable si todas las frecuencias teóricas resultan mucho mayores de 5, como se
dijo antes.
Ejemplo:
Luego de una investigación se determinó que, aproximadamente el 50% de todos los vehículos
que llegan por la avenida Loreto hacia la avenida Sánchez Cerro, hacia el norte, giran hacia la
izquierda; el 20% giran a la derecha y el 30% restante siguen hacia el frente. Para verificar esto,
un estudiante de Estadística fue a dicha intersección y observó que, de 80 autos, 47 giraron ha-
cia la izquierda, 15 hacia la derecha y 18 siguieron de frente. ¿Son aceptables los porcentajes es-
tablecidos, considerando un nivel de significancia del 5%?
H0: la cantidad de vehículos que giran en las tres direcciones establecidas siguen una distribu-
ción multinomial con probabilidades 0,50; 0,20 y 0,30.
H1: no siguen dicha distribución.
Según las probabilidades establecidas, y considerando que cada frecuencia esperada es: f ’i = npi,
se puede construir la siguiente tabla:
Izquierda Derecha Frente
p 0,50 0,20 0,30
f 47 15 18
f' 40 16 24
Entonces:
(47 − 40) 2 (15 − 16) 2 (18 − 24) 2
χ2 = + + = 2,7875
40 16 24
Para: α = 0,05; n = 2; el valor crítico de χ2 es: χ2* = 5,991

0.6

0.5

0.4

0.3

0.2

0.1
α = 0,05
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Región de aceptación Región de rechazo


χ2*=5,991
142 La distribución ji-cuadrada

El valor de χ2 = 2,7875 se encuentra en la región de aceptación, es decir, se acepta H0.


Se concluye por lo tanto que la cantidad de vehículos que giran en las tres direcciones estableci-
das: izquierda, derecha, de frente, siguen una distribución multinomial con probabilidades 0,50;
0,20 y 0,30. Esto equivale a afirmar que los vehículos que siguen tales direcciones están en pro-
porción: 0,50; 0,20 y 0,30; o que el 50%, 20% y 30% siguen dichas direcciones.

10.3.2 Distribución de Poisson.


A continuación se muestra una prueba de bondad de ajuste donde se investiga si una variable
aleatoria sigue una distribución aproximadamente de Poisson. Para poder realizar esta prueba se debe
estimar el parámetro µ a partir de los datos de la muestra, "perdiéndose" de esta manera un grado de
libertad.
Ejemplo:
La siguiente tabla muestra la cantidad de fallas diarias que presenta un sistema automático, du-
rante 120 días consecutivos.
Fallas diarias 0 1 2 3 4 5 >5
Frecuencia 31 46 19 14 8 2 0

¿Se puede afirmar que la cantidad de fallas diarias de este sistema sigue aproximadamente una
distribución de Poisson? Emplee α = 0,05.
H0: la cantidad de fallas diarias sigue una distribución de Poisson.
H1: no siguen dicha distribución.

En primer lugar se estima la media de la población:


31(0) + 46(1) + 19(2) + 14(3) + 8(4) + 3(5) + 0
µ≈x = = 1,4
120

Se puede determinar la varianza de la muestra a partir de la tabla de distribución de frecuencias.


Este valor resulta: σ 2 = 1,59, que es aproximadamente el valor de la media, como era de espe-
rarse en una distribución de Poisson.
Las frecuencias esperadas, para cada x, se calculan entonces de la siguiente manera:
f ' = nP(x)
e −µ µ x
f ' = n⋅
x!

En la siguiente tabla se presentan los valores de estas frecuencias esperadas o teóricas, junto con
las frecuencias observadas.
Fallas diarias 0 1 2 3 4 5 >5
Frecuencia observada 31 46 19 14 8 2 0
Frecuencia esperada 29,59 41,42 29,00 13,54 4,74 1,32 0,39

En este caso, para calcular χ2 conviene agrupar las tres últimas frecuencias, consiguiendo así
que todas las frecuencias teóricas sean mayores que 5.
(31 − 29,59) 2 (46 − 41,42) 2 (19 − 29) 2 (14 − 13,54) 2 (10 − 6,45) 2
χ2 = + + + + = 6,02
29,59 41,42 29 13,54 6,45

Considerando que se ha tenido que estimar el parámetro µ de la distribución de Poisson, el nú-


mero de grados de libertad es: nl = (m – 1) – 1.
Entonces: nl = 5 – 1 – 1 = 3
La distribución ji-cuadrada 143

El χ*2 será entonces (tabla del apéndice): 7,815.

α = 0,05

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Región de aceptación Región de rechazo


2
χ *=7,815

Por lo tanto, el χ2 = 6,02 encontrado nos hace aceptar la hipótesis nula; se concluye que la can-
tidad de fallas diarias sí tiene una distribución de Poisson.

10.3.3 Distribución normal.


En la prueba de bondad de ajuste de una distribución normal es necesario estimar dos paráme-
tros, σ y µ ; por lo que se "pierden" dos grados de libertad. El siguiente ejemplo ilustra cómo se efec-
túa una prueba de este tipo.
Ejemplo:
En un análisis de los diámetros de los pistones de bolas fabricados en un taller, se tomó una
muestra de 140 pistones, cuya distribución de frecuencias se muestra en la siguiente tabla.
Límites (cm) Frecuencia
7,20 – 7,24 3
7,25 - 7,29 7
7,30 - 7,34 12
7,35 - 7,39 16
7,40 - 7,44 19
7,45 - 7,49 24
7,50 - 7,54 22
7,55 - 7,59 19
7,60 - 7,64 12
7,65 - 7,69 6
Determine si dichos diámetros se distribuyen normalmente.
H0: los diámetros de los pistones siguen una distribución normal.
H1: no siguen dicha distribución.
En el capítulo 6 (pág. 94) se determinó la curva normal que más se aproxima a estos datos, cal-
culándose las frecuencias esperadas para cada clase. En la siguiente tabla se muestran las fre-
cuencias observadas y las frecuencias esperadas. Nótese que se ha añadido una frecuencia más.
f 3 7 12 16 19 24 22 19 12 6 0
f' 2,06 5,20 10,47 17,22 23,22 25,34 22,49 16,30 9,65 4,58 1,80
Es necesario agrupar las dos primeras clases y las dos últimas, para conseguir que: f ' > 5. Así
entonces:
144 La distribución ji-cuadrada

f 10 12 16 19 24 22 19 12 6
f' 7,26 10,47 17,22 23,22 25,34 22,49 16,30 9,65 6,38
Por lo tanto:

(10 − 7,26) 2 (12 − 10,47) 2 (16 − 17,22) 2 (19 − 23,22) 2 (24 − 25,34) 2 ( 22 − 22,49) 2
χ2 = + + + + + +
7,26 10,47 17,22 23,22 25,34 22,49
(19 − 16,30) 2 (12 − 9,65) 2 (6 − 6,38) 2
+ + + = 5,464
16,30 9,65 6,38
El número de grados de libertad es: n = 9 – 1 – 2 = 6.
Entonces, para α = 0.05: χ*2 = 12,59 > 5,464.
Por lo tanto se acepta la hipótesis nula; es decir, que los diámetros de los pistones sí se distribu-
yen normalmente.

10.4 Pruebas de independencia: tablas de contingencia.


En este tipo de pruebas se investiga si existe alguna relación entre dos variables cualitativas, ca-
da una de las cuales se clasifica en atributos.
Ejemplo
Se quiere investigar si existe alguna relación entre el desempeño en el trabajo de los empleados
de una empresa y la formación académica de dichos empleados. La primera variable se clasifica
en excelente, bueno y regular; y la segunda en primaria, secundaria y superior. Esta clasifica-
ción se puede expresar con mucha claridad en una tabla de contingencia, como se ve a conti-
nuación.
Formación
Desempeño
Primaria Secundaria Superior Total
Muy bueno 40%
Bueno 30%
Regular 30%
Total 10% 40% 50%

Los registros de esta empresa muestran que, en promedio, el 10%, 40% y 50% de todos los em-
pleados de esta fábrica tienen formación primaria, secundaria y superior, respectivamente.
Además, el 40%, 30% y 30% tienen rendimiento muy bueno, bueno y regular, respectivamente.
Para realizar la investigación se toma una muestra de 150 empleados, cumpliendo con los por-
centajes antes mencionados, obteniéndose el resultado que muestra la siguiente tabla.

Formación
Desempeño
Primaria Secundaria Superior Total
Muy bueno 8 25 27 60
Bueno 3 19 23 45
Regular 4 16 25 45
Total 15 60 75 150

Para determinar si hay alguna relación entre las dos variables se asume que ambas son indepen-
dientes, y, bajo esta hipótesis (hipótesis nula), se determinan las frecuencias esperadas. La hipó-
tesis alternativa expresa que dichas variables no son independientes.
H0: la formación académica y el desempeño laboral son independientes.
H1: no son independientes.
La distribución ji-cuadrada 145

La probabilidad de que un empleado elegido al azar tenga formación académica X y desempeño


Y, es:
P(X ∩Y) = P(X) P(Y \ X)
Pero, como se está asumiendo que X e Y son independientes:
P(X ∩ Y) = P(X) P(Y)
Las frecuencias esperadas para cada uno de los casilleros de la tabla se determinan multiplican-
do el tamaño de la muestra por cada una de las probabilidades:
f '(X ∩Y) = n P(X ∩Y)
Así, por ejemplo:
P (desempeño muy bueno y formación primaria) = 0,40 × 0,10 = 0,04
f '(desempeño muy bueno y formación primaria) = 150 × 0,04 = 6
P (desempeño bueno y formación primaria) = 0,30 × 0,10 = 0,03
f '(desempeño bueno y formación primaria) = 150 × 0,03 = 4,5

En la siguiente tabla se muestran todas las frecuencias esperadas.

Formación
Desempeño
Primaria Secundaria Superior Total
Excelente 6 24 30 60
Bueno 4,5 18 22,5 45
Regular 4,5 18 22,5 45
Total 15 60 75 150

Así como en las pruebas de bondad de ajuste, la suma:

( f i − f 'i ) 2
∑ f 'i

también tiene una distribución χ2 con nl grados de libertad.


Si la tabla de contingencia tiene p filas y q columnas, el número de grados de libertad es:
nl = (p – 1)( q – 1)
ya que será necesario conocer, como mínimo, (p – 1)( q – 1) frecuencias para que el resto que-
den determinadas.
Entonces:
(8 − 6) 2 (25 − 24) 2 (27 − 30) 2 (3 − 4,5) 2 (19 − 18) 2 (25 − 22,5) 2
χ2 = + + + + + ... + = 2,1306
6 24 30 4,5 18 22,5
El número de grados de libertad es, en este caso: n = (3 – 1)(3 – 1) = 4.
Como χ2 mide la discrepancia entre las frecuencias observadas y las frecuencias esperadas, valo-
res muy grandes de χ2 nos harán rechazar la hipótesis nula. El valor de χ*2, por encima del cual
se rechazará la hipótesis nula, considerando un nivel de significancia del 5%, será igual a 9,488
(tabla del apéndice).
El valor de χ2 = 2,1306 < 9,488 ; por lo tanto se acepta H0, concluyéndose que en esta empresa
sí hay independencia entre la formación académica y el desempeño en el trabajo.
146 La distribución ji-cuadrada

Un caso especial de las pruebas de independencia es el que emplea tablas de contingencia de


2×2. En estos casos el número de grados de libertad es igual a 1, y se suele emplear e factor de correc-
ción de Yates, para corregir el error de aproximación que se comete al ajustar la distribución χ2 a la
distribución que sigue la suma ∑ (fi – f 'i)2 / f 'i.
Si una tabla de 2 × 2 tiene las siguientes frecuencias observadas:
X1 X2 Total
Y1 a b a+b
Y2 c d c+d
Total a+c b+d n

entonces, el valor de χ 2 se puede calcular con la siguiente fórmula alternativa:


n ( ad − bc − n / 2) 2
χ =
2
(a + b) (a + c) (c + d ) (b + d )
En estas pruebas de independencia, cuanto mayor es el tamaño de la muestra, más confiables
son los resultados. Cuando el número de grados de libertad es mayor que 1, se considera que una
muestra es lo suficientemente grande si f 'i > 5,. Si nl es igual a 1 (tablas de 2×2), entonces se requiere
que f 'i > 10.

10.5 Pruebas de hipótesis respecto a la varianza.


Teorema:
Sea s2 la varianza de una muestra de tamaño n, extraída de una población con distribución nor-
mal con varianza σ 2. Entonces:
n s2
tiene una distribución χ2 con n – 1 grados de libertad.
σ2
Recuérdese que en la fórmula de la varianza de una muestra, s2, se emplea n en el denominador;
pero cuando la muestra extraída es pequeña conviene usar n – 1 en vez de n. Sea sn-12 la varianza así
definida. Entonces:
(n − 1) s n −1 2
2
también tiene una distribución x2 con n – 1 grados de libertad.
σ
Aunque no se demostrará este teorema, se puede comprobar de la siguiente manera: se toma una
muestra de tamaño n y se calcula ns12/σ2, luego otra muestra de tamaño n y se calcula ns22/σ2, y así su-
cesivamente hasta tener la suficiente cantidad de valores para construir un histograma. Se podrá com-
probar que el polígono de frecuencias correspondiente se parece mucho a la curva χ2 con m – 1 grados
de libertad.
Ejemplo:
Supóngase que los pesos de las bolsas de leche que se producen en una fábrica tienen una distri-
bución aproximadamente normal con una varianza igual a 0,025 l. El jefe de producción decide
hacer algunos ajustes en la máquina llenadora. Una vez efectuado esto, se sospecha que la va-
riabilidad de los pesos ha aumentado considerablemente, pues en una muestra de 60 bolsas se
encontró una varianza de 0,032 l. ¿Indica este resultado que la variabilidad realmente ha aumen-
tado? Considere α = 0.05
H0: σ 2 = 0,025
H1: σ 2 > 0,025
n s2 60 × 0,032
χ2 = = = 76,8
σ 2
0,025
La distribución ji-cuadrada 147

n = 60 – 1 = 59
Como n > 30, se emplea la distribución normal como aproximación a la distribución χ2.
Valores muy grandes de χ2, por encima de χ2*, nos harán rechazar H0 en favor de H1.

z * = 1,645 = 2 χ 2 − 2n − 1 = 2 χ * 2 − 2(59) − 1

χ*2 = 77,646 < 76,8 ; entonces se acepta H0.


Se concluye que la variabilidad no ha aumentado. La varianza obtenida en la muestra no es lo
suficientemente grande como para aceptar que la variabilidad ha aumentado.

10.6 La distribución ji-cuadrada en Excel


Excel cuenta con algunas funciones que pueden ser útiles en las distintas pruebas de hipótesis
con la distribución ji-cuadrada. A continuación se explica lo que realiza cada una de esas funciones:
• DISTR.CHI: calcula la probabilidad de exceder un valor determinado de ji-cuadrado. Al eje-
cutar esta función, Excel presenta un cuadro de diálogo donde se ingresan dos datos: el valor
de ji-cuadrado y el número de grados de libertad.
• PRUEBA.CHI: calcula la probabilidad de exceder el valor de ji-cuadrado que mide la discre-
pancia entre m frecuencias observadas y sus correspondientes teóricas en una prueba de bon-
dad de ajuste. Esta función presenta el inconveniente que considera m – 1 grados de libertad,
independientemente del número de parámetros que se hayan estimado para calcular las fre-
cuencias teóricas. Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se in-
gresa cada rango de celdas donde están las frecuencias observadas y las teóricas.
• PRUEBA.CHI.INV: calcula el valor de ji-cuadrado para una determinada probabilidad de ex-
cederlo. Excel presenta un cuadro de diálogo donde se ingresan dos datos: la probabilidad y el
número de grados de libertad.
148 La distribución ji-cuadrada

Problemas propuestos.
1. Se está probando un programa informático generador de números aleatorios. Las instrucciones del
programa originan 100 dígitos entre 0 y 9 con las siguientes frecuencias:
Entero 0 1 2 3 4 5 6 7 8 9
Frecuencia 11 8 7 7 10 10 8 11 14 14
¿Existe evidencia suficiente para pensar que los dígitos no están siendo generados en forma aleato-
ria? Sea α = 0,10.
2. Suponga que la Secretaría Académica de la UDEP afirma que, aproximadamente, el 40% de los
alumnos estudian Ingeniería, el 20% Administración de Empresas, otro 20% Educación, el 15%
Información y el 5% Derecho. Además, el 70% del alumnado proviene del departamento de Piura,
el 20% de Lambayeque, el 5% de La Libertad, y el 5% restante de otros departamentos y países.
a) Se toma una muestra aleatoria de 80 alumnos, y se encuentra que 35 estudian Ingeniería, 18
Administración, 12 Educación, 12 Información y 3 Derecho. ¿Es consistente este resultado
con lo que afirma la Secretaría Académica?
Respuesta: El resultado sí es consistente.
b) Se desea investigar si el lugar de procedencia influye en la elección de la carrera, para lo cual
se toma una muestra de 200 alumnos. ¿Cómo debe estar constituida la muestra?
3. Suponga que la calidad de un producto ha dado una desviación estándar igual a 8,1. Una muestra
de 30 unidades de dicho producto da una desviación estándar de 9,5 ¿Existe una evidencia de que
la variabilidad ha aumentado? Sea α = 0,10.
4. En los primeros niveles de la Facultad de Ciencias de una Universidad, cada semestre, aproxima-
damente el 38% de los alumnos de los cursos de matemáticas son repitentes. Además, el 32% de
los alumnos de estos cursos suelen salir aprobados. El Director de Estudios quiere investigar si la
fracción de alumnos de matemáticas que aprueban es siempre la misma, ya sea que fueran repiten-
tes o no. Para esto toma una muestra aleatoria de 50 alumnos, encontrando que 9 de los repitentes
están aprobados.
a) ¿Cómo debe estar compuesta la muestra de 50 alumnos?
Respuesta: Repiten 19, no repiten 31, aprueban 16, no aprueban 34.
b) ¿Cuál será el resultado de la investigación? Considere α = 0.10.
Respuesta: La fracción de aprobados es independiente de la condición (repitentes o no)
5. Los alumnos que ingresaron a la Facultad de Ingeniería este semestre han sido clasificados en 4
grupos, según su nivel socio-económico, tal como se indica:
A B C D
12 20 31 33
a) Investigue si los alumnos que ingresan a la Facultad de Ingeniería pertenecen indistintamente
a los distintos niveles.
Respuesta: No pertenecen indistintamente a los distintos niveles.
b) Investigue si en la Facultad de Ingeniería la mayoría pertenece a los niveles medios (B y C).
Respuesta: La mayoría no pertenece a los niveles medios.
6. El director de un colegio quiere investigar si existe mayor tendencia, por parte de los alumnos de
Ingeniería, a escoger la carrera de Ingeniería Industrial. Para esto toma una muestra de 13 alumnos
que encontró conversando en el tercer piso del edificio de Ingeniería y realiza una prueba χ2. Dis-
cuta el método empleado.
7. La desviación estándar de los diámetros de ciertas piezas de precisión que se producen en una fá-
brica es 0,0865. El jefe de control de calidad sospecha que la calidad ha bajado y que por lo tanto
tiene una desviación estándar mayor. Para estar seguro de su afirmación, extrae aleatoriamente una
muestra de 25 piezas y calcula la desviación estándar. ¿En que rango tendría que estar este valor
para que se confirmen sus sospechas? Sea α = 0,10.
La distribución ji-cuadrada 149

8. Un profesor de una Universidad ha diseñado un test mediante el cual determinará la carrera que
debe seguir un alumno promocional de secundaria, según sus aptitudes y preferencias. Según las
estadísticas de los últimos años, el 39% de los alumnos que están por salir del colegio desea estu-
diar Ingeniería, el 15% Medicina, el 7% Derecho, el 30% Administración de Empresas, Economía
o Contabilidad, y el resto otras carreras o nada. Se toma el test a un grupo de 50 alumnos promo-
cionales en Piura, obteniendo el siguiente resultado.
Ing. Med. Derecho A.E.C. Otros
25 9 3 10 3
¿Qué conclusión daría usted? Sea α = 0,10.
9. Los pagos mensuales de 204 estudiantes que trabajan parte de su tiempo se distribuyen así:
Pagos ($) Nº estudiantes
78 - 82 6
83 - 87 12
88 - 92 16
93 - 97 22
98 - 102 30
103 - 107 35
108 - 112 32
113 - 117 20
118 - 122 15
123 - 127 10
128 - 132 6
Investigue la hipótesis de que la frecuencia observada se aproxima a una distribución normal.
Considere α = 0.05
10. De los 210 alumnos que ingresaron a la Facultad de Ingeniería este año, 77 desean seguir Ing. In-
dustrial, 60 desean Ing. Civil y 73 desean Ing. Mecánica Eléctrica.
a) ¿Es consistente este resultado con la hipótesis de que el 40% de los alumnos seguirán Ing. In-
dustrial, el 25% Ing. Civil y el 35% Ing. Mecánica eléctrica?
Respuesta: Sí es consistente, hasta para α = 0.10.
b) ¿Y será consistente con la hipótesis de que los alumnos se distribuirán uniformemente en los
tres programas?
Respuesta: Sí es consistente, hasta para α = 0,10.
11. Las estaturas de 200 empleados se distribuyen así:
Estaturas Frecuencia
(en metros) observada
1,51 – 1,55 9
1,56 – 1,60 20
1,61 – 1,65 45
1,66 – 1,70 55
1,71 – 1,75 43
1,76 – 1,80 17
1,81 – 1,85 11
Investigue la hipótesis de que tales estaturas se distribuyen normalmente. Considere α = 0,05.
12. Durante este año, en una fábrica que elabora artículos metálicos se han registrado 50 accidentes
laborales, lo cual ha provocado retrasos en la producción. El jefe de seguridad tiene interés en sa-
ber en qué días de la semana ocurren los accidentes. A partir de los siguientes datos, ¿se puede
afirmar que los accidentes son igualmente probables en los cinco días de la semana?
Día de la semana Lunes Martes Miércoles Jueves Viernes
Número de accidentes 12 7 8 10 13
150 Estimación puntual y de intervalo

Capítulo 11. Estimación puntual y de intervalo


11.1 Introducción
Con mucha frecuencia se realizan experimentos o se toman datos con el propósito de estimar al-
gunos valores o parámetros que no son conocidos con mucha exactitud. Por ejemplo: en una fábrica de
aceite se emplea una máquina que llena automáticamente las botellas con un volumen “fijo”. En la
práctica, resulta que ese volumen no es “tan fijo”, y el fabricante necesita estimar periódicamente cuál
es el volumen de llenado promedio. Evidentemente no le conviene que las botellas estén demasiado
llenas, pues resultarían costosas; ni que les falte mucho aceite, pues puede ser demandado por los con-
sumidores. Además, es importante para el fabricante determinar la variabilidad del llenado de botellas.
Para ello tendrá que estimar la varianza, para luego poder realizar los ajustes necesarios, y reducir al
máximo dicha varianza. En cada caso, ya sea para estimar el volumen de llenado promedio o la va-
rianza del llenado, se pueden hacer dos tipos de estimaciones: puntual y de intervalo.

11.2 Estimación puntual.


Se hace una estimación puntual de un parámetro, cuando se elige un valor único para dicho pa-
rámetro. Por ejemplo, se puede estimar el volumen de llenado promedio de las botellas en una fábrica
de aceite, tomando una muestra y calculando la media aritmética. A este resultado se le denomina es-
timado puntual.
Supóngase que una variable aleatoria X tiene una distribución que está determinada, salvo por
un parámetro θ. Si se toma una muestra x1, x2, ..., xn, y se escoge una función θˆ ( x1 , x 2 , ..., x n ) para es-
timar el parámetro desconocido, a la variable aleatoria θˆ se le denomina estimador puntual, y el va-
lor que toma es el estimado puntual de θ .
Pueden existir muchos estimadores para un parámetro θ. En el caso de la media poblacional µ,
podrían considerarse como estimadores: la media muestral, la mediana muestral, el valor más frecuen-
te o moda.
La variable aleatoria θˆ es un estimador no sesgado del parámetro θ si su valor esperado es
igual a θ. Si los valores estimados tienden a ser muy grandes o muy pequeños, entonces θˆ es un esti-
mador sesgado. A la diferencia θ – E( θˆ ) se le denomina sesgo.
La variable aleatoria θˆ es un estimador eficiente del parámetro θ si la varianza de θˆ no es ma-
yor que la varianza de cualquier otro estimador de θ.
La media muestral x es un estimador no sesgado de la media del universo:
E(x) = µ
La proporción p1 es un estimador no sesgado de la proporción p:
E(p1) = p
La varianza muestral sn-1 es un estimador no sesgado de σ :
E(sn-1) = σ
Se puede demostrar que s es un estimador sesgado de σ , pues E(s) resulta diferente a σ.
Estimación puntual y de intervalo 151

11.3 Estimación por intervalos.


Un parámetro se puede estimar dando un intervalo dentro del cual resulte probable incluir a di-
cho parámetro. Esta probabilidad, que mide el grado de confianza de la estimación, depende del tama-
ño que se le dé al intervalo. Los estimadores de intervalo siempre serán funciones de la muestra. Se
podría afirmar, por ejemplo, que el promedio de llenado de las botellas en una fábrica de aceite está
comprendido entre 749,2 y 751,7 ml., con una probabilidad de 0,90. Este es un intervalo de confianza
del 90%. Entonces hay una probabilidad de 0,10 de que el verdadero promedio de llenado no esté en
dicho intervalo.
A continuación se verá la metodología que se debe seguir para determinar intervalos de confian-
za de parámetros poblacionales. Será fácil para el lector verificar que estos intervalos coinciden con la
región de aceptación de las pruebas de hipótesis de dos colas.

11.3.1 Intervalo de confianza para la media poblacional.


Para determinar un intervalo de confianza del 100(1 – α) % para una media poblacional, se ex-
trae primeramente una muestra, se calcula la media muestral y, si no se conoce la varianza del univer-
so, la varianza muestral.
Como se vio en el capítulo 8 (pág.113), la media muestral se distribuye normalmente si la po-
blación es normal o, si la población no es normal y la muestra es lo suficientemente grande (n ≥ 50). Si
se conoce la varianza de la población o se estima con una muestra suficientemente grande, entonces
los límites de confianza del intervalo se determinan a partir de la siguiente expresión:
x−µ
± z *=
σ/ n
Los límites de confianza se obtienen despejando µ para cada signo del primer miembro de esta
ecuación. En la figura 11.1 se representa el intervalo de confianza del 100(1 – α) %.

1-α

α/ 2 α/ 2
z
–z* +z*
Figura 11.1. Intervalo de confianza de la media poblacional cuando se conoce σ
Ejemplo:
Determine un intervalo de confianza del 90 % del peso de las bolsas de harina que se llenan en
una máquina automática, si una muestra de 60 bolsas dio una media de 0,996 Kg. y una desvia-
ción estándar de 0,03 Kg.
Para α/2 = 5% ⇒ z = ±1,645
Por lo tanto:
0,996 − µ
± 1,645 * =
0,03 / 60
Despejando: µ = 0,996 ± 0,0064
152 Estimación puntual y de intervalo

Por lo tanto se puede afirmar que la media poblacional se encuentra en el siguiente intervalo,
con un 90% de confianza:
0,9896 < µ < 1,0024

Si una población es normal y se desconoce la varianza de dicha población, entonces los límites
de confianza del intervalo se determinan a partir de la siguiente expresión:
x−µ
± t *=
s / n −1
Los límites de confianza se obtienen despejando µ para cada signo del primer miembro de esta
ecuación.
Ejemplo:
Determine un intervalo de confianza del 95 % del peso de las bolsas de harina que se llenan en
una máquina automática, si una muestra de 40 bolsas dio una media de 0,996 Kg. y una desvia-
ción estándar de 0,022 Kg.
Para α /2 = 2,5%; n – 1 = 39 grados de libertad ⇒ t* = ±2,0227
Por lo tanto:
0,996 − µ
± 2,0227 =
0,022 / 39
Despejando:
µ = 0,996 ± 0,0071
Por lo tanto se puede afirmar que la media poblacional se encuentra en el siguiente intervalo,
con un 95% de confianza:
0,9889 < µ < 1,0031

11.3.2 Intervalo de confianza para la diferencia de medias.


Para determinar un intervalo de confianza del 100(1 – α) % para la diferencia de las medias de
dos poblaciones, se sigue el mismo procedimiento del apartado anterior, empleando las distribuciones
normal y t de Student correspondientes, según sea el caso.
(x − y) − ( µx − µ y ) (x − y) − ( µx − µ y )
± z *= ± t *=
2 2
σx σy  nx sx 2 + nx s y 2  1 
+   + 1 
nx ny  n x + n y −2  nx n y 

  

En cada caso se llegará a determinar dos valores para la diferencia (µ x – µ y ), que son precisa-
mente los límites del intervalo de confianza.

11.3.3 Intervalo de confianza para la proporción p.


Dada una variable aleatoria binomial X, la proporción X/n, denominada p1, se distribuye nor-
malmente alrededor de p, con una desviación estándar igual a pq / n , cuando np y nq > 5.

La variable normal estandarizada que corresponde a p1 es la siguiente:


1
p1 ± −p
± z *= 2n
pq
n
Estimación puntual y de intervalo 153

Se determinan los límites del intervalo de confianza del 100(1 – α) % para p, empleando la
ecuación anterior, donde z toma los valores +z* y -z*. El signo que tome el factor de corrección de-
penderá de lo siguiente: si los límites están incluidos en el intervalo (a ≤ p ≤ b), el factor de corrección
será positivo para +z* y negativo para -z*, como se muestra en la figura 11.2a. Si los límites no están
incluidos en el intervalo (a < p < b), el signo será negativo para +z* y positivo para –z*, como se
muestra en la figura 11.2b.

1-α 1-α

z z
- f.c. + f.c. + f.c. - f.c.
- z* +z* - z* +z*

Figura 11.2a. Intervalo a ≤ p ≤ b Figura 11.2b. Intervalo a < p < b

Es importante considerar que la distribución de una proporción, que es binomial, será aproxima-
damente normal sólo cuando np y nq > 5. Si no se cumplen estas condiciones, debe emplearse la dis-
tribución binomial para determinar los intervalos de confianza.
Ejemplo:
Una compañía de teléfonos quiere averiguar qué porcentaje de sus clientes de Piura estaría dis-
puesto a suscribirse a Internet por cable. Selecciona aleatoriamente a 300 clientes y encuentra
que 36 de éstos sí se suscribirían. Haga una estimación de intervalo con un 95% de confianza de
la proporción de clientes que se suscribirían a Internet por cable.
Para α /2 = 2,5% ⇒ z = ±1,96
Además: p1 = 36/300 = 0,12
Se va a determinar un intervalo de confianza del tipo: a ≤ p ≤ b. Por lo tanto se plantean las si-
guientes ecuaciones:
1 1
0,12 + −p 0,12 − −p
2(300) 2(300)
+ 1,96 = ; − 1,96 =
p (1 − p) p(1 − p)
300 300
De la primera ecuación resulta:
p2 – 0,2529p + 0,014616 = 0 ⇒ p = 0,08938
De la segunda ecuación resulta:
p2 – 0,246317p + 0,013826 = 0⇒ p = 0,15979
Por lo tanto, el intervalo de confianza del 95% es:
0,08938 ≤ p ≤ 0,15979
154 Estimación puntual y de intervalo

Si se quisiera determinar un intervalo de confianza del tipo: a < p < b, se plantearían las siguien-
tes ecuaciones:
1 1
0,12 − −p 0,12 + −p
2(300) 2(300)
+ 1,96 = ; − 1,96 =
p(1 − p ) p (1 − p)
300 300
De la primera ecuación resulta:
p2 – 0,246317p + 0,013826 = 0 ⇒ p = 0,08652
De la segunda ecuación resulta:
p2 – 0,2529p + 0,014616 = 0 ⇒ p = 0,16352
Por lo tanto, el intervalo de confianza del 95% es:
0,08652 < p < 0,16352

11.3.4 Intervalo de confianza para la diferencia de proporciones.


Dada dos variables aleatorias binomiales X e Y, la proporción X/nx, denominada p1, se distribuye
normalmente alrededor de px, con una desviación estándar igual a p x q x / n x , cuando nx px y ny py son
mayores que 5; y la proporción Y/ny, denominada p2, se distribuye normalmente alrededor de py, con
una desviación estándar igual a p y q y / n y , cuando nx px y ny py son mayores que 5. Asimismo, la di-
ferencia X – Y se distribuye normalmente alrededor de px – py, con una desviación estándar igual a
px qx py q y
+ .
nx ny

Para determinar un intervalo de confianza del 100(1 – α) % para la diferencia de las proporcio-
nes de dos poblaciones, se sigue el mismo procedimiento de los apartados anteriores, empleando la
aproximación normal :
nx + n y
( p1 − p2 ) − ( px − p y ) ± .
2 nx n y
± z* =
px qx p y q y
+
nx ny

Para poder despejar px – py de las dos ecuaciones que se planteen (una para cada signo), es nece-
sario hacer las siguientes estimaciones de punto en el denominador:
x y
px = ; py =
nx ny

11.3.5 Intervalo de confianza para la varianza.


Recuérdese que si se extrae una muestra de tamaño n de un universo normal con varianza σ 2,
ns2/σ 2 tiene una distribución ji-cuadrada con n – 1 grados de libertad.
Recuérdese también que es equivalente emplear (n − 1) s n2−1 / σ 2 o ns2/σ 2.
Así, para determinar un intervalo de confianza del 100(1 – α) % (figura 11.3) para la varianza de
una población normal, se usan las siguientes ecuaciones:

ns 2 ns 2
χ α2 / 2 = χ 12− α / 2 =
σ 12 σ 22
Estimación puntual y de intervalo 155

De esta forma se determina el intervalo: σ1 2 < σ 2 < σ2 2

1-α
α/2

α/2
χ2
χ21-α /2 χ2α /2

Figura 11.3. Intervalo de confianza para la varianza


Ejemplo:
El dueño de una hamburguesería ha visto que conocer la variabilidad del número de hambur-
guesas que vende diariamente es muy importante para una buena administración de su negocio.
Determine un intervalo de confianza del 90% de la varianza del número de hamburguesas que
vende diariamente, si a partir de los registros de las ventas del último mes (30 días) se ha calcu-
lado una desviación estándar de 7,25 unidades.
Para: α /2 = 5% ; n – 1 = 29 grados de libertad.
30(7,25) 2
χ α2 / 2 = χ 02,05 = 42,5569 = ⇒ σ 12 = 37,0533
σ 2
1

30(7,25) 2
χ 12−α / 2 = χ 02,95 = 17,7084 = ⇒ σ 22 = 89,0467
σ 2
2

Por lo tanto, el intervalo de confianza del 90% de la varianza es:


37,0533 < σ 2 < 89,0467
El intervalo de confianza del 90% de la desviación estándar es:
6,0871 < σ < 9,4365

11.4 Intervalo de confianza para la media en Excel


Excel cuenta con la función INTERVALO.CONFIANZA dentro de las funciones que se des-
pliegan al ejecutar el icono fx o al entrar al menú Insetar/Función.
Al ejecutar esta función INTERVALO.CONFIANZA, Excel presenta el cuadro de diálogo de la
figura 11.4. Al ingresar los datos, el resultado que muestra Excel es el rango que hay entre la media y
los intervalos de confianza que se quieren determinar. Nótese que entre los datos que se ingresan al
cuadro de diálogo de la figura 11.4 está la desviación estándar de la población y no está la media de la
muestra.
A continuación se resuelve el ejemplo de la sección 11.3.1, cuyo texto se repite por comodidad.
156 Estimación puntual y de intervalo

Ejemplo:
Determine un intervalo de confianza del 90 % del peso de las bolsas de harina que se llenan en
una máquina automática, si una muestra de 60 bolsas dio una media de 0,996 Kg. y una desvia-
ción estándar de 0,03 Kg.

Figura 11.4. Cuadro de diálogo para determinar el intervalo de confianza de la media

El resultado que muestra Excel es : 0,00637049 ≅ 0,0064


Por lo tanto el intervalo de confianza es: 0,996 ± 0,0064; que es el mismo resultado que se obtu-
vo en la sección 11.3.1.
Estimación puntual y de intervalo 157

Problemas propuestos.
1. Se hizo una encuesta antes de las elecciones municipales en la ciudad de Piura a una muestra de
100 votantes. De éstos, el 40% declaró que votarían por Gerardo Guzmán para Alcalde. Calcule el
intervalo de confianza de 90% para la proporción de la ciudad que votaría por Guzmán.
Respuesta: 0,318 ≤ p ≤ 0,486
2. Haga una estimación de intervalo del porcentaje de alumnos de la Facultad de Ingeniería que tie-
nen índice académico acumulado mayor que 14, con una confiabilidad del 95%, utilizando una
muestra de 45 alumnos. En dicha muestra se encontró que 27 tienen índice académico acumulado
mayor que 14.
3. Determine el intervalo de confianza del 95% de la cantidad promedio de dólares que tienen los
cambistas del Jirón Arequipa de Piura, si se ha tomado una muestra de 10 cambistas y los resulta-
dos son los siguientes, en dólares: 5 255; 1 452; 2 236; 400; 860; 1 290; 3 030; 1 620, 750; 3 600.
4. Una muestra de 60 barras de manjar blanco producidas por una empresa da los siguientes pesos
(en gramos):
499,6 498,3 500,3 501,7 501,6 502,3 497,2 499,7 501,4 498,6 499,1 497,8 497,6 498,7 499,0
497,2 499,3 499,5 500,2 499,5 499,6 499,5 501,7 499,9 499,8 499,3 502,6 501,1 503,1 499,1
502,2 497,9 500,7 501,2 502,5 499,9 499,3 500,9 499,5 501,0 498,1 498,9 498,0 499,5 500,0
500,0 499,6 502,9 497,7 499,0 496,6 501,9 498,3 499,2 501,0 500,6 501,1 500,8 498,2 498,5
Determine un intervalo de confianza del 98% de:
a) el peso promedio de las barras de manjar blanco que produce la empresa.
b) la desviación estándar del peso de las barras de manjar blanco que produce la empresa.
5. Un fabricante de fármacos está preocupado por el tiempo promedio que tarda en hacer efecto una
pastilla para el dolor de cabeza “tensional”. Si en una muestra de 20 pacientes se obtuvieron los
siguientes tiempos (en minutos):
34,85 34,93 36,10 33,50 34,22 29,10 35,11 33,11 38,22 35,23
36,63 34,68 33,46 31,97 37,96 33,72 40,03 30,05 35,51 31,51
Determine un intervalo de confianza del 95% de:
a) el tiempo promedio que tarda dicha pastilla en hacer efecto.
b) la desviación estándar del tiempo que tarda dicha pastilla en hacer efecto.
6. El jefe de un taller mecánico toma una muestra de 35 unidades producidas durante una semana, y
mide una desviación estándar de 0,07 cm. del diámetro de dichas unidades. Determine un intervalo
de confianza del 90% de la varianza de los diámetros de las unidades producidas en el taller.
Respuesta: 13,3232 < σ 2 < 49,5174
7. El gerente de una empresa que se dedica a la venta de automóviles ha tomado una muestra de 300
clientes de distintas empresas, encontrando que 112 compraron su auto hace 10 años o más. Calcu-
le el intervalo de confianza del 95% para la proporción de personas que compraron su auto hace
10 años o más. Considere los dos tipos de intervalo.
8. En una muestra de alumnos universitarios de Lima se encontró que, de 300 mujeres y de 350
hombres entrevistados, 223 y 187 respectivamente, veían alguna telenovela. Determine el interva-
lo de confianza del 95% de la diferencia entre las proporciones de universitarios mujeres y hom-
bres que ven alguna telenovela.
9. En una muestra de 400 alumnos universitarios de Piura se encontró que 312 ven algún programa
político los domingos en la televisión. Determine el intervalo de confianza del 95% de la propor-
ción de alumnos universitarios de Piura que ven algún programa político los domingos.
158 Diseño de experimentos y análisis de varianza

Capítulo 12. Diseño de experimentos y análisis de


varianza
12.1 Introducción.
Para comparar las medias aritméticas de dos poblaciones, se toma una muestra de cada pobla-
ción y, mediante una prueba de hipótesis, se hace la comparación de medias, usando la distribución
normal o la distribución t de Student.
En este capítulo se ve una nueva herramienta estadística, llamada análisis de varianza, que per-
mite hacer una comparación de dos o más de dos medias poblacionales, a partir de muestras tomadas
de dichas poblaciones.
A continuación se dan algunos ejemplos de comparaciones de medias poblaciones:
• La acción limpiadora de tres posibles fórmulas mejoradas de una marca de detergente.
• Las eficiencias de tres métodos de enseñanza de programación.
• La pérdida de peso de ciertas piezas mecánicas debido a la fricción, usando tres tipos de lubri-
cante.
• Las alturas de cierto tipo de planta después de tres meses de sembrarlas usando distintos tipos
de riego y fertilizante.
• La resistencia a la compresión de varios tipos de concreto.
• El número de errores que se cometen, durante una semana, en cuatro laboratorios.
• La productividad que se obtiene empleando tres procesos distintos de producción.

12.2 Diseño de experimentos.

12.2.1 Definiciones
Los datos recolectados para la comparación de medias pueden proceder de encuestas o de expe-
rimentos diseñados, según sea el propósito.
Como se dijo en el capítulo 1, se denomina experimento a la reproducción controlada de un fe-
nómeno cualquiera que ocurre en la naturaleza. Queda en evidencia entonces que un experimento es
controlado.
Se denominan unidades experimentales a los elementos (personas u objetos) sobre los que se
va a experimentar para obtener las medidas que se desea comparar. Por ejemplo, para comparar la ac-
ción limpiadora de tres posibles fórmulas mejoradas de una marca de detergente, se requiera aplicar
dichas fórmulas a algunas prendas de vestir (unidades experimentales); luego se comparará la limpieza
de las prendas limpiadas con las distintas fórmulas.
Las unidades experimentales se dividen en grupos experimentales y, si es conveniente, en un
grupo de control.
Los grupos experimentales y el grupo de control son sometidos a distintos tratamientos. Por
ejemplo, las prendas de vestir se pueden dividir en tres grupos experimentales, cada uno de los cuales
es sometido a una distinta fórmula mejorada (tratamientos).
Diseño de experimentos y análisis de varianza 159

El grupo de control, cuando existe, estará sometido al tratamiento habitual. Por ejemplo, un gru-
po de prendas de vestir se puede someter a la fórmula limpiadora que se emplea actualmente, es decir,
al tratamiento habitual.
En conclusión, todas las unidades experimentales son sometidas a distintos tratamientos, para
luego medir y promediar los resultados de dichos tratamientos. En el ejemplo, existe una forma de
medir la limpieza de cada prenda de vestir, y, será posible entonces, comparar las limpiezas promedio
de cada grupo de prendas de vestir.
Generalmente, sobre las unidades experimentales actúan, además de los tratamientos, factores
externos que influyen en los resultados del experimento. Esta acción de los factores externos suele lle-
var a conclusiones erróneas, salvo que se sepan controlar.
Hay dos formas de controlar la acción de los factores externos:
• Aleatorización: se asignan aleatoriamente las unidades experimentales a los grupos experi-
mentales y al grupo de control, para que cada grupo tenga la misma probabilidad de ser afec-
tado por los factores externos. Por ejemplo, si se tienen 30 prendas de vestir de distinto mate-
rial, se puede controlar la distinta acción limpiadora de las tres fórmulas de detergente sobre
los distintos materiales, repartiendo aleatoriamente las prendas de vestir en los tres grupos.
• Formación de bloques: se forman boques de unidades experimentales en cada grupo, de tal
forma que tales bloques sean homogéneos respecto a los factores externos que se desea elimi-
nar. Por ejemplo, si se tienen 30 prendas de vestir de cuatro tipos de material, se pueden for-
mar cuatro bloques (uno de cada tipo de material) en cada grupo. De esta manera, los tres gru-
pos se verán igualmente afectados por este factor externo que es el tipo de material.

12.2.2 Diseño completamente aleatorizado


Se dice que el diseño de un experimento es completamente aleatorizado cuando se asignan las
unidades experimentales a los distintos grupos en forma aleatoria.

12.2.3 Diseño aleatorizado por bloques


Se dice que el diseño de un experimento es aleatorizado por bloques cuando se forman boques
de unidades experimentales en cada grupo, de tal forma que tales bloques sean homogéneos respecto a
los factores externos que se desea eliminar. En cada bloque puede haber una o más unidades experi-
mentales.

12.2.4 Errores en los datos de los experimentos


En un experimento se pueden cometer dos tipos de error: aleatorios y no aleatorios.
• Error aleatorio o experimental: es la diferencia entre la medida obtenida del resultado de un
experimento y la obtenida promediando los resultados de varios experimentos: e A = xi − x
• Error no aleatorio o sesgo: es la diferencia entre la medida obtenida promediando los resulta-
dos de varios experimentos y la medida verdadera: e N = x − µ

12.3 Análisis de varianza: ANOVA


El análisis de varianza, o ANOVA, compara dos o más medias de distintas poblaciones. Para es-
to extrae una muestra de cada población y analiza qué tan dispersas están las medias de dichas mues-
tras, es decir, qué tanto difieren entre sí.
Para que el análisis de varianza tenga validez se requiere que las poblaciones muestreadas sean
normales y que las varianzas de dichas poblaciones sean iguales. Una estimación de esta varianza co-
mún, σ2, que sería también la varianza de todas las muestras, estará conformada por dos varianzas: la
varianza entre las medias de las muestras y la varianza promedio dentro de las muestras.
Para entender la naturaleza del análisis de varianza, supóngase que se quiere averiguar si son
160 Diseño de experimentos y análisis de varianza

iguales o no las medias de tres poblaciones: µ 1, µ 2 y µ 3. Para esto, se extrae una muestra de cada po-
blación, cuyas medidas se expresan en la figura 12.1. Se asume que el investigador sólo conoce las
medias muestrales.
µ1 µ2 µ3

x x x x x x x x x x x x x x x x x x
x1 x2 x3
Figura 12.1. Muestreos con medias muy diferentes
A simple vista se podría afirmar (figura 12.1) que µ 1, µ 2 y µ 3 son diferentes, pues las tres me-
dias muestrales son muy diferentes (recuerde el lector que no se conocen las medias poblacionales).
Analíticamente, se podría llegar a la misma conclusión calculando la varianza que hay entre las medias
de las muestras. Si esta varianza es grande, indicará que las medias muestrales difieren mucho; pero,
¿cómo determinar a partir de qué valor se puede afirmar que la varianza es grande? Una forma muy
práctica de hacerlo es comparándola con la varianza promedio de los datos de las muestras. Así, si la
varianza que hay entre las medias de las muestras es significativamente mayor que la varianza que hay
dentro de las muestras, se puede afirmar que las medias poblacionales difieren significativamente.
Supóngase ahora que se quiere averiguar si las medias de las tres poblaciones representadas en
la figura 12.2 son iguales o no. Nuevamente el lector debe asumir que no conoce las medias poblacio-
nales; aunque en la figura se aprecien estos valores.
µ1 µ2 µ3

x xx x x x x x x x xx x x x x x x
x1 x2 x3
Figura 12.2. Muestreos con medias diferentes

Se aprecia en la figura 12.2 que las medias muestrales son diferentes; pero esta vez difieren me-
nos. La varianza entre las medias muestrales es, en este caso, ligeramente mayor que la varianza pro-
medio dentro de las muestras. Nuevamente se podrá afirmar que las medias poblacionales difieren sig-
nificativamente.
Supóngase, finalmente, que se desea averiguar si las medias de las tres poblaciones representa-
das en la figura 12.3 son iguales o no. Nuevamente el lector debe asumir que no conoce las medias
poblacionales, aunque en la figura se aprecie que estos valores son iguales.
µ1 = µ2 = µ3

x xx x x x
xx11 x xx x xx
x xx xx x
x2x 2
x3
Figura 12.3. Muestreos con medias diferentes
Diseño de experimentos y análisis de varianza 161

En esta última situación, la varianza entre las medias muestrales es menor que la varianza pro-
medio dentro de las muestras, lo cual indica que las medias muestrales no difieren significativamente.
Se concluye entonces que las medias poblacionales son iguales.
Ahora se entiende cómo un análisis de las varianzas permite probar si las medias de varias po-
blaciones son iguales o no. En caso que no sean iguales, se podría probar que una de las medias pobla-
cionales es la mayor (o la menor) mediante una prueba de hipótesis entre las dos con mayor (o menor)
media muestral.

12.3.1 Análisis de varianza de un factor


Se denomina análisis de varianza de un factor o unidireccional, al análisis que se hace cuando
los factores externos se controlan mediante un diseño completamente aleatorio del experimento. En-
tonces, se considera que el único factor que actúa sobre las unidades experimentales son los tratamien-
tos. En el ejemplo anterior de las distintas fórmulas nuevas de detergente que se aplican a distintos
grupos de prendas de vestir, los tratamientos serán precisamente las distintas fórmulas del detergente.
Si se quiere comparar las medias de k poblaciones, se plantean las siguientes hipótesis:
H0 : µ1 = µ2 = … = µk
H1 : Al menos una media es diferente
Como se dijo antes, la varianza total está conformada por dos varianzas: la varianza entre las
medias de las muestras y la varianza promedio dentro de las muestras. La varianza de las medias
muestrales se conoce como varianza explicada y, según el teorema del límite central, será:
σ E2
σ x2 =
n
donde:σE2 es la varianza explicada de las poblaciones, ya que se asume que éstas tienen la mis-
ma varianza, y n es el número de datos de cada muestra.
La varianza de las medias muestrales puede ser estimada por la varianza de las medias de las k
muestras:
k

∑ (x
i =1
i − x)2
s x2 =
k −1
Por lo tanto, despejando de la ecuación anterior, la varianza explicada sE2 resulta:
k
n ∑ (x
i =1
i − x)2
s E2 ≅
k −1
En esta expresión, al numerador se le conoce como suma de los cuadrados de los tratamien-
tos (SST), y el denominador representa el número de grados de libertad. A este cociente también se
le llama promedio de los cuadrados de los tratamientos (PPT).
La varianza promedio dentro de las muestras se conoce como varianza no explicada o error,
pues se atribuye al azar. Esta varianza constituye otra estimación de la varianza de la población.
Para estimar la varianza no explicada se calcula, en primer lugar, la varianza de cada muestra:
n

∑ (x
j =1
ij − xi ) 2
s i2 =
n −1

donde: xij es el j-ésimo dato de la muestra i; xi es la media de la muestra i, y n es el número de


datos de la muestra.
162 Diseño de experimentos y análisis de varianza

El promedio de las varianzas de las i muestras será la varianza no explicada:


k n

∑ ∑ (x
i =1 j =1
ij − xi ) 2
s N2 =
(n − 1) k
En esta última expresión, al numerador se le conoce como suma de los cuadrados del error
(SSE), y el denominador representa el número de grados de libertad. A este cociente también se le
llama promedio de los cuadrados del error (PPE).
Para determinar si la varianza explicada o varianza de los tratamientos es mayor que la varianza
no explicada o varianza del error, se hace la Prueba F de comparación de varianzas. Recuérdese que
si ocurre esto ( σ E2 > σ N2 ), se podrá afirmar que la varianza de los tratamientos es muy grande, y por lo
tanto se podrá afirmar que las medias de los tratamientos difieren significativamente.
Se plantean entonces las siguientes hipótesis:
H0 : σ E2 = σ N2
H1 : σ E2 > σ N2
s E2
Como se vio en la sección 9.7, se aceptará la hipótesis nula si: F = <F *
s N2
Si se acepta esta hipótesis nula, (H0: σ E2 = σ N2 ) se estaría aceptando que las medias de los trata-
mientos no difieren significativamente, es decir, que dichas medias son iguales (H0: µ1 = µ2 = … = µk).
Tabla ANOVA
Los valores que se calculan para el análisis de varianza suelen expresarse en una tabla, como se
muestra en la tabla 12.1.
Tabla 12.1. Tabla ANOVA de un factor
Suma de Grados de Promedio de
Variaciones F F*
cuadrados libertad los cuadrados
Entre muestras SST k–1 PPT = SST / (k – 1) PPT / PPE F*
Dentro de las muestras SSE (n – 1) k PPE = SSE / (n – 1) k
Total SSTOT nk – 1

Ejemplo 1:
Se quiere evaluar tres métodos de capacitación del personal de una fábrica. El jefe de capacita-
ción selecciona 15 nuevos obreros y los distribuye aleatoriamente en los tres métodos. Una vez
terminada la capacitación, los obreros comienzan a trabajar y se anota la producción semanal de
cada uno de ellos. ¿Hay diferencia en la eficacia de los tres métodos de capacitación?
Producción diaria
Método 1 16 17 19 13 21
Método 2 20 25 17 18 21
Método 3 19 24 16 19 17
En primer lugar, se plantean las siguientes hipótesis:
H0 : µ1 = µ2 = µ3
H1 : Al menos una media es diferente
A continuación se calculan las medias muestrales y la media de las medias muestrales:
Producción diaria x x
Método 1 16 17 19 13 21 17,2
Método 2 20 25 17 18 21 20,2 18,8
Método 3 19 24 16 19 17 19
Diseño de experimentos y análisis de varianza 163

La varianza explicada sE2 resulta:


k
5 ∑ (x
i =1
i − 18,8) 2
[ ]
5 (17,2 − 18,8) 2 + ( 20,2 − 18,8) 2 + (19 − 18,8) 2 22,8
s E2 ≅ = = = 11,4
3 −1 3 −1 2

La varianza no explicada sN2 resulta:


k n

∑∑ ( x
i =1 j =1
ij − xi ) 2
(16 − 17,2) 2 + (17 − 17,2) 2 + (19 − 17,2) 2 + (13 − 17,2) 2 + (21 − 17,2) 2 +
s N2 = =
(5 − 1) 3 (5 − 1) 3

+ (20 − 20,2) 2 + (25 − 20,2) 2 + (17 − 20,2) 2 + (18 − 20,2) 2 + (21 − 20,2) 2 +
(5 − 1) 3

+ (19 − 19) 2 + (24 − 19) 2 + (16 − 19) 2 + (19 − 19) 2 + (17 − 19) 2
= 9,4667
(5 − 1) 3
Por lo tanto:
11,4
F= = 1,2042
9,4667
Para nlE = 2; nlN = 12 (grados de libertad), α = 0,05: F* = 3,8853 (ver apéndice).
La tabla ANOVA es entonces la siguiente:
Suma de Grados de Promedio de
Variaciones F F*
cuadrados libertad los cuadrados
Entre muestras 22,8 2 11,4 1,2042 3,8853
Dentro de las muestras 113,6 12 9,467
Total 136,4
Resulta entonces: F < F*; por lo tanto se acepta la hipótesis nula de comparación de varianzas
(H0: σ E2 = σ N2 ) y se acepta también la hipótesis nula de medias (H0: µ1 = µ2 = µ3).
Se puede afirmar entonces que los tres métodos de capacitación son igualmente eficientes.

12.3.2 Análisis de varianza de dos factores, sin interacción entre los factores.
Se denomina análisis de varianza de dos factores o bidireccional, al análisis que se hace cuando
los factores externos se controlan mediante un diseño aleatorizado por bloques. Se consideran dos fac-
tores que actúan sobre las unidades experimentales: los tratamientos y el factor externo que se desea
eliminar mediante la formación de bloques.
Cabe la posibilidad de que estos dos factores interactúen uno sobre el otro. Por ejemplo, una
fórmula del detergente que se va a experimentar puede actuar mejor o peor sobre determinados mate-
riales de ropa. En este apartado no se va a considerar esta posibilidad de interacción entre los factores.
Ya que se están considerando dos factores que actúan sobre las unidades experimentales, se
puede aprovechar esto para hacer simultáneamente dos investigaciones: comparar las medias de los k
tratamientos y comparar las medias de los n bloques. Se pueden plantear entonces las siguientes hipó-
tesis:
Para los tratamientos: H0 : µ1 = µ2 = … = µk
H1 : Al menos una media es diferente
Para los bloques: H0 : µ1 = µ2 = … = µn
H1 : Al menos una media es diferente
164 Diseño de experimentos y análisis de varianza

En este caso se considera la varianza explicada de los tratamientos y la varianza explicada de los
bloques. La varianza explicada de los tratamientos sET2 se calcula nuevamente con la expresión:
k

2
n ∑ (x
i =1
i − x)2
s ET ≅
k −1
Al numerador se le conoce como suma de los cuadrados de los tratamientos (SST), y el de-
nominador representa el número de grados de libertad. A este cociente también se le llama prome-
dio de los cuadrados de los tratamientos (PPT).
La varianza explicada de los bloques sEB2 se calcula con una expresión similar. El número de
bloques es n, y el número de datos en cada bloque es k. La varianza explicada de los bloques será en-
tonces:
n
k ∑ (x
j =1
j − x)2
2
s EB ≅
n −1
Al numerador se le conoce como suma de los cuadrados de los bloques (SSB), y el denomina-
dor representa el número de grados de libertad. A este cociente también se le llama promedio de los
cuadrados de los bloques (PPB).
La varianza no explicada o error es (no se demostrará):
k n

∑ ∑ (x
i =1 j =1
ij − xi − x j + x ) 2
s N2 =
( n − 1) (k − 1)
En esta última expresión, al numerador se le conoce como suma de los cuadrados del error
(SSE), y el denominador representa el número de grados de libertad. A este cociente también se le
llama promedio de los cuadrados del error (PPE).
Para determinar si la varianza explicada o varianza de los tratamientos es mayor que la varianza
no explicada o varianza del error, se hace la Prueba F de comparación de varianzas. Igualmente se
podrá determinar si la varianza de los bloques es mayor que la varianza no explicada o varianza del
error mediante otra Prueba F.
Se plantean entonces, independientemente, las hipótesis:
Para los tratamientos: H0 : σ ET
2
= σ N2
H1 : σ ET
2
> σ N2
Para los bloques: H0 : σ EB
2
= σ N2
H1 : σ EB
2
> σ N2
Se aceptará cada hipótesis nula si:
2
s ET
FT = < FT *
s N2
2
s EB
FB = < FB *
s N2

Si se acepta la primera hipótesis nula (H0: σ ET


2
= σ N2 ), se estaría aceptando que las medias de los
tratamientos no difieren significativamente, es decir, que las medias de los tratamientos son iguales
(H0: µ1 = µ2 = … = µk).
Diseño de experimentos y análisis de varianza 165

Igualmente, si se acepta la hipótesis nula (H0: σ EB


2
= σ N2 ), se estaría aceptando que las medias de
los bloques no difieren significativamente, es decir, que las medias de los bloques son iguales (H0: µ1
= µ2 = … = µn).
Tabla ANOVA
Los valores que se calculan para este análisis de varianza suelen expresarse en una tabla, como
se muestra en la tabla 12.2.
Tabla 12.2. Tabla ANOVA de dos factores sin interacción
Suma de Grados de Promedio de
Variaciones F F*
cuadrados libertad los cuadrados
Entre tratamientos SST k–1 PPT = SST / (k – 1) PPT / PPE FT*
Entre bloques SSB n–1 PPB = SSB / (n – 1) PPB / PPE FB*
Error SSE (n – 1) (k – 1) PPE = SSE / [(n – 1) (k – 1)]
Total SSTOT nk – 1

Ejemplo 2:
El gerente de producción de una fábrica quiere evaluar tres máquinas. Para esto, asigna cinco
empleados a cada máquina, distribuyéndolos de acuerdo a su nivel académico, de manera tal
que cada máquina sea operada por empleados de los cinco niveles en los que se les ha clasifica-
do previamente. De esta forma ninguna máquina se verá favorecida al asignarle más operarios
de mayor nivel académico. En la tabla adjunta se muestra la producción diaria.

Máq. 1 Máq. 2 Máq. 3


Nivel 1 16 17 20
Nivel 2 15 20 17
Nivel 3 20 19 17
Nivel 4 19 22 23
Nivel 5 22 24 25

¿Se puede afirmar que las tres máquinas tienen la misma productividad?
En primer lugar, se plantean las siguientes hipótesis:
Para los tratamientos: H0 : µ1 = µ2 = µ3
(máquinas) H1 : Al menos una media es diferente
Para los bloques: H0 : µ1 = µ2 = µ3 = µ4 = µ5
(niveles académicos) H1 : Al menos una media es diferente
A continuación se calculan las medias de los tratamientos, de los bloques y la media total:

Máq. 1 Máq. 2 Máq. 3 xj


Nivel 1 16 17 20 17,667
Nivel 2 15 20 17 17,333
Nivel 3 20 19 17 18,667
Nivel 4 19 22 23 21,333
Nivel 5 22 24 25 23,667
xi 18,4 20,4 20,4 19,733

La varianza explicada de los tratamientos sET2 resulta:


3

2
5 ∑ (x
i =1
i − 19,733) 2
13,333
s ET ≅ = = 6,667
3 −1 2
166 Diseño de experimentos y análisis de varianza

La varianza explicada de los bloques sEB2 resulta:


5
3 ∑ (x
j =1
j − 19,733) 2
87,6
2
s EB ≅ = = 21,9
5 −1 4
La varianza no explicada sN2 resulta:
3 5

∑ ∑ (x
i =1 j =1
ij − x i − x j + 19,733) 2
26
s N2 = = = 3,25
(5 − 1) (3 − 1) 8
En la siguiente tabla se expresan estas varianzas. El lector puede verificar fácilmente los valores
de F y sus correspondientes valores críticos. Considere α = 0,05.

Suma de Grados de Promedio de


Variaciones F F*
cuadrados libertad los cuadrados
Entre tratamientos 87,6 4 21,9 6,7385 3,8379
Entre bloques 13,3333 2 6,6667 2,0513 4,4590
Error 26 8 3,25
Total 126,9333 14
Resulta entonces: FT > FT*; por lo tanto se rechaza la hipótesis nula de comparación de varian-
zas (H0: σ ET
2
= σ N2 ) y se rechaza también la hipótesis nula de medias (H0: µ1 = µ2 = µ3).
Se puede afirmar entonces que las tres máquinas no tienen la misma productividad.
Además: FB < FB*; por lo tanto se acepta la hipótesis nula de comparación de varianzas (H0:
σ EB
2
= σ N2 ) y se acepta también la hipótesis nula de medias (H0: µ1 = µ2 = µ3 = µ4 = µ5).
Se puede afirmar entonces que la productividad es la misma en los distintos niveles académicos
de los empleados.

12.3.3 Análisis de varianza de dos factores, con interacción entre los factores.
Nuevamente se consideran dos factores que actúan sobre las unidades experimentales: los trata-
mientos y el factor externo que se desea eliminar mediante la formación de bloques; pero esta vez se
considera la posibilidad de que haya interacción entre los factores.
Se podría dar el caso, por ejemplo, de que un grupo de empleados de cierto nivel académico
sean más productivos que un grupo de otro nivel, si operan cierta máquina; pero con las otras máqui-
nas podrían tener menor productividad. Esto indicaría que hay interacción entre el nivel académico y
el tipo de máquina.
Para probar si hay interacción entre los dos factores es necesario diseñar el experimento por blo-
ques con al menos dos datos para cada combinación tratamiento – bloque.
De esta manera se pueden investigar las hipótesis:
Para los tratamientos: H0 : µ1 = µ2 = … = µk
H1 : Al menos una media es diferente
Para los bloques: H0 : µ1 = µ2 = … = µn
H1 : Al menos una media es diferente
Para la interacción: H0 : Los factores no interactúan respecto a la variable investigada.
H1 : Los factores sí interactúan respecto a la variable investigada.
En este caso se consideran tres varianzas explicadas: de los tratamientos, de los bloques y de la
interacción.
Diseño de experimentos y análisis de varianza 167

Si r es el número de datos en cada combinación tratamiento – bloque, y n el número de bloques


en cada muestra, el número total de datos que hay en cada muestra es nr; por lo tanto la varianza ex-
plicada de los tratamientos sET2 se calcula con la expresión:
k

2
n⋅r ∑ (x
i =1
i − x)2
s ET ≅
k −1
Al numerador se le conoce como suma de los cuadrados de los tratamientos (SST), y el de-
nominador representa el número de grados de libertad. A este cociente también se le llama prome-
dio de los cuadrados de los tratamientos (PPT).
La varianza explicada de los bloques se calcula con una expresión similar. El número de blo-
ques es n, y el número de datos en cada bloque es kr. La varianza explicada de los bloques será enton-
ces:
n
k ⋅r ∑ (x
j =1
j − x)2
2
s EB ≅
n −1
Al numerador se le conoce como suma de los cuadrados de los bloques (SSB), y el denomina-
dor representa el número de grados de libertad. A este cociente también se le llama promedio de los
cuadrados de los bloques (PPB).
Se considera que hay interacción entre los dos factores que actúan sobre las unidades experi-
mentales si la diferencia entre la media de los r datos de una combinación tratamiento – bloque y la
media total ( xij − x ) difiere de la suma de dos diferencias: una entre la media del tratamiento corres-
pondiente y la media total ( xi − x ) , y otra entre la media del bloque correspondiente y la media total
( x j − x ) . Así, para todas las combinaciones tratamiento – bloque, estas diferencias miden la interac-
ción entre los factores. La interacción, para cada combinación tratamiento – bloque se mide entonces
con la expresión:

I = ( x ij − x ) – [ ( xi − x ) + ( x j − x ) ]

Simplificando, cada interacción resulta:


I = xij − xi − x j + x

La interacción total se mide con la varianza explicada de la interacción, que se calcula enton-
ces con la siguiente expresión:
k n
r ∑∑ ( x
i =1 j =1
ij − xi − x j + x ) 2
2
s EI =
(n − 1) (k − 1)
Al numerador se le conoce como suma de los cuadrados de la interacción (SSI), y el denomi-
nador representa el número de grados de libertad. A este cociente también se le llama promedio de
los cuadrados de la interacción (PPI).
La varianza no explicada o error es:
k n r

∑∑∑ ( x
i =1 j =1 h =1
ijh − x ij ) 2
s N2 =
nk (r − 1)
En esta última expresión, al numerador se le conoce como suma de los cuadrados del error
168 Diseño de experimentos y análisis de varianza

(SSE), y el denominador representa el número de grados de libertad. A este cociente también se le


llama promedio de los cuadrados del error (PPE).
Para determinar si cada una de las tres varianzas explicadas es mayor que la varianza no expli-
cada o varianza del error, se hacen tres Pruebas F de comparación de varianzas:
Para los tratamientos: H0 : σ ET
2
= σ N2
H1 : σ ET
2
> σ N2
Para los bloques: H0 : σ EB
2
= σ N2
H1 : σ EB
2
> σ N2
Para la interacción: H0 : σ EI
2
= σ N2
H1 : σ EI
2
> σ N2

Se aceptará cada hipótesis nula si:


2
s ET
FT = < FT *
s N2
2
s EB
FB = < FB *
s N2
2
s EI
FI = < FI *
s N2

Si se acepta la hipótesis nula (H0: σ ET


2
= σ N2 ), se estaría aceptando que las medias de los trata-
mientos no difieren significativamente, es decir, que las medias de los tratamientos son iguales (H0: µ1
= µ2 = … = µk).
Si se acepta la hipótesis nula (H0: σ EB
2
= σ N2 ), se estaría aceptando que las medias de los bloques
no difieren significativamente, es decir, que las medias de los bloques son iguales (H0: µ1 = µ2 = … =
µn).
Si se acepta la hipótesis nula (H0: σ EI
2
= σ N2 ), se estaría aceptando que las interacciones medidas
en cada combinación tratamiento – bloque son muy pequeñas, es decir, que no hay interacción.
Tabla ANOVA
Los valores que se calculan para este análisis de varianza se expresan en la tabla 12.3.
Tabla 12.3. Tabla ANOVA de dos factores con interacción
Suma de Grados de Promedio de
Variaciones F F*
cuadrados libertad los cuadrados
Entre tratamientos SST k–1 PPT = SST / (k – 1) PPT / PPE FT*
Entre bloques SSB n–1 PPB = SSB / (n – 1) PPB / PPE FB*
Interacción SSI (n – 1) (k – 1) PPI = SSI / [(n – 1) (k – 1)] PPI / PPE FI*
Error SSE nk (r – 1) PPE = SSE / [nk (r – 1)]
Total SSTOT nk – 1

Ejemplo 3:
El gerente de producción de una fábrica quiere evaluar tres máquinas. Para esto asigna cinco
empleados a cada máquina, distribuyéndolos de acuerdo a su nivel académico, de manera tal
que cada máquina sea operada por empleados de los cinco niveles en que se les ha clasificado
Diseño de experimentos y análisis de varianza 169

previamente. De esta forma ninguna máquina se verá favorecida al asignarle más operarios de
mayor nivel académico. Como es probable que haya interacción entre el tipo de máquina y el
nivel académico de los empleados, respecto a la productividad de éstos, se consideraron dos
empleados para cada combinación tipo de máquina – nivel académico. En la tabla adjunta se
muestra la producción diaria.

M1 M2 M3
14 20 15
1
16 16 17
11 21 18
2
13 22 21
18 17 15
3
20 16 15
17 22 21
4
21 21 23
20 25 24
5
26 28 25
¿Se puede afirmar que las tres máquinas tienen la misma productividad?

Se plantean las siguientes hipótesis:


Para los tratamientos: H0 : µ1 = µ2 = µ3
(máquinas) H1 : Al menos una media es diferente

Para los bloques: H0 : µ1 = µ2 = µ3 = µ4 = µ5


(niveles académicos) H1 : Al menos una media es diferente

Para la interacción: H0 : No hay interacción entre el tipo de máquina y el nivel académico


de los empleados, respecto a la productividad de éstos.
H1 : Sí hay interacción entre dichos factores.

A continuación se calculan las medias para cada tratamiento, para cada bloque, la media total y
la media de cada combinación nivel académico – tipo de máquina (entre paréntesis):

M1 M2 M3 xj
14 20 15
1 (15) (18) (16) 16,333
16 16 17
11 21 18
2 (12) (21,50) (19,50) 17,667
13 22 21
18 17 15
3 (19) (16,50) (15) 16,833
20 16 15
17 22 21
4 (19) (21,50) (22) 20,833
21 21 23
20 25 24
5 (23) (26,50) (24,50) 24,667
26 28 25
xi 17,60 20,80 19,40 19,267
170 Diseño de experimentos y análisis de varianza

Aplicando las fórmulas recientemente descritas para calcular las tres varianzas explicadas y la
varianza no explicada o error, se completa la tabla ANOVA que se muestra a continuación:

Suma de Grados de Promedio de


Variaciones F F*
cuadrados libertad los cuadrados
Entre tratamientos 51,4667 2 25,7333 7,0182 3,6823
Entre bloques 292,2 4 73,05 19,9227 3,0556
Interacción 97,2 8 12,15 3,3136 2,6408
Error 55 15 3,6667
Total 495,8667 29
Resulta entonces: FT > FT*; por lo tanto se rechaza la hipótesis nula de comparación de varian-
zas (H0: σ ET
2
= σ N2 ) y se rechaza también la hipótesis nula de medias (H0: µ1 = µ2 = µ3).
Se puede afirmar entonces que las tres máquinas no tienen la misma productividad.

Además: FB > FB*; por lo tanto se rechaza la hipótesis nula de comparación de varianzas (H0:
σ EB
2
= σ N2 ) y se rechaza también la hipótesis nula de medias (H0: µ1 = µ2 = µ3 = µ4 = µ5).
Se puede afirmar entonces que la productividad no es la misma en los distintos niveles académi-
cos de los empleados.

Finalmente, FI > FI*; por lo tanto se rechaza la hipótesis de que no hay interacción. Se puede
afirmar entonces que el tipo de máquina y el nivel académico sí interactúan, lo cual afecta la
productividad de los empleados.

12.4 Análisis de varianza en Excel

12.4.1 Análisis de varianza de un factor


En este apartado se va a resolver el ejemplo 1, resuelto en el apartado 12.3.1.Por comodidad, se
repite el texto y el planteamiento de este problema.
Ejemplo 1:
Se quiere evaluar tres métodos de capacitación del personal de una fábrica. El jefe de capacita-
ción selecciona 15 nuevos obreros y los distribuye aleatoriamente en los tres métodos. Una vez
terminada la capacitación, los obreros comienzan a trabajar y se les anota la producción semanal
de cada uno de ellos. ¿Hay diferencia de eficacia entre los tres métodos de capacitación?
Producción diaria
Método 1 16 17 19 13 21
Método 2 20 25 17 18 21
Método 3 19 24 16 19 17

La hipótesis que se plantearon son:


H0 : µ1 = µ2 = µ3
H1 : Al menos una media es diferente
Ingresando al menú Herramientas/Análisis de datos/Análisis de varianza de un factor, Excel
muestra el cuadro de diálogo de la figura 12.4. En este cuadro ya se han ingresado los datos del
problema, que en la hoja de cálculo figuran entre las celdas A1 y E3.
Aceptando los datos ingresados en el cuadro de diálogo, Excel presenta dos tablas: la primera es
un resumen de los datos del problema, incluyendo medias y varianzas; y la segunda es la tabla
ANOVA del problema, como se muestra a continuación:
Diseño de experimentos y análisis de varianza 171

Figura 12.4. Cuadro de diálogo del ANOVA de un factor

La tabla ANOVA que presenta Excel tiene una columna más que la tabla ANOVA presentada
en el apartado 12.3.1, con P = 0,3337; que representa la probabilidad de que se obtenga un valor
de F mayor o igual a 1,2042. Lógicamente, si esta probabilidad es mayor que α; se rechazará H0.

RESUMEN
Grupos Cuenta Suma Promedio Varianza
Fila 1 5 86 17.2 9.2
Fila 2 5 101 20.2 9.7
Fila 3 5 95 19 9.5

ANÁLISIS DE VARIANZA
Origen de las Suma de Grados de Promedio de los Valor crítico
F Probabilidad
variaciones cuadrados libertad cuadrados para F
Entre grupos 22,8 2 11,4 1,2042 0,3337 3,8853
Dentro de los grupos 113,6 12 9,4667

Total 136,4 14

Resulta: F < F*; por lo tanto se acepta la hipótesis nula (H0: σ E2 = σ N2 ) y se acepta también la
hipótesis nula (H0: µ1 = µ2 = µ3).
Se puede afirmar entonces que los tres métodos de capacitación son igualmente eficientes.

12.4.2 Análisis de varianza de dos factores, sin interacción.


En este apartado se va a resolver el ejemplo 2, resuelto en el apartado 12.3.2. Por comodidad, se
repite el texto y el planteamiento de este problema.
Ejemplo 2:
El gerente de producción de una fábrica quiere evaluar tres máquinas. Para esto asigna cinco
empleados a cada máquina, distribuyéndolos de acuerdo a su nivel académico, de manera tal
que cada máquina sea operada por empleados de los cinco niveles en que se les ha clasificado
previamente. De esta forma ninguna máquina se verá favorecida al asignarle más operarios de
mayor nivel académico. En la tabla adjunta se muestra la producción diaria.
172 Diseño de experimentos y análisis de varianza

¿Se puede afirmar que las tres máquinas tienen la misma productividad?
Máq. 1 Máq. 2 Máq. 3
Nivel 1 16 17 20
Nivel 2 15 20 17
Nivel 3 20 19 17
Nivel 4 19 22 23
Nivel 5 22 24 25
En primer lugar, se plantean las siguientes hipótesis:
Para los tratamientos: H0 : µ1 = µ2 = µ3
(máquinas) H1 : Al menos una media es diferente

Para los bloques: H0 : µ1 = µ2 = µ3 = µ4 = µ5


(niveles académicos) H1 : Al menos una media es diferente

Ingresando al menú Herramientas/Análisis de datos/Análisis de varianza de dos factores con


una sola muestra por grupo, Excel muestra el cuadro de diálogo de la figura 12.5. En este cua-
dro ya se han ingresado los datos del problema, que están entre las celdas B2 y D6.

Figura 12.5. Cuadro de diálogo del análisis de varianza con dos factores, sin interacción.

Aceptando los datos ingresados en el cuadro de diálogo, Excel presenta dos tablas: la primera es
un resumen de los datos del problema, incluyendo medias y varianzas; y la segunda es la tabla
ANOVA del problema, como se muestra a continuación:

RESUMEN Cuenta Suma Promedio Varianza


Fila 1 3 49 16.3333 2.3333
Fila 2 3 50 16.6667 26.3333
Fila 3 3 50 16.6667 2.3333
Fila 4 3 63 21 3
Fila 5 3 73 24.3333 6.3333

Columna 1 5 85 17 17.5
Columna 2 5 105 21 15.5
Columna 3 5 95 19 15

Como se puede ver en esta tabla y en la tabla ANOVA que se muestra a continuación, lo que
Excel denomina filas corresponde a los bloques (niveles académicos) y lo que denomina colum-
nas corresponde a los tratamientos (tipos de máquina).
Diseño de experimentos y análisis de varianza 173

ANÁLISIS DE VARIANZA
Origen de las Suma de Grados de Promedio de los Valor crítico
F Probabilidad
variaciones cuadrados libertad cuadrados para F
Filas 151,3333 4 37,8333 7,4426 0,0084 3,8379
Columnas 40 2 20 3,9344 0,0646 4,4590
Error 40,6667 8 5,08333

Total 232 14

Para las filas resulta: F > F*; por lo tanto se rechaza la hipótesis nula (H0: µ1 = µ2 = µ3).
Se puede afirmar entonces que las tres máquinas no tienen la misma productividad.

Para las columnas: F < F*; por lo tanto se acepta la hipótesis nula (H0: µ1 = µ2 = µ3 = µ4 = µ5).
Se puede afirmar entonces que la productividad es la misma en los distintos niveles académicos
de los empleados.

El lector debe llegar a estas mismas dos conclusiones interpretando los valores de Probabilidad,
tal como se hizo en el apartado anterior.

12.4.3 Análisis de varianza de dos factores, con interacción.


En este apartado se va a resolver el ejemplo 3, resuelto en el apartado 12.3.3. Por comodidad, se
repite el texto y el planteamiento de este problema.

Ejemplo 3:
El gerente de producción de una fábrica quiere evaluar tres máquinas. Para esto asigna cinco
empleados a cada máquina, distribuyéndolos de acuerdo a su nivel académico, de manera tal
que cada máquina sea operada por empleados de los cinco niveles en que se les ha clasificado
previamente. De esta forma ninguna máquina se verá favorecida al asignarle más operarios de
mayor nivel académico. Como es probable que haya interacción entre el tipo de máquina y el
nivel académico de los empleados, respecto a la productividad de éstos, se consideraron dos
empleados para cada combinación tipo de máquina – nivel académico. En la tabla adjunta se
muestra la producción diaria.

M1 M2 M3
14 20 15
1
16 16 17
11 21 18
2
13 22 21
18 17 15
3
20 16 15
17 22 21
4
21 21 23
20 25 24
5
26 28 25
¿Se puede afirmar que las tres máquinas tienen la misma productividad?

Se plantean las siguientes hipótesis:


Para los tratamientos: H0 : µ1 = µ2 = µ3
(máquinas) H1 : Al menos una media es diferente

Para los bloques: H0 : µ1 = µ2 = µ3 = µ4 = µ5


(niveles académicos) H1 : Al menos una media es diferente
174 Diseño de experimentos y análisis de varianza

Para la interacción: H0 : No hay interacción entre el tipo de máquina y el nivel académico


de los empleados, respecto a la productividad de éstos.
H1 : Sí hay interacción entre dichos factores.

Ingresando al menú Herramientas/Análisis de datos/Análisis de varianza de dos factores con


varias muestras por grupo, Excel muestra el cuadro de diálogo de la figura 12.6. En este cuadro
ya se han ingresado los datos del problema.

Figura 12.6. Cuadro de diálogo del análisis de varianza con dos factores, con interacción.

Hay dos particularidades en el cuadro de diálogo de Excel para este análisis que incluye la posi-
ble interacción entre los factores (figura 12.6). La primera es que en el rango de entrada deben
incluirse no sólo los datos (valores numéricos) sino también los títulos de las filas y columnas. A
continuación se presentan los datos de este problema, tal como se escribieron en la hoja de cál-
culo de Excel:

A B C D
1 M1 M2 M3
2 1 14 20 15
3 16 16 17
4 2 11 21 18
5 13 22 21
6 3 18 17 15
7 20 16 15
8 4 17 22 21
9 21 21 23
10 5 20 25 24
11 26 28 25

La segunda particularidad es la opción Fila por muestra del mismo cuadro de diálogo de la figu-
ra 12.6, donde se debe indicar el número de datos que hay en cada combinación tratamiento –
bloque. En este problema hay 2 datos por cada combinación.

Aceptando los datos ingresados en el cuadro de diálogo, Excel presenta dos tablas: la primera es
un resumen de los datos de cada bloque y de cada tratamiento, incluyendo sus respectivas me-
dias y varianzas; y la segunda es la tabla ANOVA del problema, como se muestra a continua-
ción:
Diseño de experimentos y análisis de varianza 175

RESUMEN M1 M2 M3 Total
1
Cuenta 2 2 2 6
Suma 30 36 32 98
Promedio 15 18 16 16.3333
Varianza 2 8 2 4.2667

2
Cuenta 2 2 2 6
Suma 24 43 39 106
Promedio 12 21.5 19.5 17.6667
Varianza 2 0.5 4.5 21.4667

3
Cuenta 2 2 2 6
Suma 38 33 30 101
Promedio 19 16.5 15 16.8333
Varianza 2 0.5 0 3.7667

4
Cuenta 2 2 2 6
Suma 38 43 44 125
Promedio 19 21.5 22 20.8333
Varianza 8 0.5 2 4.1667

5
Cuenta 2 2 2 6
Suma 46 53 49 148
Promedio 23 26.5 24.5 24.6667
Varianza 18 4.5 0.5 7.0667

Total
Cuenta 10 10 10
Suma 176 208 194
Promedio 17.6 20.8 19.4
Varianza 19.3778 14.8444 15.1556

ANÁLISIS DE VARIANZA
Origen de las Suma de Grados de Promedio de los Valor crítico
F Probabilidad
variaciones cuadrados libertad cuadrados para F
Muestra 292,2 4 73,05 19,9227 7E-06 3,0556
Columnas 51,4667 2 25,7333 7,0182 0,007057 3,6823
Interacción 97,2 8 12,15 3,3136 0,021807 2,6408
Dentro del grupo 55 15 3,6667

Total 495,8667 29

Para las muestras resulta: F > F*; por lo tanto se rechaza la hipótesis nula (H0: µ1 = µ2 = µ3).
Se puede afirmar entonces que las tres máquinas no tienen la misma productividad.

Para las columnas: F > F*; por lo tanto se rechaza la hipótesis nula (H0: µ1 = µ2 = µ3 = µ4 = µ5).
Se puede afirmar entonces que la productividad es la misma en los distintos niveles académicos
de los empleados.
176 Diseño de experimentos y análisis de varianza

Para la interacción: F > F*; por lo tanto se rechaza la hipótesis de que los factores interactúan.
Se puede afirmar entonces que el tipo de máquina y el nivel académico sí interactúan, lo cual
afecta la productividad de los empleados.

El lector debe llegar a estas mismas tres conclusiones interpretando los valores de Probabilidad
de la tabla ANOVA, tal como se hizo en el ejemplo 1.
Diseño de experimentos y análisis de varianza 177

Problemas propuestos.
1. El Departamento de Investigación de la Facultad de Agronomía de una universidad quiere investi-
gar el crecimiento de un tipo de planta sometida a uno de tres tipos de riego y a uno de cuatro fer-
tilizantes. Considerando que no hay interacción entre el tipo de riego y el fertilizante, se diseñó un
experimento aleatorizado por bloques, sembrando doce plantas del mismo tamaño en un terreno
cuya calidad del suelo es homogénea, de tal manera que cada planta fue sometida a un tipo de rie-
go y a un fertilizante. En la siguiente tabla se muestran los crecimientos de las plantas (en cm.)
después de 6 meses.
Fertilizante
Tipo de riego 1 2 3 4
A 52 30 38 50
B 44 55 54 45
C 36 60 35 48
Determine si el crecimiento es el mismo, independientemente del tipo de riego y del fertilizante.
Considere α = 0,05.
2. Se seleccionaron muestras aleatorias independientes de tres poblaciones. Los datos se muestran a
continuación, junto con la salida de la tabla ANOVA de un software. Se considera α = 0,05.

Muestra 1 Muestra 2 Muestra 3


2.1 4.4 1.1
3.3 2.6 0.2
0.2 3 2
ANOVA
Fuente Suma de cuadrados GL Promedio de los cuadrados F P
Entre grupos 7,726666667 2 3,863333333 2,79502 0,138739
Dentro de los grupos 8,293333333 6 1,382222222
Total 16,02 8

a) Localice varianza entre las muestras. ¿Qué tipo de variabilidad se mide con esta cantidad?
b) Localice la varianza dentro de las muestras ¿Qué tipo de variabilidad se mide?
c) ¿Se acepta Ho: µ1=µ2= µ3 contra la hipótesis alternativa que al menos una media poblacional
difiere de las otras dos? ¿Por qué?
d) ¿A qué conclusión llega?
3. El jefe de un taller quiere investigar si el promedio de resistencia de unas láminas es el mismo pa-
ra tres temperaturas y tres presiones aplicadas durante la producción. A continuación se muestran
los datos obtenidos y la tabla ANOVA de Excel, incompleta. Se considera α = 0,05.
a) Complete la tabla ANOVA
b) ¿A qué conclusiones puede llegar?
Temperatura
Presión Baja Mediana Alta
66 83 80 86 92 121
Baja 56 82 77 81 90 106
72 88 93 81 119 121
109 98 131 136 53 74
Mediana 103 64 148 127 63 73
100 113 152 146 67 93
164 140 79 64 59 58
Alta 133 154 67 108 48 51
132 162 45 72 50 58
178 Diseño de experimentos y análisis de varianza

ANÁLISIS DE VARIANZA
Origen de las Suma de Grados de Promedio de Valor crítico
F Probabilidad
variaciones cuadrados libertad los cuadrados para F
Muestra 0,006616254
Columnas 1,92315E-07
Interacción 39715,77778 1,07475E-16
Dentro del grupo 8187,666667

Total 58041,33333

4. Un fabricante de llantas está investigando el desgaste de tres marcas distintas. Para esto se selec-
cionaron 6 llantas de cada marca y se colocaron en 18 autos, en la misma posición. Después de re-
correr 5 000 km. se tuvieron los siguientes desgastes:
Marca A 211 231 235 204 222 208
Marca B 145 168 161 134 187 125
Marca C 190 210 230 160 205 201
Diga si existe evidencia estadística para concluir que las tres marcas de llanta no difieren en la re-
sistencia al desgaste. Excel proporciona la siguiente tabla ANOVA para un diseño completamente
aleatorizado con un nivel de significancia (α) del 5%.
Variaciones Suma de cuadrados Grados de lib. Prom. cuadrados F Prob. F*
Entre grupos 17422,86111 2 8711,43055 20,0784606 5,737E-05 3,68231667
Dentro de los grupos 6508,041667 15 433,869444
Total

Respuesta: No, se afirma que las tres marcas de llanta sí difieren en la resistencia al desgaste.
5. Un profesor de matemáticas quiere investigar si el aprendizaje en un determinado tema es el mis-
mo empleando cualquiera de tres métodos: A, B o C. Se escogen aleatoriamente treinta alumnos
de distintos colegios, y se les distribuye también aleatoriamente en tres aulas, de tal manera que en
cada una se les enseña el tema con un método. En la siguiente tabla se muestran las evaluaciones
de los alumnos después de concluidas las clases.
Método A 15 16 18 11 15 14 14 13 16 14
Método B 13 18 19 15 17 16 12 15 16 18
Método C 19 17 20 14 18 16 15 15 17 18

¿Se puede afirmar que con los tres métodos se obtiene el mismo resultado? Considere α = 0,05.
Respuesta: Sí se puede afirmar que con los tres métodos se obtiene el mismo resultado
6. Cuando se hace un análisis de varianza se investiga:
a) si las varianzas de varias poblaciones difieren, para comparar eficiencias.
b) si las medias de varias poblaciones difieren, lo cual se constata comparando las varianzas de
las muestras extraídas de dichas poblaciones.
c) si las medias de varias muestras difieren.
d) ninguna de las anteriores.
7. Cuando se hace el análisis de varianza con un solo factor, ¿la variabilidad de todos los datos de-
pende de la variabilidad de los tratamientos o de la variabilidad dentro de los tratamientos?
8. Cuando se hace el análisis de varianza con dos factores que no interactúan, ¿importa si se denomi-
nan indistintamente los tratamientos y los grupos?
Regresión lineal simple y correlación 179

Capítulo 13. Regresión lineal simple y correlación.

13.1 Introducción.
El propósito de este capítulo es determinar la relación que existe entre dos variables X e Y, que
representan dos características de un universo, con el propósito de predecir una en términos de la otra.
Se podría establecer, por ejemplo, qué relación hay entre:
• El gasto en publicidad y las ventas mensuales en una empresa.
• La resistencia del cemento y el tiempo de envejecimiento.
• La rapidez en una línea de producción y el porcentaje de unidades defectuosas.
• Los residuos de cloro en una piscina y el número de horas después de que ha sido tratada.
• La resistencia a la compresión de un suelo y la profundidad de éste.
• La frecuencia de reparaciones en un auto y la edad del auto.

13.2 Regresión.
En cada uno de los ejemplos dados se puede ver que existe una asociación entre una variable X,
llamada variable independiente o de predicción, y otra Y, llamada variable dependiente o variable
respuesta. Evidentemente las variables de predicción serán, para cada ejemplo:
• El gasto de publicidad.
• El tiempo de envejecimiento del cemento.
• La rapidez en la línea de producción.
• El número de horas después que ha sido tratada la piscina.
• La profundidad del suelo.
• La edad del auto.
En el análisis de regresión sólo se examinan variables entre las cuales la relación no es causal.
En los ejemplos mencionados, no es posible establecer una relación causa-efecto entre las dos varia-
bles. No sería correcto decir, por ejemplo, que las ventas mensuales y en una empresa son altas debido
al alto gasto de publicidad x, pues, aunque las ventas sí dependan de la publicidad, no las causan, ya
que hay muchas otras razones por las que se hacen las ventas. Tampoco se puede decir que un cemen-
to tiene una resistencia y debido a que se ha envejecido un tiempo x, pues la resistencia depende de ese
tiempo, pero el tiempo de envejecimiento no causa dicha resistencia. Ni se puede afirmar que en una
piscina hay y partes por millón de cloro debido a que hace exactamente x horas fue tratada; esto último
influye pero no es la causa. Así, en muchas otras situaciones, no se debe confundir una influencia que
pueda ejercer una variable sobre otra, con causalidad. Un caso donde sí hay una relación causa-efecto
es el siguiente: si a un motor se le inyecta cierto flujo de gasolina, adquirirá una velocidad determina-
da. Pero esto no se puede estudiar mediante un análisis estadístico; de esto se ocupa otra ciencia.
La palabra regresión fue usada por Francis Galton (1822–1911) cuando notó que las caracterís-
ticas promedio de la siguiente generación de un grupo en particular tendían hacia las características
promedio de la población general, más que hacia las de la generación previa de ese grupo. A esta ten-
dencia le llamó regresión hacia la media de la población.
Sean X e Y variables de predicción y respuesta, respectivamente. Según lo dicho antes, no será
posible predecir con exactitud un valor de Y para ciertos valores de X; pero sí se podrá estimar un
promedio de Y para todos los casos en que X tome un determinado valor x. Para poder hacer esto será
180 Regresión lineal simple y correlación

necesario tomar una serie de mediciones y1, y2, ..., yn, correspondientes a los valores x1, x2, ..., xn, y es-
timar una función matemática que describa el comportamiento de la variable respuesta, dados los valo-
res de la variable de predicción. Una forma muy práctica para vislumbrar qué tipo de función puede
ser útil es representar todas las parejas de valores (x, y) en un sistema de coordenadas cartesianas. A
este gráfico se le conoce como diagrama de dispersión. El siguiente paso es estimar aquella función
empleando un método muy aceptado por todos, denominado: Método de los mínimos cuadrados. Si
dicha función es lineal, se le denomina modelo lineal simple. Lineal, pues lo es en los parámetros que
la determinan, y simple porque emplea una sola variable de predicción (X).
Se puede afirmar que la variable de predicción (X) no es una variable aleatoria pues sus valores
son fijos o se dan previamente. La variable de predicción está controlada, y por lo tanto no existen
errores de observación. En la práctica, esto último no siempre es cierto, pero tales errores resultan des-
preciables. En cambio la variable respuesta (Y) sí es aleatoria pues los valores que toma no están de-
terminados.

13.3 La recta de regresión de la población.


Si la relación entre las variables X e Y es lineal, el modelo que más se ajusta es la recta de regre-
sión de la población, que se puede estimar mediante la recta de regresión de una muestra, por el méto-
do de los mínimos cuadrados.
La recta de regresión de la población puede expresarse de la siguiente manera:
Yi = α + β Xi + εi
donde α y β son parámetros de la población y εi es la diferencia entre Yi y el valor esperado de Y,
dado Xi, es decir:
εi = Yi – µ Y \ Xi
Así, se deduce:
µY / X =α + β X
Esta ecuación es conocida como recta de regresión de Y con respecto a X. Para cada valor de
X, la ordenada de la recta de regresión representa la media de un número teóricamente infinito de valo-
res de Y.
El parámetro α , que es la intersección de la recta con el eje Y, expresa el valor promedio de Y
que corresponde a X = 0. El parámetro β, que es la pendiente de la recta, expresa cuánto se incrementa
Y por cada unidad de incremento de X.
Generalmente la distribución de Y para cada valor de X es aproximadamente normal, y la des-
viación estándar σ Y / X es la misma en cada caso (homoscedasticidad), como se aprecia en la figura
13.1, donde se muestra la distribución normal de Y alrededor de µY\X, para tres valores de X. Se asume
entonces que los errores tienen la misma variabilidad para todos los valores de X. Se asume también
que los errores son independientes para cada valor de X.

µ Y\X = α + β
X

x1 x2 xn X

Figura 13.1. Suposiciones en la recta de regresión


Regresión lineal simple y correlación 181

13.4 Método de los mínimos cuadrados.


A partir de los datos de una muestra es posible estimar la recta de regresión de la población, de-
terminando la recta de regresión de la muestra, por el método de los mínimos cuadrados. A esta recta
se le llama también recta de mínimos cuadrados. Este método determina los parámetros de la recta
minimizando la suma de los cuadrados de las diferencias entre los valores que toma la variable res-
puesta (y1, y2, ..., yn) y aquellos que determina la ecuación de regresión.
En la figura 13.2 se muestra un diagrama de dispersión y una recta (y = a + bx) ajustada a dicho
diagrama, donde a y b son los estimadores de los parámetros α y β.
y y=a+bx

(xi, yi)
*
* *
(xn, yn)
ei = yi - y'i *
*
* * *
*
*
e1 = y1 - y'1
(x *y )
1, 1

x
Figura 13.2. Errores de estimación de la recta de regresión

En este gráfico, las diferencias entre los valores de Y observados y los correspondientes que de-
termina la ecuación de la recta Y’, están representados por:
ei = yi – y’i = yi – (a + bxi) para: i = 1, 2, ..., n.
A estas diferencias se les denomina errores de estimación. Puede decirse que ei es un estimador
de εi.
El método de los mínimos cuadrados determina los parámetros de la ecuación de la recta que
minimiza ∑ e2i. Esta sumatoria será mínima cuando:
∂ ∑e 2
i
=0
∂a

∂ ∑e 2
i
=0
∂b
Despejando a y b de estas ecuaciones resulta:

a=
∑ x ∑ y −∑ x ∑ x y
2
i i i i i
; b=
n ∑ x y −∑ x ∑ y
i i i i

n∑ x − (∑ x ) n∑ x − (∑ x )
2 2 2 2
i i i i

El empleo de estas fórmulas debe ser simple para un estudiante universitario; aunque sí resulta
engorroso. De hecho, es mucho más práctico emplear calculadoras que traen incorporadas estas fór-
mulas, además de Excel u otros softwares estadísticos como SPSS, Minitab, Statistics o Statgraphics.
Ejemplo:
Se afirma que los alumnos que tienen mejores calificaciones promedio en la universidad, tienen
posibilidades de conseguir mejores trabajos y por lo tanto mejores salarios iniciales. Los datos
que se muestran en la siguiente tabla representan los índices académicos acumulados (I.A.A.) de
182 Regresión lineal simple y correlación

15 alumnos egresados de la Facultad de Ingeniería de una universidad y sus correspondientes


sueldos iniciales (en soles).
I.A.A. 12,20 13,12 13,94 14,76 13,12 14,50 12,71 11,73
Sueldo inicial 1850 2000 2150 2250 2100 2150 1800 1900
I.A.A. 12,51 15,52 11,28 16,36 12,92 12,10 11,32
Sueldo inicial 1950 2200 1550 2300 1900 1700 1650

Empleando las fórmulas que determinan a y b, se determina la recta de mínimos cuadrados:


y = 166,8 + 136,04x
En la figura 13.3 se representan el diagrama de dispersión y la recta de mínimos cuadrados. Ésta
es una estimación de la recta de regresión de la población, conformada en este ejemplo por to-
dos los alumnos egresados de la Facultad de Ingeniería.
Los valores que se obtengan de Y para determinados valores de X, es decir, para determinados
índices académicos acumulados, son las estimaciones de las medias de los salarios iniciales co-
rrespondientes a dichos índices.
El valor que toma b (la pendiente de la recta) se interpreta de la siguiente manera: por cada pun-
to que un alumno mejore su I.A.A., puede esperar que su salario mejore en 136,04 soles.
Es importante tener en cuenta que esta recta estimada puede no ser apropiada para valores de la
variable de predicción que no estén comprendidos en el intervalo de la muestra, es decir, entre
11,28 y 16,36.

2600

2400

2200

2000

1800

1600

1400
11 11.5 12 12.5 13 13.5 14 14.5 15 15.5 16 16.5 17

Figura 13.3. Diagrama de dispersión y recta de mínimos cuadrados

13.5 Propiedades de la recta de mínimos cuadrados


A continuación se deducen algunas propiedades de la recta de mínimos cuadrados. A partir de la
primera ecuación diferencial se puede deducir:
2(∑yi – a – bxi)(–1) = 0
∑yi – na – b∑ xi = 0
Dividiendo entre n:
∑y i
−a −b
∑x i
=0
n n
Regresión lineal simple y correlación 183

Entonces:
y = a + bx

Esto indica que la recta estimada pasa por el centroide ( x , y ) .


Los valores de Y determinados por la recta de mínimos cuadrados deberían denominarse y’, ya
que se trata de estimaciones. Para simplificar la terminología, se usará la comilla (’) sólo en las situa-
ciones donde se requiera para fines de claridad.
La media de los valores de Y determinados por la recta de mínimos cuadrados puede expresarse
de la siguiente manera:
E(y’) = E(a + bx) = E(a) + E(bx) = a + bE(x)
Es decir:
y ' = a + bx = y
Dado este último resultado, se puede deducir fácilmente:
 yi y'i ∑ ∑ 
∑ ∑
ei = ( y i − y ' i ) = yi − ∑ y ' i = n
 n ∑−
n
 = y − y' = 0

 
Esto indica que la suma de los errores positivos es igual a la suma de los errores negativos, lo
cual resulta útil para trazar visualmente la recta de mínimos cuadrados sobre un diagrama de disper-
sión.

13.6 Medidas de variabilidad


En el análisis de regresión, la variación total de los valores Y alrededor de su media Y se puede
dividir en dos partes:
• la variabilidad de los valores estimados Y’ respecto a la media Y , conocida como variación
de la regresión o variación explicada, pues se explica por la relación que hay entre X e Y.
• la variabilidad de los valores Y respecto a los valores estimados Y’, conocida como variación
del error o variación no explicada, pues no se explica por la relación que hay entre X e Y, si-
no por otros factores.
Para medir la variación total se emplea la suma total de cuadrados (SST):
SST = ∑(y i − y) 2

Para medir la variación de la regresión se emplea la suma de cuadrados de la regresión (SSR):


SSR = ∑ ( y' i − y) 2

Para medir la variación del error se emplea la suma de cuadrados del error (SSE):
SSE = ∑(y i − y' ) 2

Los valores de Y que corresponden a un determinado valor de X, tienen una desviación estándar
sY / X que mide la variabilidad del error que se comete al medir Y en vez de Y’:

sY / X =
∑(y i − y'i ) 2
=
∑e 2
i
= se
n−2 n−2

A sY \ X se le denomina desviación estándar del error.


El denominador es n – 2, pues se pierden 2 grados de libertad al estimar los parámetros α y β
mediante los estimadores a y b.
184 Regresión lineal simple y correlación

En la figura 13.5 se expresan estas tres medidas de variabilidad y se ve claramente que:

SST = SSR + SSE

y
x
a +b
y=
yi *
SSE = ∑ ( y − y' )
i
2

y'i SST = ∑ ( y − y)
i
2

SSR = ∑ ( y' − y )
i
2

xi x

Figura 13.5. Medidas de variación

Se define el coeficiente de determinación como el cociente de la suma de cuadrados de la re-


gresión y la suma de cuadrados total:
SSR
r2 =
SST
Este coeficiente de determinación mide la fracción de la variación total de Y que es explicada
por la variable X. Se deduce que mientras más se acerquen los Y’ estimados a los Y observados, es de-
cir, mientras más concentrado esté el diagrama de dispersión alrededor de la recta de mínimos cuadra-
dos, mayor será el coeficiente de determinación, pues menor será la variación de los errores de estima-
ción. Por lo tanto, el coeficiente de determinación mide la bondad del ajuste de la recta de regresión.
Ejemplo:
En el ejemplo del primer sueldo de los ingenieros recién egresados de una universidad se tiene:
X Y Y' Y –Y Y' – Y
12,20 1850 1826,48 -113,33 -136,86
13,12 2000 1951,63 36,67 -11,70
13,94 2150 2063,19 186,67 99,85
14,76 2250 2174,74 286,67 211,40
13,12 2100 1951,63 136,67 -11,70
14,50 2150 2139,37 186,67 176,03
12,71 1800 1895,86 -163,33 -67,48
11,73 1900 1762,54 -63,33 -200,79
12,51 1950 1868,65 -13,33 -94,68
15,52 2200 2278,13 236,67 314,79
11,28 1550 1701,32 -413,33 -262,01
16,36 2300 2392,40 336,67 429,07
12,92 1900 1924,43 -63,33 -38,91
12,10 1700 1812,87 -263,33 -150,46
11,32 1650 1706,76 -313,33 -256,57

Los valores de la tercera columna (Y’) corresponden a los valores estimados con la recta de re-
gresión. Por lo tanto:
Regresión lineal simple y correlación 185

SST = ∑ ( y − y)
i
2
= 727 333,33

SSR = ∑ ( y ' − y )
i
2
= 600 312,84

600 312,84
r2 = = 0,8254
727 333,33
Se interpreta que el 82,54% de la variación de los primeros sueldos de esa muestra de exalum-
nos se puede explicar por la variabilidad de los índices académicos acumulados que tuvieron en
la universidad; y por lo tanto sólo el 17,46% de la variabilidad de dichos sueldos se pueden atri-
buir a otros factores.

13.7 Estimaciones de intervalo para la regresión.


La recta de mínimos cuadrados proporciona el método más eficaz para estimar la media de la
variable respuesta (Y), para un valor específico de la variable de predicción (X); es decir, para estimar
µY\X . Estas estimaciones, que denominamos y’, o y simplemente, son puntuales.
Pero, para distintas muestras que se extraigan, se determinarán distintas rectas de mínimos cua-
drados. Si se tomaran n muestras de la población, se obtendrían n estimaciones y’ diferentes para cada
valor de X. Se puede demostrar que, para cada valor que tome X, Y’ se distribuye normalmente alrede-
dor de µY\X. Entonces, se podría hacer una estimación de intervalo para µY\X, de la misma forma como
se hizo para µ en el capítulo 11. También se podría hacer una estimación de intervalo para Y, dado un
valor de X, pues ya se ha asumido que Y se distribuye normalmente alrededor de µY\X.
Todas las estimaciones de intervalo que se puedan hacer de µY\X para distintos valores de X, se
suelen expresar gráficamente mediante una banda de confianza de µY\X ; de la misma manera se pue-
de graficar una banda de confianza de Y correspondiente a los intervalos de confianza de Y para de-
terminados valores de X, como se puede apreciar en la figura 13.6.

µ Y/X
z a para
ian
de conf
da aY
Ban z a par
i a n
onf
a de c
Band

Figura 13.6. Bandas de confianza

13.8 Correlación lineal.


El objetivo del análisis de regresión es predecir la variable dependiente o respuesta Y basándose
en la variable de predicción o independiente X; en cambio, el objetivo del análisis de correlación es
medir el grado de asociación que hay entre dichas variables.
Para medir el grado de asociación lineal que hay entre dos variables X e Y, se define el coefi-
ciente de correlación (ρ), de tal forma que: –1 < ρ < +1.
186 Regresión lineal simple y correlación

En la figura 13.7 se muestran tres tipos diferentes de asociación entre las variables X e Y. Se
puede apreciar que el valor 1 indica una correlación perfecta entre X e Y, mientras que el signo, que
coincide con el signo de la pendiente de la recta de regresión, indica si la relación es directa (+) o in-
versa (–). Si r = 0, se dice que no existe ninguna relación lineal entre X e Y.

y y y
*
** * *

*
*

*
* * * *

*
* * * *

*
*

*
* * *
**

*
*
*
* ρ = +1 ρ = -1 ρ=0

*
x x x
Figura 13.7. Tipos de correlación

En el análisis de correlación no se distingue entre las dos variables; tanto X como Y son aleato-
rias. Además, para una muestra, se supone que los valores que tome X, dado un valor de Y, también se
distribuyen normalmente.
El coeficiente de correlación se puede estimar a partir del coeficiente de determinación, conside-
rando el signo de la pendiente de la recta de regresión:

r =± r2

También se puede obtener r a partir de la muestra que se usa para determinar los estimadores
a y b, mediante la siguiente fórmula:
n ∑ x y −∑ x ∑ y
i i i i

r=
[n ∑x 2
i −( ∑x 2
i ) ] [n ∑y 2
i −( ∑y 2
i )]

Como el coeficiente de correlación es igual a la raíz cuadrada del coeficiente de determinación,


se puede afirmar que r, además de medir el grado de asociación lineal entre dos variables, también mi-
de la bondad del ajuste de la recta de regresión.
Ejemplo:
En el ejemplo del primer sueldo de los ingenieros recién egresados de una universidad, el coefi-
ciente de correlación es:

r = ± r 2 = + 0,9085
Este valor indica un alto grado de asociación entre el índice académico acumulado de los alum-
nos egresados de la Facultad de Ingeniería de la muestra y su primer sueldo. Un índice académi-
co acumulado más alto está bastante asociado con un sueldo más alto.

Para determinar, a partir de los datos de una muestra, si efectivamente existe correlación entre
las variables X e Y, se tendrá que investigar si el valor de ρ es distinto de cero:
H0: ρ = 0 ⇒ No hay correlación
H1: ρ ≠ 0 ⇒ Sí hay correlación
Se emplea la siguiente variable t de Student para esta investigación:
Regresión lineal simple y correlación 187

r−ρ
t=
1− r 2
n−2
Esta variable t tiene n – 2 grados de libertad.
Ejemplo:
En el ejemplo del primer sueldo de los ingenieros recién egresados de una universidad, t es:
0,9085
t= = 7,8392
1 − 0,8254
15 − 2

Si α = 0,05; t* = 2,1604.
Como t > t* ⇒ Se rechaza la hipótesis nula; o sea que se puede afirmar que sí hay correlación
entre el índice académico acumulado de todos los alumnos egresados de la Facultad de Ingenie-
ría y su primer sueldo.

13.9 Regresión simple no lineal


Hay situaciones en las que el modelo lineal no se ajusta a la relación que hay entre dos variables
X e Y. En la figura 13.8 se muestran algunos diagramas de dispersión donde la relación entre dichas
variables no es lineal.

y y y
*
*
* * *
* * *
* * *
* * * *
* * **
* * * *
* *
* ** * * * * *
x x x
Figura 13.8a. Relación polinomial Figura 13.8a. Relación potencial Figura 13.8a. Relación exponencial

Se dice que la regresión es polinomial si la relación entre X e Y puede expresarse de la siguien-


te manera:
Y = α + β1 X + β2 X 2 + … + βn X n
Se dice que la regresión es potencial si la relación entre X e Y puede expresarse de la siguiente
manera:
Y = α xβ
Se dice que la regresión es exponencial si la relación entre X e Y puede expresarse de la si-
guiente manera:
Y=αβ x

Para estos tres casos es posible estimar la correspondiente función a partir de los datos de una
muestra. Resulta muy práctico recurrir a Excel o a softwares de Estadística para determinar la función
que más se ajuste a una muestra representada por un diagrama de dispersión. Comparando los coefi-
cientes de determinación de los distintos ajustes que se realicen se elige la mejor opción, es decir, la
función que tenga el mayor coeficiente de determinación.
188 Regresión lineal simple y correlación

13.10 Regresión lineal, no lineal y correlación en Excel

13.10.1 Diagrama de dispersión y tendencia lineal.


Dada una muestra, es decir, un conjunto de parejas de valores (xi, yi), se puede elaborar un dia-
grama de dispersión con la ayuda de Excel. Para esto, primero se seleccionan las celdas donde está la
muestra; luego se hace clic sobre el icono de gráficos o se selecciona el menú Insertar/Gráfico. Ex-
cel muestra el cuadro de diálogo de la figura 13.9, donde ya se ha seleccionado el Tipo de gráfico de-
nominado XY (Dispersión). Se elige luego el subtipo de gráfico que aparece sombreado por defecto,
que es precisamente el diagrama de dispersión.

Figura 13.9. Cuadro de diálogo del asistente para gráficos de Excel


Luego se selecciona sucesivamente el botón [Siguiente >], y se va conformando el gráfico hasta
darle la forma deseada.
Una vez que Excel presenta el diagrama de dispersión, se señala cualquiera de los puntos del
gráfico y se hace clic con el botón derecho del mouse. Enseguida Excel muestra el cuadro de diálogo
de la figura 13.10. Seleccionando Agregar línea de tendencia aparece el cuadro de diálogo que permi-
te seleccionar el tipo de línea de tendencia, como se muestra en la figura 13.11.

Figura 13.10. Cuadro de diálogo del diagrama de dispersión


Regresión lineal simple y correlación 189

Figura 13.11. Cuadro de diálogo de la línea de tendencia

Una vez que se ha elegido el Tipo de línea de tendencia, se selecciona Opciones, que permite
añadir la ecuación de la línea de tendencia y el coeficiente de determinación (r2).
Ejemplo:
En el ejemplo del primer sueldo de los ingenieros recién egresados de una universidad, siguien-
do los pasos que se acaban de describir y eligiendo finalmente el tipo Lineal, Excel muestra fi-
nalmente el gráfico de la figura 13.12., que incluye el diagrama de dispersión, la recta de regre-
sión, su ecuación y el coeficiente de determinación.

2600
y = 136.04x + 166.8
2
2400 R = 0.8254

2200

2000

1800

1600

1400
11 11.5 12 12.5 13 13.5 14 14.5 15 15.5 16 16.5 17

Figura 13.12. Recta de regresión de Excel para el ejemplo.


190 Regresión lineal simple y correlación

13.10.2 Tendencia no lineal.


Si la muestra no se ajusta al modelo lineal, lo cual se puede contrastar con la prueba t, tal como
se hizo en el apartado 13.6; o si, visualizando el diagrama de dispersión se sospecha que uno de los
modelos no lineales se ajusta mejor a dicha muestra, conviene realizar ajustes no lineales con Excel.
Comparando los coeficientes de determinación de los ajustes que se realicen, se elige la mejor opción.
Ejemplo:
Observando el diagrama de dispersión del ejemplo del primer sueldo de los ingenieros recién
egresados de una universidad, se puede sospechar que el modelo lineal que más se ajusta es el
polinomial de segundo orden, es decir, el parabólico. Eligiendo este tipo de modelo en el cuadro
de diálogo (figura 13.11), Excel da el resultado de la figura 13.13.

2600 2
y = -22.86x + 761.06x - 4051.1
2
2400 R = 0.8773

2200

2000

1800

1600

1400
11 11.5 12 12.5 13 13.5 14 14.5 15 15.5 16 16.5 17

Figura 13.13. Modelo polinomial de segundo orden para el ejemplo.

Como se aprecia en la figura 13.13, el coeficiente de determinación es mayor que en el ajuste li-
neal (0,8733 > 0,8254); por lo tanto el ajuste polinomial de segundo orden, es decir, el ajuste pa-
rabólico, describe mejor la tendencia de los sueldos de la muestra.
El lector puede verificar que ajustes polinomiales de mayor grado mejoran ligeramente (una y
dos centésimas para tercer y cuarto orden) el coeficiente de determinación; pero la línea de ten-
dencia prácticamente no varía, y la ecuación polinómica se complica excesivamente.

13.10.3 Regresión lineal con funciones de Excel


Excel cuenta con algunas funciones que calculan individualmente algunos parámetros de la re-
gresión lineal, dentro de las funciones que se despliegan al ejecutar el icono fx o al entrar al menú Inse-
tar/Función.
A continuación se explica lo que realiza cada una de esas funciones:
• COEF.DE.CORREL: calcula el coeficiente de correlación (r) de un conjunto de datos (xi, yi).
Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresa cada rango de
celdas donde está cada columna de datos. Como este coeficiente sólo mide el grado de rela-
ción que hay entre X e Y, Excel no distingue entre los datos de X y los datos de Y.
• COEFICIENTE.R2: calcula el coeficiente de determinación (r2) de un conjunto de datos (xi,
yi). Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresa cada rango
de celdas donde está cada columna de datos: una para X y una para Y.
Regresión lineal simple y correlación 191

• ERROR.TIPICO.XY: calcula la desviación estándar del error (sY / X) de un conjunto de datos


(xi, yi). Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresa cada
rango de celdas donde está cada columna de datos: una para X y una para Y.
• ESTIMACION.LINEAL: calcula los parámetros a y b de la recta de regresión. Al ejecutar esta
función, Excel presenta un cuadro de diálogo donde se ingresa cada rango de celdas donde es-
tá cada columna de datos: una para X y una para Y; presenta además dos funciones lógicas: en
la primera se define si el parámetro a (intersección de la recta con el eje Y) puede ser distinto
de cero, y en la segunda se define si se desean todos los parámetros de la regresión lineal. En
ambos casos conviene ingresar VERDADERO. Excel presenta los resultados en una matriz
horizontal de dos celdas. Como esta función es matricial, una vez que se seleccionan las dos
celdas donde Excel dará los resultados, se debe digitar control–shift–enter al final de la fórmu-
la.
• INTERSECCION.EJE: calcula la intersección de la recta de regresión con el eje Y, es decir, el
parámetro a. Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresa
cada rango de celdas donde está cada columna de datos: una para X y una para Y.
• PEARSON: calcula el coeficiente de correlación (r), llamado también coeficiente de Pearson
de un conjunto de datos (xi, yi). Al ejecutar esta función, Excel presenta un cuadro de diálogo
donde se ingresa cada rango de celdas donde está cada columna de datos.
• PENDIENTE: calcula la pendiente de la recta de regresión, es decir, el parámetro b. Al ejecu-
tar esta función, Excel presenta un cuadro de diálogo donde se ingresa cada rango de celdas
donde está cada columna de datos: una para X y una para Y.
• TENDENCIA: estima algunos valores de la recta de regresión que corresponden a ciertos va-
lores de X. Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresa ca-
da rango de celdas donde está cada columna de datos: una para X y una para Y, y el rango de
celdas donde están los nuevos valores de X. Excel presenta además una función lógica donde
se define si el parámetro a (intersección de la recta con el eje Y) puede ser distinto de cero.
Como esta función es matricial, una vez que se seleccionan las celdas donde Excel dará los
valores estimados de Y, se debe digitar control–shift–enter al final de la fórmula. En la figura
13.14 se muestra la hoja de Excel donde se pueden apreciar las estimaciones hechas con esta
función (sueldos de exalumnos) para algunos valores de X (índices académicos acumulados).
Las llaves {} que contienen la fórmula aparecen después de digitar control–shift–enter.

Figura 13.14. Estimaciones con la función TENDENCIA


192 Regresión lineal simple y correlación

Problemas propuestos
1. Se tomaron las estaturas en cm. (X) y los pesos en Kg. (Y) de 15 alumnos de quinto de secundaria
de un colegio.
X 177 160 182 152 167 177 187 165 157 170 165 172 165 178 183
Y 74,3 68 81,6 61,2 70,7 76,2 86,7 72,6 60 71,2 63 74,6 59,2 73,5 87,8
a) Construya un diagrama de dispersión
b) Asuma que hay una relación lineal entre peso y estatura y determine la ecuación de la recta de
regresión. Trace la recta sobre el diagrama de dispersión.
Respuesta: y = – 61,949 + 0,786x
c) Interprete el valor de la pendiente de la recta.
Respuesta: por cada centímetro más que se tenga, se espera que el peso aumente 0,786 Kg.
d) Determine el coeficiente de determinación e interprételo.
Respuesta: r2 = 0,7996; el 79,96% de la variación del peso es explicada por la variación de la
estatura.
e) ¿Cuánto se espera que pese otro alumno de quinto de secundaria, si mide 180 cm?
Respuesta: 79,53 Kg.
2. El dueño de un restaurante quiere averiguar si existe relación entre los ingresos, en soles, que tiene
durante la semana (de lunes a viernes) y los ingresos del fin de semana (sábado y domingo). A
continuación se muestran los datos que recopiló durante las últimas 12 semanas.
Lunes a viernes 150 120 133 181 98 125 154 166 170 129 105 192
Sábado y domingo 320 357 390 200 330 341 245 319 236 307 285 194
a) Construya un diagrama de dispersión.
b) Asuma que hay una relación lineal entre los ingresos durante la semana y el fin de semana y
determine la ecuación de la recta de regresión. Trace la recta sobre el diagrama de dispersión.
c) ¿Cuánto espera ingresar un fin de semana, si durante la semana ingresó 165 soles?
d) ¿Se puede afirmar que hay correlación entre ambas variables? Considere α = 0,05.
3. En un experimento sobre métodos de enseñanza de lectura se tomaron los siguientes datos a 36 ni-
ños de primer grado de primaria que participaron.
Nivel de vocabulario Comprensión Nivel de vocabulario Comprensión
previo a primaria lectora previo a primaria lectora
28 29 22 28
27 30 18 11
14 10 7 4
23 21 12 7
24 24 9 5
14 11 8 3
14 12 27 25
18 8 24 23
14 7 24 22
10 5 17 10
5 3 12 7
14 6 18 15
30 28 14 6
18 12 18 18
15 9 17 18
20 20 10 6
16 16 16 10
8 2 12 2

a) Construya un diagrama de dispersión


b) Determine la ecuación de la recta de regresión. Trace la recta sobre el diagrama de dispersión.
c) Interprete el valor de la pendiente de la recta.
Regresión lineal simple y correlación 193

d) Determine el coeficiente de determinación e interprételo.


e) ¿Se puede afirmar que hay correlación entre ambas variables? Considere α = 0,05

4. El encargado del laboratorio de una planta de jugos concentrados quiere determinar una ecuación
que le pronostique la concentración de azúcar según el tiempo que permanecen en el evaporador.
En la siguiente tabla se muestra las medidas que tomó en su experimentación.
Tiempo (minutos) 5 10 15 20 25 30 35 40 45 50 55
Grados Brix 22 48 52 57 43 48 34 36 43 58 89
a) Construya un diagrama de dispersión.
b) Asuma que hay una relación lineal entre el tiempo de evaporación y la concentración y deter-
mine la ecuación de la recta de regresión. Trace la recta sobre el diagrama de dispersión.
Respuesta: y = 31,982 + 0,54x
c) ¿Le parece bueno el ajuste lineal?
Respuesta: No, pues se nota en el diagrama de dispersión y además el coeficiente de determi-
nación es r2 = 0,2724.
d) Proponga otro tipo de ajuste y justifique si es mejor que el lineal.
Respuesta: Es mejor el ajuste polinomial: y = –12,106 + 8,8726x – 0,36344x2 + 0,0043x3. Se
ajusta mucho más al diagrama de dispersión; r2 = 0,9637.

5. Una empresa de alquiler de videos quiere pronosticar cuántos videos alquilará de las películas que
disponga en las próximas semanas, con base en la cantidad de videos que alquiló antes, de deter-
minadas películas, y las ganancias obtenidas por dichas películas (en millones de dólares). En la
siguiente tabla se muestran los datos de los que dispone.
Ganancia bruta 1,5 18,3 2,4 45,1 1,12 5,75 28,2 12,5 23,4 35,8 9,8 15,4
Videos alquilados 90 220 201 720 55 262 460 360 546 543 245 410

a) Construya un diagrama de dispersión.


b) Determine la ecuación de la recta de regresión. Trace la recta sobre el diagrama de dispersión.
c) ¿Le parece bueno el ajuste lineal?
d) Pronostique cuántos videos alquilará de una película que tuvo una ganancia de 32 millones de
dólares.
6. En la siguiente tabla se muestra el residuo de cloro (en partes por millón) que hay en una piscina,
unas horas después de haber sido tratada:
Horas 1 2 3 4 5 6 7 8
Residuo de cloro 1,80 1,75 1,64 1,52 1,44 1,38 1,27 1,10
a) Construya un diagrama de dispersión.
b) Determine la ecuación de la recta de regresión. Trace la recta sobre el diagrama de dispersión.
c) Determine el coeficiente de correlación e interprételo
d) ¿Se puede afirmar que hay correlación entre ambas variables? Considere α = 0,05
7. En la siguiente tabla se expresa el número de bacterias por litro que se encontró en un cultivo, se-
gún del número de horas que tiene dicho cultivo.
N° de horas 0 1 2 3 4 5 6
N° de bacterias 32 47 65 92 132 190 275
a) Construya un diagrama de dispersión.
b) Determine la ecuación de la función potencial que más se ajuste. Trace la curva sobre el dia-
grama de dispersión.
c) ¿Cuántas bacterias se espera encontrar en un cultivo después de 7 horas?
8. El encargado de hacer el inventario en un almacén debe comparar el número de unidades observa-
do para cada artículo con el número que figura en el archivo (teórico). Compruebe, a partir de 10
194 Regresión lineal simple y correlación

artículos observados, si el ajuste lineal entre los valores observados y los valores teóricos es co-
rrecto.
Artículo N° 1 2 3 4 5 6 7 8 9 10
Valor observado 9 14 7 29 45 109 40 238 60 170
Valor teórico 10 12 9 27 47 112 36 241 59 167
Análisis de series de tiempo 195

Capítulo 14. Análisis de series de tiempo


14.1 Introducción
En cualquier diario o revista económica es fácil encontrar proyecciones futuras de algunas va-
riables económicas basándose en datos pasados. Heinz Kohler, autor de Estadística para negocios y
economía, se refiere sarcásticamente a algunas proyecciones que se podrían hacer si se siguiera fiel-
mente la tendencia que se ha venido dando hasta ahora. Por ejemplo, que dada la creciente participa-
ción comercial japonesa, es inevitable su dominio completo de la industria aeroespacial mundial; que
el gasto de salud pública absorberá todo el ingreso nacional; que nuestros nietos quedarán sepultados
por un volumen exponencialmente creciente de propaganda por correo, o que estarán en quiebra por el
mero interés de la deuda nacional; que la población de las cárceles incluirá toda la población del país;
que la productividad laboral continuará decreciendo, llegará a cero, y se hará negativa; que las reser-
vas de recursos naturales, una vez abundantes, habrán desaparecido hacia mediados del siglo XXI, y
así sucesivamente.
En conclusión, es necesario ser muy prudente cuando se requiera hacer un pronóstico basándose
en datos pasados, pues éste puede resultar muy disparatado; pero para muchos es necesario e inevita-
ble tener que pronosticar, por ejemplo: los productores de energía eléctrica, los fabricantes de ropa,
calzado o artículos deportivos, escolares; los encargados de los créditos bancarios, los encargados del
presupuesto de un departamento, de toda la empresa, o de un país, etc.

14.2 Componentes de una serie de tiempo


Una serie de tiempo es un conjunto de datos numéricos en orden cronológico. El análisis de se-
ries de tiempo es un procedimiento que analiza dichos datos con el propósito de explicar eventos ante-
riores o pronosticar eventos futuros.
Generalmente se analizan series de tiempo de variables económicas, como las ventas mensuales
de una empresa, la cantidad de unidades vendidas, el precio de un producto o de unas acciones en la
bolsa de valores, las utilidades a fin de año, etc.
En este capítulo se ven los conceptos básicos del análisis de series de tiempo, suficientes para
hacer un diagnóstico del comportamiento de una variable a lo largo del tiempo.
Una serie de tiempo puede tener cuatro componentes:
• Tendencial (T)
• Cíclica (C)
• Estacional (S)
• Irregular (I)
Existen varios modelos que describen una serie de tiempo típica. Los más usados son:
• Modelo multiplicativo: y=T×C×S×I
• Modelo aditivo: y=T+C+S+I
• Modelos mixtos: y=T×C+S×I
y=T×C×I+S
De estos modelos, el modelo multiplicativo es el más usado, pues se adapta bien a las caracterís-
ticas de muchas variables económicas y financieras.
196 Análisis de series de tiempo

A continuación se definen las componentes de una serie de tiempo, adecuándolas al modelo


multiplicativo.

14.2.1 Componente tendencial (T)


Generalmente se presenta como un movimiento relativamente suave de una variable, progresi-
vamente hacia arriba o hacia abajo, en un periodo prolongado (varios años).
Si los datos observados (valores de la variable que se está analizando) crecen o decrecen, se dice
que la tendencia es positiva o negativa, respectivamente.
La tendencia se puede representar, si fuera el caso, mediante una línea recta (y = a + bt), con lo
cual se podría afirmar, por ejemplo, que los valores de una variable (y) crecen a razón de b unidades
por unidad de tiempo (t).
Por ejemplo, en la figura 14.1 se muestra la línea recta que representa la tendencia de las ventas
trimestrales de un producto desde el primer trimestre de 1998 hasta el último trimestre de 2004. (Las
ventas reales se muestran en la figura 14.7). Se aprecia que las ventas aumentan a razón de 7,1633
unidades por trimestre (28,65 unidades por año). A partir de este gráfico de tendencia, se hubiera pro-
nosticado unas ventas trimestrales de 262 unidades para el primer trimestre de 2003; sin embargo, esto
no fue así, como se ve en la figura 14.7.
350.00

y = 7.1633x + 119
300.00

262.27
250.00
Ventas trimestrales

200.00

150.00

100.00

50.00

0.00
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1998 1999 2000 2001 2002 2003 2004

Figura 14.1. Componente tendencial

14.2.2 Componente cíclica (C)


Se detecta por las alternancias amplias de la variable en estudio (y) alrededor de la tendencia,
que duran de uno a varios años cada una, y que, por lo general, difieren en duración y amplitud de un
ciclo al siguiente.
Generalmente dichas alternancias irregulares reflejan las fluctuaciones de la actividad económi-
ca en general: el ciclo financiero de auge y recesión que afecta a todas las variables en la economía. En
estos ciclos suelen influir fenómenos naturales importantes.
La componente cíclica se suele medir como una proporción de la tendencia. Para una mejor
comprensión, en la figura 14.2 se traza la tendencia como una recta horizontal (para C = 1). La com-
ponente cíclica varía alrededor de la tendencia. Por ejemplo, en el primer trimestre de 2003 la recesión
hizo que las ventas sean el 87,8% de lo esperado.
En la figura 14.3 se muestra la componente Tendencial-Cíclica para las ventas. Se ve que, de las
262,27 unidades que se esperaba vender para el primer trimestre de 2003, por efecto de la componente
cíclica las ventas caen a: 262,27×0,878 = 230,38 unidades.
Análisis de series de tiempo 197

1.400

1.300

1.200
Recuperación

1.100
Recesión Recuperación
Recesión
C 1.000

0.900
0.878

0.800

0.700

0.600
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

1998 1999 2000 2001 2002 2003 2004

Figura 14.2. Componente cíclica

450

400

350
Ventas trimestrales

300
Tendencial-cíclica Tendencial
250
230.38

200

150

100

50

0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1998 1999 2000 2001 2002 2003 2004

Figura 14.3. Componente tendencial-cíclica


En conclusión, definiendo de esta forma la componente cíclica, la componente combinada Ten-
dencial-Cíclica de la serie de tiempo se encuentra multiplicando (Ti× Ci) para cualquier instante.

14.2.3 Componente estacional (S)


Se detecta por alternancias de la variable en estudio (y) alrededor de la componente Tendencial-
Cíclica, que se repiten en forma predecible dentro de periodos de un año, de un mes, de una semana,
etc. Generalmente estas variaciones reflejan la influencia del clima y el calendario sobre la actividad
económica. Se suele hablar de productos estacionales, refiriéndose a las estaciones del año, como por
ejemplo: chompas, abrigos, helados, bebidas gaseosas, cerveza, carbón, kerosene, gas, panetones,
adornos de Navidad, útiles escolares, etc.
198 Análisis de series de tiempo

La componente estacional se suele medir como una proporción de la componente Tendencial-


Cíclica. Para una mejor comprensión, en la figura 14.4 se traza la componente Tendencial-Cíclica co-
mo una recta horizontal (para S = 1). La componente estacional varía con regularidad alrededor de la
componente Tendencial-Cíclica. Por ejemplo, en el primer trimestre de 2003, por efecto de la compo-
nente estacional las ventas fueron el 81,7% de lo esperado.
1.3

1.2

1.1

S 1.0

0.9

0.817
0.8

0.7
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1998 1999 2000 2001 2002 2003 2004

Figura 14.4. Componente estacional

500

450

400
Ventas trimestrales

350
Tendencial-cíclica
300
Tendencial
250

200
188,32 Tendencial-cíclica-estacional
150

100

50

0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1998 1999 2000 2001 2002 2003 2004

Figura 14.5. Componente Tendencial-Cíclica-Estacional

En la figura 14.5 se muestra la componente Tendencial-Cíclica-Estacional (a trazo continuo) pa-


ra las ventas. Se ve que, de las 230,38 unidades que se hubieran vendido para el primer trimestre de
2003, por efecto de la componente estacional las ventas caen a: 230,38×0,817 = 188,32 unidades.
En conclusión, definiendo de esta forma la componente estacional, la componente Tendencial-
Cíclica-Estacional se encuentra multiplicando (Ti × Ci × Si) para cualquier instante.
Análisis de series de tiempo 199

14.2.4 Componente irregular o aleatoria (I)


Se detecta por movimientos aleatorios de la variable en estudio alrededor de la componente
Tendencia-Cíclica-Estacional. Generalmente estos movimientos se deben a factores impredecibles y
probablemente no recurrentes, como por ejemplo: modas, huelgas, desastres naturales (no cíclicos),
guerras, etc.
Esta componente se expresa como una proporción de la componente Tendencial-Cíclica-
Estacional que, en la figura 14.6 se muestra como una recta horizontal (para I = 1).
1.080

1.060

1.040

1.020

1.000

0.980
I 0.972
0.960

0.940

0.920

0.900

0.880

0.860
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

1998 1999 2000 2001 2002 2003 2004

Figura 14.6. Componente irregular

En la figura 14.7 se muestra la componente Tendencial-Cíclica-Estacional-Irregular, es decir, las


ventas reales del producto (y). Se ve que, de las 188,32 unidades que se esperaba vender para el primer
trimestre de 2003, por efecto de la componente irregular las ventas caen a: 188,32×0,972 = 183 unida-
des.
500

450

400

350
Ventas trimestrales

300

250

200
183
150

100

50

0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1998 1999 2000 2001 2002 2003 2004

Figura 14.7. Serie de tiempo: componente Tendencial-Cíclica-Estacional-Irregular


200 Análisis de series de tiempo

En conclusión, definiendo de esta forma la componente irregular, los valores de la variable en


estudio (y) se encuentran multiplicando (Ti × Ci × Si × Ii) para cualquier instante i.

14.3 Descomposición de series de tiempo


Para analizar una serie de tiempo, ya sea con el propósito de pronosticar algunos valores de la
variable en estudio o de estudiar su comportamiento pasado, es necesario conocer cada una de sus
componentes; pero generalmente se dispone de un conjunto de datos a lo largo del tiempo, es decir, de
una serie de tiempo con todas sus componentes, y se hace necesario descomponer dicha serie.

14.3.1 Suavización de la serie de tiempo.


Para eliminar las fluctuaciones de una serie de tiempo se suelen emplear dos métodos de suavi-
zación: media móvil y suavización exponencial. Estos métodos permiten aislar algunas componentes
de la serie de tiempo.
Medias móviles:
Se obtiene una serie de medias móviles calculando sucesivamente medias aritméticas de grupos
sobrepuestos de M valores de una serie de tiempo.
Por ejemplo, si M = 3:
y1 + y 2 + y 3 y 2 + y3 + y 4 y t −1 + y t + y t +1
y2 = ; y3 = ; ... yt =
3 3 3
Nótese que los subíndices de las medias móviles coinciden con el subíndice central de los datos.
Cuando M es impar no hay mayor complicación en el cálculo de las medias móviles; pero si M
es par, hace falta ajustar (centrar) las medias móviles obtenidas para conseguir valores de estas medias
móviles en los mismos tiempos en que están los datos originales (y). En la tabla 14.1 se muestra parte
de una serie de tiempo donde se calculan las medias móviles con M = 4. Como se aprecia, la media
móvil de los primeros cuatro valores (132,00) se ha colocado entre los tiempos 2 y 3, la media móvil
de los siguientes cuatro valores (133,25) se ha colocado entre los tiempos 3 y 4, y así sucesivamente.
Para que estas medias móviles correspondan con los tiempos definidos, se calculan las medias móviles
de las medias móviles, pero esta vez con M = 2. Así se obtienen las medias móviles ajustadas.

Tabla 14.1 Cáculo de medias móviles con ajuste


Medias móviles Medias móviles
Tiempo Y
(M = 4) ajustadas
1 96

2 137
132,00
3 165 132,63
133,25
4 130 131,00
128,75
5 101 127,88
127,00
6 119 128,75
130,50
7 158

8 144
El principal inconveniente de este método de suavización es que no se tiene un valor suavizado
correspondiente a cada valor de la serie original. Se pierden algunos valores al principio y al final de la
serie. Por ejemplo, para la serie de tiempos de la tabla 14.1 se han perdido cuatro datos: dos al princi-
pio y dos al final. Esta desventaja es poco notoria cuando se cuenta con una gran cantidad de datos.
Análisis de series de tiempo 201

Suavización exponencial:
Es un procedimiento que genera pronósticos auto-corregidos por medio de un mecanismo de
ajuste que va corrigiendo los errores de pronóstico anteriores. Este método hace el pronóstico del si-
guiente periodo fi+1 a partir del valor real actual yi y del pronóstico actual fi, empleando una constante
de suavización α, de la siguiente manera:
fi+1 = α yi + (1 – α) fi
El parámetro α es un valor que está entre cero y uno, y se escoge para indicar el peso que se
desee dar al valor más reciente de la serie de tiempo. Mientras mayor sea α, más peso se le da a la ex-
periencia actual y menos a la pasada.

14.3.2 Aislamiento de las componentes de la serie de tiempo.


El método de las medias móviles, que suele eliminar las fluctuaciones irregulares, puede elimi-
nar también la componente estacional si se emplea M igual al número estaciones (una estación puede
ser una semana, un mes, o un trimestre), con lo cual las medias móviles contendrían sólo las compo-
nentes cíclica y tendencial.
Se podría eliminar también la componente cíclica empleando un valor de M mayor que el núme-
ro de estaciones; pero esto se dificulta por el hecho de que la duración de los ciclos que puede tener
una serie de tiempos no es la misma. Si se tuviesen datos suficientes (más de 20 años) se podría redu-
cir considerablemente la componente cíclica suavizando la serie de tiempo original con M igual a la
duración del ciclo más duradero. De esta forma se eliminarían tres componentes: irregular, estacional
y cíclica, con lo cual se obtendría la componente tendencial.
Si no se cuenta con la suficiente cantidad de datos como para emplear un valor de M muy gran-
de, que es lo más probable, conviene calcular medias móviles con un valor de M mayor que el número
de estaciones; así se eliminará una parte de la componente cíclica. Estas medias móviles estarán mu-
cho más suavizadas, es decir, se parecerán mucho más a la tendencia. Entonces, empleando el método
de los mínimos cuadrados, se puede determinar la tendencia, que puede ser una recta o una función no
lineal. Esto se puede hacer con la ayuda de Excel, tal como se vio en los apartados 13.10.1 y 13.10.2.
En conclusión, para aislar las componentes tendencial y cíclica se siguen los siguientes pasos:
1. Construir una serie de medias móviles con M mayor que el número de estaciones. Por ejem-
plo, si se tienen datos mensuales, M > 12; si se tienen datos trimestrales, M > 4.
2. Si la tendencia es lineal, hallar la recta de mínimos cuadrados a partir de la serie hallada. En
caso contrario, hallar la línea de tendencia que mejor se ajuste a esta serie de medias móvi-
les.
3. Aislar la componente cíclica (C), dividiendo los valores Ti×Ci / Ti.

Para aislar las componentes estacional e irregular se siguen los siguientes pasos.
1. Construir una serie de medias móviles con M igual al número de estaciones. Por ejemplo, si
se tienen datos mensuales, M = 12; si se tienen datos trimestrales, M = 4. Esta serie conten-
drá sólo las componentes Tendencial-Cíclica (T×C).
2. Aislar la componente S×I, dividiendo yi /(Ti×Ci).
3. Aislar la componente estacional (S), promediando los valores S×I de cada estación. Así, por
ejemplo, si hay cuatro estaciones (M = 4), se hallarán cuatro promedios S×I; uno para cada
estación.
4. Ajustar la componente estacional (S), considerando que las M componentes estacionales de-
ben promediar uno, y por lo tanto deben sumar M en vez de ∑. Para conseguirlo, cada S
hallado debe multiplicarse por M/∑.
5. Aislar la componente irregular (I) dividiendo Si×Ii / Si.
202 Análisis de series de tiempo

14.4 Pronóstico
Se denomina pronóstico a una afirmación que se hace sobre un evento futuro. Los pronósticos se
suelen hacer basándose en datos que se deducen del análisis de series de tiempo. Conociendo la línea
de tendencia, se puede pronosticar por extrapolación (prolongando dicha línea tendencial), y cono-
ciendo la componente estacional, se puede ajustar dicho pronóstico multiplicando la componente ten-
dencial por la componente estacional.
En la sociedad actual es imprescindible pronosticar. Los gobernantes de un país siempre están
pronosticando la inflación, el producto bruto interno, el desempleo, la recaudación de impuestos, etc.,
para plantear adecuadamente las políticas de gobierno. Los empresarios siempre están pronosticando
las ventas, la demanda, etc., con el propósito de tomar las decisiones oportunas que los lleven a opti-
mizar sus beneficios.

14.5 Análisis del comportamiento de una serie de tiempo


Muchas veces conviene aislar una componente de una serie de tiempo para hacer un análisis del
comportamiento de la variable en estudio sin considerar dicha componente, ya sea la estacional, la cí-
clica o la irregular. Esto permitirá evaluar el comportamiento de dicha variable sin la influencia de una
u otra componente.
Una serie desestacionalizada es aquella que contiene todas las componentes excepto la estacio-
nal. Sirve para sincerar los valores que toma la serie de tiempo. Por ejemplo, el gerente de una empre-
sa que produce bebidas gaseosas no tendría que entusiasmarse mucho si las ventas en el verano están
por encima de lo esperado por la tendencia. Para desestacionalizar una serie de tiempo basta con divi-
dir cada valor de la variable en estudio entre la componente estacional: yi / Si.

14.6 Análisis de series de tiempo en Excel


Aunque Excel no cuenta con una herramienta que efectúe el análisis completo de una serie de
tiempo, sí cuenta con los elementos suficientes para realizarlo paso a paso, de acuerdo al propósito que
se plantee.

14.6.1 Análisis de series de tiempo con medias móviles


Para calcular las medias móviles en Excel, se debe ingresar al menú Herramientas/Análisis de
datos/ Media móvil. Excel abre el cuadro de diálogo que se muestra en la figura 14.8, donde ya se han
ingresado los datos para el ejemplo que se desarrolla a continuación. Excel le denomina Intervalo al
valor de M que se considera al calcular las medias móviles.

Figura 14.8. Cuadro de diálogo de medias móviles


Análisis de series de tiempo 203

Una vez que se han ingresado los datos y se acepta, Excel coloca las medias móviles en una co-
lumna que se inicia donde se definió el rango de salida. El único inconveniente de este resultado es
que las medias móviles no las centra respecto a los datos de la serie de tiempo. El usuario debe trasla-
dar estas medias móviles a la posición central. Si M es par, será necesario hallar las medias móviles
ajustadas, a partir del resultado obtenido, considerando esta vez M = 2.
Con la ayuda de Excel se pueden aislar las cuatro componentes para hacer posteriormente algu-
nos pronósticos o análisis de la serie de tiempos, como se muestra en el siguiente ejemplo.
Ejemplo:
Una empresa que se dedica a la elaboración de cierto accesorio para autos ha registrado las si-
guientes ventas (en unidades) durante los últimos años:
Trimestre 1998 1999 2000 2001 2002 2003 2004
1 96 101 133 214 211 183 264
2 137 119 199 258 221 250 348
3 165 158 283 310 249 328 430
4 130 144 260 259 200 305 415

En primer lugar se calculan las medias móviles con M = 4 y luego las medias móviles ajustadas.
Después de ingresar los datos al cuadro de diálogo (figura 14.8), Excel da el resultado en la co-
lumna D. Luego de ingresar los datos de la columna D y calcular nuevamente medias móviles,
esta vez con M = 2, Excel muestra el resultado de la siguiente tabla, donde los valores de la co-
lumna E han sido centrados por el usuario, pues Excel los coloca descentrados.

A B C D E
1
Trimestre Ventas P.M. P.M ajustado
2 (Y) (TC)
3 1998 1 96
4 2 137
5 3 165 132.00 132.63
6 4 130 133.25 131.00
7 1999 1 101 128.75 127.88
8 2 119 127.00 128.75
9 3 158 130.50 134.50
10 4 144 138.50 148.50
11 2000 1 133 158.50 174.13
12 2 199 189.75 204.25
13 3 283 218.75 228.88
14 4 260 239.00 246.38
15 2001 1 214 253.75 257.13
16 2 258 260.50 260.38
17 3 310 260.25 259.88
18 4 259 259.50 254.88
19 2002 1 211 250.25 242.63
20 2 221 235.00 227.63
21 3 249 220.25 216.75
22 4 200 213.25 216.88
23 2003 1 183 220.50 230.38
24 2 250 240.25 253.38
25 3 328 266.50 276.63
26 4 305 286.75 299.00
27 2004 1 264 311.25 324.00
28 2 348 336.75 350.50
29 3 430 364.25
30 4

Nótese que las medias móviles de la columna D no pueden colocarse en la posición que les co-
rrespondería (sobre las líneas) pues esto no es posible en Excel.
204 Análisis de series de tiempo

En la figura 14.9 se muestra el gráfico de las medias móviles ajustadas sobre la serie de tiempo.
500

450

400

350
Ventas trimestrales

300

250

200

150

100

50

0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1998 1999 2000 2001 2002 2003 2004

Figura 14.9. Medias móviles para M = 4.

Las medias móviles de la columna E son las componentes Ti×Ci. A continuación se aíslan las
componentes Si×Ii y posteriormente las componentes Si y las Ii, siguiendo los pasos que se deta-
llan en la página 201. En la siguiente tabla se muestran los resultados:

A B C D E F G H
1 Ventas P.M ajustado SxI = SxI
Trimestre P.M. S
2 (Y) (TC) Y/(TC) promedio
3 1998 1 96 0,811 0,817
4 2 137 0,973 0,981
5 3 165 132,00 132,63 1,244 1,187 1,197
6 4 130 133,25 131,00 0,992 0,996 1,004
7 1999 1 101 128,75 127,88 0,790 0,817
8 2 119 127,00 128,75 0,924 0,981
9 3 158 130,50 134,50 1,175 1,197
10 4 144 138,50 148,50 0,970 1,004
11 2000 1 133 158,50 174,13 0,764 0,817
12 2 199 189,75 204,25 0,974 0,981
13 3 283 218,75 228,88 1,236 1,197
14 4 260 239,00 246,38 1,055 1,004
15 2001 1 214 253,75 257,13 0,832 0,817
16 2 258 260,50 260,38 0,991 0,981
17 3 310 260,25 259,88 1,193 1,197
18 4 259 259,50 254,88 1,016 1,004
19 2002 1 211 250,25 242,63 0,870 0,817
20 2 221 235,00 227,63 0,971 0,981
21 3 249 220,25 216,75 1,149 1,197
22 4 200 213,25 216,88 0,922 1,004
23 2003 1 183 220,50 230,38 0,794 0,817
24 2 250 240,25 253,38 0,987 0,981
25 3 328 266,50 276,63 1,186 1,197
26 4 305 286,75 299,00 1,020 1,004
27 2004 1 264 311,25 324,00 0,815 0,817
28 2 348 336,75 350,50 0,993 0,981
29 3 430 364,25 1,197
30 4 415 1,004
Análisis de series de tiempo 205

Nótese que en la columna H se han repetido sucesivamente las cuatro componentes estacionales
halladas en la columna G.

Como ayuda al lector, a continuación se muestran algunos ejemplos de las operaciones realiza-
das para hallar S×I promedio y S:
• Para calcular la componente S×I promedio del primer trimestre del año (celda G3):
=PROMEDIO(F3,F7,F11,F15,F19,F23,F27).
• Para calcular la componente S del primer trimestre del año (celda H3):
=G3*4/SUMA(G$3:G$6)
Luego puede aislarse fácilmente la componente I, dividiendo las celdas de la columna F entre
las celdas de la columna H.
Para hallar la línea de tendencia (componente tendencial) es necesario hallar promedios móviles
con un valor de M suficientemente grande. Por ejemplo, para M = 9 se obtiene una serie que se
ajusta mucho a una recta, como se puede apreciar en la figura 14.10. Para hallar esta recta se
traza en primer lugar el diagrama de dispersión de la serie recientemente obtenida, y luego bas-
tará con seleccionar cualquier punto, hacer clic con el botón derecho del mouse y ejecutar el
comando Agregar línea de tendencia, como ya se ha explicado en 13.10.1
500

450

400

Serie de tiempo suavizada y = 7.1633x + 119


350
con promedio móvil de 9 trimestres
Ventas trimestrales

300

250

200

150

100

50

0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1998 1999 2000 2001 2002 2003 2004

Figura 14.10. Determinación de la recta tendencial


Si se opta por hallar media móviles con un valor de M ≠ 9, se obtendrá una recta tendencial evi-
dentemente distinta; pero muy aproximada a la que se acaba de obtener. Como se trata de esti-
mar la recta tendencial, las pequeñas diferencias que se obtengan entre una u otra opción care-
cen de importancia.
Una vez que se ha obtenido la componente tendencial, es fácil hallar la componente cíclica, di-
vidiendo las celdas de la columna E entre las celdas donde se colocan los valores Ti.
Los gráficos de las cuatro componentes de este problema corresponden a los que se muestran en
las figuras 14.1; 14.2; 14.4 y 14.6. Vale la pena ver el gráfico de la componente S×I, que se
muestra en la figura 14.11. Se aprecia claramente cómo la componente irregular afecta a la
componente estacional. Se entiende así que para estimar las componentes estacionales de cada
trimestre haya que promediar las componentes los respectivos valores de S×I de todos los tri-
mestres.
206 Análisis de series de tiempo

1.300

1.200

1.100

1.000
SxI

0.900

0.800

0.700

0.600
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

1998 1999 2000 2001 2002 2003 2004

Figura 14.11. Componente S×I

14.6.2 Suavización exponencial


Para hacer la suavización exponencial en Excel, se debe ingresar al menú Herramientas/Análisis
de datos/ Suavización exponencial. Excel abre el cuadro de diálogo que se muestra en la figura 14.11,
donde ya se han ingresado los datos del ejemplo que viene desarrollando.

Figura 14.11. Cuadro de diálogo para la suavización exponencial

Es necesario aclarar que el factor de suavización que considera Excel es 1 – α. Además, si se


marca la opción Crear gráfico, Excel traza la serie suavizada con un desfase respecto a la serie de
tiempo. Es necesario entonces adelantar la serie suavizada una unidad de tiempo, como se hace en el
siguiente ejemplo.
Se va a hacer la suavización exponencial del mismo problema del apartado anterior, con α = 0,5.
A continuación se repite el texto para comodidad del lector.
Ejemplo:
Una empresa que se dedica a la elaboración de cierto accesorio para autos ha registrado las si-
guientes ventas (en unidades) durante los últimos años:
Análisis de series de tiempo 207

Trimestre 1998 1999 2000 2001 2002 2003 2004


1 96 101 133 214 211 183 264
2 137 119 199 258 221 250 348
3 165 158 283 310 249 328 430
4 130 144 260 259 200 305 415

Entrando al menú Herramientas/Análisis de datos/ Suavización exponencial aparece el cuadro


de diálogo de la figura 14.11; aceptando los datos que se han ingresado Excel da el resultado que
se muestra en la figura 14.12.

96.00
116.50 Suavización exponencial
140.75
135.38
118.19 500
118.59
450
138.30
141.15
400
137.07
168.04 350
225.52
242.76 300
228.38 Real
Valor

243.19 250
276.59 Pronóstico
267.80 200
239.40
150
230.20
239.60 100
219.80
201.40 50
225.70
276.85 0
290.92 1 3 5 7 9 11 13 15 17 19 21 23 25 27
277.46
312.73 Punto de datos
371.37

Figura 14.12. Suavización exponencial con α = 0,5


208 Análisis de series de tiempo

Problemas propuestos
1. Un país registró las siguientes entradas de turistas (en millones) en el periodo 1997-2003:
1997 1998 1999 2000 2001 2002 2003
Trimestre 1 2,5 3,6 3,8 4,6 4,3 4,7 5,4
Trimestre 2 3,2 3,9 4,5 5,9 4,1 4,9 5,9
Trimestre 3 3,7 4,8 5,7 7,8 5,2 5,5 7,3
Trimestre 4 3,4 4,1 5,2 6,7 3,9 5,0 6,6
Haga un pronóstico de la entrada de turistas que se espera para los cuatro trimestres del año 2004.
Sugerencia: estime la recta tendencial a partir de las medias móviles con M = 9.
Respuesta: 5,27; 5,70; 6,96; 5,92.
2. ¿Con qué componente de una serie de tiempos asociaría cada uno de los siguientes hechos?
a) Un aumento en las ventas de útiles de escritorio durante el mes de marzo.
b) Un incremento de la producción de mango debido a la incorporación de nueva tecnología.
c) Una huelga de trabajadores del sector agrario.
d) Una disminución en el volumen de construcción de viviendas durante 2 años.
3. La siguiente tabla muestra el producto bruto interno (PBI) del Perú, en miles de millones de dóla-
res. Trace una recta tendencial sobre la serie de promedios móviles de 7 años y estime el producto
bruto interno para los años 2003 y 2004.
Año PBI Año PBI Año PBI Año PBI
1981 25,4 1991 42,2 2001 72,3
1982 25,9 1992 41,4 2002 72,5
1983 19,9 1993 40,1
1974 12,2 1984 20,8 1994 49,5
1975 15,8 1985 18,3 1995 58,7
1976 15,5 1986 26,2 1996 61,2
1977 13,1 1987 35,7 1997 65,3
1978 11,9 1988 28,8 1998 62,8
1979 15,6 1989 33,3 1999 65,1
1980 20,2 1990 34,1 2000 72,1

4. Las ventas de un producto durante los últimos años se expresan en la siguiente tabla:
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
1er trimestre 102 96 85 83 84 102 109 115 118 116 120
2do trimestre 111 105 94 90 89 106 119 122 126 123 131
3er trimestre 118 109 100 103 104 114 124 134 136 131 142
4to trimestre 111 99 91 97 96 107 120 127 121 120 132
Trace un gráfico de cada componente de esta serie. Haga un pronóstico para el año 2004. Sugeren-
cia: estime la recta tendencial a partir de las medias móviles con M = 11
5. En la siguiente tabla se muestran las ventas del año pasado de una empresa, y las componentes de
la serie de tiempo, aplicando el modelo multiplicativo.
a) Determine los valores faltantes.
b) ¿Cuánto varían las ventas anualmente?
c) Haga un comentario breve sobre la economía del país durante el año pasado.
d) ¿Qué pronóstico haría para los cuatro trimestres de este año?
e) Haga un análisis de las ventas del año pasado.
Trimestre Ventas reales C.Tendencial C.Cíclica C.Estacional C.Irregular
1 65 823,00 65 000 1,126 1,173
2 42 555,00 70 000 0,937 0,984
3 85 120,50 75 000 1
4 80 000 0,955 0,579 1,020
Análisis de series de tiempo 209

6. Suponga que el CONAM (Consejo Nacional del Ambiente) ha registrado los siguientes niveles de
contaminación por mercurio frente a las costas de Paita durante los últimos cuatro años.
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
2001 0,4 0,5 0,4 1,0 0,9 1,0 0,7 0,6 0,6 0,7 0,7 0,4
2002 0,3 0,4 0,3 0,7 0,8 0,7 0,5 0,6 0,5 0,6 0,5 0,4
2003 0,2 0,2 0,3 0,5 0,6 0,5 0,5 0,4 0,5 0,3 0,3 0,2
2004 0,2 0,2 0,3 0,6 0,6 0,5 0,5 0,3 0,4 0,3 0,4 0,2
Determine la componente estacional (para los 12 meses) y dé una interpretación.
Respuesta:
0,499 0,567 0,682 1,371 1,542 1,326 1,119 1,060 1,093 1,048 1,000 0,693
En diciembre, enero, febrero y marzo la contaminación baja, especialmente en enero, por efecto de
la estación; probablemente en esos meses las fábricas ubicadas en el litoral operan menos, hay
menos llegadas de buques, etc. En abril, mayo y junio la contaminación aumenta, especialmente
en mayo, probablemente porque aumentan las actividades mencionadas.
7. El dueño de un restaurante ubicado junto a una universidad ha anotado los ingresos, en soles, du-
rante los tres primeros años de funcionamiento:
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
2002 3210 3548 5893 8251 8469 5746 6583 7360 8214 8786 7056 6415
2003 4120 4598 6155 8961 9673 6028 6740 7695 8420 8284 7654 7158
2004 5244 6828 6238 9981 10687 7452 6940 9457 9214 10426 8493 8469
Haga un pronóstico para los 6 primeros meses del año 2005.
8. Un vendedor de autos usados ha registrado las siguientes ventas (en miles de soles) durante el úl-
timo año:
Mes Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
Ventas 205 192 170 214 220 198 230 232 240 255 310 296
Componente estacional 0,95 0,74 0,52 0,86 0,96 1,02 1,05 1,08 1,12 1,16 1,22 1,32
Determine las ventas desestacionalizadas.
9. En la siguiente tabla se ha registrado el número de días soleados al mes que hubo en una ciudad,
durante 6 años.
1996 1997 1998 1999 2000 2001 2002
Enero 30 26 14 26 25 25 25
Febrero 27 28 16 25 24 25 26
Marzo 29 28 12 18 24 16 20
Abril 27 29 16 24 26 20 21
Mayo 28 28 22 25 22 21 22
Junio 26 26 25 26 20 19 24
Julio 22 22 23 22 22 20 22
Agosto 20 20 18 20 17 18 19
Septiembre 24 24 21 24 22 23 23
Octubre 26 26 23 26 24 25 23
Noviembre 28 21 25 26 25 25 22
Diciembre 29 19 26 23 27 26 24
a) Determine las componentes estacionales.
b) Trace un gráfico con la componente cíclica y coméntelo.
10. ¿Con qué componente de una serie de tiempos asociaría cada uno de los siguientes hechos?
a) Un aumento en las ventas de un producto debido al cierre de la principal empresa competido-
ra.
210 Análisis de series de tiempo

b) Una disminución en las ventas de un producto debido a la globalización.


c) Un aumento en las ventas de un producto debido a una crisis petrolera durante 2 años.
d) Una disminución en las ventas de un producto debido al cierre de la frontera con un país veci-
no durante un mes, por un problema limítrofe.
Herramientas estadísticas para mejorar la calidad de los procesos 211

Capítulo 15. Herramientas estadísticas para mejorar


la calidad de los procesos

15.1 Mejora de la calidad

15.1.1 Definiciones
Aunque existen muchas definiciones de calidad, quizás la más simple y certera sea: “Calidad es
lo que el cliente define como tal”.
La calidad es un objeto móvil; siempre hay que estarla buscando. Nunca se podrá afirmar que ya
se ha conseguido la máxima calidad posible, pues los clientes siempre están cambiando de parecer, de
gusto, etc. Por lo tanto siempre hay que estar averiguando qué tan satisfechos están los clientes con el
producto o servicio que se les brinda. Se concluye entonces que para conseguir la calidad se debe estar
en un proceso de mejora continua.
La calidad siempre se asocia con los defectos; si hay muy pocos defectos se dice que hay cali-
dad. Como los defectos siempre estarán presentes, se intenta disminuirlos; y para esto es fundamental
preguntarse: ¿por qué ocurren los defectos?
Los defectos ocurren por una causa fundamental: la variabilidad en las personas, en los mate-
riales, en las máquinas y herramientas, en el medio ambiente, en la inspección, etc.
Para disminuir los defectos hay que buscar las causas. Éstas pueden ser:
• Causas asignables: cuando se les puede atribuir a alguien o a algo (personas, materiales,
máquinas, herramientas, medio ambiente, inspectores, etc).
• Causas no asignables: cuando la variabilidad se debe al azar. Se dice que es una variabili-
dad inherente a las personas, materiales, máquinas, herramientas, medio ambiente, inspecto-
res, etc. Generalmente es imposible evitar estas causas de forma económica.
A la determinación de las causas de los defectos en un proceso se le llama diagnóstico. Para
hacer un buen diagnóstico se puede recurrir a la intuición de un experto, a la experimentación o al aná-
lisis estadístico de los datos. Aunque la última opción es generalmente la más acertada, no siempre es
aprovechada porque los encargados de tomar las decisiones en las empresas no creen en su efectivi-
dad.
Para poder creer que las herramientas estadísticas son efectivas es necesario aceptar que siempre
hay variabilidad, y que esta variabilidad siempre es posible medirla, y más si se debe a causas asigna-
bles. Así, evitando las causas asignables, se disminuye la variabilidad, y por lo tanto los defectos.

15.1.2 Breve historia de la calidad


Desde finales del siglo XIX, la gestión de la calidad ha pasado por cuatro grandes etapas:
• Inspección de la calidad.
• Control de la calidad.
• Aseguramiento de la calidad.
• Gestión de la calidad total.
La gestión de la calidad ha ido evolucionando hacia una visión cada vez más global. Las etapas
212 Herramientas estadísticas para mejorar la calidad de los procesos

más recientes abarcan las anteriores; de esta manera, por ejemplo, el aseguramiento de la calidad abar-
ca el control de la calidad y la gestión de la calidad total abarca también el aseguramiento de la cali-
dad.
Tradicionalmente la palabra calidad ha estado asociada a la calidad del producto. El objetivo que
se perseguía era evitar que un producto defectuoso llegara al cliente. Para ello se efectuaba una ins-
pección al 100% de todos los productos, separando los productos buenos de los defectuosos. La cali-
dad era un problema de los inspectores.
Al aumentar los volúmenes de producción, la inspección masiva era cada vez más difícil, costo-
sa y menos fiable. Se pasó de inspeccionar el 100 % de los productos terminados a controlar los proce-
sos. Así, Shewart (1931) propuso el Control estadístico de procesos, CEP.
Pero esta forma de entender la calidad era reactiva, no prevenía los errores; únicamente los de-
tectaba cuando ya habían aparecido. Entonces los especialistas centraron sus esfuerzos en diseñar mé-
todos de trabajo que permitieran evitar los errores antes de que éstos ocurrieran. Éste es el enfoque del
aseguramiento de la calidad, que pretende proporcionar a los clientes la confianza de que un produc-
to o servicio satisface los requisitos de calidad. Pero este enfoque, aunque ya es proactivo, está limita-
do al ámbito interno de la empresa.
La gestión de la calidad total, además de garantizar que los productos o servicios satisfacen los
requisitos de la calidad, pretende involucrar a todos los miembros de la organización en la mejora de
todos los procesos. Este sistema de gestión de la calidad ha sido mejorado por Seis Sigma, que se ha
preocupado por mejorar continuamente el nivel de satisfacción de los clientes, entre otras cosas.
A continuación se presentan las herramientas estadísticas básicas más empleadas para el mejo-
ramiento de la calidad de los procesos, ya sean productivos o de servicio.

15.2 Interpretación de histogramas y medición de la capacidad de un proceso

15.2.1 Interpretación de histogramas.


A continuación se muestran diversos tipos de histogramas:
Histograma general: la media del histograma está en el centro
del rango de datos. La frecuencia es mayor en el centro y dismi-
nuye gradualmente hacia los extremos, ajustándose a una distri-
bución normal. Se presenta en casi todos los casos en que se re-
presenta una medida en un proceso productivo.
General
Histograma con sesgo positivo o negativo: tie-
ne forma asimétrica. La media del histograma
está a la izquierda (o derecha) y la frecuencia
disminuye lentamente hacia la derecha (o iz-
quierda). Se presenta cuando el límite inferior (o
superior) se controla teóricamente o por un valor
de especificación; o cuando no se presentan va- Sesgo positivo Sesgo negativo
lores inferiores (o superiores) a cierto límite.
Histograma con precipicio: es similar al tipo con sesgo, pero
con un descenso más brusco hacia un lado. Este tipo se presenta
frecuentemente cuando se ha hecho una inspección al 100% y se
han separado elementos que no cumplen con el límite inferior o
superior de especificación del producto. Precipicio

Histograma multimodal: hace zigzag sobre la forma general. Se


presenta cuando no se ha elegido correctamente la longitud de
clase y el número de clases, ya sea porque el número de datos no
es suficiente para trazar el histograma (n < 50) o se han conside-
rado muchas clases para el número de datos que hay. Multimodal
Herramientas estadísticas para mejorar la calidad de los procesos 213

Histograma bimodal: se ven dos histogramas generales, uno


junto al otro. Se presenta cuando se mezclan dos distribuciones
con medias muy diferentes; por ejemplo cuando en el proceso
hay dos turnos, o dos máquinas, o dos operarios, etc. que traba-
jan de manera distinta. Bimodal

Histograma con pico aislado: hay un pequeño pico, aislado de


un histograma de tipo general. Se presenta cuando se incluye una
pequeña cantidad de datos con una distribución diferente, ya sea
por una anormalidad en el proceso, por error de medición o por
inclusión de datos de otro proceso.
Pico aislado
Histograma planicie: las frecuencias forman una planicie. Se
presenta cuando se mezclan varios histogramas que tienen que
tienen medias diferentes y distribuciones diferentes, de tal mane-
ra que el conjunto forma la planicie.
Planicie

15.2.2 Capacidad de un proceso


Se denominan especificaciones de un producto al rango de medidas dentro del cual se dice que
el producto es conforme. Por ejemplo, las especificaciones del diámetro de los pistones que se fabrican
en un taller son: 5,000 ± 0,005 cm. A la media que se especifica se le llama valor nominal, y a la me-
dida entre la media y los límites de especificación (LEI y LES) se le denomina tolerancia. En este
ejemplo, la tolerancia es ± 0,005 cm.
Si se conocen las especificaciones de un producto, es posible medir si el proceso es capaz de
cumplir con dichas especificaciones.
Si se cuenta con un histograma, se pueden trazar dos líneas verticales sobre éste, correspondien-
tes a las medidas de las especificaciones. Así se podrá observar si el histograma se encuentra razona-
blemente entre dichos límites. En la figura 15.1 se describen dos casos típicos donde se cumplen las
especificaciones del producto. En el primer histograma se ve que el proceso es capaz de cumplir con
las especificaciones con holgura; pero en el segundo las cumple ajustadamente.

LEI LES LEI LES

Figura 15.1. Procesos capaces de cumplir con las especificaciones

En la figura 15.2 se describen dos casos típicos donde no se cumplen las especificaciones del
producto.

LEI LES LEI LES

Figura 15.2. Procesos no capaces de cumplir con las especificaciones


214 Herramientas estadísticas para mejorar la calidad de los procesos

En el primer caso se ve que el proceso no es capaz de cumplir con las especificaciones porque
está descentrado. En el segundo caso tampoco cumple con las especificaciones, pero esta vez porque
el proceso tiene mucha variabilidad.
Si se conocen la media y la desviación estándar de un conjunto de datos obtenidos en un proce-
so, se puede calcular el índice de capacidad del proceso:
LES − LEI
Cp =

Como se ve, un índice de capacidad exactamente igual a 1 (segundo caso de la figura 15.1) indi-
cará que el proceso es capaz, pero que está a punto de no serlo.
Si la media del conjunto de datos no coincide con el punto medio de los límites de especifica-
ción, es decir, si el proceso está descentrado respecto a las especificaciones, conviene emplear el si-
guiente índice de capacidad:
( LES − LEI ) − 2d
C pk =

En la figura 15.3 se aprecia que d representa la distancia entre la media del conjunto de datos y
el centro de los límites de especificación:
LES + LEI
d= x−
2

En general, siempre conviene emplear esta última fórmula para calcular el índice de capacidad,
pues cuando el proceso no está descentrado d es igual a 0.
d

LEI x LES

Figura 15.3. Medición de la capacidad de un proceso

A continuación se presenta una interpretación de los valores que puede tomar el índice de capa-
cidad de un proceso:

Si: 0 <Cpk < 1 ⇒ Proceso inadecuado


Si: 1 <Cpk < 1,33 ⇒ Proceso adecuado
Si: 1,33 <Cpk < ∞ ⇒ Proceso satisfactorio
Ejemplo:
En una planta procesadora de conservas de pescado, dos empleados A y B están llenando latas
de conserva de dos tipos: en filetes y en trozos. El peso neto de las latas muestreadas durante 20
días se muestra en la siguiente tabla. Cada día se escogieron aleatoriamente 10 latas y se registró
su peso. El peso neto nominal es de 200 g. y la tolerancia es de ± 5 g.
A continuación se muestran los nueve posibles histogramas que se pueden trazar, para que el
lector los analice y dé sus conclusiones.
Herramientas estadísticas para mejorar la calidad de los procesos 215

Día Empleado En filete En trozos


1 A 198,55 197,08 199,37 200,91 200,80 201,60 195,72 201,43 203,65 200,35
2 A 198,65 200,64 197,37 194,96 196,46 196,23 197,53 202,21 194,17 204,05
3 B 197,84 195,82 198,15 198,39 197,20 198,45 198,51 201,16 194,55 198,74
4 B 199,45 197,27 200,19 198,72 196,23 201,96 200,30 199,22 198,08 199,03
5 A 202,07 193,18 198,36 196,58 199,81 200,35 201,88 196,81 200,66 201,47
6 A 200,67 196,77 195,49 198,43 200,14 196,83 197,73 201,73 195,04 199,51
7 B 195,92 197,43 197,00 199,04 194,52 202,29 196,39 200,60 197,21 202,14
8 B 195,19 199,19 196,09 197,08 193,02 200,14 199,70 201,06 198,36 198,36
9 A 197,23 197,35 197,13 197,33 200,04 199,48 197,59 200,76 200,02 201,61
10 A 196,94 198,74 199,86 199,21 197,63 201,83 199,73 201,76 202,82 202,32
11 B 199,44 199,12 196,50 198,05 193,62 197,67 197,20 202,23 197,23 201,93
12 B 199,95 199,08 201,27 195,31 201,17 200,96 199,17 196,84 199,47 199,11
13 A 198,11 197,53 199,50 197,42 196,34 200,24 199,67 201,80 197,60 202,83
14 A 199,93 199,32 197,46 200,86 198,53 197,74 197,77 204,66 201,16 201,40
15 B 198,36 196,32 198,21 200,27 192,77 194,09 200,96 202,82 200,21 202,18
16 B 196,36 199,83 198,83 196,06 197,02 198,18 200,27 199,60 203,33 202,95
17 A 200,20 199,68 200,04 201,45 199,46 199,88 201,78 201,19 201,37 199,79
18 A 198,50 200,56 199,22 200,71 198,78 197,83 200,61 200,77 198,33 200,81
19 B 198,13 199,80 199,82 198,53 198,34 196,95 201,99 203,08 202,86 202,68
20 B 198,15 199,13 198,65 194,25 200,88 200,32 201,00 201,49 201,44 200,49

40

35

30

25

20

15

10

0
193 194 195 196 197 198 199 200 201 202 203 204 205 206

Figura 15.4. Histograma total

25

20

15

10

0
193 194 195 196 197 198 199 200 201 202 203 204 205 206

Figura 15.5. Histograma del empleado A.


216 Herramientas estadísticas para mejorar la calidad de los procesos

20
18
16
14
12
10
8
6
4
2
0
193 194 195 196 197 198 199 200 201 202 203 204 205 206

Figura 15.6. Histograma del empleado B.

25

20

15

10

0
193 194 195 196 197 198 199 200 201 202 203 204 205 206

Figura 15.7. Histograma de la conserva en filete.

25

20

15

10

0
193 194 195 196 197 198 199 200 201 202 203 204 205 206

Figura 15.8. Histograma de la conserva en trozos.


Herramientas estadísticas para mejorar la calidad de los procesos 217

12

10

0
193 194 195 196 197 198 199 200 201 202 203 204 205 206

Figura 15.9. Histograma de empleado A – conserva en filete.

14

12

10

0
193 194 195 196 197 198 199 200 201 202 203 204 205 206

Figura 15.10. Histograma de empleado B – conserva en filete.

16

14

12

10

0
193 194 195 196 197 198 199 200 201 202 203 204 205 206

Figura 15.11. Histograma de empleado A – conserva en trozos.


218 Herramientas estadísticas para mejorar la calidad de los procesos

12

10

0
193 194 195 196 197 198 199 200 201 202 203 204 205 206

Figura 15.12. Histograma de empleado B – conserva en trozos.

15.3 Gráficos de control

15.3.1 Definiciones
Un gráfico de control está conformado por una línea central, que suele medir un promedio, dos
límites de control, uno por encima y otro por debajo de la línea central, y una serie de valores caracte-
rísticos registrados en el gráfico que representa el estado del proceso. Si todos los valores se encuen-
tran dentro de los límites de control, y no se presenta ninguna situación atípica (se explicará más ade-
lante), se dice que el proceso está bajo control; en caso contrario se dice que el proceso está fuera de
control. En la figuras 15.13 y 15.14 se muestran estas dos situaciones.

Límite de
control superior

Línea
Central

Límite de
control inferior
Figura 15.13. Gráfico de control de un proceso bajo control

Límite de
control superior

Línea
Central

Límite de
control inferior
Figura 15.14. Gráfico de control de un proceso fuera de control
Herramientas estadísticas para mejorar la calidad de los procesos 219

15.3.2 Tipos de gráficos de control


Gráficos de control de variables: se aplican a características que se pueden medir. General-
mente los datos provienen de una población que se puede describir con una distribución normal.
Ventajas principales: la mayoría de los procesos son medibles, la medición proporciona más in-
formación que un atributo, emplea muestras más pequeñas, la acción correctiva es rápida, etc.
Gráficos de control de atributos: se emplean cuando es posible establecer la ausencia o exis-
tencia de una característica de calidad. Generalmente se asocian con distribuciones discretas, como la
binomial o Poisson. Proporcionan menos información que los gráficos de control de variables.
Ventajas principales: los datos por atributos existen en todos los procesos y se pueden obtener
de manera rápida y económica, un gráfico puede controlar varias características, son fáciles de cons-
truir e interpretar, etc.
Como desventaja importante se puede decir que el proceso de decisión es más lento.
En la tabla 15.1 se presentan los tipos de gráficos de control y las fórmulas para determinar los
límites de control. Estas fórmulas han sido deducidas asumiendo que casi el 100% de los datos se en-
cuentran entre el valor medio ± 3 veces la desviación estándar correspondiente.
Tabla 15.1. Gráficos de control de variables: fórmulas para calcular los límites de control.

Tipo de gráfico de control Límites de control


LCS = x + A2 R
LCI = x − A2 R
Media ( x )
LCS = x + A3 s
LCI = x − A3 s
LCS = M + 1,15 A2 R
De variables

Mediana (M)
LCI = M − 1,15 A2 R
LCS = D4 R
Rango (R)
LCI = D3 R
LCS = B4 s
Desviación estándar (s)
LCI = B3 s
LCS = x + E 2 Rm
Individual (con rango móvil, Rm)
LCI = x − E 2 Rm
LCS = p + 3 p (1 − p ) / n
Proporción de unidades defectuosas (p)
LCI = p − 3 p (1 − p) / n
LCS = np + 3 np (1 − p )
De atributos

Número de unidades defectuosas (np)


LCI = np − 3 np (1 − p )
LCS = c + 3 c
Número de defectos (c)
LCI = c − 3 c
LCS = u + 3 u / n
Número de defectos por unidad (u)
LCI = u − 3 u / n

Los valores de los coeficientes A2, A3, D3, D4, B3, B4, E2 se encuentran en el apéndice (pág. 270).

15.3.3 Interpretación de los gráficos de control.


Para que un gráfico de control sea correctamente interpretado es recomendable que esté confor-
mado por lo menos por 20 puntos.
220 Herramientas estadísticas para mejorar la calidad de los procesos

Una vez que ya se ha instalado un gráfico de control, es decir, una vez que ya se han determina-
do la línea central y los límites de control superior e inferior, se podrá afirmar que el proceso está fuera
de control en las siguientes situaciones:
ƒ Si hay al menos un punto más allá de los límites de control.
ƒ Racha: si hay 7 puntos consecutivos a un lado de la línea central, ó si 10 de 11 puntos con-
secutivos están a un lado de la línea central, ó 12 de 14, ó 16 de 20.
ƒ Tendencia: si hay 6 puntos consecutivos ascendentes o descendentes.
ƒ Acercamiento a los límites de control: si 2 de 3 puntos consecutivos está comprendidos en-
tre 2σ y 3σ.
ƒ Acercamiento a la línea central: si la gran mayoría de los puntos están entre –1,5σ y +1,5σ.
Esto se debe generalmente a que las muestras se han tomado en forma inapropiada, ya que
es poco probable que el proceso haya mejorado tan rápidamente.
ƒ Periodicidad: si hay tendencia ascendente y descendente para casi el mismo intervalo.
Estos criterios deben aplicarse con cierta flexibilidad, dependiendo de las circunstancias. En la
figura 15.15 se muestran algunas de las situaciones mencionadas.

Acercamiento al límite
de control superior: dos
de tres puntos
Racha:
siete
puntos

Tendencia positiva:
seis puntos

Figura 15.15. Situaciones de procesos fuera de control

15.3.4 Elaboración de los gráficos de control.


Ahora que ya se sabe interpretar los gráficos de control, se verá cómo elaborarlos. Una vez que
ya se ha decidido qué tipo de gráfico se va a trazar, se requiere tomar una serie de muestras, anotar los
datos y calcular la medida central y los límites de control.
En los gráficos de control de variables es recomendable determinar, en primer lugar, los límites
de control de las medidas de variabilidad, pues suelen ser los primeros en ser violados cuando un pro-
ceso se sale de control.
Existen diferentes criterios para aceptar o rechazar los límites de control. Debe tenerse en cuenta
que si se presenta alguna de las situaciones mencionadas en el apartado anterior (racha, tendencia,
etc.), se deben buscar las causas asignables que deforman el proceso, ya que está fuera de control, y
corregirlo. Una vez que se hagan las correcciones oportunas, se intentará instalar el gráfico de control.
Si no hay racha, tendencia, etc, se suele emplear el siguiente criterio:
ƒ Si todos los puntos que se han determinado a partir de las muestras están dentro de los lími-
tes de control, se instala el gráfico de control.
ƒ Si uno o dos puntos están fuera de los límites de control, se eliminan dichos puntos y se re-
calcula la medida central y los límites de control. Si ahora todos los puntos quedan dentro de
los límites de control, se instala el gráfico de control; en caso contrario, se deben buscar las
causas asignables que deforman el proceso y corregirlo. Una vez que se hagan las correccio-
nes oportunas, se vuelven a tomar muestras y se calcula la medida central y los límites de
control.
ƒ Si tres o más puntos están fuera de los límites de control, se deben buscar las causas asigna-
Herramientas estadísticas para mejorar la calidad de los procesos 221

bles que deforman el proceso y corregirlo. Una vez que se hagan las correcciones oportunas,
se vuelven a tomar muestras y se calcula la medida central y los límites de control.
Este criterio sólo se usa para instalar los gráficos de control, es decir, para establecer el valor
central y los límites de control. Luego, cuando ya se esté controlando el proceso, un punto fuera de los
límites de control indicará que el proceso está fuera de control.
Si un proceso está bajo control, no necesariamente hace lo que supuestamente tiene que hacer.
Que esté bajo control significa que trabaja bien y da un servicio consistente, de acuerdo a sus posibili-
dades. Una vez que un proceso está bajo control ya conviene determinar qué tan capaz es.
A continuación se muestran algunos ejemplos de elaboración de gráficos de control.
Ejemplo 1: *
Los datos de la siguiente tabla muestran los resultados de la medición de temperatura de proce-
samiento de 20 lotes continuos. Las temperaturas fueron tomadas cada 15 minutos durante 20
horas de proceso. Elabore los gráficos de control Media-Rango.
Muestra T1 T2 T3 T4 Media Rango
1 65 66 67 68 66,50 3
2 65 66 67 67 66,25 2
3 68 65 67 64 66,00 4
4 67 66 68 67 67,00 2
5 67 66 66 67 66,50 1
6 67 67 66 68 67,00 2
7 68 64 67 68 66,75 4
8 67 66 67 67 66,75 1
9 66 68 66 66 66,50 2
10 66 67 67 67 66,75 1
11 66 68 67 67 67,00 2
12 66 66 67 67 66,50 1
13 65 67 65 67 66,00 2
14 68 66 65 67 66,50 3
15 66 67 67 67 66,75 1
16 65 67 67 66 66,25 2
17 67 67 66 66 66,50 1
18 67 67 68 67 67,25 1
19 67 67 68 68 67,50 1
20 68 67 67 67 67,25 1
Total 1333,50 37

Para trazar los gráficos de control se siguen los siguientes pasos:


Paso 1: Calcule la media y el rango de cada muestra.
1 n
xi = ∑ x k R = x imáx − x imín
n k =1

Paso 2: Grafique las medias y los rangos por separado.


Paso 3: Calcule la media de las medias (x ) y la media de los rangos (R )
m m
1 1 1 1
x=
m
∑x
j =1
j =
20
×1333,50 = 66,675 ; R =
m
∑R
j =1
j =
20
× 37 = 1,85

Paso 4: Calcule los límites de control del gráfico de rangos.


LCS R = D4 × R = 2,282 ×1,85 = 4,2

LCI R = D3 × R = 0 ×1,85 = 0
Sobre el gráfico de rangos trazado en el paso 2 (figura 15.16), trace líneas horizontales que re-
presenten los límites de control recién calculados. Verifique que no haya ningún punto más allá
222 Herramientas estadísticas para mejorar la calidad de los procesos

de los límites de control. En este caso no hay.


Paso 5: Calcule los límites de control del gráfico de medias.
LCS x = x + A2 × R = 66,675 + 0,729 ×1,85 = 68,02
LCI x = x − A2 × R = 66,675 − 0,729 ×1,85 = 65,33
Sobre el gráfico de medias trazado en el paso 2 (figura 15.17), trace líneas horizontales que re-
presenten los límites de control que acaba de calcular. Verifique que no haya ningún punto más
allá de los límites de control. En este caso no hay.
4.5

4 LCS = 4,2

3.5

2.5
Rango

2 Media = 1,85

1.5

0.5
LCI = 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Figura 15.16. Gráfico de control de rangos del ejemplo 1.

68.5
LCS = 68,02
68

67.5
Temperatura media

67
Media = 66,675
66.5

66

65.5
LCI = 65,33
65

64.5
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Figura 15.17. Gráfico de control de medias del ejemplo 1.

Como se ve, el proceso está bajo control, y se pueden instalar ambos gráficos de control. Vale la
pena comentar que hubo un descenso en la variabilidad a lo largo del periodo en que se tomaron
las muestras, como se ve en el gráfico de control de rangos. Esto, aunque sea positivo, no deja
de llamar la atención pues no es un signo de aleatoriedad. Valdría la pena verificar si esto vuel-
ve a ocurrir en la siguiente toma de datos.
Herramientas estadísticas para mejorar la calidad de los procesos 223

Ejemplo 2: *
Se quiere controlar las ventas diarias de un grupo de vendedores de una empresa grande. Para
esto, durante 20 días se extrajeron aleatoriamente registros de ventas de tres vendedores. En la
siguiente tabla se muestran estos datos. Elabore los gráficos de control Mediana-Rango.

Muestra V1 V2 V3 Mediana Rango


1 133 138 148 138 15
2 147 131 131 131 16
3 134 128 145 134 17
4 134 143 147 143 13
5 128 128 143 128 15
6 143 137 134 137 9
7 133 129 129 129 4
8 124 127 130 127 6
9 128 125 126 126 23
10 134 151 146 146 17
11 147 135 128 135 19
12 123 140 127 127 17
13 130 126 129 129 4
14 122 128 134 128 12
15 144 124 141 141 20
16 124 124 135 124 11
17 135 125 128 128 10
18 130 136 134 134 6
19 125 123 121 123 4
20 125 128 125 125 3
Total 2633 241

Este caso de ventas es propicio para controlarlo mediante las medianas de las muestras, pues en
caso que un vendedor tenga una venta atípica, ya sea muy alta o muy baja respecto a las demás
ventas de la muestra, la mediana no registrará ese cambio brusco. Si se controlaran las medias,
en cambio, una venta alta atípica de un vendedor podría hacer pensar que las ventas en general
han subido.
Para trazar los gráficos de control se siguen los siguientes pasos:
Paso 1: Calcule la mediana y el rango de cada muestra.
Paso 2: Grafique las medianas y los rangos por separado.
Paso 3: Calcule la media de las medianas (M ) y la media de los rangos (R ) .
m m
1 1 1 1
M=
m

j =1
Mj=
20
× 2633 = 131,65 ; R =
m
∑R
j =1
j =
20
× 241 = 12,05

Paso 4: Calcule los límites de control del gráfico de rangos


LCS R = D4 × R = 2,574 ×12,05 = 31,02
LCI R = D3 × R = 0 ×12,05 = 0
Sobre el gráfico de rangos trazado en el paso 2, trace líneas horizontales que representen los lí-
mites de control que acaba de calcular. En este caso no hay ningún punto más allá de los límites
de control.
Paso 5: Calcule los límites de control del gráfico de medianas.
LCS M = M + 1,15 A2 × R = 131,65 + 1,15 × 1,023 ×12,05 = 145,83

LCI M = M − 1,15 A2 × R = 131,65 − 1,15 × 1,023 ×12,05 = 117,47


Sobre el gráfico de medianas trazado en el paso 2, trace líneas horizontales que representen los
224 Herramientas estadísticas para mejorar la calidad de los procesos

límites de control que acaba de calcular. Verifique que no haya ningún punto más allá de los lí-
mites de control. En este caso hay un punto (el décimo) que está ligeramente por encima del lí-
mite de control superior. Por lo tanto aún no se puede instalar el gráfico de control de medianas.

Paso 6: Elimine el punto que está fuera de los límites y recalcule la media de las medianas, el
rango medio y los límites de control.
LCS M = M + 1,15 A2 × R = 130,89 + 1,15 × 1,023 ×11,79 = 144,76

LCI M = M − 1,15 A2 × R = 130,89 − 1,15 × 1,023 ×11,79 = 117,02


En las figuras 15.18 y 15.19 se muestran los gráficos de control de rangos y de medianas des-
pués de ejecutar el paso 6, donde se ha eliminado el décimo punto.

35

30 LCS = 31.02

25

20
Rango

15
Media = 12.05

10

LCI = 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Figura 15.18. Gráfico de control de rangos del ejemplo 2.

150

145 LCS = 145.83

140

135
131.65
Mediana

130

125

120
LCI = 117.47
115

110
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Figura 15.19. Gráfico de control de medianas del ejemplo 2.
Herramientas estadísticas para mejorar la calidad de los procesos 225

Ahora no hay ningún punto fuera de los nuevos límites de control, y no se observa ninguna irre-
gularidad, por lo que se pueden instalar ambos gráficos para controlar las ventas diarias. Quizá
valdría la pena verificar una posible tendencia de las ventas diarias a disminuir.
Ejemplo 3: *
Un vehículo de una empresa de transportes realiza un viaje diario llevando mercadería desde una
fábrica hasta un almacén. Con el propósito de controlar la calidad del servicio se tomaron los
tiempos de viaje durante 20 días. En la siguiente tabla se muestran estos tiempos en minutos.
Elabore un gráfico de control individual con rango móvil.
Muestra Tiempo Rango móvil Muestra Tiempo Rango móvil
1 63 11 68 5
2 64 1 12 64 4
3 65 1 13 64 0
4 65 0 14 64 0
5 66 1 15 63 1
6 65 1 16 63 0
7 65 0 17 65 2
8 67 2 18 62 3
9 67 0 19 63 1
10 63 4 20 66 3
Total 1292 29

Es evidente que, si se quiere hacer un control diario de los tiempos de viaje, sólo se podrá tomar
un dato cada día, y no quedará más remedio que emplear un gráfico de control individual. Si se
quisiera hacer control cada tres días, sí se podría usar un gráfico de control de medias.
Para trazar estos gráficos de control se siguen los siguientes pasos:
Paso 1: Calcule el rango móvil entre cada par de mediciones consecutivas (valores absolutos).
Paso 2: Grafique los valores individuales y los rangos móviles por separado.
Paso 3: Calcule la media de los valores individuales (x ) y el rango móvil promedio (Rm )
20 20
1 1 1 1
x=
20

j =1
xj =
20
×1292 = 64,6 R =
19
∑R
j =2
j =
19
× 29 = 1,53

Paso 4: Calcule los límites de control del gráfico de rangos móviles. Nótese que para el cálcu-
lo de los rangos móviles se han agrupado dos valores individuales (éste es el tamaño de la mues-
tra). Se podrían calcular rangos móviles agrupando tres o más valores individuales.
LCS Rm = D4 × Rm = 3,267 ×1,53 = 5,00

LCI Rm = D3 × Rm = 0 ×1,53 = 0

Sobre el gráfico de rangos móviles trazado en el paso 2 (figura 15.20), trace líneas horizontales
que representen los límites de control que acaba de calcular. En este caso no hay ningún punto
más allá de los límites de control ni otra irregularidad.
Paso 5: Calcule los límites de control del gráfico de control de valores individuales.
LCS x = x + E 2 × R m = 64,6 + 2,660 ×1,53 = 68,67

LCI x = x − E 2 × R = 64,6 − 2,660 ×1,53 = 60,53


Sobre el gráfico de valores individuales trazado en el paso 2 (figura 15.21), trace líneas horizon-
tales que representen los límites de control que acaba de calcular. Verifique que no haya ningún
punto más allá de los límites de control. En este caso no hay; pero se aprecia una racha desde el
punto 3 hasta el punto 9, por lo que se concluye que el proceso está fuera de control. Habría que
226 Herramientas estadísticas para mejorar la calidad de los procesos

investigar cuáles son las causas (asignables) para así mejorar el proceso. Luego se deberán to-
mar más datos para intentar instalar estos gráficos de control.

LCS = 5.00
5

4
Rango móvil

2
Media = 1.53

LCI = 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Figura 15.20. Gráfico de control de rango móvil del ejemplo 3.

70
LCS = 68,67
68

66
Valores individuales

Media = 64,6

64

62

60 LCI = 60,53

58

56
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Figura 15.21. Gráfico de control de valores individuales del ejemplo 3.

Ejemplo 4: *
Se ha inspeccionado 22 lotes semanales de envases plásticos. Los lotes son de tamaño variable y
en cada uno se ha registrado el número de unidades defectuosas, como se muestra en la siguien-
te tabla. Elabore un gráfico de proporción de unidades defectuosas.
Paso 1: Calcule la proporción defectuosa para cada lote.
Paso 2: Grafique la proporción defectuosa.
Paso 3: Calcule la media de la proporción defectuosa y la media del tamaño de la muestra.
Herramientas estadísticas para mejorar la calidad de los procesos 227

1183 16310
p= = 0,073 ; n= = 741,36
16310 22
Tamaño Unidades Proporción Tamaño Unidades Proporción
Semana Semana
de lote defectuosas defectuosa de lote defectuosas defectuosa
1 724 48 0,066 12 739 50 0,068
2 763 83 0,109 13 723 47 0,065
3 748 70 0,094 14 748 57 0,076
4 748 85 0,114 15 770 51 0,066
5 724 45 0,062 16 756 71 0,094
6 727 56 0,077 17 719 53 0,074
7 726 48 0,066 18 757 34 0,045
8 719 67 0,093 19 760 29 0,038
9 759 37 0,049 20 742 37 0,050
10 745 52 0,070 21 726 50 0,069
11 736 47 0,064 22 751 66 0,088
Total 16310 1183 0,073

Paso 4: Calcule los límites de control


LCS p = p + 3 p (1 − p) / n = 0,073 + 3 0,073 (1 − 0,073) / 741,36 = 0,102

LCI p = p − 3 p (1 − p ) / n = 0,073 − 3 0,073 (1 − 0,073) / 741,36 = 0,044

Sobre el gráfico de proporción defectuosa trazado en el paso 2 (figura 15.22), trace líneas hori-
zontales que representen los límites de control que acaba de calcular. Verifique que no haya nin-
gún punto más allá de los límites de control. En este caso se encuentran tres puntos fuera de los
límites. Se concluye que el proceso está fuera de control. Conviene investigar cuáles son las
causas (asignables) para mejorar el proceso. Luego se deberán tomar más datos para intentar ins-
talar este gráfico de control.

0.120

0.110
LCS = 0,102
0.100
Proporción defectuosa

0.090

0.080
Media = 0,073
0.070

0.060

0.050 LCI = 0,044

0.040

0.030
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

Figura 15.22. Gráfico de control de proporciones defectuosas del ejemplo 4.

Ejemplo 5: *
En la siguiente tabla se muestra el número de tardanzas registradas durante 15 días en una em-
presa de vigilancia conformada por 400 trabajadores. El gerente ha tomado datos para ver si está
dando resultado el programa de factor humano que está implantando. Elabore un gráfico de uni-
dades defectuosas. (Pase por alto el hecho de que sólo haya 15 datos).
228 Herramientas estadísticas para mejorar la calidad de los procesos

Día Tardanzas Día Tardanzas Día Tardanzas


1 1 6 0 11 2
2 3 7 1 12 0
3 0 8 0 13 1
4 7 9 8 14 0
5 2 10 5 15 3
Total 33

Paso 1: Grafique el número de unidades defectuosas.


Paso 2: Calcule la media de unidades defectuosas y la media de las fracciones defectuosas.
33 33 / 400
np = = 2,2 ; p = = 0,0055
15 15
Paso 3: Calcule los límites de control.
LCS np = np + 3 np (1 − p ) = 2,2 + 3 2,2 (1 − 0,0055) = 6,6
LCI np = np − 3 np (1 − p ) = 2,2 − 3 2,2 (1 − 0,0055) = 0

El límite inferior saldría negativo, por lo que toma el valor cero.


Sobre el gráfico de unidades defectuosas trazado en el paso 1 (figura 15.23), trace líneas hori-
zontales que representen los límites de control que acaba de calcular. Verifique que no haya nin-
gún punto más allá de los límites de control.

7 LCS = 6,6
Unidades defectuosas

3
Media = 2.2
2

1
LCI = 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Figura 15.23. Gráfico de control de unidades defectuosas del ejemplo 5.

En este caso se encuentran dos puntos por encima de los límites; por lo tanto aún no se puede
instalar este gráfico de control.
Paso 4: Elimine los dos puntos que están fuera de los límites y recalcule la media de unidades
defectuosas, la media de las fracciones defectuosas y los límites de control.
18 18 / 400
np = = 1,385 ; p= = 0,0035
13 13
LCS np = np + 3 np (1 − p ) = 1,385 + 3 1,385 (1 − 0,0035) = 6,25

LCI np = np − 3 np (1 − p ) = 1,385 − 3 2,2 (1 − 0,0035) = 0


Herramientas estadísticas para mejorar la calidad de los procesos 229

7
LCS = 6,25
6

5
Unidades defectuosas

2
Media = 1,385

LCI = 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13

Figura 15.24. Gráfico de control de unidades defectuosas (corregido) del ejemplo 5.

Ya no hay ningún punto fuera de los nuevos límites de control, y, como se ve en el gráfico de la
figura 15.24, no hay ninguna irregularidad, por lo que se puede instalar este gráfico de control.
Ejemplo 6: *
En la siguiente tabla se muestran los resultados de una prueba realizada en muestras de papel
impermeable de tamaño A4. Para determinar su impermeabilidad se ha utilizado el método de la
tinta, de tal manera que cada mancha es considerada un defecto. Elabore un gráfico de control
de número de defectos.
Muestra Defectos Muestra Defectos Muestra Defectos
1 8 10 7 19 7
2 9 11 6 20 8
3 5 12 4 21 18
4 8 13 7 22 6
5 5 14 6 23 9
6 9 15 14 24 10
7 9 16 6 25 5
8 11 17 4
9 8 18 11 Total 200
Paso 1: Grafique el número de defectos.
Paso 2: Calcule la media de defectos por muestra.
200
c= =8
25
Paso 3: Calcule los límites de control.
LCS c = c + 3 c = 8 + 3 8 = 16,5
LCI c = c − 3 c = 8 − 3 8 = 0
El límite inferior saldría negativo, por lo que toma el valor cero.
Sobre el gráfico de número de defectos trazado en el paso 1 (figura 15.25), trace líneas horizon-
tales que representen los límites de control que acaba de calcular. Verifique que no haya ningún
punto más allá de los límites de control. En este caso se encuentra un punto por encima del lími-
te superior; por lo tanto aún no se puede instalar este gráfico de control.
230 Herramientas estadísticas para mejorar la calidad de los procesos

20

18
LCS = 16,5
16

14
Número de defectos

12

10
Media = 8
8

2
LCI = 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Figura 15.25. Gráfico de control de número de defectos del ejemplo 6.

Paso 4: Elimine el punto que está fuera de los límites y recalcule la media de defectos por
muestra y los límites de control.
182
c= = 7,583
24
LCS c = c + 3 c = 7,583 + 3 7,583 = 15,84
LCI c = c − 3 c = 7,583 − 3 7,583 = 0
18
LCS = 15,84
16

14

12
Número de defectos

10
Media = 7,58
8

2
LCI = 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Figura 15.26. Gráfico de control de número de defectos (corregido) del ejemplo 6.

Como se puede apreciar en la figura 15.26, ya no hay ningún punto fuera de los nuevos límites
de control, y se puede constatar que no hay ninguna irregularidad. Se concluye que sí se puede
instalar este gráfico de control.
Ejemplo 7: *
Una empresa que ensambla piezas electrónicas ha registrado las desconexiones halladas en una
prueba. Se inspeccionaron muestras de 15 piezas, de 25 lotes consecutivos, encontrándose los
Herramientas estadísticas para mejorar la calidad de los procesos 231

números de defectos que se muestran en la siguiente tabla. Elabore un gráfico de control de de-
fectos por unidad.
Defectos Defectos Defectos
Muestra Defectos Muestra Defectos Muestra Defectos
por unidad por unidad por unidad
1 17 1,13 10 18 1,20 19 23 1,53
2 14 0,93 11 25 1,67 20 22 1,47
3 6 0,40 12 5 0,33 21 9 0,60
4 23 1,53 13 8 0,53 22 15 1,00
5 5 0,33 14 11 0,73 23 20 1,33
6 7 0,47 15 18 1,20 24 7 0,47
7 10 0,67 16 13 0,87 25 24 1,60
8 19 1,27 17 22 1,47
9 29 1,93 18 6 0,40 Total 376

Si se emplease un gráfico de control de número de defectos como en el ejemplo 6, se tendría el


inconveniente que el número de defectos en cada pieza es muy bajo o cero, es decir, se tendría
que controlar una variable que toma valores cero, uno o dos. Mucho más práctico resulta contro-
lar una variable que toma valores mayores, o valores promedio.

Paso 1: Grafique el número de defectos por unidad.


Paso 2: Calcule la media de defectos por unidad para el total de muestra.
376
µ= = 1,003
25 ×15
Paso 3: Calcule los límites de control
LCS µ = µ + 3 µ / n = 1,003 + 3 1,003 / 15 = 1,77

LCI µ = µ − 3 µ / n = 1,003 − 3 1,033 / 15 = 0,23

Sobre el gráfico de número de defectos trazado en el paso 1 (figura 15.27), trace líneas horizon-
tales que representen los límites de control que acaba de calcular. Verifique que no haya ningún
punto más allá de los límites de control.
2.5

2
Número de defectos por unidad

LCS = 1,77

1.5

Media = 1,003
1

0.5
LCI = 0,23

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Figura 15.27. Gráfico de control de defectos por unidad del ejemplo 7.

En este caso se encuentra un punto por encima del límite superior; por lo tanto aún no se puede
instalar este gráfico de control.
232 Herramientas estadísticas para mejorar la calidad de los procesos

Paso 4: Elimine el punto que está fuera de los límites y recalcule la media de defectos por uni-
dad y los límites de control.
347
µ= = 0,964
24 ×15

LCS µ = µ + 3 µ / n = 0,964 + 3 0,964 / 15 = 1,72

LCI µ = µ + 3 µ / n = 0,964 − 3 0,964 / 15 = 0,20

1.8 LCS = 1,72

1.6
Número de defectos por unidad

1.4

1.2
Media = 0,964
1

0.8

0.6

0.4
LCI = 0,20
0.2

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Figura 15.28. Gráfico de control de defectos por unidad (corregido) del ejemplo 7.

Como se aprecia en la figura 15.28, ya no hay ningún punto fuera de los nuevos límites de con-
trol, y se puede constatar que no hay ninguna irregularidad. Se concluye que se puede instalar
este gráfico de control.
(*) Ejemplos extraídos del curso de Herramientas Estadísticas para el mejoramiento de procesos dictado por el
Ing. Federico Salvador en la Sociedad Nacional de Industrias del Perú.

15.4 Muestreo de aceptación


Es el proceso de evaluación o inspección de una muestra extraída de un lote de productos, con el
propósito de juzgar la calidad del lote completo y tomar la decisión de aceptarlo o rechazarlo.
Las ventajas del muestreo de aceptación respecto a la inspección del lote completo son:
• Es más económico inspeccionar una parte del lote, a pesar del costo del diseño y administra-
ción de los planes de muestreo.
• Es menos complejo y menos costoso administrar grupos pequeños de inspectores.
• Existe menor daño a los productos, si es el caso.
• Se dispone del lote más rápidamente.
• Se minimiza el problema de la monotonía y de los errores de inspección, que suelen aumen-
tar cuando se inspecciona el 100% del lote.
• El rechazo de los lotes no conformantes tiende a apremiar a las organizaciones a que bus-
quen medidas preventivas.
Las desventajas del muestreo de aceptación son:
• Trae consigo dos riesgos: cometer el error tipo I y cometer el error tipo II.
Herramientas estadísticas para mejorar la calidad de los procesos 233

• Mayores costos administrativos.


• Menor información sobre el producto.
Conviene usar el muestreo de aceptación en las siguientes situaciones:
• Cuando el costo de la inspección es alto respecto al costo del daño que resulta al aceptar
productos defectuosos.
• Cuando la inspección es muy monótona y/o causa errores de inspección.
• Cuando la inspección es destructiva.
Evidentemente no vale la pena usar el muestreo de aceptación cuando el fabricante tiene una
certificación de calidad.
Es importante conocer los límites del muestreo de aceptación. Una manera práctica de hacerlo es
aclarando lo que no hace:
• No proporciona estimaciones depuradas de la calidad de un lote.
• No proporciona juicios sobre el producto rechazado respecto a si es adecuado para el uso.

15.4.1 Análisis económico de la inspección.


Para evaluar lotes de productos se cuenta con las siguientes alternativas:
No inspeccionar: no conviene inspeccionar ninguna unidad de un lote cuando laboratorios califi-
cados han hecho inspecciones anteriores sobre el mismo lote, ya sea en otras divisiones de la misma
empresa o en la empresa del proveedor.
Muestreo pequeño: conviene inspeccionar muestras pequeñas cuando un proceso es inherente-
mente uniforme y cuando se puede preservar el orden de la producción. Por ejemplo, en algunas ope-
raciones de impresión, las placas se hacen de manera que tengan un alto grado de estabilidad. Como
resultado de esto, las impresiones sucesivas hechas con estas placas tienen un alto grado de uniformi-
dad para ciertas características dimensionales. Para tales características, si la primera y la última uni-
dad del lote están correctas, todo el resto estará también correcto, aun para lotes de miles de unidades.
Además, conviene inspeccionar muestras pequeñas cuando el producto es homogéneo debido a su
fluidez (gases y líquidos) o debido a operaciones anteriores de mezclado. Una vez comprobado el
hecho de la homogeneidad, el muestreo que se necesita es mínimo.
Muestreo: conviene inspeccionar muestras grandes cuando la información sobre la calidad de un
lote debe derivarse únicamente a partir del muestreo. El tamaño de la muestra depende principalmente
de dos variables: el porcentaje tolerable de productos defectuosos y los riesgos que se está dispuesto a
correr. El muestreo suele ser la mejor alternativa cuando se alternan lotes de alta y baja calidad, o
cuando el proceso de producción está fuera de control.
Inspeccionar todo el lote: Conviene inspeccionar el 100% de un lote cuando los resultados del
muestreo indican que el nivel actual de defectos es demasiado alto para que el lote se envíe a los clien-
tes o cuando la inspección es muy barata y rápida (automática).
Para determinar cuál de estas alternativas de inspección es la que conviene en determinadas si-
tuaciones, es necesario estimar los costos que genera la inspección. Sean:
N = el número de artículos del lote.
n = el número de artículos de la muestra.
p = la proporción de artículos defectuosos del lote.
D = el costo de los daños en que se incurre si un artículo defectuoso pasa la inspección.
I = el costo por inspeccionar un artículo.
Pa = la probabilidad de que un lote sea aceptado por el plan de muestreo.
Los costos esperados para cada alternativa de inspección serán entonces:
– Por no inspeccionar: NpD
– Por muestrear: nI + (N – n)pDPa + (N – n)(1 – Pa)I
– Por inspeccionar el 100%: NI
234 Herramientas estadísticas para mejorar la calidad de los procesos

Lógicamente, se escogería la alternativa que dé el menor costo.


Se asume que el costo por reemplazar un artículo defectuoso encontrado en la inspección lo cu-
bre el fabricante, o que resulta muy pequeño comparado con el daño o inconveniente causado por el
defecto.

15.4.2 Riesgos del muestreo.


El muestreo siempre involucra el riesgo de que la muestra no refleje el contenido del lote. Evi-
dentemente, mientras más grande sea la muestra, menor será este riesgo; pero las muestras grandes
suelen ser costosas en tiempo y dinero. Los riesgos que se corre con el muestreo son dos:
• Rechazar un lote “bueno”, es decir, rechazar un lote que sí cumple la norma de calidad.
A este riesgo se le llama riesgo del productor, pues quien resulta perjudicado ante este error es
el productor. También se le conoce como error tipo I. A la probabilidad de cometer el error ti-
po I se le denomina α.
• Aceptar un lote “malo”, es decir, aceptar un lote que no cumple la norma de calidad.
A este riesgo se le llama riesgo del consumidor, pues quien resulta perjudicado ante este error
es el consumidor. También se le conoce como error tipo II. A la probabilidad de cometer el
error tipo II se le denomina β.
Que un lote cumple la norma de calidad significa que el porcentaje de unidades defectuosas es
menor o igual al que especifica el productor.
Ejemplo:
Un productor asegura que el porcentaje de unidades defectuosas en su fábrica no supera el 2%.
Un cliente toma una muestra de 300 unidades para decidir si acepta un lote muy grande del pro-
ductor. ¿Qué porcentaje de unidades defectuosas tendría que encontrar en la muestra para re-
chazar el lote? Considere α = 5%.
H0: p ≤ 0,02
H1: p > 0,02

P1
p = 0,02 p1*

Región de aceptación Región de rechazo


Para determinar el límite entre las regiones de aceptación y rechazo:
1
p1 * − 0,02 −
2(300)
z * =1,645 =
0,02 × 0,98
300

p1* = 0,035 = 3,5% ⇒ x* = 300(0,035) = 10,5


Herramientas estadísticas para mejorar la calidad de los procesos 235

Por lo tanto, se rechazará el lote cuando en la muestra haya 11 ó más unidades defectuosas, es
decir, cuando el porcentaje de unidades defectuosas sea 11/300 = 3,66% ó más.
Si realmente el lote tuviese un 5% de unidades defectuosas. ¿Cuál sería la probabilidad de acep-
tar el lote? (Se dice que un lote con esta característica no está cumpliendo con la norma de cali-
dad, o que no es conformante).
Se aceptará ese lote cuando el porcentaje de unidades defectuosas de la muestra “caiga” en la
región de aceptación:

10 1
− 0,05 +
300 2(300) ⇒ β = 0,1170
z= = − 1,192
0,05 × 0,95
300
La probabilidad de aceptar el lote con 5% de unidades defectuosas (creyendo que tiene 2% de
unidades defectuosas) será 0,1170.

15.4.3 Plan de muestreo


Un plan de muestreo es un conjunto de lineamientos específicos elaborados para examinar un lo-
te de productos, con el propósito de aceptarlo o rechazarlo. Esta decisión dependerá de la calidad de la
muestra tomada.
Para definir un plan de muestreo se emplean los siguientes parámetros:
n = tamaño de la muestra.
c = número de aceptación, es decir, el máximo de artículos defectuosos permitido en la mues-
tra para aceptar el lote.
N = tamaño del lote.

15.4.4 Curva característica de operación (Curva CO)


Es una curva que muestra, para un plan de muestreo determinado y para valores hipotéticos de la
proporción de artículos defectuosos, la probabilidad de que el lote sea aceptado.
Curva CO ideal:
Si se diseñara un plan de muestreo ideal, se eliminarían los riesgos del fabricante y del consumi-
dor. Esto sólo sería posible si se inspeccionase el 100% del lote, es decir, si n = N.
Supóngase que se decide aceptar un lote si éste cumple con lo especificado por el productor, es
decir, si son defectuosos p0 % de los artículos o menos; y rechazar el lote en caso contrario. En la figu-
ra 15.29 se muestra la curva CO ideal para esta situación.

PA

p0 p

15.29 Curva característica de operación ideal


Como se ve en la figura 15.29, sólo se aceptará un lote si el porcentaje de artículos defectuosos
es 1% ó menos. Por lo tanto, la probabilidad (Pa) de aceptar un lote con 1% ó menos de artículos de-
236 Herramientas estadísticas para mejorar la calidad de los procesos

fectuosos es 1. En cambio, la probabilidad (Pa) de aceptar un lote con más del 1% de artículos defec-
tuosos es 0.
Curva CO real:
Cuando un lote sí cumple la norma de calidad, es decir, cuando se cumple la hipótesis nula, cabe
la posibilidad de que sea rechazado. La probabilidad de que esto ocurra (α) es cero si p = 0; pero α
comienza a aumentar conforme aumenta p. Por lo tanto, Pa comienza a disminuir desde 1, tal como se
muestra en la figura 15.30.

PA

1
α

β = 0,10

p0 = NCA NCL

Figura 15.30. Curva característica de operación

En la curva CO real se identifican dos puntos característicos:


• NCA: Nivel de calidad aceptable.
Es el máximo valor de p que se debería aceptar, es decir, el máximo valor de p que anuncia
el fabricante. La probabilidad de rechazar este nivel de calidad es α.
• NCL: Nivel de calidad límite.
Es el nivel de calidad que sería mejor no aceptar. La probabilidad de aceptar este nivel es β,
y suele establecerse en 0,10.
Trazo de la curva CO:
Para trazar la curva CO de un plan de muestreo se calculan algunos pares de valores Pa , p.
Para calcular Pa , en caso que el lote sea lo suficientemente grande (N >> n) como para asumir
que el porcentaje de artículos defectuosos se mantiene constante a medida que se extrae cada unidad
de la muestra, se puede usar la fórmula de probabilidad binomial:
c
 n
Pa = P( x ≤ c) = ∑  x  p
x =0
x
q n− x

Si n es grande y p muy pequeño, puede resultar buena la aproximación de las probabilidades bi-
nomiales a probabilidades de Poisson. En el apéndice se presenta una tabla con probabilidades Pa (de
Poisson) para determinados valores de np y c (página 271).
Si np>5 y nq>5; se puede aproximar la distribución binomial a la distribución normal.
Forma de la curva CO:
En un plan de muestreo es importante que los riesgos de muestreo sean lo menor posible, es de-
cir, que se consigan los valores típicos de α y β : 0,05 y 0,10, respectivamente, para el NCA que anun-
cia el productor y para un valor de NCL que no perjudique al consumidor.
Si se aumenta el número de aceptación c en un plan de muestreo, manteniendo constante el valor
de n, lógicamente aumentará la probabilidad de aceptación, como se muestra en la figura 15.31.
Herramientas estadísticas para mejorar la calidad de los procesos 237

1.00

0.90

0.80

0.70
Probabilidad de aceptación

0.60

0.50

0.40

0.30
c=0 c=1 c=2 c=3 c=4 c=5
0.20

0.10

0.00
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60

Figura 15.30. Curvas CO para n constante

Si se aumenta el tamaño de la muestra n en un plan de muestreo, manteniendo constante el valor


de c, lógicamente disminuirá la probabilidad de aceptación, como se muestra en la figura 15.31.

1.00

0.90

0.80

0.70
Probabilidad de aceptación

n = 60
0.60 n = 50
n = 40
0.50 n = 30
n = 20
0.40

0.30

0.20

0.10

0.00
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40

Figura 15.30. Curvas CO para c constante

En conclusión, para elegir un buen plan de muestreo se debe escoger una adecuada combinación
del número de aceptación c y del tamaño de la muestra n. Dado un valor de NCA y definido un valor
de β, se debe elegir un plan de muestreo que haga que α y NCL sean tan pequeños como se desee.
238 Herramientas estadísticas para mejorar la calidad de los procesos

Problemas propuestos.
1. Una empresa de manufactura recibe componentes de un proveedor, cuyas dimensiones ha repre-
sentado mediante el histograma de la siguiente figura:
LEi LEs

Según se aprecia, el proveedor sólo envía los componentes que cumplen con las especificaciones
establecidas, descartando los defectuosos. ¿Qué ventajas puede tener la empresa si exige a su pro-
veedor que centre el proceso?
a) Ninguna, pues lo que importa es que cumpla con las especificaciones.
b) Puede exigir precios más bajos a su proveedor.
c) Puede ahorrarse los costos de inspección.
d) Todas las respuestas anteriores son correctas, excepto (a).
e) No se puede saber, pues faltan datos.
2. Suponga que usted es el gerente de una empresa que fabrica discos metálicos recubiertos con plás-
tico. El jefe de producción tiene una muestra que fue extraída durante 3 días de producción. En la
siguiente figura se muestra el histograma que representa dicha muestra. ¿Qué le diría al jefe de
producción?

Espesor del recubrimiento


12 20 28 36 44 (milésimas de pulgada)

3. Una empresa, que quiere analizar las ventas de sus productos en esta campaña navideña, ha toma-
do datos de las ventas (en soles) realizadas en sus dos tiendas durante este mes de diciembre. Para
hacer un mejor análisis, ha construido el siguiente histograma:

Venta

¿Qué comentarios puede hacer al respecto?


4. Un fabricante de un compuesto está preocupado por la densidad de su producto. Análisis previos
han demostrado que dicho compuesto tiene las características requeridas sólo si la densidad se en-
cuentra entre 5,40 g/cm2 y 6,02 g/cm2. Si una muestra de 100 piezas da un promedio de 5,69 g. y
una desviación estándar de 0,1 g. ¿Se puede afirmar que su proceso es capaz? ¿Qué recomendaría
al jefe de producción?
Respuesta: no es capaz, pues cpk = 0,967. Convendría centrar el proceso, y más aún, reducir la va-
riabilidad del proceso.
Herramientas estadísticas para mejorar la calidad de los procesos 239

5. Se afirma que un proceso cuya tolerancia es de ±45 mm. no es capaz, a pesar de que la desviación
estándar es igual a 13,11 mm. ¿Es posible esto?
6. ¿Cómo cree que debería ser el histograma de la longitud de los trozos de madera de desecho en un
taller de carpintería?
Respuesta: con sesgo positivo; esto revelaría que se desechan pocos trozos grandes.
7. Explique qué implicaría calcular el índice de capacidad de un proceso si se emplea 8σ en vez de
6σ.
Respuesta: Empleando 8σ se mediría un índice de capacidad menor; por lo tanto se estaría siendo
más estricto al valorar qué tan capaz es un proceso.
8. Las especificaciones para cierta dimensión de un producto elaborado mediante un proceso son:
3,000 ± 0,006 pulgadas. Una muestra grande indica un promedio de 2,998 pulgadas y una desvia-
ción estándar de 0,002 pulgadas. Suponga que se puede ajustar el proceso, con un gasto de $750,
para cambiar el promedio a la especificación nominal, es decir, a 3,000 pulgadas. Cada producto
fuera de los límites de especificación significa una pérdida de $5.
a) Determine en cuánto mejora el índice de capacidad del proceso si se hace el ajuste especifica-
do.
Respuesta: mejora en 0,3333
b) Si se hace el ajuste del proceso para producir un lote de 10 000 unidades, ¿se lograría un aho-
rro?
Respuesta: Sí, se espera ahorrar $254,10.
9. Conteste verdadero (V) o falso (F).
a) El muestreo de aceptación determina si un proceso funciona correctamente.
b) Un proceso productivo que está bajo control suele generar histogramas simétricos.
c) Si se van obteniendo puntos fuera de los límites de control, es casi seguro que no se cumpla
con los límites de especificación.
d) Para detectar posibles fallas en un proceso conviene emplear los gráficos de control en lugar
de estudiar la capacidad del proceso.
e) β es la probabilidad Pa cuando la proporción de productos defectuosos es indeseable.
f) α es la probabilidad (1 – Pa) cuando la proporción de productos defectuosos no corresponde
con la especificada por el productor.
10. Se observa que el gráfico de medias aritméticas de un proceso ha estado bajo control. Si el rango
disminuye repentina y significativamente, entonces la media:
a) siempre aumentará.
b) se mantendrá igual.
c) siempre disminuirá.
d) ocasionalmente hay una indicación de fuera de control para cualquiera de los límites.
e) ninguno de los anteriores.
11. En la siguiente tabla se presentan medidas extraídas de 13 lotes producidos sucesivamente. De ca-
da lote se ha extraído una muestra de 5 medidas. Trace los gráficos de control de media, mediana y
de rangos, y comente los resultados obtenidos.

Lote N° 1 2 3 4 5 6 7 8 9 10 11 12 13
47 19 13 29 28 40 15 25 37 23 28 31 22
Valores 32 37 31 29 12 35 30 44 37 45 44 25 37
medidos 44 31 24 42 45 11 12 32 26 26 40 24 19
35 25 46 59 36 38 33 11 20 37 31 32 47
20 34 44 38 25 33 26 38 35 32 18 22 14
240 Herramientas estadísticas para mejorar la calidad de los procesos

12. Se desea controlar el proceso de llenado de bolsitas con cocoa, mediante gráficos de control me-
dia–desviación estándar, para lo cual se han tomado muestras de seis bolsitas durante 20 horas
consecutivas, como se muestra en la siguiente tabla. Determine si se pueden instalar dichos gráfi-
cos de control.
Hora
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
74,86 74,84 73,82 75,15 74,79 75,18 75,46 74,91 76,49 74,45 75,93 75,03 74,70 75,40 74,27 74,44 74,69 75,41 74,44 75,12
76,31 74,95 73,91 74,67 75,87 74,79 74,09 74,78 74,40 75,25 74,34 74,51 75,26 74,17 75,50 74,83 73,71 75,40 75,05 75,08
76,08 75,60 76,62 74,87 74,35 74,82 75,27 74,95 75,37 75,28 73,62 75,56 74,74 74,78 75,68 74,37 75,80 74,57 75,21 74,44
75,84 74,96 74,90 74,93 75,17 74,55 75,11 76,32 75,29 75,25 74,93 75,15 75,94 74,01 75,03 74,77 75,09 74,43 74,21 73,94
74,78 75,16 75,63 73,90 75,46 76,17 75,31 75,03 75,48 74,36 75,84 74,89 75,38 74,16 74,68 74,09 74,36 74,79 73,43 75,41
74,94 74,65 73,73 74,77 75,52 74,95 75,87 74,76 75,43 75,40 75,58 76,14 74,73 74,95 74,32 74,32 75,63 75,67 74,17 75,99

Respuesta: no se pueden instalar, pues hay una racha de 9 puntos en el gráfico de medias.
13. Una biblioteca universitaria considera que ordenará entre 200 y 400 libros cada mes. Se han ras-
treado las órdenes de los últimos 23 meses, con los siguientes resultados:

1 2 3 4 5 6 7 8 9 10 11 12
275 335 336 363 319 400 376 245 240 300 210 363
13 14 15 16 17 18 19 20 21 22 23
368 325 400 491 500 400 175 297 170 271 250

a) ¿El proceso de órdenes se encuentra bajo control?


b) ¿El proceso de órdenes cumple con las especificaciones?
14. El jefe de una biblioteca universitaria quiere medir y controlar el nivel de satisfacción de los alum-
nos usuarios respecto a la rapidez con que se les entrega los libros para préstamo. Para esto ha en-
cuestado diariamente a 10 alumnos que salían de la biblioteca con algún libro prestado, durante 22
días del mes pasado, pidiéndoles que escojan una alternativa para la siguiente afirmación:
“Usted considera que la rapidez con que se le ha entregado el libro que ha solicitado es”:
1) Muy baja. 2) Baja. 3) Ni baja ni alta. 4) Alta. 5) Muy alta.
A cada una de estas respuestas se les da el puntaje 1, 2, 3, 4, 5, respectivamente. De esta manera,
un promedio alto indicará un alto nivel de satisfacción de los usuarios.
En la siguiente tabla se muestran los promedios de los puntajes obtenidos durante los 22 días.
Días
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
3 1 2 1 3 2 1 1 1 1 1 2 1 1 1 1 1 1 1 2 1 2
4 1 1 3 1 1 1 1 2 1 2 1 2 1 1 2 3 2 1 2 1 2
2 2 2 3 1 2 2 4 5 2 2 2 3 1 1 1 4 1 3 1 3 5
1 3 1 1 3 1 3 1 1 1 1 1 3 3 3 3 1 4 2 2 2 4
2 3 2 1 1 1 2 1 3 1 1 1 2 5 2 1 1 3 1 1 1 1
1 3 3 1 3 1 2 4 5 2 2 2 2 1 4 1 3 2 1 1 1 1
2 2 1 1 3 1 1 3 2 2 2 3 3 1 1 1 4 1 2 1 2 2
3 4 2 2 1 2 3 1 2 1 1 2 4 1 1 2 5 3 2 1 2 3
1 2 1 1 4 2 2 2 1 1 3 1 1 2 4 4 3 4 1 1 3 1
2 1 3 1 2 2 4 3 2 1 1 5 1 2 2 2 1 2 2 1 2 1
Determine si se pueden instalar gráficos de control media–rango.
15. Una distribuidora recibe diariamente paquetes de 400 tuercas de un fabricante, que luego vende a
ferreterías locales. El porcentaje de tuercas defectuosas es, en promedio, 2,75%.
a) ¿En qué rango puede considerarse estadísticamente aceptable la variación del porcentaje de
tuercas defectuosas?
Herramientas estadísticas para mejorar la calidad de los procesos 241

b) ¿En qué rango puede considerarse estadísticamente aceptable la variación del número de tuer-
cas defectuosas?
16. ¿Qué haría si, luego de tomar datos para instalar un gráfico de control de una variable de calidad:
a) tres puntos se encuentran fuera de los límites de control?
b) dos puntos se encuentran fuera de los límites de control?
c) hay una racha?
17. ¿Por qué es más pequeña la distancia entre los límites de control de un gráfico de control de me-
dias, que la distancia entre los límites de especificación?
18. ¿Cuándo conviene instalar un gráfico de control de proporción de unidades defectuosas en vez de
número de unidades defectuosas? ¿Cuándo conviene instalar un gráfico de control de número de
defectos en vez de número de defectos por unidad?
19. Se toman muestras de n = 8 de un proceso de manufactura a intervalos regulares. Se mide cierta
característica de calidad (distribuida normalmente) y se calculan los valores de x y R para cada
muestra. Después de 50 muestras se tiene:
50 50

∑x
i =1
i = 1000 ; ∑R
i =1
i = 250

a) Calcule los límites de control para los gráficos de control de medias y de rangos.
Respuesta: LC x = 20 ± 1,865; LCIR = 0,68; LCSR = 9,32.
b) Si los límites de especificación son: 21 ± 5,0. ¿Cuál es su conclusión acerca de la capacidad
del proceso?
Respuesta: el proceso no es capaz, pues cpk = 0,785.
20. Un plan de muestreo n = 25; c = 0 para un lote muy grande implica un alto riesgo para un produc-
tor que afirma que tiene un máximo de 2% de productos defectuosos.
a) Explique por qué y determine dicho riesgo.
b) ¿Qué porcentaje de defectuosos tendría que afirmar que tiene el productor para que su riesgo
no supere el 10%?
21. Una empresa recibe lotes de 1 000 productos, los cuales se pueden inspeccionar a $0,70/unidad. Si
acepta material defectuoso, se incurre en un costo de $14 /unidad. Se propone un plan de muestreo
n = 75; c = 2. Si el porcentaje de productos defectuosos es aproximadamente 2,2%, ¿se justifica el
plan de muestreo?
22. Defina un plan de muestreo con n = 100 para un lote muy grande enviado por un productor que
afirma que p = 0,02; tratando que el riesgo del productor no supere el 10% y el nivel de calidad
límite sea el menor posible. Determine además el nivel de calidad límite. Considere el valor usual
de β = 0,10.
Respuesta: n = 100; c = 4; NCL = 0,0797.
23. Un fabricante vende su producto en lotes grandes a un cliente que utiliza un plan de muestreo n =
180, c = 2. Si un lote es rechazado se regresará al fabricante, quien ha decidido arriesgarse y en-
viar el mismo lote rechazado al cliente, sin revisarlo, con la esperanza de que la segunda vez el
muestreo lo lleve a aceptar el lote. ¿Cuál es la probabilidad de que esto ocurra, es decir, de que un
lote sea rechazado y luego aceptado, si p = 0,02?
24. ¿Cómo influye la pendiente de la curva CO en la protección para el productor y para el consumi-
dor?
25. Se establece el siguiente plan de muestreo: n = 250; c = 5.
a) Determine NCA si el riesgo del productor es 0,025.
Respuesta: 0,88%
b) Determine NCA si el riesgo del productor es 0,05.
Respuesta: 1,04%
242 Herramientas estadísticas para mejorar la calidad de los procesos

26. La probabilidad de aceptar un producto con un nivel de calidad aceptable se define como:
a) NCA
b) α
c) β
d) 1–α
e) 1–β
27. Defina un plan de muestreo con n > 100 para un lote muy grande enviado por un fabricante que
afirma que p = 3%, tratando que el riego del productor esté entre el 5% y el 10% y el nivel de cali-
dad límite no supere el 9%.
28. Para calificar la bondad de un plan de muestreo debe tenerse en cuenta:
a) NCA y c
b) NCA
c) NCA y NCL
d) NCL y β
29. Un fabricante nacional de equipo de navegación compra partes de una compañía alemana, en lotes
de 5 000 unidades. El fabricante planea un muestreo de 50 piezas por lote.
a) Construya la curva CO para c = 0; 2 y 5.
b) Determine α y NCL en cada caso, si NCA = 0,02 y β = 0,10.
30. Determine Pa para un plan de muestreo n = 110; c = 3 para lotes muy grandes con:
a) 1% de productos defectuosos.
Respuesta: 0,974
b) 2% de productos defectuosos.
Respuesta: 0,580
c) 5% de productos defectuosos.
Respuesta: 0,058208
Teoría de decisiones 243

Capítulo 16. Teoría de decisiones.


16.1 Introducción.
En todas las empresas, fábricas, tiendas, etc., se toman decisiones continuamente. Se tiene que
decidir, por ejemplo:
• Cuántas horas-hombre contratar el próximo mes.
• Cuánto gastar en publicidad de un producto el próximo año.
• Cuántas mochilas comprar para la campaña escolar.
• Si conviene introducir un nuevo producto en el mercado.
• Si conviene comprar una máquina para elaborar un componente de un producto final, o seguir
comprando el componente a un proveedor.
• Si conviene reemplazar o reconstruir un equipo.
En cada uno de estos ejemplos se ve que son posibles dos o más cursos de acción. Generalmente
las decisiones se toman con base en la intuición de personas expertas; pero existe el peligro de equivo-
carse por no hacer un análisis profundo de las decisiones posibles y sus consecuencias.

16.2 Definiciones

16.2.1 Decisor
Es un ente individual o colectivo capaz de tomar decisiones. Se asocia al decisor un conjunto de
decisiones posibles {ai}.

16.2.2 Alternativas de decisión


Es el conjunto de decisiones o acciones {ai} entre las cuales el decisor debe elegir una.

16.3 Estados de la naturaleza


Son las circunstancias que influyen en el beneficio que va a recibir el decisor y sobre los cuales
él no puede influir. A los distintos estados de la naturaleza se les denomina {bj}.
Según el conocimiento que se tenga de los posibles estados de la naturaleza, se puede tener:

16.3.1 Ambiente de certeza


Cuando el decisor conoce perfectamente el estado de la naturaleza para la decisión que tome.

16.3.2 Ambiente de riesgo


Cuando no se dispone de información perfecta como el caso anterior, pero se conocen las proba-
bilidades de ocurrencia de los diferentes estados de la naturaleza. En este capítulo se analizarán situa-
ciones de este tipo.

16.3.3 Ambiente de incertidumbre


Cuando no se dispone de ninguna información sobre las probabilidades con que pueden ocurrir
los estados de la naturaleza. El decisor debe elaborar un criterio que dependerá mucho de su criterio
particular.
244 Teoría de decisiones

16.3.4 Ambiente de competencia


Cuando influyen causas promovidas por otro decisor, pudiendo sus decisiones influir negativa-
mente en el beneficio. Esto significa que lo que suponga un beneficio para un decisor, será un perjui-
cio para el otro. La teoría de juegos, que es parte de la Investigación de Operaciones, se encarga de
analizar situaciones como ésta.

16.4 Consecuencias
Son los resultados asociados a cada acción. Dependen de la decisión que tome el decisor y del
estado de la naturaleza que se presente. No está demás aclarar que un estado de la naturaleza se pre-
sentará después de que el decidor haya escogido una acción.
A los resultados se les suele cuantificar con un valor (vij), que representa el costo o beneficio que
se obtiene cuando se toma la decisión i y ocurre el estado de la naturaleza j.
En la siguiente tabla se pueden identificar los conceptos ya explicados:
Estados de la naturaleza
b1 b2 … … bn
a1 v11 v12 v1n
a2 v21 v22 V2n
Alternativas
...
de decisión
...
am vm1 vm2 vmn

16.5 Criterios de decisión


Para una mejor comprensión de los criterios de decisión que se pueden adoptar, se aplicará cada
uno de éstos al ejemplo 1. El lector debe decidir cuál de los criterios le conviene emplear, lo cual de-
penderá de la situación específica que se presente y de su nivel de aversión al riesgo.
Ejemplo 1:
Diariamente, un vendedor de periódicos (se puede suponer cualquier producto perecedero) debe
decidir cuántos periódicos comprar. Cada periódico lo compra a S/.2 y lo vende a S/.2.50. Los
periódicos que no vende durante el día los pierde. Por experiencia, ha encontrado que puede
vender entre 6 y 10 periódicos, con la misma probabilidad de ocurrencia. ¿Cuántos periódicos le
conviene comprar cada día?
En la siguiente tabla se representan los posibles beneficios de este problema de decisión, que se
calculan fácilmente a partir de los datos:
Posible demanda
6 7 8 9 10
6 3 3 3 3 3
7 1 3,50 3,50 3,50 3,50
Posible
8 -1 1,50 4 4 4
pedido 9 -3 -0,50 2 4,50 4,50
10 -5 -2,50 0 2,50 5

16.5.1 Criterio Maximin


Es un criterio muy pesimista. Elige la acción que maximiza el peor resultado; es decir, de los
peores resultados de cada acción posible, se escoge el mejor. Así se asegura que, en el peor de los ca-
sos, el resultado sea lo mejor posible.
Aplicando este criterio al ejemplo 1, habría que escoger el mayor beneficio entre los menores
de cada pedido posible: 3, 1, -1, -3 y -5. El mayor es 3; por lo tanto se pedirían 6 periódicos.
Teoría de decisiones 245

16.5.2 Criterio Maximax


Es un criterio muy optimista. Elige la acción que determina el mejor resultado entre los mejores
de cada acción posible.
Aplicando este criterio al ejemplo 1, habría que escoger el mayor beneficio entre los siguientes:
3; 3,50; 4; 4,50; 5. El mayor es 5; por lo tanto se pedirían 10 periódicos.

16.5.3 Criterio realista


Es un criterio que se sitúa entre el optimismo del criterio maximax y el pesimismo del criterio
maximin. El decisor debe elegir un coeficiente de optimismo (α) comprendido entre 0 y 1. Así, para
cada acción posible, la medida de realismo será:
r = α (beneficio máximo) + (1 – α) (beneficio mínimo)
Como se trata de obtener el máximo beneficio posible, el decisor elegirá el mayor valor de r.
Aplicando este criterio al ejemplo 1, para α = 0,6:
r6 = 0,6 (3) + (1 – 0,6) (3) = 3 ⇐ mínimo
r7 = 0,6 (3,50) + (1 – 0,6) (1) = 2,50
r8 = 0,6 (4) + (1 – 0,6) (-1) = 2
r9 = 0,6 (4,50) + (1 – 0,6) (-3) =1,50
r10 = 0,6 (5) + (1 – 0,6) (-5) =1
Por lo tanto, se decide comprar 6 periódicos.

16.5.4 Criterio minimax del costo de oportunidad


Elige la acción que minimiza el mayor costo de oportunidad posible. El costo de oportunidad es
lo que se podría haber ganado adicionalmente si se hubiese elegido la mejor acción posible. Por ejem-
plo, si se piden 6 periódicos y la demanda es de 8 periódicos, la ganancia es de S/.3; pero, siendo la
demanda de 8 periódicos, si hubiese pedido 8 la ganancia hubiera sido S/.4. El costo de oportunidad
es: 4 – 3 = S/.1.
En resumen, este criterio trata de minimizar lo que se deja de ganar.
Para el ejemplo 1, la matriz de costos de oportunidad se puede calcular fácilmente:
Posible demanda
6 7 8 9 10
6 0 0,50 1 1,50 2
7 2 0 0,50 1 1,50
Posible
8 4 2 0 0,50 1
pedido 9 6 4 2 0 0,50
10 8 6 4 2 0

Aplicando este criterio, habría que escoger el menor costo entre los siguientes: 2 ,2 ,4 ,6 ,8; por
lo tanto pediría 6 ó 7 periódicos; pues en ambos casos el costo es mínimo: S/.2.

16.5.5 Criterio del valor esperado (de Bayes)


Elige la acción que produce la máxima ganancia esperada. Para el ejemplo 1, las ganancias espe-
radas para cada acción posible son:
G6 = 0,2(3) + 0,2(3) + 0,2(3) + 0,2(3) + 0,2(3) = 3
G7 = 0,2(1) + 0,2(3,50) + 0,2(3,50) + 0,2(3,50) + 0,2(3,50) = 3
G8 = 2,50
G9 = 1,50
G10 = 0
Aplicando este criterio, pediría 6 ó 7 periódicos.
246 Teoría de decisiones

16.5.6 Criterio del costo de oportunidad esperado


Elige la acción que produce el mínimo costo de oportunidad esperado. Para el ejemplo 1, los
costos de oportunidad esperados son:
C6 = 0,2(0) + 0,2(0.50) + 0,2(1) + 0,2(1,50) + 0,2(2) = 1
C7 = 1
C8 = 1,50
C9 = 2,50
C10 = 4
Aplicando este criterio, pediría 6 ó 7 periódicos.

16.5.7 Criterio de máxima verosimilitud


Elige el estado de la naturaleza que tiene la mayor probabilidad de ocurrencia, y, después, asu-
miendo que ocurrirá dicho estado, elige la acción que da el mayor beneficio.
En el ejemplo 1 no se puede aplicar este criterio, pues todos los estados de la naturaleza tienen la
misma probabilidad de ocurrencia.

16.6 Árboles de decisión


Las tablas de decisión elaboradas en el apartado anterior son muy útiles para representar pro-
blemas de una sola etapa. Existen problemas con dos o más etapas, en donde hay una sucesión de ac-
ciones y eventos, que conviene representar mediante árboles para poder hacer un mejor análisis.
A continuación se resuelve el ejemplo 2 empleando un árbol de decisión que se dibuja expresa-
mente para esa situación.
En los árboles se suele seguir el siguiente convenio tácito: las acciones posibles se ramifican a
partir de un cuadrado, y los estados de la naturaleza a partir de un círculo (ver figura 16.1).
Ejemplo 2:
Una editorial está considerando lanzar una revista mensual con artículos e información de inte-
rés para economistas y empresarios. Con base en su experiencia pasada y en sus percepciones, el
gerente de la editorial ha estimado las siguientes ganancias anuales (en soles), considerando tres
niveles distintos de demanda de su revista.
Si no edita la revista Si edita la revista
Demanda baja 0 –150 000
Demanda regular 0 50 000
Demanda alta 0 200 000

El gerente estima además que las probabilidades de estos tres niveles de demanda son:
P(baja) = 0,5; P(regular) = 0,2; P(alta) = 0,3
Además, el gerente pronostica que la competencia para su revista será muy grande, por lo que
piensa en la posibilidad de hacer un sondeo de mercado sobre la aceptación que tendrá su revis-
ta. Suponga que este sondeo, que le costaría S/.5 000 a la editorial, sólo indicará si el diagnósti-
co es favorable o si es desfavorable, con lo que se decidirá si editar o no la revista. Con base en
experiencias previas en relación a otras publicaciones, el gerente ha establecido las siguientes
probabilidades condicionales, dadas las posibles demandas:
P(diagnóstico favorable \ demanda baja) = 0,10
P(diagnóstico favorable \ demanda regular) = 0,60
P(diagnóstico favorable \ demanda pobre) = 0,90
¿Cuál es la mejor decisión para la editorial?
En la siguiente tabla se introducen las probabilidades dadas y se calculan las probabilidades
condicionales, procediendo tal como se explicó en 1.7.4 y 1.7.5.
Teoría de decisiones 247

Demanda baja Demanda regular Demanda alta


Diagnóstico favorable 5 12 27 44
Diagnóstico desfavorable 45 8 3 56
50 20 30 100
En la figura 16.1 se representa un árbol con todas las posibles decisiones, los posibles estados
de la naturaleza, sus probabilidades condicionales de ocurrencia y las ganancias esperadas de
los estados finales posibles. Por ejemplo, si el diagnóstico es favorable, se tendría una ganancia
de -155 000 soles.
D. baja
-155 000
5/44
D. regular
45 000
12/44
Editar
114 318,18 D. alta
27/44 195 000
Favorable

No editar
0,44
-5 000
114 318,18
D. baja
-155 000
45/56
Editar D. regular
Hacer 45 000
sondeo -5 000 8/56
0,56
-107 678,57 D. alta
3/56 195 000
47 500
Desfavorable

-5 000
No editar

D. baja
0 -150 000
0,50
No hacer Editar D. regular 50 000
sondeo 0,20

-5 000 D. alta
0,30 200 000

0
No editar

Figura 16.1. Árbol de decisión del ejemplo 2.


Nótese que la primera decisión que debe tomar el gerente de la editorial es si hace o no el son-
deo; esta decisión le ayudará a decidir luego si edita o no la revista, con base en el resultado del
sondeo. Además, en el árbol se han expresado las probabilidades condicionales calculadas a par-
tir de la tabla anterior, por ejemplo:
P(demanda baja \ diagnóstico favorable) = 5/44
P(demanda regular \ diagnóstico favorable) = 12/44
P(demanda pobre \ diagnóstico favorable) = 27/44
248 Teoría de decisiones

Una vez expresadas las probabilidades en el árbol, resulta fácil calcular las ganancias esperadas
para cada decisión, utilizando el criterio de Bayes. Con base en estas ganancias esperadas se de-
cide si editar o no editar, escogiendo la acción que dé la mayor ganancia. Por ejemplo, si el re-
sultado del sondeo es favorable, por editar la revista se espera ganar 114 318,18 soles y por no
editarla se espera perder 5 000 soles. Evidentemente se elige editarla. Siguiendo este mismo pro-
cedimiento se elige no editar la revista para el caso en que el diagnóstico sea desfavorable, con
una pérdida esperada de 5 000 soles. Como se conoce la probabilidad de que el sondeo dé un
diagnóstico favorable y que dé un diagnóstico desfavorable, aplicando el criterio de Bayes se
calcula la ganancia que se espera tener si se hace sondeo, que resulta 47 500. Siguiendo este
mismo procedimiento se llega a obtener la ganancia esperada si no se hace sondeo: cero.
Por lo tanto se decide hacer el sondeo, pues reporta mayor ganancia esperada. Si el sondeo da un
diagnóstico favorable, convendrá editar la revista; y si el diagnóstico es desfavorable, convendrá
no editarla.
Teoría de decisiones 249

Problemas propuestos
1. Un fabricante de discos está considerando varios métodos alternativos de expandir su producción
para adecuar una demanda creciente. A continuación se muestra una tabla de beneficios (en miles
de dólares) que le ha elaborado un consultor de empresas para los próximos 5 años. Diga qué deci-
sión tomaría siguiendo cada uno de los criterios: maximin, maximax, minimax del costo de opor-
tunidad, Bayes, costo de oportunidad esperado y máxima verosimilitud.
Demanda
DECISIÓN POSIBLE Alta Moderada Baja Nula
Expandir 500 250 -250 -450
Construir nueva planta 700 300 -400 -800
Subcontratar 300 150 -10 -100
PROBABILIDAD 0,25 0,40 0,30 0,05

2. El propietario de un terreno ha recibido una oferta de una compañía para explorar su terreno pues
es muy probable que haya petróleo. La oferta es de $450 000, con la posibilidad de recibir $500
000 más si encuentran petróleo y les cede los derechos de explotación. El propietario del terreno
piensa en la posibilidad de explorar él mismo, y ha averiguado que le costaría $100 000, los cuales
los perdería si no encuentra petróleo; pero si encuentra, sus ingresos serían de $1 300 000. Un ex-
perto ha estimado que la probabilidad de que haya petróleo es 0,6.
a) Diga qué decisión aconsejaría al propietario siguiendo cada uno de los siguientes criterios:
maximin, maximax, minimax del costo de oportunidad, Bayes, costo de oportunidad esperado,
máxima verosimilitud.
b) Supóngase que existe la posibilidad de realizar una prueba para estimar mejor la probabilidad
de que haya petróleo, con un costo de $20 000. La empresa que realiza estas pruebas acepta
que el 20% de las veces indica que no hay petróleo cuando sí hay; y que cuando no hay petró-
leo, la prueba lo indica el 90% de las veces. ¿Qué aconsejaría usted al propietario?
3. Daniel puede usar su lancha durante el verano para la pesca o puede alquilarla para recreación a
los veraneantes de La Punta, a $100 diarios. Cuando el clima es bueno, la alquila un promedio de
80 días; pero cuando el clima no es bueno, sólo la alquila un promedio de 55 días. Daniel ha calcu-
lado que por cada día de alquiler tiene unos gastos de $25. Cuando el clima es bueno, las utilida-
des de la pesca son en promedio $6 200. Cuando el clima no es bueno, la pesca le da un promedio
de $3 100 de utilidad. Para este verano, Daniel ha averiguado en un reporte meteorológico gratuito
que la probabilidad de tener buen clima es 0,70. Su amigo Alejo, que dirige un servicio privado de
pronóstico meteorológico afirma que en el 80% de las temporadas que hubo buen clima pronosticó
buen clima y en el 90% de las temporadas en que hubo mal clima pronosticó mal clima. ¿Cuánto
pagaría a Alejo por el pronóstico meteorológico para la temporada?
Respuesta: Pagaría menos de $81,25.
4. Fernando, un joven ingeniero, quiere construir un edificio con 10, 20 ó 30 habitaciones para alqui-
lar a estudiantes de la UDEP, para lo cual debe decidir cuánto invertir. En las urbanizaciones veci-
nas a la UDEP ya hay edificios con habitaciones para estudiantes, por lo que Fernando no está
muy seguro de qué tan fuerte será la demanda para su proyecto. Si fuese conservador y construye
pocas habitaciones, perdería utilidades potenciales si la demanda resulta ser alta. Por otra parte, re-
sultaría poco rentable tener muchas habitaciones sin alquilar. En la siguiente tabla se muestran las
posibles utilidades anuales (en dólares), sobre la base de tres niveles de demanda.
Demanda baja Demanda mediana Demanda alta
Construir 10 5000 5000 5000
Construir 20 0 10000 10000
Construir 30 – 6000 4000 15000
Probabilidad 0,2 0,5 0,3
250 Teoría de decisiones

Para reducir la incertidumbre sobre el número de habitaciones que debe construir, Fernando puede
realizar una encuesta que dará como resultado una de las tres medidas de demanda: baja, mediana
o alta. Esta encuesta se la puede realizar una pequeña empresa consultora de Piura, (ECP) que pre-
senta el siguiente historial:
La empresa consultora pronosticó
Cuando la demanda resultó Demanda baja Demanda mediana Demanda alta
Baja 0,7 0,2 0,1
Mediana 0,3 0,4 0,3
Alta 0,1 0,3 0,6
El costo de la encuesta depende de la confiabilidad y del máximo error muestral que se fije, y de-
be discutirse. ¿Qué decisión debe tomar Fernando?
Respuesta: debe solicitar la encuesta a ECP, sólo si ésta cobra menos de 1 970 dólares. Si ECP
pronostica demanda baja, le conviene construir 10 habitaciones (espera ganar 5 000 dólares); si
pronostica demanda mediana, le conviene construir 20 habitaciones (espera ganar 7 000 dólares);
y si pronostica demanda alta, le conviene construir 30 habitaciones (espera ganar 9 600 dólares).

5. En un taller de manufactura se está considerando la posibilidad de inspeccionar pequeñas muestras


extraídas de unos lotes de artículos que le llegan de un proveedor, con el propósito de determinar
si se acepta o se rechaza cada lote. En el pasado le han llegado tres tipos de lotes de artículos de
dicho proveedor: A, B y C, que contenían 90%, 80% y 70% de artículos de óptima calidad, respec-
tivamente. Estos porcentajes han ocurrido en el 50%, 30% y 20% de los casos, respectivamente.
Debido a las características del proceso de manufactura, se puede tomar una muestra de sólo 2 ar-
tículos de cada lote. Esta inspección tendría un costo de $5. Un detallado análisis de “costos de
oportunidad” (expresan lo que se deja de ganar) ha permitido elaborar la siguiente tabla:

Acción
Tipo de lote
Rechazar el lote Aceptar el lote
A $200 $0
B $0 $100
C $0 $200
Como resultado del muestreo de cada lote, se puede tener: 0, 1 ó 2 artículos de óptima calidad. Se-
gún el resultado del muestreo, el jefe del taller decidirá si acepta o rechaza el lote ¿Qué decisión
debe tomarse?
Respuesta: Le conviene hacer la inspección, con un costo esperado de $62,78. Si en la muestra los
dos artículos son de óptima calidad, conviene aceptar el lote; en caso contrario, conviene rechazar-
lo.
6. Una empresa comercializadora debe clasificar los lotes de cierta fruta que le llegan de un agricul-
tor, en uno de dos tipos: A o B. Para hacer esta clasificación tiene dos posibilidades: una simple
inspección ocular, sin costo alguno, o una revisión de una muestra de 10 unidades, que le costaría
$10. Generalmente, de los lotes que le han llegado, el 70% han sido tipo A y el 30% de tipo B.
Además, haciendo esta revisión de 10 unidades, cuando le han llegado lotes tipo A los ha clasifi-
cado bien en el 90% de los casos, y cuando le han llegado lotes tipo B los ha clasificado bien en el
80% de los casos. Las utilidades que ha tenido con estos dos tipos de lote, según como los clasifi-
có, se resumen en la siguiente tabla. ¿Qué debe hacer la empresa comercializadora para lograr el
máximo beneficio?
Tipo del lote Clasificación del lote de frutas
de frutas Tipo A Tipo B
A $460 $380
B $290 $370
Teoría de decisiones 251

7. Christian, un joven ingeniero de sistemas ha desarrollado un novedoso software que puede vender
a una conocida empresa de desarrollo de softwares, a $20 000. También lo puede comercializar él
mismo, con estos posibles resultados: que no tenga aceptación, lo cual significaría una pérdida de
$5 200; que sí tenga aceptación, que significaría una utilidad de $52 000. Un compañero, experto
en este tipo de negocios, estima que las probabilidades de aceptación y rechazo del software son
0,6 y 0,4. Christian se entera que podría pedirle a una empresa consultora un pronóstico sobre la
posible reacción del mercado, a un costo de $1 000. El gerente de la empresa consultora afirma
que cuando ha hecho este tipo de pronósticos ha acertado en el 90% de los casos en que el produc-
to no fue aceptado, y en el 80% de los casos en que el producto fue aceptado. ¿Qué le aconsejaría
usted a Christian?
8. El propietario de un terreno ha hecho un contrato por 30 días con una inmobiliaria para su venta,
estipulando un precio de $25 000. La inmobiliaria cobra el 4% de comisión sobre lo vendido.
Además, ha estimado que necesitaría gastar $800 para efectuar la venta en el plazo estipulado. La
probabilidad de vender el terreno en el tiempo estipulado es 0,7. Diga si a la inmobiliaria le con-
viene aceptar la oferta para la venta del terreno siguiendo los siguientes criterios:
a) Maximin; b) Maximax; c) Realista (α = 0.8); d) Bayes; e) Mínimax del costo de oportunidad; f)
Costo de oportunidad esperado; g) Máxima verosimilitud.
9. El propietario del terreno del problema 8 le ha ofrecido a la inmobiliaria, en caso que venda el te-
rreno durante esos 30 días, una de dos propiedades que tiene: una casa en la Urbanización Santa
María del Pinar a $50 000 y otra en la Urbanización Los Geranios a $100 000, ambas por 90 días.
La inmobiliaria ha estimado que los gastos que necesitaría hacer para efectuar las ventas de las ca-
sas de Santa María del Pinar y Los Geranios en el plazo estipulado ascienden a $200 y $400, res-
pectivamente. Además, ha estimado que las probabilidades de vender dichas casas en el tiempo es-
tipulado son 0,6 y 0,5; respectivamente. ¿Qué le aconsejaría a la inmobiliaria?
Respuesta: Le aconsejaría aceptar el terreno (espera ganar $1 020). Si vende el terreno, le aconse-
jaría aceptar la casa de Los Geranios (espera ganar $1 800).
252 Apéndice

Apéndice

Las tablas estadísticas que se incluyen en este apéndice han sido elaboradas con la ayuda de Excel.
Apéndice 253

n
 n
Tabla de probabilidades binomiales acumulativas ∑  x  p
x=k
x
qn−x

p
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
2 1 0,0975 0,1900 0,2775 0,3600 0,4375 0,5100 0,5775 0,6400 0,6975 0,7500
2 0,0025 0,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
3 1 0,1426 0,2710 0,3859 0,4880 0,5781 0,6570 0,7254 0,7840 0,8336 0,8750
2 0,0073 0,0280 0,0608 0,1040 0,1563 0,2160 0,2818 0,3520 0,4253 0,5000
3 0,0001 0,0010 0,0034 0,0080 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
4 1 0,1855 0,3439 0,4780 0,5904 0,6836 0,7599 0,8215 0,8704 0,9085 0,9375
2 0,0140 0,0523 0,1095 0,1808 0,2617 0,3483 0,4370 0,5248 0,6090 0,6875
3 0,0005 0,0037 0,0120 0,0272 0,0508 0,0837 0,1265 0,1792 0,2415 0,3125
4 0,0000 0,0001 0,0005 0,0016 0,0039 0,0081 0,0150 0,0256 0,0410 0,0625
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
5 1 0,2262 0,4095 0,5563 0,6723 0,7627 0,8319 0,8840 0,9222 0,9497 0,9688
2 0,0226 0,0815 0,1648 0,2627 0,3672 0,4718 0,5716 0,6630 0,7438 0,8125
3 0,0012 0,0086 0,0266 0,0579 0,1035 0,1631 0,2352 0,3174 0,4069 0,5000
4 0,0000 0,0005 0,0022 0,0067 0,0156 0,0308 0,0540 0,0870 0,1312 0,1875
5 0,0000 0,0000 0,0001 0,0003 0,0010 0,0024 0,0053 0,0102 0,0185 0,0313
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
6 1 0,2649 0,4686 0,6229 0,7379 0,8220 0,8824 0,9246 0,9533 0,9723 0,9844
2 0,0328 0,1143 0,2235 0,3446 0,4661 0,5798 0,6809 0,7667 0,8364 0,8906
3 0,0022 0,0158 0,0473 0,0989 0,1694 0,2557 0,3529 0,4557 0,5585 0,6563
4 0,0001 0,0013 0,0059 0,0170 0,0376 0,0705 0,1174 0,1792 0,2553 0,3438
5 0,0000 0,0001 0,0004 0,0016 0,0046 0,0109 0,0223 0,0410 0,0692 0,1094
6 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0018 0,0041 0,0083 0,0156
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
7 1 0,3017 0,5217 0,6794 0,7903 0,8665 0,9176 0,9510 0,9720 0,9848 0,9922
2 0,0444 0,1497 0,2834 0,4233 0,5551 0,6706 0,7662 0,8414 0,8976 0,9375
3 0,0038 0,0257 0,0738 0,1480 0,2436 0,3529 0,4677 0,5801 0,6836 0,7734
4 0,0002 0,0027 0,0121 0,0333 0,0706 0,1260 0,1998 0,2898 0,3917 0,5000
5 0,0000 0,0002 0,0012 0,0047 0,0129 0,0288 0,0556 0,0963 0,1529 0,2266
6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0038 0,0090 0,0188 0,0357 0,0625
7 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0016 0,0037 0,0078
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
8 1 0,3366 0,5695 0,7275 0,8322 0,8999 0,9424 0,9681 0,9832 0,9916 0,9961
2 0,0572 0,1869 0,3428 0,4967 0,6329 0,7447 0,8309 0,8936 0,9368 0,9648
3 0,0058 0,0381 0,1052 0,2031 0,3215 0,4482 0,5722 0,6846 0,7799 0,8555
4 0,0004 0,0050 0,0214 0,0563 0,1138 0,1941 0,2936 0,4059 0,5230 0,6367
5 0,0000 0,0004 0,0029 0,0104 0,0273 0,0580 0,1061 0,1737 0,2604 0,3633
6 0,0000 0,0000 0,0002 0,0012 0,0042 0,0113 0,0253 0,0498 0,0885 0,1445
7 0,0000 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0085 0,0181 0,0352
8 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0017 0,0039
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
9 1 0,3698 0,6126 0,7684 0,8658 0,9249 0,9596 0,9793 0,9899 0,9954 0,9980
2 0,0712 0,2252 0,4005 0,5638 0,6997 0,8040 0,8789 0,9295 0,9615 0,9805
3 0,0084 0,0530 0,1409 0,2618 0,3993 0,5372 0,6627 0,7682 0,8505 0,9102
4 0,0006 0,0083 0,0339 0,0856 0,1657 0,2703 0,3911 0,5174 0,6386 0,7461
5 0,0000 0,0009 0,0056 0,0196 0,0489 0,0988 0,1717 0,2666 0,3786 0,5000
6 0,0000 0,0001 0,0006 0,0031 0,0100 0,0253 0,0536 0,0994 0,1658 0,2539
7 0,0000 0,0000 0,0000 0,0003 0,0013 0,0043 0,0112 0,0250 0,0498 0,0898
8 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0014 0,0038 0,0091 0,0195
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0008 0,0020
254 Apéndice

p
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
10 1 0,4013 0,6513 0,8031 0,8926 0,9437 0,9718 0,9865 0,9940 0,9975 0,9990
2 0,0861 0,2639 0,4557 0,6242 0,7560 0,8507 0,9140 0,9536 0,9767 0,9893
3 0,0115 0,0702 0,1798 0,3222 0,4744 0,6172 0,7384 0,8327 0,9004 0,9453
4 0,0010 0,0128 0,0500 0,1209 0,2241 0,3504 0,4862 0,6177 0,7340 0,8281
5 0,0001 0,0016 0,0099 0,0328 0,0781 0,1503 0,2485 0,3669 0,4956 0,6230
6 0,0000 0,0001 0,0014 0,0064 0,0197 0,0473 0,0949 0,1662 0,2616 0,3770
7 0,0000 0,0000 0,0001 0,0009 0,0035 0,0106 0,0260 0,0548 0,1020 0,1719
8 0,0000 0,0000 0,0000 0,0001 0,0004 0,0016 0,0048 0,0123 0,0274 0,0547
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0017 0,0045 0,0107
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
11 1 0,4312 0,6862 0,8327 0,9141 0,9578 0,9802 0,9912 0,9964 0,9986 0,9995
2 0,1019 0,3026 0,5078 0,6779 0,8029 0,8870 0,9394 0,9698 0,9861 0,9941
3 0,0152 0,0896 0,2212 0,3826 0,5448 0,6873 0,7999 0,8811 0,9348 0,9673
4 0,0016 0,0185 0,0694 0,1611 0,2867 0,4304 0,5744 0,7037 0,8089 0,8867
5 0,0001 0,0028 0,0159 0,0504 0,1146 0,2103 0,3317 0,4672 0,6029 0,7256
6 0,0000 0,0003 0,0027 0,0117 0,0343 0,0782 0,1487 0,2465 0,3669 0,5000
7 0,0000 0,0000 0,0003 0,0020 0,0076 0,0216 0,0501 0,0994 0,1738 0,2744
8 0,0000 0,0000 0,0000 0,0002 0,0012 0,0043 0,0122 0,0293 0,0610 0,1133
9 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0020 0,0059 0,0148 0,0327
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0022 0,0059
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0005
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
12 1 0,4596 0,7176 0,8578 0,9313 0,9683 0,9862 0,9943 0,9978 0,9992 0,9998
2 0,1184 0,3410 0,5565 0,7251 0,8416 0,9150 0,9576 0,9804 0,9917 0,9968
3 0,0196 0,1109 0,2642 0,4417 0,6093 0,7472 0,8487 0,9166 0,9579 0,9807
4 0,0022 0,0256 0,0922 0,2054 0,3512 0,5075 0,6533 0,7747 0,8655 0,9270
5 0,0002 0,0043 0,0239 0,0726 0,1576 0,2763 0,4167 0,5618 0,6956 0,8062
6 0,0000 0,0005 0,0046 0,0194 0,0544 0,1178 0,2127 0,3348 0,4731 0,6128
7 0,0000 0,0001 0,0007 0,0039 0,0143 0,0386 0,0846 0,1582 0,2607 0,3872
8 0,0000 0,0000 0,0001 0,0006 0,0028 0,0095 0,0255 0,0573 0,1117 0,1938
9 0,0000 0,0000 0,0000 0,0001 0,0004 0,0017 0,0056 0,0153 0,0356 0,0730
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0008 0,0028 0,0079 0,0193
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0011 0,0032
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
13 1 0,4867 0,7458 0,8791 0,9450 0,9762 0,9903 0,9963 0,9987 0,9996 0,9999
2 0,1354 0,3787 0,6017 0,7664 0,8733 0,9363 0,9704 0,9874 0,9951 0,9983
3 0,0245 0,1339 0,3080 0,4983 0,6674 0,7975 0,8868 0,9421 0,9731 0,9888
4 0,0031 0,0342 0,1180 0,2527 0,4157 0,5794 0,7217 0,8314 0,9071 0,9539
5 0,0003 0,0065 0,0342 0,0991 0,2060 0,3457 0,4995 0,6470 0,7721 0,8666
6 0,0000 0,0009 0,0075 0,0300 0,0802 0,1654 0,2841 0,4256 0,5732 0,7095
7 0,0000 0,0001 0,0013 0,0070 0,0243 0,0624 0,1295 0,2288 0,3563 0,5000
8 0,0000 0,0000 0,0002 0,0012 0,0056 0,0182 0,0462 0,0977 0,1788 0,2905
9 0,0000 0,0000 0,0000 0,0002 0,0010 0,0040 0,0126 0,0321 0,0698 0,1334
10 0,0000 0,0000 0,0000 0,0000 0,0001 0,0007 0,0025 0,0078 0,0203 0,0461
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0013 0,0041 0,0112
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0017
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
Apéndice 255

p
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
14 1 0,5123 0,7712 0,8972 0,9560 0,9822 0,9932 0,9976 0,9992 0,9998 0,9999
2 0,1530 0,4154 0,6433 0,8021 0,8990 0,9525 0,9795 0,9919 0,9971 0,9991
3 0,0301 0,1584 0,3521 0,5519 0,7189 0,8392 0,9161 0,9602 0,9830 0,9935
4 0,0042 0,0441 0,1465 0,3018 0,4787 0,6448 0,7795 0,8757 0,9368 0,9713
5 0,0004 0,0092 0,0467 0,1298 0,2585 0,4158 0,5773 0,7207 0,8328 0,9102
6 0,0000 0,0015 0,0115 0,0439 0,1117 0,2195 0,3595 0,5141 0,6627 0,7880
7 0,0000 0,0002 0,0022 0,0116 0,0383 0,0933 0,1836 0,3075 0,4539 0,6047
8 0,0000 0,0000 0,0003 0,0024 0,0103 0,0315 0,0753 0,1501 0,2586 0,3953
9 0,0000 0,0000 0,0000 0,0004 0,0022 0,0083 0,0243 0,0583 0,1189 0,2120
10 0,0000 0,0000 0,0000 0,0000 0,0003 0,0017 0,0060 0,0175 0,0426 0,0898
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0039 0,0114 0,0287
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0022 0,0065
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0009
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
15 1 0,5367 0,7941 0,9126 0,9648 0,9866 0,9953 0,9984 0,9995 0,9999 1,0000
2 0,1710 0,4510 0,6814 0,8329 0,9198 0,9647 0,9858 0,9948 0,9983 0,9995
3 0,0362 0,1841 0,3958 0,6020 0,7639 0,8732 0,9383 0,9729 0,9893 0,9963
4 0,0055 0,0556 0,1773 0,3518 0,5387 0,7031 0,8273 0,9095 0,9576 0,9824
5 0,0006 0,0127 0,0617 0,1642 0,3135 0,4845 0,6481 0,7827 0,8796 0,9408
6 0,0001 0,0022 0,0168 0,0611 0,1484 0,2784 0,4357 0,5968 0,7392 0,8491
7 0,0000 0,0003 0,0036 0,0181 0,0566 0,1311 0,2452 0,3902 0,5478 0,6964
8 0,0000 0,0000 0,0006 0,0042 0,0173 0,0500 0,1132 0,2131 0,3465 0,5000
9 0,0000 0,0000 0,0001 0,0008 0,0042 0,0152 0,0422 0,0950 0,1818 0,3036
10 0,0000 0,0000 0,0000 0,0001 0,0008 0,0037 0,0124 0,0338 0,0769 0,1509
11 0,0000 0,0000 0,0000 0,0000 0,0001 0,0007 0,0028 0,0093 0,0255 0,0592
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0019 0,0063 0,0176
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0011 0,0037
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
16 1 0,5599 0,8147 0,9257 0,9719 0,9900 0,9967 0,9990 0,9997 0,9999 1,0000
2 0,1892 0,4853 0,7161 0,8593 0,9365 0,9739 0,9902 0,9967 0,9990 0,9997
3 0,0429 0,2108 0,4386 0,6482 0,8029 0,9006 0,9549 0,9817 0,9934 0,9979
4 0,0070 0,0684 0,2101 0,4019 0,5950 0,7541 0,8661 0,9349 0,9719 0,9894
5 0,0009 0,0170 0,0791 0,2018 0,3698 0,5501 0,7108 0,8334 0,9147 0,9616
6 0,0001 0,0033 0,0235 0,0817 0,1897 0,3402 0,5100 0,6712 0,8024 0,8949
7 0,0000 0,0005 0,0056 0,0267 0,0796 0,1753 0,3119 0,4728 0,6340 0,7728
8 0,0000 0,0001 0,0011 0,0070 0,0271 0,0744 0,1594 0,2839 0,4371 0,5982
9 0,0000 0,0000 0,0002 0,0015 0,0075 0,0257 0,0671 0,1423 0,2559 0,4018
10 0,0000 0,0000 0,0000 0,0002 0,0016 0,0071 0,0229 0,0583 0,1241 0,2272
11 0,0000 0,0000 0,0000 0,0000 0,0003 0,0016 0,0062 0,0191 0,0486 0,1051
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0049 0,0149 0,0384
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0009 0,0035 0,0106
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0021
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
256 Apéndice

p
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
17 1 0,5819 0,8332 0,9369 0,9775 0,9925 0,9977 0,9993 0,9998 1,0000 1,0000
2 0,2078 0,5182 0,7475 0,8818 0,9499 0,9807 0,9933 0,9979 0,9994 0,9999
3 0,0503 0,2382 0,4802 0,6904 0,8363 0,9226 0,9673 0,9877 0,9959 0,9988
4 0,0088 0,0826 0,2444 0,4511 0,6470 0,7981 0,8972 0,9536 0,9816 0,9936
5 0,0012 0,0221 0,0987 0,2418 0,4261 0,6113 0,7652 0,8740 0,9404 0,9755
6 0,0001 0,0047 0,0319 0,1057 0,2347 0,4032 0,5803 0,7361 0,8529 0,9283
7 0,0000 0,0008 0,0083 0,0377 0,1071 0,2248 0,3812 0,5522 0,7098 0,8338
8 0,0000 0,0001 0,0017 0,0109 0,0402 0,1046 0,2128 0,3595 0,5257 0,6855
9 0,0000 0,0000 0,0003 0,0026 0,0124 0,0403 0,0994 0,1989 0,3374 0,5000
10 0,0000 0,0000 0,0000 0,0005 0,0031 0,0127 0,0383 0,0919 0,1834 0,3145
11 0,0000 0,0000 0,0000 0,0001 0,0006 0,0032 0,0120 0,0348 0,0826 0,1662
12 0,0000 0,0000 0,0000 0,0000 0,0001 0,0007 0,0030 0,0106 0,0301 0,0717
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0025 0,0086 0,0245
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0019 0,0064
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0012
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
18 1 0,6028 0,8499 0,9464 0,9820 0,9944 0,9984 0,9996 0,9999 1,0000 1,0000
2 0,2265 0,5497 0,7759 0,9009 0,9605 0,9858 0,9954 0,9987 0,9997 0,9999
3 0,0581 0,2662 0,5203 0,7287 0,8647 0,9400 0,9764 0,9918 0,9975 0,9993
4 0,0109 0,0982 0,2798 0,4990 0,6943 0,8354 0,9217 0,9672 0,9880 0,9962
5 0,0015 0,0282 0,1206 0,2836 0,4813 0,6673 0,8114 0,9058 0,9589 0,9846
6 0,0002 0,0064 0,0419 0,1329 0,2825 0,4656 0,6450 0,7912 0,8923 0,9519
7 0,0000 0,0012 0,0118 0,0513 0,1390 0,2783 0,4509 0,6257 0,7742 0,8811
8 0,0000 0,0002 0,0027 0,0163 0,0569 0,1407 0,2717 0,4366 0,6085 0,7597
9 0,0000 0,0000 0,0005 0,0043 0,0193 0,0596 0,1391 0,2632 0,4222 0,5927
10 0,0000 0,0000 0,0001 0,0009 0,0054 0,0210 0,0597 0,1347 0,2527 0,4073
11 0,0000 0,0000 0,0000 0,0002 0,0012 0,0061 0,0212 0,0576 0,1280 0,2403
12 0,0000 0,0000 0,0000 0,0000 0,0002 0,0014 0,0062 0,0203 0,0537 0,1189
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0014 0,0058 0,0183 0,0481
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0049 0,0154
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0010 0,0038
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0007
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
Apéndice 257

p
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
19 1 0,6226 0,8649 0,9544 0,9856 0,9958 0,9989 0,9997 0,9999 1,0000 1,0000
2 0,2453 0,5797 0,8015 0,9171 0,9690 0,9896 0,9969 0,9992 0,9998 1,0000
3 0,0665 0,2946 0,5587 0,7631 0,8887 0,9538 0,9830 0,9945 0,9985 0,9996
4 0,0132 0,1150 0,3159 0,5449 0,7369 0,8668 0,9409 0,9770 0,9923 0,9978
5 0,0020 0,0352 0,1444 0,3267 0,5346 0,7178 0,8500 0,9304 0,9720 0,9904
6 0,0002 0,0086 0,0537 0,1631 0,3322 0,5261 0,7032 0,8371 0,9223 0,9682
7 0,0000 0,0017 0,0163 0,0676 0,1749 0,3345 0,5188 0,6919 0,8273 0,9165
8 0,0000 0,0003 0,0041 0,0233 0,0775 0,1820 0,3344 0,5122 0,6831 0,8204
9 0,0000 0,0000 0,0008 0,0067 0,0287 0,0839 0,1855 0,3325 0,5060 0,6762
10 0,0000 0,0000 0,0001 0,0016 0,0089 0,0326 0,0875 0,1861 0,3290 0,5000
11 0,0000 0,0000 0,0000 0,0003 0,0023 0,0105 0,0347 0,0885 0,1841 0,3238
12 0,0000 0,0000 0,0000 0,0000 0,0005 0,0028 0,0114 0,0352 0,0871 0,1796
13 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0031 0,0116 0,0342 0,0835
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0007 0,0031 0,0109 0,0318
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0028 0,0096
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0022
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
20 1 0,6415 0,8784 0,9612 0,9885 0,9968 0,9992 0,9998 1,0000 1,0000 1,0000
2 0,2642 0,6083 0,8244 0,9308 0,9757 0,9924 0,9979 0,9995 0,9999 1,0000
3 0,0755 0,3231 0,5951 0,7939 0,9087 0,9645 0,9879 0,9964 0,9991 0,9998
4 0,0159 0,1330 0,3523 0,5886 0,7748 0,8929 0,9556 0,9840 0,9951 0,9987
5 0,0026 0,0432 0,1702 0,3704 0,5852 0,7625 0,8818 0,9490 0,9811 0,9941
6 0,0003 0,0113 0,0673 0,1958 0,3828 0,5836 0,7546 0,8744 0,9447 0,9793
7 0,0000 0,0024 0,0219 0,0867 0,2142 0,3920 0,5834 0,7500 0,8701 0,9423
8 0,0000 0,0004 0,0059 0,0321 0,1018 0,2277 0,3990 0,5841 0,7480 0,8684
9 0,0000 0,0001 0,0013 0,0100 0,0409 0,1133 0,2376 0,4044 0,5857 0,7483
10 0,0000 0,0000 0,0002 0,0026 0,0139 0,0480 0,1218 0,2447 0,4086 0,5881
11 0,0000 0,0000 0,0000 0,0006 0,0039 0,0171 0,0532 0,1275 0,2493 0,4119
12 0,0000 0,0000 0,0000 0,0001 0,0009 0,0051 0,0196 0,0565 0,1308 0,2517
13 0,0000 0,0000 0,0000 0,0000 0,0002 0,0013 0,0060 0,0210 0,0580 0,1316
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0015 0,0065 0,0214 0,0577
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0016 0,0064 0,0207
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0015 0,0059
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002
19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
20 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
258 Apéndice

ie −µ µ x
Tabla de probabilidades acumulativas de Poisson ∑
x =0 x!

µ
i 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
0 0,9048 0,8187 0,7408 0,6703 0,6065 0,5488 0,4966 0,4493 0,4066 0,3679
1 0,9953 0,9825 0,9631 0,9384 0,9098 0,8781 0,8442 0,8088 0,7725 0,7358
2 0,9998 0,9989 0,9964 0,9921 0,9856 0,9769 0,9659 0,9526 0,9371 0,9197
3 1,0000 0,9999 0,9997 0,9992 0,9982 0,9966 0,9942 0,9909 0,9865 0,9810
4 1,0000 1,0000 1,0000 0,9999 0,9998 0,9996 0,9992 0,9986 0,9977 0,9963
5 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9998 0,9997 0,9994
6 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999
7 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
µ
i 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0
0 0,3329 0,3012 0,2725 0,2466 0,2231 0,2019 0,1827 0,1653 0,1496 0,1353
1 0,6990 0,6626 0,6268 0,5918 0,5578 0,5249 0,4932 0,4628 0,4337 0,4060
2 0,9004 0,8795 0,8571 0,8335 0,8088 0,7834 0,7572 0,7306 0,7037 0,6767
3 0,9743 0,9662 0,9569 0,9463 0,9344 0,9212 0,9068 0,8913 0,8747 0,8571
4 0,9946 0,9923 0,9893 0,9857 0,9814 0,9763 0,9704 0,9636 0,9559 0,9473
5 0,9990 0,9985 0,9978 0,9968 0,9955 0,9940 0,9920 0,9896 0,9868 0,9834
6 0,9999 0,9997 0,9996 0,9994 0,9991 0,9987 0,9981 0,9974 0,9966 0,9955
7 1,0000 1,0000 0,9999 0,9999 0,9998 0,9997 0,9996 0,9994 0,9992 0,9989
8 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9999 0,9998 0,9998
9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
µ
i 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0
0 0,1225 0,1108 0,1003 0,0907 0,0821 0,0743 0,0672 0,0608 0,0550 0,0498
1 0,3796 0,3546 0,3309 0,3084 0,2873 0,2674 0,2487 0,2311 0,2146 0,1991
2 0,6496 0,6227 0,5960 0,5697 0,5438 0,5184 0,4936 0,4695 0,4460 0,4232
3 0,8386 0,8194 0,7993 0,7787 0,7576 0,7360 0,7141 0,6919 0,6696 0,6472
4 0,9379 0,9275 0,9162 0,9041 0,8912 0,8774 0,8629 0,8477 0,8318 0,8153
5 0,9796 0,9751 0,9700 0,9643 0,9580 0,9510 0,9433 0,9349 0,9258 0,9161
6 0,9941 0,9925 0,9906 0,9884 0,9858 0,9828 0,9794 0,9756 0,9713 0,9665
7 0,9985 0,9980 0,9974 0,9967 0,9958 0,9947 0,9934 0,9919 0,9901 0,9881
8 0,9997 0,9995 0,9994 0,9991 0,9989 0,9985 0,9981 0,9976 0,9969 0,9962
9 0,9999 0,9999 0,9999 0,9998 0,9997 0,9996 0,9995 0,9993 0,9991 0,9989
10 1,0000 1,0000 1,0000 1,0000 0,9999 0,9999 0,9999 0,9998 0,9998 0,9997
11 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9999
12 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
Apéndice 259

µ
i 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0
0 0,0450 0,0408 0,0369 0,0334 0,0302 0,0273 0,0247 0,0224 0,0202 0,0183
1 0,1847 0,1712 0,1586 0,1468 0,1359 0,1257 0,1162 0,1074 0,0992 0,0916
2 0,4012 0,3799 0,3594 0,3397 0,3208 0,3027 0,2854 0,2689 0,2531 0,2381
3 0,6248 0,6025 0,5803 0,5584 0,5366 0,5152 0,4942 0,4735 0,4532 0,4335
4 0,7982 0,7806 0,7626 0,7442 0,7254 0,7064 0,6872 0,6678 0,6484 0,6288
5 0,9057 0,8946 0,8829 0,8705 0,8576 0,8441 0,8301 0,8156 0,8006 0,7851
6 0,9612 0,9554 0,9490 0,9421 0,9347 0,9267 0,9182 0,9091 0,8995 0,8893
7 0,9858 0,9832 0,9802 0,9769 0,9733 0,9692 0,9648 0,9599 0,9546 0,9489
8 0,9953 0,9943 0,9931 0,9917 0,9901 0,9883 0,9863 0,9840 0,9815 0,9786
9 0,9986 0,9982 0,9978 0,9973 0,9967 0,9960 0,9952 0,9942 0,9931 0,9919
10 0,9996 0,9995 0,9994 0,9992 0,9990 0,9987 0,9984 0,9981 0,9977 0,9972
11 0,9999 0,9999 0,9998 0,9998 0,9997 0,9996 0,9995 0,9994 0,9993 0,9991
12 1,0000 1,0000 1,0000 0,9999 0,9999 0,9999 0,9999 0,9998 0,9998 0,9997
13 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9999
14 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
µ
i 4,1 4,2 4,3 4,4 4,5 4,6 4,7 4,8 4,9 5,0
0 0,0166 0,0150 0,0136 0,0123 0,0111 0,0101 0,0091 0,0082 0,0074 0,0067
1 0,0845 0,0780 0,0719 0,0663 0,0611 0,0563 0,0518 0,0477 0,0439 0,0404
2 0,2238 0,2102 0,1974 0,1851 0,1736 0,1626 0,1523 0,1425 0,1333 0,1247
3 0,4142 0,3954 0,3772 0,3594 0,3423 0,3257 0,3097 0,2942 0,2793 0,2650
4 0,6093 0,5898 0,5704 0,5512 0,5321 0,5132 0,4946 0,4763 0,4582 0,4405
5 0,7693 0,7531 0,7367 0,7199 0,7029 0,6858 0,6684 0,6510 0,6335 0,6160
6 0,8786 0,8675 0,8558 0,8436 0,8311 0,8180 0,8046 0,7908 0,7767 0,7622
7 0,9427 0,9361 0,9290 0,9214 0,9134 0,9049 0,8960 0,8867 0,8769 0,8666
8 0,9755 0,9721 0,9683 0,9642 0,9597 0,9549 0,9497 0,9442 0,9382 0,9319
9 0,9905 0,9889 0,9871 0,9851 0,9829 0,9805 0,9778 0,9749 0,9717 0,9682
10 0,9966 0,9959 0,9952 0,9943 0,9933 0,9922 0,9910 0,9896 0,9880 0,9863
11 0,9989 0,9986 0,9983 0,9980 0,9976 0,9971 0,9966 0,9960 0,9953 0,9945
12 0,9997 0,9996 0,9995 0,9993 0,9992 0,9990 0,9988 0,9986 0,9983 0,9980
13 0,9999 0,9999 0,9998 0,9998 0,9997 0,9997 0,9996 0,9995 0,9994 0,9993
14 1,0000 1,0000 1,0000 0,9999 0,9999 0,9999 0,9999 0,9999 0,9998 0,9998
15 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9999
16 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
260 Apéndice

µ
i 5,1 5,2 5,3 5,4 5,5 5,6 5,7 5,8 5,9 6,0
0 0,0061 0,0055 0,0050 0,0045 0,0041 0,0037 0,0033 0,0030 0,0027 0,0025
1 0,0372 0,0342 0,0314 0,0289 0,0266 0,0244 0,0224 0,0206 0,0189 0,0174
2 0,1165 0,1088 0,1016 0,0948 0,0884 0,0824 0,0768 0,0715 0,0666 0,0620
3 0,2513 0,2381 0,2254 0,2133 0,2017 0,1906 0,1800 0,1700 0,1604 0,1512
4 0,4231 0,4061 0,3895 0,3733 0,3575 0,3422 0,3272 0,3127 0,2987 0,2851
5 0,5984 0,5809 0,5635 0,5461 0,5289 0,5119 0,4950 0,4783 0,4619 0,4457
6 0,7474 0,7324 0,7171 0,7017 0,6860 0,6703 0,6544 0,6384 0,6224 0,6063
7 0,8560 0,8449 0,8335 0,8217 0,8095 0,7970 0,7841 0,7710 0,7576 0,7440
8 0,9252 0,9181 0,9106 0,9027 0,8944 0,8857 0,8766 0,8672 0,8574 0,8472
9 0,9644 0,9603 0,9559 0,9512 0,9462 0,9409 0,9352 0,9292 0,9228 0,9161
10 0,9844 0,9823 0,9800 0,9775 0,9747 0,9718 0,9686 0,9651 0,9614 0,9574
11 0,9937 0,9927 0,9916 0,9904 0,9890 0,9875 0,9859 0,9841 0,9821 0,9799
12 0,9976 0,9972 0,9967 0,9962 0,9955 0,9949 0,9941 0,9932 0,9922 0,9912
13 0,9992 0,9990 0,9988 0,9986 0,9983 0,9980 0,9977 0,9973 0,9969 0,9964
14 0,9997 0,9997 0,9996 0,9995 0,9994 0,9993 0,9991 0,9990 0,9988 0,9986
15 0,9999 0,9999 0,9999 0,9998 0,9998 0,9998 0,9997 0,9996 0,9996 0,9995
16 1,0000 1,0000 1,0000 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9998
17 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999
18 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
µ
i 6,1 6,2 6,3 6,4 6,5 6,6 6,7 6,8 6,9 7,0
0 0,0022 0,0020 0,0018 0,0017 0,0015 0,0014 0,0012 0,0011 0,0010 0,0009
1 0,0159 0,0146 0,0134 0,0123 0,0113 0,0103 0,0095 0,0087 0,0080 0,0073
2 0,0577 0,0536 0,0498 0,0463 0,0430 0,0400 0,0371 0,0344 0,0320 0,0296
3 0,1425 0,1342 0,1264 0,1189 0,1118 0,1052 0,0988 0,0928 0,0871 0,0818
4 0,2719 0,2592 0,2469 0,2351 0,2237 0,2127 0,2022 0,1920 0,1823 0,1730
5 0,4298 0,4141 0,3988 0,3837 0,3690 0,3547 0,3406 0,3270 0,3137 0,3007
6 0,5902 0,5742 0,5582 0,5423 0,5265 0,5108 0,4953 0,4799 0,4647 0,4497
7 0,7301 0,7160 0,7017 0,6873 0,6728 0,6581 0,6433 0,6285 0,6136 0,5987
8 0,8367 0,8259 0,8148 0,8033 0,7916 0,7796 0,7673 0,7548 0,7420 0,7291
9 0,9090 0,9016 0,8939 0,8858 0,8774 0,8686 0,8596 0,8502 0,8405 0,8305
10 0,9531 0,9486 0,9437 0,9386 0,9332 0,9274 0,9214 0,9151 0,9084 0,9015
11 0,9776 0,9750 0,9723 0,9693 0,9661 0,9627 0,9591 0,9552 0,9510 0,9467
12 0,9900 0,9887 0,9873 0,9857 0,9840 0,9821 0,9801 0,9779 0,9755 0,9730
13 0,9958 0,9952 0,9945 0,9937 0,9929 0,9920 0,9909 0,9898 0,9885 0,9872
14 0,9984 0,9981 0,9978 0,9974 0,9970 0,9966 0,9961 0,9956 0,9950 0,9943
15 0,9994 0,9993 0,9992 0,9990 0,9988 0,9986 0,9984 0,9982 0,9979 0,9976
16 0,9998 0,9997 0,9997 0,9996 0,9996 0,9995 0,9994 0,9993 0,9992 0,9990
17 0,9999 0,9999 0,9999 0,9999 0,9998 0,9998 0,9998 0,9997 0,9997 0,9996
18 1,0000 1,0000 1,0000 1,0000 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
19 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
20 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
Apéndice 261

µ
i 7,1 7,2 7,3 7,4 7,5 7,6 7,7 7,8 7,9 8,0
0 0,0008 0,0007 0,0007 0,0006 0,0006 0,0005 0,0005 0,0004 0,0004 0,0003
1 0,0067 0,0061 0,0056 0,0051 0,0047 0,0043 0,0039 0,0036 0,0033 0,0030
2 0,0275 0,0255 0,0236 0,0219 0,0203 0,0188 0,0174 0,0161 0,0149 0,0138
3 0,0767 0,0719 0,0674 0,0632 0,0591 0,0554 0,0518 0,0485 0,0453 0,0424
4 0,1641 0,1555 0,1473 0,1395 0,1321 0,1249 0,1181 0,1117 0,1055 0,0996
5 0,2881 0,2759 0,2640 0,2526 0,2414 0,2307 0,2203 0,2103 0,2006 0,1912
6 0,4349 0,4204 0,4060 0,3920 0,3782 0,3646 0,3514 0,3384 0,3257 0,3134
7 0,5838 0,5689 0,5541 0,5393 0,5246 0,5100 0,4956 0,4812 0,4670 0,4530
8 0,7160 0,7027 0,6892 0,6757 0,6620 0,6482 0,6343 0,6204 0,6065 0,5925
9 0,8202 0,8096 0,7988 0,7877 0,7764 0,7649 0,7531 0,7411 0,7290 0,7166
10 0,8942 0,8867 0,8788 0,8707 0,8622 0,8535 0,8445 0,8352 0,8257 0,8159
11 0,9420 0,9371 0,9319 0,9265 0,9208 0,9148 0,9085 0,9020 0,8952 0,8881
12 0,9703 0,9673 0,9642 0,9609 0,9573 0,9536 0,9496 0,9454 0,9409 0,9362
13 0,9857 0,9841 0,9824 0,9805 0,9784 0,9762 0,9739 0,9714 0,9687 0,9658
14 0,9935 0,9927 0,9918 0,9908 0,9897 0,9886 0,9873 0,9859 0,9844 0,9827
15 0,9972 0,9969 0,9964 0,9959 0,9954 0,9948 0,9941 0,9934 0,9926 0,9918
16 0,9989 0,9987 0,9985 0,9983 0,9980 0,9978 0,9974 0,9971 0,9967 0,9963
17 0,9996 0,9995 0,9994 0,9993 0,9992 0,9991 0,9989 0,9988 0,9986 0,9984
18 0,9998 0,9998 0,9998 0,9997 0,9997 0,9996 0,9996 0,9995 0,9994 0,9993
19 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9998 0,9998 0,9998 0,9997
20 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9999 0,9999 0,9999
21 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
µ
i 8,1 8,2 8,3 8,4 8,5 8,6 8,7 8,8 8,9 9,0
0 0,0003 0,0003 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0001 0,0001
1 0,0028 0,0025 0,0023 0,0021 0,0019 0,0018 0,0016 0,0015 0,0014 0,0012
2 0,0127 0,0118 0,0109 0,0100 0,0093 0,0086 0,0079 0,0073 0,0068 0,0062
3 0,0396 0,0370 0,0346 0,0323 0,0301 0,0281 0,0262 0,0244 0,0228 0,0212
4 0,0940 0,0887 0,0837 0,0789 0,0744 0,0701 0,0660 0,0621 0,0584 0,0550
5 0,1822 0,1736 0,1653 0,1573 0,1496 0,1422 0,1352 0,1284 0,1219 0,1157
6 0,3013 0,2896 0,2781 0,2670 0,2562 0,2457 0,2355 0,2256 0,2160 0,2068
7 0,4391 0,4254 0,4119 0,3987 0,3856 0,3728 0,3602 0,3478 0,3357 0,3239
8 0,5786 0,5647 0,5507 0,5369 0,5231 0,5094 0,4958 0,4823 0,4689 0,4557
9 0,7041 0,6915 0,6788 0,6659 0,6530 0,6400 0,6269 0,6137 0,6006 0,5874
10 0,8058 0,7955 0,7850 0,7743 0,7634 0,7522 0,7409 0,7294 0,7178 0,7060
11 0,8807 0,8731 0,8652 0,8571 0,8487 0,8400 0,8311 0,8220 0,8126 0,8030
12 0,9313 0,9261 0,9207 0,9150 0,9091 0,9029 0,8965 0,8898 0,8829 0,8758
13 0,9628 0,9595 0,9561 0,9524 0,9486 0,9445 0,9403 0,9358 0,9311 0,9261
14 0,9810 0,9791 0,9771 0,9749 0,9726 0,9701 0,9675 0,9647 0,9617 0,9585
15 0,9908 0,9898 0,9887 0,9875 0,9862 0,9848 0,9832 0,9816 0,9798 0,9780
16 0,9958 0,9953 0,9947 0,9941 0,9934 0,9926 0,9918 0,9909 0,9899 0,9889
17 0,9982 0,9979 0,9977 0,9973 0,9970 0,9966 0,9962 0,9957 0,9952 0,9947
18 0,9992 0,9991 0,9990 0,9989 0,9987 0,9985 0,9983 0,9981 0,9978 0,9976
19 0,9997 0,9997 0,9996 0,9995 0,9995 0,9994 0,9993 0,9992 0,9991 0,9989
20 0,9999 0,9999 0,9998 0,9998 0,9998 0,9998 0,9997 0,9997 0,9996 0,9996
21 1,0000 1,0000 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9998 0,9998
22 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9999
23 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
262 Apéndice

µ
i 9,1 9,2 9,3 9,4 9,5 9,6 9,7 9,8 9,9 10,0
0 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0000
1 0,0011 0,0010 0,0009 0,0009 0,0008 0,0007 0,0007 0,0006 0,0005 0,0005
2 0,0058 0,0053 0,0049 0,0045 0,0042 0,0038 0,0035 0,0033 0,0030 0,0028
3 0,0198 0,0184 0,0172 0,0160 0,0149 0,0138 0,0129 0,0120 0,0111 0,0103
4 0,0517 0,0486 0,0456 0,0429 0,0403 0,0378 0,0355 0,0333 0,0312 0,0293
5 0,1098 0,1041 0,0986 0,0935 0,0885 0,0838 0,0793 0,0750 0,0710 0,0671
6 0,1978 0,1892 0,1808 0,1727 0,1649 0,1574 0,1502 0,1433 0,1366 0,1301
7 0,3123 0,3010 0,2900 0,2792 0,2687 0,2584 0,2485 0,2388 0,2294 0,2202
8 0,4426 0,4296 0,4168 0,4042 0,3918 0,3796 0,3676 0,3558 0,3442 0,3328
9 0,5742 0,5611 0,5479 0,5349 0,5218 0,5089 0,4960 0,4832 0,4705 0,4579
10 0,6941 0,6820 0,6699 0,6576 0,6453 0,6329 0,6205 0,6080 0,5955 0,5830
11 0,7932 0,7832 0,7730 0,7626 0,7520 0,7412 0,7303 0,7193 0,7081 0,6968
12 0,8684 0,8607 0,8529 0,8448 0,8364 0,8279 0,8191 0,8101 0,8009 0,7916
13 0,9210 0,9156 0,9100 0,9042 0,8981 0,8919 0,8853 0,8786 0,8716 0,8645
14 0,9552 0,9517 0,9480 0,9441 0,9400 0,9357 0,9312 0,9265 0,9216 0,9165
15 0,9760 0,9738 0,9715 0,9691 0,9665 0,9638 0,9609 0,9579 0,9546 0,9513
16 0,9878 0,9865 0,9852 0,9838 0,9823 0,9806 0,9789 0,9770 0,9751 0,9730
17 0,9941 0,9934 0,9927 0,9919 0,9911 0,9902 0,9892 0,9881 0,9870 0,9857
18 0,9973 0,9969 0,9966 0,9962 0,9957 0,9952 0,9947 0,9941 0,9935 0,9928
19 0,9988 0,9986 0,9985 0,9983 0,9980 0,9978 0,9975 0,9972 0,9969 0,9965
20 0,9995 0,9994 0,9993 0,9992 0,9991 0,9990 0,9989 0,9987 0,9986 0,9984
21 0,9998 0,9998 0,9997 0,9997 0,9996 0,9996 0,9995 0,9995 0,9994 0,9993
22 0,9999 0,9999 0,9999 0,9999 0,9999 0,9998 0,9998 0,9998 0,9997 0,9997
23 1,0000 1,0000 1,0000 1,0000 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
24 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
25 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
Apéndice 263

µ
i 11 12 13 14 15 16 17 18 19 20
0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
1 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
2 0,0012 0,0005 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
3 0,0049 0,0023 0,0011 0,0005 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000
4 0,0151 0,0076 0,0037 0,0018 0,0009 0,0004 0,0002 0,0001 0,0000 0,0000
5 0,0375 0,0203 0,0107 0,0055 0,0028 0,0014 0,0007 0,0003 0,0002 0,0001
6 0,0786 0,0458 0,0259 0,0142 0,0076 0,0040 0,0021 0,0010 0,0005 0,0003
7 0,1432 0,0895 0,0540 0,0316 0,0180 0,0100 0,0054 0,0029 0,0015 0,0008
8 0,2320 0,1550 0,0998 0,0621 0,0374 0,0220 0,0126 0,0071 0,0039 0,0021
9 0,3405 0,2424 0,1658 0,1094 0,0699 0,0433 0,0261 0,0154 0,0089 0,0050
10 0,4599 0,3472 0,2517 0,1757 0,1185 0,0774 0,0491 0,0304 0,0183 0,0108
11 0,5793 0,4616 0,3532 0,2600 0,1848 0,1270 0,0847 0,0549 0,0347 0,0214
12 0,6887 0,5760 0,4631 0,3585 0,2676 0,1931 0,1350 0,0917 0,0606 0,0390
13 0,7813 0,6815 0,5730 0,4644 0,3632 0,2745 0,2009 0,1426 0,0984 0,0661
14 0,8540 0,7720 0,6751 0,5704 0,4657 0,3675 0,2808 0,2081 0,1497 0,1049
15 0,9074 0,8444 0,7636 0,6694 0,5681 0,4667 0,3715 0,2867 0,2148 0,1565
16 0,9441 0,8987 0,8355 0,7559 0,6641 0,5660 0,4677 0,3751 0,2920 0,2211
17 0,9678 0,9370 0,8905 0,8272 0,7489 0,6593 0,5640 0,4686 0,3784 0,2970
18 0,9823 0,9626 0,9302 0,8826 0,8195 0,7423 0,6550 0,5622 0,4695 0,3814
19 0,9907 0,9787 0,9573 0,9235 0,8752 0,8122 0,7363 0,6509 0,5606 0,4703
20 0,9953 0,9884 0,9750 0,9521 0,9170 0,8682 0,8055 0,7307 0,6472 0,5591
21 0,9977 0,9939 0,9859 0,9712 0,9469 0,9108 0,8615 0,7991 0,7255 0,6437
22 0,9990 0,9970 0,9924 0,9833 0,9673 0,9418 0,9047 0,8551 0,7931 0,7206
23 0,9995 0,9985 0,9960 0,9907 0,9805 0,9633 0,9367 0,8989 0,8490 0,7875
24 0,9998 0,9993 0,9980 0,9950 0,9888 0,9777 0,9594 0,9317 0,8933 0,8432
25 0,9999 0,9997 0,9990 0,9974 0,9938 0,9869 0,9748 0,9554 0,9269 0,8878
26 1,0000 0,9999 0,9995 0,9987 0,9967 0,9925 0,9848 0,9718 0,9514 0,9221
27 1,0000 0,9999 0,9998 0,9994 0,9983 0,9959 0,9912 0,9827 0,9687 0,9475
28 1,0000 1,0000 0,9999 0,9997 0,9991 0,9978 0,9950 0,9897 0,9805 0,9657
29 1,0000 1,0000 1,0000 0,9999 0,9996 0,9989 0,9973 0,9941 0,9882 0,9782
30 1,0000 1,0000 1,0000 0,9999 0,9998 0,9994 0,9986 0,9967 0,9930 0,9865
31 1,0000 1,0000 1,0000 1,0000 0,9999 0,9997 0,9993 0,9982 0,9960 0,9919
32 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9996 0,9990 0,9978 0,9953
33 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9998 0,9995 0,9988 0,9973
34 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9998 0,9994 0,9985
35 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9997 0,9992
36 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9998 0,9996
37 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9998
38 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999
39 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999
40 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
264 Apéndice

Tabla de áreas bajo la curva normal estandarizada


z
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0 0,500000 0,496011 0,492022 0,488033 0,484047 0,480061 0,476078 0,472097 0,468119 0,464144
0,1 0,460172 0,456205 0,452242 0,448283 0,444330 0,440382 0,436441 0,432505 0,428576 0,424655
0,2 0,420740 0,416834 0,412936 0,409046 0,405165 0,401294 0,397432 0,393580 0,389739 0,385908
0,3 0,382089 0,378281 0,374484 0,370700 0,366928 0,363169 0,359424 0,355691 0,351973 0,348268
0,4 0,344578 0,340903 0,337243 0,333598 0,329969 0,326355 0,322758 0,319178 0,315614 0,312067
0,5 0,308538 0,305026 0,301532 0,298056 0,294598 0,291160 0,287740 0,284339 0,280957 0,277595
0,6 0,274253 0,270931 0,267629 0,264347 0,261086 0,257846 0,254627 0,251429 0,248252 0,245097
0,7 0,241964 0,238852 0,235762 0,232695 0,229650 0,226627 0,223627 0,220650 0,217695 0,214764
0,8 0,211855 0,208970 0,206108 0,203269 0,200454 0,197662 0,194894 0,192150 0,189430 0,186733
0,9 0,184060 0,181411 0,178786 0,176186 0,173609 0,171056 0,168528 0,166023 0,163543 0,161087
1 0,158655 0,156248 0,153864 0,151505 0,149170 0,146859 0,144572 0,142310 0,140071 0,137857
1,1 0,135666 0,133500 0,131357 0,129238 0,127143 0,125072 0,123024 0,121001 0,119000 0,117023
1,2 0,115070 0,113140 0,111233 0,109349 0,107488 0,105650 0,103835 0,102042 0,100273 0,098525
1,3 0,096801 0,095098 0,093418 0,091759 0,090123 0,088508 0,086915 0,085344 0,083793 0,082264
1,4 0,080757 0,079270 0,077804 0,076359 0,074934 0,073529 0,072145 0,070781 0,069437 0,068112
1,5 0,066807 0,065522 0,064256 0,063008 0,061780 0,060571 0,059380 0,058208 0,057053 0,055917
1,6 0,054799 0,053699 0,052616 0,051551 0,050503 0,049471 0,048457 0,047460 0,046479 0,045514
1,7 0,044565 0,043633 0,042716 0,041815 0,040929 0,040059 0,039204 0,038364 0,037538 0,036727
1,8 0,035930 0,035148 0,034379 0,033625 0,032884 0,032157 0,031443 0,030742 0,030054 0,029379
1,9 0,028716 0,028067 0,027429 0,026803 0,026190 0,025588 0,024998 0,024419 0,023852 0,023295
2 0,022750 0,022216 0,021692 0,021178 0,020675 0,020182 0,019699 0,019226 0,018763 0,018309
2,1 0,017864 0,017429 0,017003 0,016586 0,016177 0,015778 0,015386 0,015003 0,014629 0,014262
2,2 0,013903 0,013553 0,013209 0,012874 0,012545 0,012224 0,011911 0,011604 0,011304 0,011011
2,3 0,010724 0,010444 0,010170 0,009903 0,009642 0,009387 0,009137 0,008894 0,008656 0,008424
2,4 0,008198 0,007976 0,007760 0,007549 0,007344 0,007143 0,006947 0,006756 0,006569 0,006387
2,5 0,006210 0,006037 0,005868 0,005703 0,005543 0,005386 0,005234 0,005085 0,004940 0,004799
2,6 0,004661 0,004527 0,004397 0,004269 0,004145 0,004025 0,003907 0,003793 0,003681 0,003573
2,7 0,003467 0,003364 0,003264 0,003167 0,003072 0,002980 0,002890 0,002803 0,002718 0,002635
2,8 0,002555 0,002477 0,002401 0,002327 0,002256 0,002186 0,002118 0,002052 0,001988 0,001926
2,9 0,001866 0,001807 0,001750 0,001695 0,001641 0,001589 0,001538 0,001489 0,001441 0,001395
3 0,001350 0,001306 0,001264 0,001223 0,001183 0,001144 0,001107 0,001070 0,001035 0,001001
3,1 0,000968 0,000936 0,000904 0,000874 0,000845 0,000816 0,000789 0,000762 0,000736 0,000711
3,2 0,000687 0,000664 0,000641 0,000619 0,000598 0,000577 0,000557 0,000538 0,000519 0,000501
3,3 0,000483 0,000467 0,000450 0,000434 0,000419 0,000404 0,000390 0,000376 0,000362 0,000350
3,4 0,000337 0,000325 0,000313 0,000302 0,000291 0,000280 0,000270 0,000260 0,000251 0,000242
3,5 0,000233 0,000224 0,000216 0,000208 0,000200 0,000193 0,000185 0,000179 0,000172 0,000165
3,6 0,000159 0,000153 0,000147 0,000142 0,000136 0,000131 0,000126 0,000121 0,000117 0,000112
3,7 0,000108 0,000104 0,000100 0,000096 0,000092 0,000088 0,000085 0,000082 0,000078 0,000075
3,8 0,000072 0,000070 0,000067 0,000064 0,000062 0,000059 0,000057 0,000054 0,000052 0,000050
3,9 0,000048 0,000046 0,000044 0,000042 0,000041 0,000039 0,000037 0,000036 0,000034 0,000033
4 0,000032 0,000030 0,000029 0,000028 0,000027 0,000026 0,000025 0,000024 0,000023 0,000022
4,1 0,000021 0,000020 0,000019 0,000018 0,000017 0,000017 0,000016 0,000015 0,000015 0,000014
4,2 0,000013 0,000013 0,000012 0,000012 0,000011 0,000011 0,000010 0,000010 0,000009 0,000009
4,3 0,000009 0,000008 0,000008 0,000007 0,000007 0,000007 0,000007 0,000006 0,000006 0,000006
4,4 0,000005 0,000005 0,000005 0,000005 0,000005 0,000004 0,000004 0,000004 0,000004 0,000004
4,5 0,000003 0,000003 0,000003 0,000003 0,000003 0,000003 0,000003 0,000002 0,000002 0,000002
4,6 0,000002 0,000002 0,000002 0,000002 0,000002 0,000002 0,000002 0,000002 0,000001 0,000001
4,7 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001
4,8 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001 0,000001
4,9 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000
Apéndice 265
φ(z)

Tabla de ordenadas de la curva normal estandarizada


z
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0 0,398942 0,398922 0,398862 0,398763 0,398623 0,398444 0,398225 0,397966 0,397668 0,397330
0,1 0,396953 0,396536 0,396080 0,395585 0,395052 0,394479 0,393868 0,393219 0,392531 0,391806
0,2 0,391043 0,390242 0,389404 0,388529 0,387617 0,386668 0,385683 0,384663 0,383606 0,382515
0,3 0,381388 0,380226 0,379031 0,377801 0,376537 0,375240 0,373911 0,372548 0,371154 0,369728
0,4 0,368270 0,366782 0,365263 0,363714 0,362135 0,360527 0,358890 0,357225 0,355533 0,353812
0,5 0,352065 0,350292 0,348493 0,346668 0,344818 0,342944 0,341046 0,339124 0,337180 0,335213
0,6 0,333225 0,331215 0,329184 0,327133 0,325062 0,322972 0,320864 0,318737 0,316593 0,314432
0,7 0,312254 0,310060 0,307851 0,305627 0,303389 0,301137 0,298872 0,296595 0,294305 0,292004
0,8 0,289692 0,287369 0,285036 0,282694 0,280344 0,277985 0,275618 0,273244 0,270864 0,268477
0,9 0,266085 0,263688 0,261286 0,258881 0,256471 0,254059 0,251644 0,249228 0,246809 0,244390
1 0,241971 0,239551 0,237132 0,234714 0,232297 0,229882 0,227470 0,225060 0,222653 0,220251
1,1 0,217852 0,215458 0,213069 0,210686 0,208308 0,205936 0,203571 0,201214 0,198863 0,196520
1,2 0,194186 0,191860 0,189543 0,187235 0,184937 0,182649 0,180371 0,178104 0,175847 0,173602
1,3 0,171369 0,169147 0,166937 0,164740 0,162555 0,160383 0,158225 0,156080 0,153948 0,151831
1,4 0,149727 0,147639 0,145564 0,143505 0,141460 0,139431 0,137417 0,135418 0,133435 0,131468
1,5 0,129518 0,127583 0,125665 0,123763 0,121878 0,120009 0,118157 0,116323 0,114505 0,112704
1,6 0,110921 0,109155 0,107406 0,105675 0,103961 0,102265 0,100586 0,098925 0,097282 0,095657
1,7 0,094049 0,092459 0,090887 0,089333 0,087796 0,086277 0,084776 0,083293 0,081828 0,080380
1,8 0,078950 0,077538 0,076143 0,074766 0,073407 0,072065 0,070740 0,069433 0,068144 0,066871
1,9 0,065616 0,064378 0,063157 0,061952 0,060765 0,059595 0,058441 0,057304 0,056183 0,055079
2 0,053991 0,052919 0,051864 0,050824 0,049800 0,048792 0,047800 0,046823 0,045861 0,044915
2,1 0,043984 0,043067 0,042166 0,041280 0,040408 0,039550 0,038707 0,037878 0,037063 0,036262
2,2 0,035475 0,034701 0,033941 0,033194 0,032460 0,031740 0,031032 0,030337 0,029655 0,028985
2,3 0,028327 0,027682 0,027048 0,026426 0,025817 0,025218 0,024631 0,024056 0,023491 0,022937
2,4 0,022395 0,021862 0,021341 0,020829 0,020328 0,019837 0,019356 0,018885 0,018423 0,017971
2,5 0,017528 0,017095 0,016670 0,016254 0,015848 0,015449 0,015060 0,014678 0,014305 0,013940
2,6 0,013583 0,013234 0,012892 0,012558 0,012232 0,011912 0,011600 0,011295 0,010997 0,010706
2,7 0,010421 0,010143 0,009871 0,009606 0,009347 0,009094 0,008846 0,008605 0,008370 0,008140
2,8 0,007915 0,007697 0,007483 0,007274 0,007071 0,006873 0,006679 0,006491 0,006307 0,006127
2,9 0,005953 0,005782 0,005616 0,005454 0,005296 0,005143 0,004993 0,004847 0,004705 0,004567
3 0,004432 0,004301 0,004173 0,004049 0,003928 0,003810 0,003695 0,003584 0,003475 0,003370
3,1 0,003267 0,003167 0,003070 0,002975 0,002884 0,002794 0,002707 0,002623 0,002541 0,002461
3,2 0,002384 0,002309 0,002236 0,002165 0,002096 0,002029 0,001964 0,001901 0,001840 0,001780
3,3 0,001723 0,001667 0,001612 0,001560 0,001508 0,001459 0,001411 0,001364 0,001319 0,001275
3,4 0,001232 0,001191 0,001151 0,001112 0,001075 0,001038 0,001003 0,000969 0,000936 0,000904
3,5 0,000873 0,000843 0,000814 0,000785 0,000758 0,000732 0,000706 0,000681 0,000657 0,000634
3,6 0,000612 0,000590 0,000569 0,000549 0,000529 0,000510 0,000492 0,000474 0,000457 0,000441
3,7 0,000425 0,000409 0,000394 0,000380 0,000366 0,000353 0,000340 0,000327 0,000315 0,000303
3,8 0,000292 0,000281 0,000271 0,000260 0,000251 0,000241 0,000232 0,000223 0,000215 0,000207
3,9 0,000199 0,000191 0,000184 0,000177 0,000170 0,000163 0,000157 0,000151 0,000145 0,000139
4 0,000134 0,000129 0,000124 0,000119 0,000114 0,000109 0,000105 0,000101 0,000097 0,000093
4,1 0,000089 0,000086 0,000082 0,000079 0,000076 0,000073 0,000070 0,000067 0,000064 0,000061
4,2 0,000059 0,000057 0,000054 0,000052 0,000050 0,000048 0,000046 0,000044 0,000042 0,000040
4,3 0,000039 0,000037 0,000035 0,000034 0,000032 0,000031 0,000030 0,000028 0,000027 0,000026
4,4 0,000025 0,000024 0,000023 0,000022 0,000021 0,000020 0,000019 0,000018 0,000017 0,000017
4,5 0,000016 0,000015 0,000015 0,000014 0,000013 0,000013 0,000012 0,000012 0,000011 0,000011
4,6 0,000010 0,000010 0,000009 0,000009 0,000008 0,000008 0,000008 0,000007 0,000007 0,000007
4,7 0,000006 0,000006 0,000006 0,000006 0,000005 0,000005 0,000005 0,000005 0,000004 0,000004
4,8 0,000004 0,000004 0,000004 0,000003 0,000003 0,000003 0,000003 0,000003 0,000003 0,000003
4,9 0,000002 0,000002 0,000002 0,000002 0,000002 0,000002 0,000002 0,000002 0,000002 0,000002
266 Apéndice

Tabla de valores de t de Student


Área de la cola derecha
0,45 0,40 0,35 0,20 0,15 0,10 0,05 0,025 0,01 0,005
1 0,1584 0,3249 0,5095 1,3764 1,9626 3,0777 6,3137 12,7062 31,8210 63,6559
2 0,1421 0,2887 0,4447 1,0607 1,3862 1,8856 2,9200 4,3027 6,9645 9,9250
3 0,1366 0,2767 0,4242 0,9785 1,2498 1,6377 2,3534 3,1824 4,5407 5,8408
4 0,1338 0,2707 0,4142 0,9410 1,1896 1,5332 2,1318 2,7765 3,7469 4,6041
5 0,1322 0,2672 0,4082 0,9195 1,1558 1,4759 2,0150 2,5706 3,3649 4,0321
6 0,1311 0,2648 0,4043 0,9057 1,1342 1,4398 1,9432 2,4469 3,1427 3,7074
7 0,1303 0,2632 0,4015 0,8960 1,1192 1,4149 1,8946 2,3646 2,9979 3,4995
8 0,1297 0,2619 0,3995 0,8889 1,1081 1,3968 1,8595 2,3060 2,8965 3,3554
9 0,1293 0,2610 0,3979 0,8834 1,0997 1,3830 1,8331 2,2622 2,8214 3,2498
10 0,1289 0,2602 0,3966 0,8791 1,0931 1,3722 1,8125 2,2281 2,7638 3,1693
11 0,1286 0,2596 0,3956 0,8755 1,0877 1,3634 1,7959 2,2010 2,7181 3,1058
12 0,1283 0,2590 0,3947 0,8726 1,0832 1,3562 1,7823 2,1788 2,6810 3,0545
13 0,1281 0,2586 0,3940 0,8702 1,0795 1,3502 1,7709 2,1604 2,6503 3,0123
14 0,1280 0,2582 0,3933 0,8681 1,0763 1,3450 1,7613 2,1448 2,6245 2,9768
15 0,1278 0,2579 0,3928 0,8662 1,0735 1,3406 1,7531 2,1315 2,6025 2,9467
16 0,1277 0,2576 0,3923 0,8647 1,0711 1,3368 1,7459 2,1199 2,5835 2,9208
17 0,1276 0,2573 0,3919 0,8633 1,0690 1,3334 1,7396 2,1098 2,5669 2,8982
18 0,1274 0,2571 0,3915 0,8620 1,0672 1,3304 1,7341 2,1009 2,5524 2,8784
19 0,1274 0,2569 0,3912 0,8610 1,0655 1,3277 1,7291 2,0930 2,5395 2,8609
20 0,1273 0,2567 0,3909 0,8600 1,0640 1,3253 1,7247 2,0860 2,5280 2,8453
21 0,1272 0,2566 0,3906 0,8591 1,0627 1,3232 1,7207 2,0796 2,5176 2,8314
22 0,1271 0,2564 0,3904 0,8583 1,0614 1,3212 1,7171 2,0739 2,5083 2,8188
23 0,1271 0,2563 0,3902 0,8575 1,0603 1,3195 1,7139 2,0687 2,4999 2,8073
24 0,1270 0,2562 0,3900 0,8569 1,0593 1,3178 1,7109 2,0639 2,4922 2,7970
25 0,1269 0,2561 0,3898 0,8562 1,0584 1,3163 1,7081 2,0595 2,4851 2,7874
26 0,1269 0,2560 0,3896 0,8557 1,0575 1,3150 1,7056 2,0555 2,4786 2,7787
27 0,1268 0,2559 0,3894 0,8551 1,0567 1,3137 1,7033 2,0518 2,4727 2,7707
28 0,1268 0,2558 0,3893 0,8546 1,0560 1,3125 1,7011 2,0484 2,4671 2,7633
29 0,1268 0,2557 0,3892 0,8542 1,0553 1,3114 1,6991 2,0452 2,4620 2,7564
30 0,1267 0,2556 0,3890 0,8538 1,0547 1,3104 1,6973 2,0423 2,4573 2,7500
31 0,1267 0,2555 0,3889 0,8534 1,0541 1,3095 1,6955 2,0395 2,4528 2,7440
32 0,1267 0,2555 0,3888 0,8530 1,0535 1,3086 1,6939 2,0369 2,4487 2,7385
33 0,1266 0,2554 0,3887 0,8526 1,0530 1,3077 1,6924 2,0345 2,4448 2,7333
34 0,1266 0,2553 0,3886 0,8523 1,0525 1,3070 1,6909 2,0322 2,4411 2,7284
35 0,1266 0,2553 0,3885 0,8520 1,0520 1,3062 1,6896 2,0301 2,4377 2,7238
36 0,1266 0,2552 0,3884 0,8517 1,0516 1,3055 1,6883 2,0281 2,4345 2,7195
37 0,1265 0,2552 0,3883 0,8514 1,0512 1,3049 1,6871 2,0262 2,4314 2,7154
38 0,1265 0,2551 0,3882 0,8512 1,0508 1,3042 1,6860 2,0244 2,4286 2,7116
39 0,1265 0,2551 0,3882 0,8509 1,0504 1,3036 1,6849 2,0227 2,4258 2,7079
40 0,1265 0,2550 0,3881 0,8507 1,0500 1,3031 1,6839 2,0211 2,4233 2,7045
41 0,1264 0,2550 0,3880 0,8505 1,0497 1,3025 1,6829 2,0195 2,4208 2,7012
42 0,1264 0,2550 0,3880 0,8503 1,0494 1,3020 1,6820 2,0181 2,4185 2,6981
43 0,1264 0,2549 0,3879 0,8501 1,0491 1,3016 1,6811 2,0167 2,4163 2,6951
44 0,1264 0,2549 0,3878 0,8499 1,0488 1,3011 1,6802 2,0154 2,4141 2,6923
45 0,1264 0,2549 0,3878 0,8497 1,0485 1,3007 1,6794 2,0141 2,4121 2,6896
46 0,1264 0,2548 0,3877 0,8495 1,0482 1,3002 1,6787 2,0129 2,4102 2,6870
47 0,1263 0,2548 0,3877 0,8493 1,0480 1,2998 1,6779 2,0117 2,4083 2,6846
48 0,1263 0,2548 0,3876 0,8492 1,0478 1,2994 1,6772 2,0106 2,4066 2,6822
49 0,1263 0,2547 0,3876 0,8490 1,0475 1,2991 1,6766 2,0096 2,4049 2,6800
50 0,1263 0,2547 0,3875 0,8489 1,0473 1,2987 1,6759 2,0086 2,4033 2,6778
60 0,1262 0,2545 0,3872 0,8477 1,0455 1,2958 1,6706 2,0003 2,3901 2,6603
∞ 0,1257 0,2533 0,3853 0,8416 1,0364 1,2816 1,6449 1,9600 2,3264 2,5759
Apéndice 267

Tabla de valores de ji-cuadrado

P(Área de la cola derecha bajo la función ji-cuadrada)


n 0,99 0,98 0,95 0,90 0,50 0,10 0,05 0,025 0,02 0,01
1 0,0002 0,0006 0,0039 0,0158 0,4549 2,7055 3,8415 5,0239 5,4119 6,6349
2 0,0201 0,0404 0,1026 0,2107 1,3863 4,6052 5,9915 7,3778 7,8241 9,2104
3 0,1148 0,1848 0,3518 0,5844 2,3660 6,2514 7,8147 9,3484 9,8374 11,3449
4 0,2971 0,4294 0,7107 1,0636 3,3567 7,7794 9,4877 11,1433 11,6678 13,2767
5 0,5543 0,7519 1,1455 1,6103 4,3515 9,2363 11,0705 12,8325 13,3882 15,0863
6 0,8721 1,1344 1,6354 2,2041 5,3481 10,6446 12,5916 14,4494 15,0332 16,8119
7 1,2390 1,5643 2,1673 2,8331 6,3458 12,0170 14,0671 16,0128 16,6224 18,4753
8 1,6465 2,0325 2,7326 3,4895 7,3441 13,3616 15,5073 17,5345 18,1682 20,0902
9 2,0879 2,5324 3,3251 4,1682 8,3428 14,6837 16,9190 19,0228 19,6790 21,6660
10 2,5582 3,0591 3,9403 4,8652 9,3418 15,9872 18,3070 20,4832 21,1608 23,2093
11 3,0535 3,6087 4,5748 5,5778 10,3410 17,2750 19,6752 21,9200 22,6179 24,7250
12 3,5706 4,1783 5,2260 6,3038 11,3403 18,5493 21,0261 23,3367 24,0539 26,2170
13 4,1069 4,7654 5,8919 7,0415 12,3398 19,8119 22,3620 24,7356 25,4715 27,6882
14 4,6604 5,3682 6,5706 7,7895 13,3393 21,0641 23,6848 26,1189 26,8727 29,1412
15 5,2294 5,9849 7,2609 8,5468 14,3389 22,3071 24,9958 27,4884 28,2595 30,5780
16 5,8122 6,6142 7,9616 9,3122 15,3385 23,5418 26,2962 28,8453 29,6332 31,9999
17 6,4077 7,2550 8,6718 10,0852 16,3382 24,7690 27,5871 30,1910 30,9950 33,4087
18 7,0149 7,9062 9,3904 10,8649 17,3379 25,9894 28,8693 31,5264 32,3462 34,8052
19 7,6327 8,5670 10,1170 11,6509 18,3376 27,2036 30,1435 32,8523 33,6874 36,1908
20 8,2604 9,2367 10,8508 12,4426 19,3374 28,4120 31,4104 34,1696 35,0196 37,5663
21 8,8972 9,9145 11,5913 13,2396 20,3372 29,6151 32,6706 35,4789 36,3434 38,9322
22 9,5425 10,6000 12,3380 14,0415 21,3370 30,8133 33,9245 36,7807 37,6595 40,2894
23 10,1957 11,2926 13,0905 14,8480 22,3369 32,0069 35,1725 38,0756 38,9683 41,6383
24 10,8563 11,9918 13,8484 15,6587 23,3367 33,1962 36,4150 39,3641 40,2703 42,9798
25 11,5240 12,6973 14,6114 16,4734 24,3366 34,3816 37,6525 40,6465 41,5660 44,3140
26 12,1982 13,4086 15,3792 17,2919 25,3365 35,5632 38,8851 41,9231 42,8558 45,6416
27 12,8785 14,1254 16,1514 18,1139 26,3363 36,7412 40,1133 43,1945 44,1399 46,9628
28 13,5647 14,8475 16,9279 18,9392 27,3362 37,9159 41,3372 44,4608 45,4188 48,2782
29 14,2564 15,5745 17,7084 19,7677 28,3361 39,0875 42,5569 45,7223 46,6926 49,5878
30 14,9535 16,3062 18,4927 20,5992 29,3360 40,2560 43,7730 46,9792 47,9618 50,8922

Para n > 30 conviene emplear el ajuste normal: z = 2 χ 2 − 2n − 1


268 Apéndice

Tabla de valores de F (P = 0,05)

P = 0,05
n2\n1 1 2 3 4 5 6 7 8 9 10 11 12 15 20 24 30 40 50 60 120 ∞
1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,0 243,9 245,9 248,0 249,1 250,1 251,1 251,8 252,2 253,3 254,3
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,48 19,49 19,50
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,70 8,66 8,64 8,62 8,59 8,58 8,57 8,55 8,53
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91 5,86 5,80 5,77 5,75 5,72 5,70 5,69 5,66 5,63
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,62 4,56 4,53 4,50 4,46 4,44 4,43 4,40 4,37
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,94 3,87 3,84 3,81 3,77 3,75 3,74 3,70 3,67
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,57 3,51 3,44 3,41 3,38 3,34 3,32 3,30 3,27 3,23
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,22 3,15 3,12 3,08 3,04 3,02 3,01 2,97 2,93
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,01 2,94 2,90 2,86 2,83 2,80 2,79 2,75 2,71
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,85 2,77 2,74 2,70 2,66 2,64 2,62 2,58 2,54
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,82 2,79 2,72 2,65 2,61 2,57 2,53 2,51 2,49 2,45 2,40
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,62 2,54 2,51 2,47 2,43 2,40 2,38 2,34 2,30
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,63 2,60 2,53 2,46 2,42 2,38 2,34 2,31 2,30 2,25 2,21
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,57 2,53 2,46 2,39 2,35 2,31 2,27 2,24 2,22 2,18 2,13
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,40 2,33 2,29 2,25 2,20 2,18 2,16 2,11 2,07
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,46 2,42 2,35 2,28 2,24 2,19 2,15 2,12 2,11 2,06 2,01
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,31 2,23 2,19 2,15 2,10 2,08 2,06 2,01 1,96
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,27 2,19 2,15 2,11 2,06 2,04 2,02 1,97 1,92
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,23 2,16 2,11 2,07 2,03 2,00 1,98 1,93 1,88
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,20 2,12 2,08 2,04 1,99 1,97 1,95 1,90 1,84
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,28 2,25 2,18 2,10 2,05 2,01 1,96 1,94 1,92 1,87 1,81
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,26 2,23 2,15 2,07 2,03 1,98 1,94 1,91 1,89 1,84 1,78
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,24 2,20 2,13 2,05 2,01 1,96 1,91 1,88 1,86 1,81 1,76
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,22 2,18 2,11 2,03 1,98 1,94 1,89 1,86 1,84 1,79 1,73
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,20 2,16 2,09 2,01 1,96 1,92 1,87 1,84 1,82 1,77 1,71
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,18 2,15 2,07 1,99 1,95 1,90 1,85 1,82 1,80 1,75 1,69
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,17 2,13 2,06 1,97 1,93 1,88 1,84 1,81 1,79 1,73 1,67
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,15 2,12 2,04 1,96 1,91 1,87 1,82 1,79 1,77 1,71 1,65
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,14 2,10 2,03 1,94 1,90 1,85 1,81 1,77 1,75 1,70 1,64
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,13 2,09 2,01 1,93 1,89 1,84 1,79 1,76 1,74 1,68 1,62
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,04 2,00 1,92 1,84 1,79 1,74 1,69 1,66 1,64 1,58 1,51
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,99 1,95 1,87 1,78 1,74 1,69 1,63 1,60 1,58 1,51 1,44
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,95 1,92 1,84 1,75 1,70 1,65 1,59 1,56 1,53 1,47 1,39
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,87 1,83 1,75 1,66 1,61 1,55 1,50 1,46 1,43 1,35 1,25
∞ 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,79 1,75 1,67 1,57 1,52 1,46 1,39 1,35 1,32 1,22 1,00
Apéndice 269

Tabla de valores de F (P = 0,01)

P = 0,01
n2\n1 1 2 3 4 5 6 7 8 9 10 11 12 15 20 24 30 40 50 60 120 ∞
1 4052,2 4999,3 5403,5 5624,3 5764,0 5859,0 5928,3 5981,0 6022,4 6055,9 6083,4 6106,7 6157,0 6208,7 6234,3 6260,4 6286,4 6302,3 6313,0 6339,5 6365,6
2 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,41 99,42 99,43 99,45 99,46 99,47 99,48 99,48 99,48 99,49 99,50
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 27,13 27,05 26,87 26,69 26,60 26,50 26,41 26,35 26,32 26,22 26,13
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,45 14,37 14,20 14,02 13,93 13,84 13,75 13,69 13,65 13,56 13,46
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,96 9,89 9,72 9,55 9,47 9,38 9,29 9,24 9,20 9,11 9,02
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,79 7,72 7,56 7,40 7,31 7,23 7,14 7,09 7,06 6,97 6,88
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,54 6,47 6,31 6,16 6,07 5,99 5,91 5,86 5,82 5,74 5,65
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,73 5,67 5,52 5,36 5,28 5,20 5,12 5,07 5,03 4,95 4,86
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,18 5,11 4,96 4,81 4,73 4,65 4,57 4,52 4,48 4,40 4,31
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,77 4,71 4,56 4,41 4,33 4,25 4,17 4,12 4,08 4,00 3,91
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,46 4,40 4,25 4,10 4,02 3,94 3,86 3,81 3,78 3,69 3,60
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,22 4,16 4,01 3,86 3,78 3,70 3,62 3,57 3,54 3,45 3,36
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 4,02 3,96 3,82 3,66 3,59 3,51 3,43 3,38 3,34 3,25 3,17
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,86 3,80 3,66 3,51 3,43 3,35 3,27 3,22 3,18 3,09 3,00
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,73 3,67 3,52 3,37 3,29 3,21 3,13 3,08 3,05 2,96 2,87
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,62 3,55 3,41 3,26 3,18 3,10 3,02 2,97 2,93 2,84 2,75
17 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,52 3,46 3,31 3,16 3,08 3,00 2,92 2,87 2,83 2,75 2,65
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,43 3,37 3,23 3,08 3,00 2,92 2,84 2,78 2,75 2,66 2,57
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,36 3,30 3,15 3,00 2,92 2,84 2,76 2,71 2,67 2,58 2,49
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,29 3,23 3,09 2,94 2,86 2,78 2,69 2,64 2,61 2,52 2,42
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,24 3,17 3,03 2,88 2,80 2,72 2,64 2,58 2,55 2,46 2,36
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,18 3,12 2,98 2,83 2,75 2,67 2,58 2,53 2,50 2,40 2,31
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,14 3,07 2,93 2,78 2,70 2,62 2,54 2,48 2,45 2,35 2,26
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,09 3,03 2,89 2,74 2,66 2,58 2,49 2,44 2,40 2,31 2,21
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 3,06 2,99 2,85 2,70 2,62 2,54 2,45 2,40 2,36 2,27 2,17
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 3,02 2,96 2,81 2,66 2,58 2,50 2,42 2,36 2,33 2,23 2,13
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,99 2,93 2,78 2,63 2,55 2,47 2,38 2,33 2,29 2,20 2,10
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,96 2,90 2,75 2,60 2,52 2,44 2,35 2,30 2,26 2,17 2,06
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,93 2,87 2,73 2,57 2,49 2,41 2,33 2,27 2,23 2,14 2,03
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,91 2,84 2,70 2,55 2,47 2,39 2,30 2,25 2,21 2,11 2,01
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,73 2,66 2,52 2,37 2,29 2,20 2,11 2,06 2,02 1,92 1,80
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,63 2,56 2,42 2,27 2,18 2,10 2,01 1,95 1,91 1,80 1,68
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,56 2,50 2,35 2,20 2,12 2,03 1,94 1,88 1,84 1,73 1,60
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,40 2,34 2,19 2,03 1,95 1,86 1,76 1,70 1,66 1,53 1,38
∞ 6,64 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,25 2,18 2,04 1,88 1,79 1,70 1,59 1,52 1,47 1,32 1,01
270 Apéndice

Tabla de factores para el cálculo de límites de control

Tamaño de
A2 A3 E2 B3 B4 D3 D4
la muestra
2 1,880 2,659 2,660 0,000 3,267 0,000 3,267
3 1,023 1,954 1,772 0,000 2,568 0,000 2,574
4 0,729 1,628 1,457 0,000 2,266 0,000 2,282
5 0,557 1,427 1,290 0,000 2,089 0,000 2,114
6 0,483 1,287 1,184 0,030 1,970 0,000 2,004
7 0,419 1,182 1,109 0,118 1,882 0,076 1,924
8 0,373 1,099 1,054 0,185 1,815 0,136 1,864
9 0,337 1,032 1,010 0,239 1,761 0,184 1,816
10 0,308 0,975 0,975 0,284 1,716 0,223 1,777
11 0,285 0,927 0,946 0,321 1,679 0,256 1,744
12 0,266 0,886 0,921 0,354 1,646 0,283 1,717
13 0,249 0,850 0,899 0,382 1,618 0,307 1,693
14 0,235 0,817 0,881 0,406 1,594 0,328 1,672
15 0,223 0,789 0,864 0,428 1,572 0,347 1,653
16 0,212 0,763 0,448 1,552 0,363 1,637
17 0,203 0,739 0,466 1,534 0,378 1,622
18 0,194 0,718 0,482 1,518 0,391 1,608
19 0,187 0,698 0,497 1,503 0,403 1,597
20 0,180 0,680 0,510 1,490 0,415 1,585
21 0,173 0,663 0,523 1,477 0,425 1,575
22 0,167 0,647 0,534 1,466 0,434 1,566
23 0,162 0,633 0,545 1,455 0,443 1,557
24 0,157 0,619 0,555 1,445 0,451 1,548
25 0,153 0,606 0,565 1,435 0,459 1,541

Tabla extraída del curso de Herramientas Estadísticas para el mejoramiento de procesos


dictado por el Ing. Federico Salvador en la Sociedad Nacional de Industrias del Perú.
Apéndice 271

Tabla de probabilidades de aceptación (Pa)


np \ c 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
0,01 0,990 1,000
0,02 0,980 1,000
0,03 0,970 1,000
0,04 0,961 0,999 1,000
0,05 0,951 0,999 1,000
0,06 0,942 0,998 1,000
0,07 0,932 0,998 1,000
0,08 0,923 0,997 1,000
0,09 0,914 0,996 1,000
0,10 0,905 0,995 1,000
0,15 0,861 0,990 0,999 1,000
0,20 0,819 0,982 0,999 1,000
0,25 0,779 0,974 0,998 1,000
0,30 0,741 0,963 0,996 1,000
0,35 0,705 0,951 0,994 1,000
0,40 0,670 0,938 0,992 0,999 1,000
0,45 0,638 0,925 0,989 0,999 1,000
0,50 0,607 0,910 0,986 0,998 1,000
0,55 0,577 0,894 0,982 0,998 1,000
0,60 0,549 0,878 0,977 0,997 1,000
0,65 0,522 0,861 0,972 0,996 0,999 1,000
0,70 0,497 0,844 0,966 0,994 0,999 1,000
0,75 0,472 0,827 0,959 0,993 0,999 1,000
0,80 0,449 0,809 0,953 0,991 0,999 1,000
0,85 0,427 0,791 0,945 0,989 0,998 1,000
0,90 0,407 0,772 0,937 0,987 0,998 1,000
0,95 0,387 0,754 0,929 0,984 0,997 1,000
1,00 0,368 0,736 0,920 0,981 0,996 0,999 1,000
1,10 0,333 0,699 0,900 0,974 0,995 0,999 1,000
1,20 0,301 0,663 0,879 0,966 0,992 0,998 1,000
1,30 0,273 0,627 0,857 0,957 0,989 0,998 1,000
1,40 0,247 0,592 0,833 0,946 0,986 0,997 0,999 1,000
1,50 0,223 0,558 0,809 0,934 0,981 0,996 0,999 1,000
1,60 0,202 0,525 0,783 0,921 0,976 0,994 0,999 1,000
1,70 0,183 0,493 0,757 0,907 0,970 0,992 0,998 1,000
1,80 0,165 0,463 0,731 0,891 0,964 0,990 0,997 0,999 1,000
1,90 0,150 0,434 0,704 0,875 0,956 0,987 0,997 0,999 1,000
2,00 0,135 0,406 0,677 0,857 0,947 0,983 0,995 0,999 1,000
2,10 0,122 0,380 0,650 0,839 0,938 0,980 0,994 0,999 1,000
2,20 0,111 0,355 0,623 0,819 0,928 0,975 0,993 0,998 1,000
2,30 0,100 0,331 0,596 0,799 0,916 0,970 0,991 0,997 0,999 1,000
2,40 0,091 0,308 0,570 0,779 0,904 0,964 0,988 0,997 0,999 1,000
2,50 0,082 0,287 0,544 0,758 0,891 0,958 0,986 0,996 0,999 1,000
2,60 0,074 0,267 0,518 0,736 0,877 0,951 0,983 0,995 0,999 1,000
2,70 0,067 0,249 0,494 0,714 0,863 0,943 0,979 0,993 0,998 0,999 1,000
2,80 0,061 0,231 0,469 0,692 0,848 0,935 0,976 0,992 0,998 0,999 1,000
2,90 0,055 0,215 0,446 0,670 0,832 0,926 0,971 0,990 0,997 0,999 1,000
3,00 0,050 0,199 0,423 0,647 0,815 0,916 0,966 0,988 0,996 0,999 1,000
3,10 0,045 0,185 0,401 0,625 0,798 0,906 0,961 0,986 0,995 0,999 1,000
3,20 0,041 0,171 0,380 0,603 0,781 0,895 0,955 0,983 0,994 0,998 1,000
3,30 0,037 0,159 0,359 0,580 0,763 0,883 0,949 0,980 0,993 0,998 0,999 1,000
3,40 0,033 0,147 0,340 0,558 0,744 0,871 0,942 0,977 0,992 0,997 0,999 1,000
3,50 0,030 0,136 0,321 0,537 0,725 0,858 0,935 0,973 0,990 0,997 0,999 1,000
3,60 0,027 0,126 0,303 0,515 0,706 0,844 0,927 0,969 0,988 0,996 0,999 1,000
3,70 0,025 0,116 0,285 0,494 0,687 0,830 0,918 0,965 0,986 0,995 0,998 1,000
3,80 0,022 0,107 0,269 0,473 0,668 0,816 0,909 0,960 0,984 0,994 0,998 0,999 1,000
3,90 0,020 0,099 0,253 0,453 0,648 0,801 0,899 0,955 0,981 0,993 0,998 0,999 1,000
4,00 0,018 0,092 0,238 0,433 0,629 0,785 0,889 0,949 0,979 0,992 0,997 0,999 1,000
4,10 0,017 0,085 0,224 0,414 0,609 0,769 0,879 0,943 0,976 0,990 0,997 0,999 1,000
4,20 0,015 0,078 0,210 0,395 0,590 0,753 0,867 0,936 0,972 0,989 0,996 0,999 1,000
4,30 0,014 0,072 0,197 0,377 0,570 0,737 0,856 0,929 0,968 0,987 0,995 0,998 0,999 1,000
4,40 0,012 0,066 0,185 0,359 0,551 0,720 0,844 0,921 0,964 0,985 0,994 0,998 0,999 1,000
4,50 0,011 0,061 0,174 0,342 0,532 0,703 0,831 0,913 0,960 0,983 0,993 0,998 0,999 1,000
4,60 0,010 0,056 0,163 0,326 0,513 0,686 0,818 0,905 0,955 0,980 0,992 0,997 0,999 1,000
4,70 0,009 0,052 0,152 0,310 0,495 0,668 0,805 0,896 0,950 0,978 0,991 0,997 0,999 1,000
4,80 0,008 0,048 0,143 0,294 0,476 0,651 0,791 0,887 0,944 0,975 0,990 0,996 0,999 1,000
4,90 0,007 0,044 0,133 0,279 0,458 0,634 0,777 0,877 0,938 0,972 0,988 0,995 0,998 0,999 1,000
5,00 0,007 0,040 0,125 0,265 0,440 0,616 0,762 0,867 0,932 0,968 0,986 0,995 0,998 0,999 1,000
272 Apéndice
Índice i

ÍNDICE
CAPÍTULO 1. PROBABILIDADES................................................................................................................... 1
1.1 MODELOS MATEMÁTICOS ..................................................................................................................... 1
1.1.1 Definiciones: ................................................................................................................................... 1
1.1.2 Características de un fenómeno probabilístico: ............................................................................. 1
1.2 PERMUTACIONES Y COMBINACIONES .................................................................................................... 2
1.2.1 Teoremas relativos a permutaciones y combinaciones ................................................................... 2
1.3 EXPERIMENTOS Y EVENTOS .................................................................................................................. 7
1.4 ESPACIO MUESTRA................................................................................................................................ 7
1.5 VARIABLE ALEATORIA.......................................................................................................................... 7
1.6 PROBABILIDAD ..................................................................................................................................... 9
1.6.1. Probabilidad a priori:..................................................................................................................... 9
1.6.2. Probabilidad experimental............................................................................................................ 10
1.6.3 Probabilidad subjetiva .................................................................................................................. 11
1.7 TEOREMAS DE PROBABILIDAD. ........................................................................................................... 11
1.7.1 Suma de probabilidades:............................................................................................................... 11
1.7.2 Probabilidad condicional y regla de la multiplicación: ............................................................... 14
1.7.3 Eventos independientes ................................................................................................................. 16
1.7.4 Teorema de suma y multiplicación: particiones............................................................................ 17
1.7.5 Teorema de Bayes ......................................................................................................................... 21
PROBLEMAS PROPUESTOS. ................................................................................................................................ 23
CAPÍTULO 2. INTRODUCCIÓN A LA ESTADÍSTICA .............................................................................. 34
2.1 DEFINICIÓN DE ESTADÍSTICA .............................................................................................................. 34
2.2 DEFINICIÓN DE ALGUNOS TÉRMINOS BÁSICOS .................................................................................... 34
2.2.1 Universo o población:................................................................................................................... 34
2.2.2 Muestra ......................................................................................................................................... 34
2.3 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL......................................................................................... 35
2.4 IMPORTANCIA DE LA ESTADÍSTICA ..................................................................................................... 35
CAPÍTULO 3. ESTADÍSTICA DESCRIPTIVA ............................................................................................. 37
3.1 INTRODUCCIÓN ................................................................................................................................... 37
3.2 MEDIDAS DESCRIPTIVAS ..................................................................................................................... 37
3.2.1 Media aritmética ........................................................................................................................... 37
3.2.2 La mediana.................................................................................................................................... 38
3.2.3 La moda......................................................................................................................................... 38
3.2.4 La amplitud ................................................................................................................................... 39
3.2.5 La desviación media...................................................................................................................... 39
3.2.6 La varianza ................................................................................................................................... 39
3.2.7 La desviación estándar.................................................................................................................. 39
3.2.8 El coeficiente de variación............................................................................................................ 39
3.2.9 Los cuartiles .................................................................................................................................. 40
3.2.10 Los percentiles.......................................................................................................................... 40
3.2.11 Coeficiente de asimetría ........................................................................................................... 40
3.2.12 Curtosis .................................................................................................................................... 41
3.3 EXACTITUD Y PRECISIÓN .................................................................................................................... 41
3.4 MEDIDAS DESCRIPTIVAS EN EXCEL .................................................................................................... 42
3.5 REPRESENTACIONES DE DATOS ........................................................................................................... 44
3.5.1 Distribución de frecuencias: diagrama de barras ........................................................................ 44
3.5.2 Representaciones tallo-hoja .......................................................................................................... 45
3.5.3 Diagrama de caja-bigote.................................................................................................................... 45
3.6 DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS ................................................................................. 46
3.6.1 Agrupación de datos...................................................................................................................... 46
3.6.2 Histograma, polígono de frecuencias y ojiva................................................................................ 48
3.6.3 Cálculo de algunas medidas descriptivas. .................................................................................... 50
3.7 TABLAS Y GRÁFICAS PARA LA REPRESENTACIÓN DE DATOS EN EXCEL ............................................... 50
3.7.1 Tabla y gráfico de distribución de frecuencias no agrupadas ...................................................... 50
3.7.2 Tabla de distribución de frecuencias agrupadas e histogramas en Excel .................................... 50
PROBLEMAS PROPUESTOS. ................................................................................................................................ 54
ii Índice

CAPÍTULO 4. FUNCIÓN DE PROBABILIDAD........................................................................................... 58


4.1 DEFINICIÓN DE FUNCIÓN DE PROBABILIDAD. ...................................................................................... 58
4.2 LA FUNCIÓN DE DISTRIBUCIÓN (ACUMULATIVA). ............................................................................... 59
4.3 EL VALOR ESPERADO DE UNA VARIABLE ALEATORIA DISCRETA. ........................................................ 59
4.4 VARIANZA Y DESVIACIÓN ESTÁNDAR DE UNA VARIABLE ALEATORIA DISCRETA ................................ 60
4.5 TEOREMAS SOBRE EL VALOR ESPERADO Y LA VARIANZA.................................................................... 61
4.6 LA DESIGUALDAD DE TCHEBYCHEFF. ................................................................................................. 62
4.7 LA FUNCIÓN BIVARIANTE DE PROBABILIDAD. ..................................................................................... 63
4.7.1 Definición de función bivariante de probabilidad. ....................................................................... 63
4.7.2 El valor esperado de funciones de dos variables. ......................................................................... 64
4.7.3 Varianza y covarianza de dos variables aleatorias....................................................................... 64
4.8 DISTRIBUCIONES DE PROBABILIDAD EN EXCEL ................................................................................... 65
PROBLEMAS PROPUESTOS. ................................................................................................................................ 68
CAPÍTULO 5. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD .................................................... 71
5.1 LA DISTRIBUCIÓN UNIFORME DISCRETA .............................................................................................. 71
5.2 LA DISTRIBUCIÓN BINOMIAL ............................................................................................................... 71
5.2.1 Probabilidad binomial .................................................................................................................. 71
5.2.2 La función binomial de probabilidad. ........................................................................................... 72
5.2.3 El valor esperado y la varianza .................................................................................................... 73
5.2.4 Cálculo de probabilidades binomiales acumulativas.................................................................... 74
5.2.5 La proporción muestral como estimación de la proporción poblacional. .................................... 76
5.2.6 La distribución binomial en Excel................................................................................................. 76
5.3 LA DISTRIBUCIÓN BINOMIAL NEGATIVA.............................................................................................. 76
5.4 LA DISTRIBUCIÓN DE POISSON. ........................................................................................................... 77
5.4.1 La función de probabilidad de Poisson......................................................................................... 77
5.4.2 El valor esperado y la varianza. ................................................................................................... 78
5.4.3 Cálculo de probabilidades acumulativas de Poisson.................................................................... 79
5.4.4 Aproximación de la distribución binomial a la distribución de Poisson. ..................................... 80
5.4.5 La distribución de Poisson en Excel ............................................................................................. 80
5.5 LA DISTRIBUCIÓN HIPERGEOMÉTRICA................................................................................................. 81
5.5.1 La probabilidad hipergeométrica ................................................................................................. 81
5.5.2 La distribución hipergeométrica ................................................................................................... 82
5.5.2 La media y la varianza .................................................................................................................. 82
PROBLEMAS PROPUESTOS. ................................................................................................................................ 83
CAPÍTULO 6. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD................................................... 86
6.1 LA FUNCIÓN DENSIDAD DE PROBABILIDAD. ........................................................................................ 86
6.1.1 Introducción .................................................................................................................................. 86
6.1.2 La función densidad de probabilidad............................................................................................ 86
6.1.3 La media y la varianza. ................................................................................................................. 87
6.2 LA DISTRIBUCIÓN NORMAL ................................................................................................................. 87
6.2.1 La función densidad normal de probabilidad ............................................................................... 87
6.2.2 La forma estandarizada. ............................................................................................................... 89
6.2.3 Áreas bajo la curva normal........................................................................................................... 90
6.2.4 Ordenadas de la curva normal...................................................................................................... 90
6.2.5 Propiedades de la curva normal. .................................................................................................. 91
6.2.6 Aproximación a la distribución binomial...................................................................................... 92
6.2.7 Ajuste de la curva normal. ............................................................................................................ 94
6.3 LA DISTRIBUCIÓN UNIFORME CONTINUA ............................................................................................. 96
PROBLEMAS PROPUESTOS. ................................................................................................................................ 98
CAPÍTULO 7. DISTRIBUCIONES DE PROPORCIONES......................................................................... 101
7.1 LA DISTRIBUCIÓN MULTINOMIAL...................................................................................................... 101
7.2 LA DISTRIBUCIÓN DE UNA PROPORCIÓN............................................................................................ 101
7.3 DETERMINACIÓN DEL TAMAÑO DE UNA MUESTRA EN POBLACIONES INFINITAS ................................ 103
7.3.1 Determinación del tamaño de una muestra para estimar una proporción de una población
infinita 103
7.3.2 Determinación del tamaño de una muestra estratificada para estimar proporciones de los estratos de
una población infinita................................................................................................................................ 106
Índice iii

7.4 DETERMINACIÓN DEL TAMAÑO DE UNA MUESTRA EN POBLACIONES FINITAS ................................... 109
7.5 LA DISTRIBUCIÓN DE LA DIFERENCIA DE DOS PROPORCIONES. .......................................................... 109
PROBLEMAS PROPUESTOS. .............................................................................................................................. 111
CAPÍTULO 8: DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES ........................................................ 113
8.1 INTRODUCCIÓN ................................................................................................................................. 113
8.2 DISTRIBUCIÓN DE LA MEDIA MUESTRAL ........................................................................................... 113
8.3. DISTRIBUCIÓN DE LA DIFERENCIA DE LAS MEDIAS MUESTRALES ...................................................... 114
8.4. LA DISTRIBUCIÓN T DE STUDENT: APLICACIONES A LAS MEDIAS POBLACIONALES ........................... 115
8.4.1 La distribución t de Student ........................................................................................................ 115
8.4.2 Distribución t de la media muestral ............................................................................................ 115
8.4.3 Distribución t de la diferencia de las medias muestrales............................................................ 116
PROBLEMAS PROPUESTOS ............................................................................................................................... 117
CAPÍTULO 9: CONTRASTES DE HIPÓTESIS .......................................................................................... 118
9.1. INTRODUCCIÓN ................................................................................................................................. 118
9.2. HIPÓTESIS NULA E HIPÓTESIS ALTERNATIVA ..................................................................................... 118
9.3. REGIONES DE ACEPTACIÓN Y DE RECHAZO ....................................................................................... 118
9.4. ERROR TIPO I Y ERROR TIPO II........................................................................................................... 119
9.5. CONTRASTES DE HIPÓTESIS SOBRE PROPORCIONES ........................................................................... 120
9.6. CONTRASTES DE HIPÓTESIS SOBRE MEDIAS MUESTRALES ................................................................. 124
9.7 LA DISTRIBUCIÓN F: COMPARACIÓN DE VARIANZAS. ........................................................................ 127
9.8 CONTRASTES DE HIPÓTESIS EN EXCEL ............................................................................................. 128
9.8.1 Prueba t para medias de dos muestras suponiendo varianzas iguales. ...................................... 128
9.8.2 Prueba t para medias de dos muestras suponiendo varianzas desiguales. ................................. 129
9.8.3 Prueba z para medias de dos muestras cuando se conocen la varianzas de las poblaciones..... 130
9.8.4 Prueba de una media cuando se conoce o no la varianza de la población................................. 131
9.8.5 Comparación de varianzas.......................................................................................................... 132
PROBLEMAS PROPUESTOS ............................................................................................................................... 134

CAPÍTULO 10. LA DISTRIBUCIÓN JI-CUADRADA (χ2)........................................................................ 139


10.1 INTRODUCCIÓN................................................................................................................................. 139
10.2 LA FUNCIÓN DENSIDAD DE PROBABILIDAD JI-CUADRADA................................................................. 139
10.3 PRUEBAS DE BONDAD DE AJUSTE. ..................................................................................................... 140
10.3.1 Distribución multinomial................................................................................................................ 141
10.3.2 Distribución de Poisson.................................................................................................................. 142
10.3.3 Distribución normal. ...................................................................................................................... 143
10.4 PRUEBAS DE INDEPENDENCIA: TABLAS DE CONTINGENCIA. .............................................................. 144
10.5 PRUEBAS DE HIPÓTESIS RESPECTO A LA VARIANZA........................................................................... 146
10.6 LA DISTRIBUCIÓN JI-CUADRADA EN EXCEL ...................................................................................... 147
PROBLEMAS PROPUESTOS. .............................................................................................................................. 148
CAPÍTULO 11. ESTIMACIÓN PUNTUAL Y DE INTERVALO............................................................... 150
11.1 INTRODUCCIÓN ................................................................................................................................. 150
11.2 ESTIMACIÓN PUNTUAL...................................................................................................................... 150
11.3 ESTIMACIÓN POR INTERVALOS.......................................................................................................... 151
11.3.1 Intervalo de confianza para la media poblacional. ........................................................................ 151
11.3.2 Intervalo de confianza para la diferencia de medias...................................................................... 152
11.3.3 Intervalo de confianza para la proporción p.................................................................................. 152
11.3.4 Intervalo de confianza para la diferencia de proporciones............................................................ 154
11.3.5 Intervalo de confianza para la varianza......................................................................................... 154
11.4 INTERVALO DE CONFIANZA PARA LA MEDIA EN EXCEL ..................................................................... 155
PROBLEMAS PROPUESTOS. .............................................................................................................................. 157
CAPÍTULO 12. DISEÑO DE EXPERIMENTOS Y ANÁLISIS DE VARIANZA ..................................... 158
12.1 INTRODUCCIÓN................................................................................................................................. 158
12.2 DISEÑO DE EXPERIMENTOS. .............................................................................................................. 158
12.2.1 Definiciones.................................................................................................................................... 158
12.2.2 Diseño completamente aleatorizado............................................................................................... 159
12.2.3 Diseño aleatorizado por bloques.................................................................................................... 159
iv Índice

12.2.4 Errores en los datos de los experimentos ....................................................................................... 159


12.3 ANÁLISIS DE VARIANZA: ANOVA.................................................................................................... 159
12.3.1 Análisis de varianza de un factor ................................................................................................... 161
12.3.2 Análisis de varianza de dos factores, sin interacción entre los factores. ....................................... 163
12.3.3 Análisis de varianza de dos factores, con interacción entre los factores. ...................................... 166
12.4 ANÁLISIS DE VARIANZA EN EXCEL ................................................................................................... 170
12.4.1 Análisis de varianza de un factor ................................................................................................... 170
12.4.2 Análisis de varianza de dos factores, sin interacción..................................................................... 171
12.4.3 Análisis de varianza de dos factores, con interacción.................................................................... 173
PROBLEMAS PROPUESTOS. .............................................................................................................................. 177
CAPÍTULO 13. REGRESIÓN LINEAL SIMPLE Y CORRELACIÓN. .................................................... 179
13.1 INTRODUCCIÓN................................................................................................................................. 179
13.2 REGRESIÓN. ...................................................................................................................................... 179
13.3 LA RECTA DE REGRESIÓN DE LA POBLACIÓN..................................................................................... 180
13.4 MÉTODO DE LOS MÍNIMOS CUADRADOS............................................................................................ 181
13.5 PROPIEDADES DE LA RECTA DE MÍNIMOS CUADRADOS ...................................................................... 182
13.6 MEDIDAS DE VARIABILIDAD ............................................................................................................. 183
13.7 ESTIMACIONES DE INTERVALO PARA LA REGRESIÓN......................................................................... 185
13.8 CORRELACIÓN LINEAL. ..................................................................................................................... 185
13.9 REGRESIÓN SIMPLE NO LINEAL ......................................................................................................... 187
13.10 REGRESIÓN LINEAL, NO LINEAL Y CORRELACIÓN EN EXCEL ............................................................. 188
13.10.1 Diagrama de dispersión y tendencia lineal. ................................................................................. 188
13.10.2 Tendencia no lineal. ..................................................................................................................... 190
13.10.3 Regresión lineal con funciones de Excel ...................................................................................... 190
PROBLEMAS PROPUESTOS ............................................................................................................................... 192
CAPÍTULO 14. ANÁLISIS DE SERIES DE TIEMPO................................................................................. 195
14.1 INTRODUCCIÓN ................................................................................................................................. 195
14.2 COMPONENTES DE UNA SERIE DE TIEMPO ......................................................................................... 195
14.2.1 Componente tendencial (T)............................................................................................................. 196
14.2.2 Componente cíclica (C) .................................................................................................................. 196
14.2.3 Componente estacional (S) ............................................................................................................. 197
14.2.4 Componente irregular o aleatoria (I)............................................................................................. 199
14.3 DESCOMPOSICIÓN DE SERIES DE TIEMPO ........................................................................................... 200
14.3.1 Suavización de la serie de tiempo................................................................................................... 200
14.3.2 Aislamiento de las componentes de la serie de tiempo................................................................... 201
14.4 PRONÓSTICO ..................................................................................................................................... 202
14.5 ANÁLISIS DEL COMPORTAMIENTO DE UNA SERIE DE TIEMPO ............................................................. 202
14.6 ANÁLISIS DE SERIES DE TIEMPO EN EXCEL ........................................................................................ 202
14.6.1 Análisis de series de tiempo con medias móviles............................................................................ 202
14.6.2 Suavización exponencial................................................................................................................. 206
PROBLEMAS PROPUESTOS ............................................................................................................................... 208
CAPÍTULO 15. HERRAMIENTAS ESTADÍSTICAS PARA MEJORAR LA CALIDAD DE LOS
PROCESOS ....................................................................................................................................................... 211
15.1 MEJORA DE LA CALIDAD ................................................................................................................... 211
15.1.1 Definiciones.................................................................................................................................... 211
15.1.2 Breve historia de la calidad............................................................................................................ 211
15.2 INTERPRETACIÓN DE HISTOGRAMAS Y MEDICIÓN DE LA CAPACIDAD DE UN PROCESO....................... 212
15.2.1 Interpretación de histogramas........................................................................................................ 212
15.2.2 Capacidad de un proceso ............................................................................................................... 213
15.3 GRÁFICOS DE CONTROL .................................................................................................................... 218
15.3.1 Definiciones.................................................................................................................................... 218
15.3.2 Tipos de gráficos de control ........................................................................................................... 219
15.3.3 Interpretación de los gráficos de control. ...................................................................................... 219
15.3.4 Elaboración de los gráficos de control........................................................................................... 220
15.4 MUESTREO DE ACEPTACIÓN.............................................................................................................. 232
15.4.1 Análisis económico de la inspección. ............................................................................................. 233
15.4.2 Riesgos del muestreo. ..................................................................................................................... 234
Índice v

15.4.3 Plan de muestreo ............................................................................................................................ 235


15.4.4 Curva característica de operación (Curva CO) ............................................................................. 235
PROBLEMAS PROPUESTOS. .............................................................................................................................. 238
CAPÍTULO 16. TEORÍA DE DECISIONES................................................................................................. 243
16.1 INTRODUCCIÓN................................................................................................................................. 243
16.2 DEFINICIONES ................................................................................................................................... 243
16.2.1 Decisor ........................................................................................................................................... 243
16.2.2 Alternativas de decisión.................................................................................................................. 243
16.3 ESTADOS DE LA NATURALEZA .......................................................................................................... 243
16.3.1 Ambiente de certeza........................................................................................................................ 243
16.3.2 Ambiente de riesgo ......................................................................................................................... 243
16.3.3 Ambiente de incertidumbre............................................................................................................. 243
16.3.4 Ambiente de competencia ............................................................................................................... 244
16.4 CONSECUENCIAS............................................................................................................................... 244
16.5 CRITERIOS DE DECISIÓN ................................................................................................................... 244
16.5.1 Criterio Maximin ............................................................................................................................ 244
16.5.2 Criterio Maximax ........................................................................................................................... 245
16.5.3 Criterio realista .............................................................................................................................. 245
16.5.4 Criterio minimax del costo de oportunidad.................................................................................... 245
16.5.5 Criterio del valor esperado (Bayes) ............................................................................................... 245
16.5.6 Criterio del costo de oportunidad esperado ................................................................................... 246
16.5.7 Criterio de máxima verosimilitud................................................................................................... 246
16.6 ÁRBOLES DE DECISIÓN ...................................................................................................................... 246
PROBLEMAS PROPUESTOS ............................................................................................................................... 249
APÉNDICE........................................................................................................................................................ 252
TABLA DE PROBABILIDADES BINOMIALES ACUMULATIVAS ............................................................................. 253
TABLA DE PROBABILIDADES ACUMULATIVAS DE POISSON .............................................................................. 258
TABLA DE ÁREAS BAJO LA CURVA NORMAL ESTANDARIZADA......................................................................... 264
TABLA DE ORDENADAS DE LA CURVA NORMAL ESTANDARIZADA ................................................................... 265
TABLA DE VALORES DE T DE STUDENT............................................................................................................ 266
TABLA DE VALORES DE JI-CUADRADO ............................................................................................................. 267
TABLA DE VALORES DE F (P = 0,05)................................................................................................................ 268
TABLA DE VALORES DE F (P = 0,01)................................................................................................................ 269
TABLA DE FACTORES PARA EL CÁLCULO DE LÍMITES DE CONTROL .................................................................. 270
TABLA DE PROBABILIDADES DE ACEPTACIÓN (PA).......................................................................................... 271
Prólogo
En las últimas décadas ha cobrado especial importancia el análisis estadístico de datos para mejorar la
calidad de todo tipo de procesos, y para mejorar finalmente el nivel de satisfacción de los clientes, ya
sea que éstos adquieran un determinado producto o reciban un servicio. Grandes empresas transnacio-
nales están implementando sistemas de gestión de la calidad, que presentan como principales argu-
mentos las herramientas estadísticas.

Quienes necesiten hacer análisis de datos deben conocer un mínimo de herramientas estadísticas bási-
cas para abordar con éxito un problema real. Más importante que saber usar dichas herramientas, es
saber cuáles son las apropiadas para cada situación. En este libro se pone especial énfasis en los con-
ceptos, con el propósito de capacitar al lector para que sepa elegir con criterio las herramientas estadís-
ticas que le resuelvan los problemas que aborde en su vida profesional.

El rápido desarrollo que están alcanzando las computadoras personales ha ocasionado que en las últi-
mas décadas hayan aparecido en el mercado mundial una gran cantidad de softwares estadísticos. Sin
embargo, éstos no serán nada útiles si los usuarios no tienen los conocimientos mínimos de Estadísti-
ca.

En casi todos los capítulos de este libro se explica, con ejemplos, el uso de las herramientas estadísti-
cas de Microsoft Excel para análisis de datos, casi desconocidas por la gran mayoría de usuarios de
Excel. Se explica además cómo emplear las principales funciones estadísticas de este software. La
gran ventaja de Excel sobre los softwares de Estadística como Statgraphics, Statistics, Minitab, SPSS,
etc, es evidente: Excel está prácticamente al alcance de todos y requiere muy poca capacitación para su
empleo. A esto se suma la gran versatilidad que se puede lograr siendo un buen usuario de Excel.

Aunque éste es un libro de Estadística básica, que puede ser tomado como texto para carreras profe-
sionales de Ingeniería, Administración de Empresas y Economía, incluye al final algunos capítulos de
Estadística Aplicada, con algunas herramientas básicas para el mejoramiento de la calidad en procesos
de diversa índole.

Quiero agradecer a Susana Vegas y a Eduardo Sánchez, por sus comentarios constructivos durante el
desarrollo de este libro, y a Don Rafael Estartús, por revisarlo tan cuidadosamente. El buen ambiente
de trabajo que comparto con mis amigos del Área de Ingeniería Industrial y el Área de Sistemas, ha
contribuido a que haya podido escribir este libro. Éstos últimos han conseguido que sea un buen usua-
rio de las computadoras personales y especialmente de Excel, tan importantes en el análisis estadístico.
Finalmente agradezco a mis padres, Zoila y Augusto, a mi esposa, Careen, y a mi hijo, César, por su
constante apoyo y por el tiempo que me cedieron para que pudiera escribir este libro. Se lo dedico a
ellos.

César Angulo Bustíos.


Agosto de 2005.

También podría gustarte