Urnas Celdas Bolas
Urnas Celdas Bolas
Urnas Celdas Bolas
B = {b1 , b2 , . . . , bN },
N-K
1 2 3
Sacamos una muestra
ordenada de tamaño n.
4-1
CAPÍTULO 4. BOLAS, URNAS Y CELDAS 4-2
Sin reposición
Con reposición
En este caso, al extraer una bola la volvemos a poner en la urna, por lo que
puede aparecer más de una vez en la lista.
|⌦SR | = N ⇥ (N 1) ⇥ · · · ⇥ (N n + 1).
X : ⌦SR ! R
CAPÍTULO 4. BOLAS, URNAS Y CELDAS 4-3
que para cada ! 2 ⌦SR devuelve el número de bolas rosadas en la muestra. Más
precisamente,
X(!1 , . . . , !n ) = |{i : !i es rosada}| .
Comencemos por estudiar qué valores puede tomar X. Los valores posibles que una
variable puede tomar se llama el recorrido de la variable. Así, nos preguntamos
¿Cuál es el recorrido de X?
El valor más chico que X puede tomar en general es 0, pero eso depende de
cuántas bolas celestes haya en la urna. Por ejemplo, si hay una sola bola celeste en
la urna (N K = 1) y extraemos n = 5 bolas, entonces al menos 4 serán rosadas,
por lo que X será mayor o igual a 4 siempre.
En general, si extraemos más bolas que la cantidad de bolas celestes, es decir
si n > N K, entonces como mínimo habrán n (N K) bolas rosadas. En
cambio, si la cantidad de bolas celestes es mayor o igual que la cantidad de bolas
que extraemos, entonces X podría tomar el valor cero.
Juntando ambos casos, vemos que el valor más chico que X puede tomar es
mn = máx{n (N K), 0}.
Razonando del mismo modo podemos ver cuál es el valor más grande que puede
tomar X. Si la cantidad K de bolas rosadas es mayor o igual que n, entonces X
podría tomar el valor n. De lo contrario, el valor más grande que podría tomar X
es K. Juntando ambos casos, vemos que el valor más grande que X puede tomar
es Mn = mı́n{K, n}.
En resumen, X toma valores enteros y verifica
Contando:
elegimos los lugares
de las k rosadas elegimos las
z✓}|◆{ n k celestes
n z }| {
|{X = k}| = · (K)k · (N K)n k
k | {z }
elegimos
las k rosadas
Esta fórmula no parece muy cómoda de usar. Sin embargo, podemos re-agrupar
términos
n
k
(K)k (N K)n k
P {X = k} =
(N )n
n! K! (N K)! (N n)!
= · · ·
k!(n k)! (K k)! (N K (n k))! N!
K N K
K! (N K)! n!(N n)! k n k
= · · = N
.
k!(K k)! (n k)!(N K (n k))! N! n
Sin embargo, el modelo con muestras ordenadas nos será útil más adelante para
escribir a X como una suma de n variables aleatorias.
Definición. La distribución obtenida en el caso sin reposición se llama Hipergeo-
métrica de parámetros N , K y n. La función de probabilidad puntual está dada
por
K N K
k n k
P {X = k} = N
n
Ejemplo 1
Tal vez pueda parecer sorprendente, pero ya hemos visto la distribución hiper-
geométrica antes en el curso. De hecho, en el ejemplo de La Catadora de Té la
variable X que cuenta el número de aciertos que tiene la Sra. verifica
4 4
k 4 k
P {X = k} = 8 ,
4
CAPÍTULO 4. BOLAS, URNAS Y CELDAS 4-6
En este caso las bolas en las urnas son las 8 tazas de té, y las bolas rozadas son
las tazas en las cuales el té se ha servido primero. El tamaño de la muestra es n = 4
y corresponde a la lista de tazas elegida por la Sra.
Ejemplo 2
Supongamos que una lotería funciona de la siguiente manera: de una urna que
contiene 44 bolas numeradas del 1 al 44, se extraen al azar 5 de ellas y sin reposición.
Los participantes compran tickets en los cuales indican una lista de 5 números. El
premio mayor se otorga a aquellos participantes que acierten los 5 números, pero
existen premios menores para aquellos que acierten 3 o más.
Este juego lo podemos modelar con urnas y bolas. Imaginemos que decidimos
comprar el ticket que contiene los números {26, 9, 27, 28, 2}. Estas serán las bolas
rosadas, por lo que N = 44, K = 5 y n = 5. Denotemos por X la cantidad
de coincidencias entre nuestra lista y aquella que sale sorteada. Entonces X es la
cantidad de bolas rosadas en la muestra.
La probabilidad de ganar el premio mayor es
5 39
1
P {X = 5} = 5
44
0
= ⇡ 9,2 ⇥ 10 7 .
5
1 086 008
CAPÍTULO 4. BOLAS, URNAS Y CELDAS 4-7
P {X 3} = P {X = 3} + P {X = 4} + P {X = 5}
5 39 5 39 5 39
3 2
+ 4 1
+ 5 0 7 606
= 44 = ⇡ 0,007.
5
1 086 008
Aunque sigue siendo una probabilidad muy chica, notar que es 7606 veces mayor
que la anterior.
Lo primero que observamos es que en este caso no hay restricción sobre el tamaño
n de la muestra. Esto es así porque cada vez que retiramos una bola la volvemos a
poner para sacar la siguiente. Por tanto se puede tener n > N .
El número total de muestras posibles es |⌦CR | = N n . Esto se ve fácilmente ya
que para cada una de las n coordenadas tenemos N posibilidades distintas. Como
ninguna de las secuencias ! tiene preferencia para ser elegida, la probabilidad de
cada una de ellas es 1/ |⌦CR |.
Como en el caso sin reposición, consideremos la variable aleatoria X : ⌦CR ! R
que a cada ! 2 ⌦CR asigna el número de bolas rosadas en la muestra. Esto es
Podemos re-agrupar los términos para que la fórmula sea más fácil de interpretar.
Si escribimos N n como N k N n k , obtenemos
✓ ◆ k ✓ ◆ k
n K (N K)n k n K (N K)n k
P {X = k} = =
k Nn k N kN n k
✓ ◆ ✓ ◆k ✓ ◆n k
n K K
= 1
k N N
En este caso, una coordenada igual a 1 significa que sale una bola rosada, y una igual
a 0 que sale una celeste. Entonces X cuenta el número de unos en dicha secuencia.
Para que X sea igual a k deben haber k unos en la secuencia y n k ceros.
Si nos olvidamos por el momento de cuáles son los unos y cuáles son los ceros, la
probabilidad de que esto ocurra es pk (1 p)n k . Lo que falta es tener en cuenta de
cuántas formas posibles podemos elegir los lugares para los k unos (pues al elegirlos,
los lugares de los n k ceros quedan automáticamente determinados). Esto se puede
hacer precisamente de nk formas distintas. Esto explica la fórmula que obtuvimos.
para todo k entre 0 y n. Escribimos X ⇠ Bin(n, p) para indicar que X tiene distri-
bución binomial.
Notar que en cada uno de los casos, al igual que en el caso de la distribución
hipergeométrica, la forma de la distribución es acampanada. Sin embargo no es
simétrica. En el primer caso en que la proporción es sólo de p = 0,2 bolas rosadas
en la urna, la variable X se concentra en valores chicos de k, teniendo un máximo
para k = 2.
Cuando p = 0,4 la distribución es bastante más simétrica, aunque no del todo.
En este caso el máximo se da en k = 4. A medida que p aumenta, la distribución
se va corriendo hacia la derecha, en donde para p = 0,6 el máximo se da en k = 6,
y para p = 0,8 el máximo se da en k = 8.
Ejemplo 1
También hemos encontrado esta distribución antes. En el ejemplo del estudio
del psicólogo sobre la forma de sentarse de los estudiantes en una cantina estudian-
til. En este ejemplo, la urna contiene N = 6 bolas, de las cuales 4 son rosadas, y
CAPÍTULO 4. BOLAS, URNAS Y CELDAS 4-10
Ejemplo 2
Un estudio intenta determinar si las personas son capaces de distinguir el género
a partir de la escritura. Para esto, a un participante del estudio se le presentaron
20 tarjetas escritas por personas distintas, entre ellas mujeres y hombres.
Para minimizar posibles efectos diferentes al tipo de escritura, todas las tarjetas
contenían el mismo texto:
Facultad de Ingeniería
Julio Herrera y Reissig 565 CP11300
Montevideo, Uruguay
CAPÍTULO 4. BOLAS, URNAS Y CELDAS 4-11
! ⇤ = (M, H, H, H, M, M, H, M, M, M, H, M, H, M, M, H, H, M, M, H) .
Notar que hay 11 tarjetas escritas por mujeres (M ) y 9 por hombres (H).
Para una secuencia posible ! de M 0 s y H 0 s denotamos por X(!) el número de
aciertos, esto es de coincidencias entre ! y ! ⇤ . En símbolos
Esta probabilidad está representada por la suma de las alturas de las barras rayadas
en rojo en la figura de abajo.
CAPÍTULO 4. BOLAS, URNAS Y CELDAS 4-12
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Hasta aquí llegan las cuentas. La conclusión es que si estuviera tirando a em-
bocar, embocaría a 14 o más tarjetas con 13 % de chances. No es una probabilidad
demasiado baja como para concluir que la afirmación es falsa sin dudarlo, pero
sugiere que el resultado no es puramente causa del azar.
D = {(!1 , . . . , !n ) 2 ⌦ : !i 6= !j si i 6= j} ,
que consiste en aquellas muestras en las cuales las bolas extraídas son todas distin-
tas. Vamos a probar primero que la probabilidad de D tiende a 1 cuando N tiende
a infinito. El argumento es muy similar al del ejercicio de los cumpleaños.
Por un lado, como todas las secuencias son igualmente probables, tenemos que
|{(!1 , . . . , !n ) 2 ⌦ : !i 6= !j si i 6= j}|
P {D} = .
|⌦|
El cardinal de D es igual a
N (N 1) · · · (N (n 1)) Y1 ✓
n
i
◆
P {D} = = 1 .
N ···N i=0
N
Notar que la productoria que aparece en el lado derecho tiene un número fijo, igual
a n, de factores. Al hacer N tender a infinito, todos los factores tienden a uno, y
por lo tanto también la productoria. En conclusión P {D} ! 1 cuando N ! 1.1
Llamemos X a la variable aleatoria que cuenta el número de bolas rosadas en
la muestra. Sabemos que X tiene distribución binomial de parámetros n y p, y por
lo tanto, para cada k entre 0 y n tenemos que
✓ ◆
n k
P {X = k} = p (1 p)n k .
k
¿Cuál es la distribución de X condicionada a que D ha ocurrido? En otras palabras,
cuál es la probabilidad P X = k D .
Por definición
P {{X = k} \ D}
P X=k D = .
P {D}
1
Aunque no lo hemos escrito explícitamente, para no cargar la notación, el conjunto D depende
de N .
CAPÍTULO 4. BOLAS, URNAS Y CELDAS 4-14
Usando los dos hechos que probamos hasta ahora podemos probar el siguiente
teorema.
Teorema (Aproximación de la hipergeométrica por la binomial). Sea XN una va-
riable con distribución hipergeométrica de parámetros N, K, y n. Suponemos que n
está fijo y que K/N = p 2 [0, 1]. Entonces, para todo k entre 0 y n, tenemos
✓ ◆
n k
lı́m P(XN = k) = p (1 p)n k
N !1 k
Es decir, la distribución de XN tiende a la distribución de una variable binomial de
parámetros n y p.
Demostración. Consideremos como antes una urna con N bolas, de las cuales K
son rosadas. Extraemos n bolas de la urna con reposición, y denotamos por X la
cantidad de bolas rosadas en la muestra. Por lo que vimos antes, sabemos que
P {{X = k} \ D}
P {XN = k} = P {X = k|D} = .
P {D}
El denominador P {D} ! 1 cuando N tiende a infinito. Para el numerador, observar
que
P {{X = k} \ D} P {X = k} P {{X = k} \ D} + P {Dc } .
Como P {Dc } ! 0, vemos que
✓ ◆
n k
P {{X = k} \ D} ! P {X = k} = p (1 p)n k ,
k
que es lo que queríamos probar.
CAPÍTULO 4. BOLAS, URNAS Y CELDAS 4-15
Sin embargo, el teorema de que probamos más arriba no nos dice cuál es el error
que cometemos al usar la aproximación. El error no es difícil de calcular, pero las
cuentas son un poco tediosas. Se puede probar que el error relativo al aproximar la
hipergeométrica por la binomial es a lo sumo
2n2
✏rel .
p(1 p)N
Viene bien recordar la distinción entre el error relativo y el error absoluto cuando
hacemos una aproximación. Supongamos que queremos aproximar una probabilidad
p usando un valor aproximado paprox . Entonces
El error absoluto es ✏abs = |p paprox |;
Notar que el error relativo refiere a la diferencia entre 1 y el cociente entre p y prel .
Como las probabilidades pueden ser números muy pequeños, no tiene mucho sentido
calcular errores absolutos. Por eso, cuando estamos trabajando con probabilidades,
es mejor considerar los errores relativos en las aproximaciones.
CAPÍTULO 4. BOLAS, URNAS Y CELDAS 4-17
Por ejemplo, en ejemplo con el cual empezamos esta sección (tomar una muestra
de tamaño n = 100 de la probalción uruguaya), tenemos que N = 3440157 y
K = 1777273. De aquí resulta que p = 0,5166. Si usamos la aproximación binomial,
la fórmula del error relativo nos asegura que cometemos un error de a lo sumo
0,0233. Es decir, un error menor al 2 %.
Motivación
Comencemos por un ejemplo simple. Supongamos que somos gerentes de un
pequeño emprendimiento en el cual cada dos semanas debemos decidir entre dos
opciones:
1. cerramos un negocio seguro que nos provee una ganancia neta de $1 500;
2. o realizamos una inversión que de salir bien nos aportaría una ganancia neta
de $3 000, pero de salir mal conllevaría una perdida neta de $1 500. Además,
en este caso estimamos que la probabilidad de que la inversión sea exitosa es
0,75.
Imaginemos que tomamos la decisión de invertir en n semanas consecutivas. Denote-
mos por n+ el número de veces que la inversión ha resultado exitosa, y n = n n+
el número de veces que dio pérdidas. Entonces, las ganancias totales G(n) en esas
n semanas son
G(n) = 3 000n+ 1 500n .
Si queremos calcular las ganancias por semana de nuestro negocio, debemos dividir
por el número n de semanas, de donde
G(n) n+ n
g(n) = = 3 000 1 500 .
n n n
¿Qué ocurre a la larga con las ganancias por semana g(n)? De la interpretación
frecuentista de la probabilidad asumimos que las frecuencias relativas n+ /n y n /n
convergen, cuando n tiende a infinito, a las probabilidades de que la inversión sea
exitosa o fracase respectivamente. Entonces
n+ n
lı́m g(n) = 3 000 lı́m 1 500 lı́m
n!1 n!1 n n!1 n
= 3 000 (proba. de éxito) 1 500 (proba. de fracaso)
= 3 000 · 0,75 1 500 · 0,25 = 1 875.
Es decir, a medida que n crece, las ganancias por semana se aproximan más y más
al valor $1 875.
Si hubiéramos optado por la opción segura, las ganancias por semana serían
iguals a g(n) = 1 500. Como las ganancias por semana son mayores para la opción
2 que para la opción 1, es mejor arriesgar invirtiendo el dinero, siempre y cuando
seamos capaces de invertir durante una cantidad grande de semanas.
Si pensamos a las ganancias semanales como una variable aleatoria G, que toma
los valores 3 000 y 1 500 con probabilidades 0,75 y 0,25 respectivamente, entonces
la cantidad 1 875 que calculamos más arriba se llama el valor esperado de G. Esto
lo escribimos E (G) = 1 875.
CAPÍTULO 4. BOLAS, URNAS Y CELDAS 4-20
Definición
La misma idea nos sirve como motivación para definir el valor esperado de
una variable discreta en general. Supongamos que X es una variable discreta cuyo
recorrido es RX = {x1 , x2 , . . .}. Imaginemos que realizamos el experimento n veces
y para cada una de estas registramos el valor de X. Llamemos a estos valores por
X(1), X(2), . . . , X(n). Cada uno de los X(i) puede ser igual a cualquiera de los
valores posibles de X (los valores del recorrido de X).
El promedio de las n realizaciones de X es
X(1) + · · · X(n)
Prom(X(1), . . . , X(n)) = .
n
Podemos reordenar los valores X(1), . . . , X(n) y agruparlos de acuerdo a su valor
de modo que la suma
X(1) + · · · + X(n) = n1 x1 + n2 x2 + · · · ,
Definición. Sea X una variable aleatoria discreta cuyo recorrido es RX = {x1 , x2 , . . .}.
Definimos el valor esperado de X (o la esperanza de X) como
1
X
E (X) = xj P {X = xj } .
j=1
que puede resultar útil, sobre todo cuando no tenemos una preferencia natural para
ordenar los valores del recorrido de X.
CAPÍTULO 4. BOLAS, URNAS Y CELDAS 4-21
E (X + Y ) = E (X) + E (Y ) .
Demostración. El recorrido de X + Y es
RX+Y = {x + y : x 2 RX , y 2 RY },
RY
x+y =z
RX
E (cX) = cE (X) .
X = X1 + · · · Xn .
npn = µ
para un cierto parámetro fijo µ > 0. Entonces, para todo k 2 N, tenemos que
µk µ
lı́m P {Xn = k} = e .
n!1 k!
Demostración. Fijemos k un natural cualquiera. Como Xn tiene distribución bino-
mial Bin(n, pn ), y npn = µ, entonces
✓ ◆ ✓ ◆⇣
n n k k n µ ⌘n k ⇣ µ ⌘k
P {Xn = k} = (1 pn ) pn = 1
k k n n
n! ⇣ ⌘ ⇣
µ n k µ k⌘
= 1
k!(n x)! n n
" # ✓ ◆k
µk ⇣ µ ⌘n 1 1
= n(n 1) · · · (n k + 1) 1 k
k! n 1 nµ n
por lo que
1
X 1
X
µk e µ
µ µk µ µ
=e =e e = 1.
k=0
k! k=0
k!
En la figura mostramos la función de probabilidad puntual de una variable X con
distribución de Poisson para varios valores del parámetro µ. El valor de µ varía de
1 a 1 000. Notar como a medida que µ crece, la distribución de X se corre hacia la
derecha y se concentra en valores cada vez mayores de k.
CAPÍTULO 4. BOLAS, URNAS Y CELDAS 4-26
Los valores de la tabla representan el número de células en cada una de las 400
celdas. Para comparar estos con la distribución de Poisson es mejor representar los
valores de la tabla graficamente.
Lo que hacemos es observar cuántas celdas tienen, por ejemplo, 4 células. Al
dividir este número por el total de células, es decir 400, tendremos la frecuencia
relativa del valor 4, lo cual nos da una idea de la probabilidad de que caigan 4
células en una celda.
3
Los datos se pueden bajar de la página del curso.
CAPÍTULO 4. BOLAS, URNAS Y CELDAS 4-27
0.20
Frec. Relativa
0.10
0.00
1 2 3 4 5 6 7 8 9 10 11 12
0.10
0.00
1 2 3 4 5 6 7 8 9 10 11 12
Poniendo j = k 1 obtenemos
X1 X1
µk 1 e µ µj e µ
µ =µ = µ.
k=1
(k 1)! j=0
j!
4-6. Resumen
En este capítulo hemos visto dos formas distintas en las que se puede tomar
una muestra de una urna. Este puede ser con reposición o sin reposición. También
vimos varios ejemplos en los cuales estos modelos se aplican a diversas situaciones.
X = X1 + · · · + Xn
Además:
µk e µ
P {X = k} = 8k 2 N : k 0.
k!
Esto lo escribimos X ⇠ Pois(µ).
Probamos que:
Lecturas recomendadas
Recomendamos la siguientes lecturas de la página de Wikipedia. Como siempre,
a aquellos que se sientan cómodos con el inglés les sugerimos revisen también la
versión en inglés de las mismas.
1. Distribución binomial
https://es.wikipedia.org/wiki/Distribución_binomial
2. Distribución hipergeométrica
https://es.wikipedia.org/wiki/Distribución_hipergeométrica
3. Distribución de Poisson
https://es.wikipedia.org/wiki/Distribución_de_Poisson
4. William Gosset
https://es.wikipedia.org/wiki/William_Sealy_Gosset