Unidad Nro.4 - Probabilidades

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 69

IV.

PROBABILIDADES

Contenidos: Experimentos estadísticos. El espacio muestral. Representación de los espacios muestrales.


Reglas de conteo: multiplicación, permutaciones, permutaciones de “n” objetos distintos tomados “de a r
elementos” a la vez, permutaciones circulares, agrupamiento y particiones de n objetos en k grupos o
categorías distintas, combinaciones de n objetos distintos tomados “de a r elementos a la vez”. Sucesos o
eventos estadísticos. Teoría de los conjuntos aplicada al estudio de los eventos. Clasificación de los sucesos
o eventos estadísticos. Definición axiomática de la probabilidad. Escuelas o enfoques para la definición de
la probabilidad: Definición clásica o laplaciana, empírica o frecuentista, subjetiva. Condiciones o supuestos
y críticas para cada una de las escuelas. Propiedades o axiomas de la probabilidad. Teoremas de la
probabilidad total o de la suma de probabilidades. Teorema de la probabilidad condicional. Independencia
de eventos. Teorema de la probabilidad compuesta o regla del producto. El método de la composición de
eventos para el cálculo de las probabilidades. Probabilidad de las causas o regla de Bayes.

4.1.- EXPERIMENTOS ESTADÍSTICOS.


Usualmente la obtención de los datos en Estadística no resulta circunstancial o
inmediata, sino que responde a una actividad planificada. De manera similar a un
investigador de laboratorio, podríamos generar experimentos o ensayos estadísticos a
efectos de obtener datos y, a partir de allí, estudiarlos con diversas herramientas. Dentro
de este conjunto general de experimentos podemos encontrarnos con dos tipos de ellos:
“Experimentos de ocurrencia necesaria” y “Experimentos aleatorios”. En el primer caso,
definidas las condiciones en que se realizará el experimento, el resultado es innegable o
invariante. Por ejemplo, si a una determinada altura desprendiéramos al vacío un objeto
con determinado peso, sabremos que el mismo inexorablemente caerá. Hasta podríamos
también precisar con absoluta certeza la velocidad de la caída y el tiempo necesario hasta
alcanzar la superficie. La mayor parte de los experimentos de la Física y la Química son
de esta naturaleza. Establecidas las condiciones experimentales, el resultado final no
depende en absoluto del azar o de situaciones fortuitas. Por el contrario, otra buena parte
de los experimentos que se realizan en laboratorios (por ejemplo, en Biología o Medicina)
sí dependen de muchos factores y hacen que la variable de respuesta se vea afectado por
ellas. Por ejemplo, si ponemos a germinar una serie de semillas de idéntico tipo o especie
y medimos la altura de las plantas transcurrido cierto período de tiempo, veríamos cierta
variabilidad en los resultados ya que sobre cada semilla germinada incidirán (aún de
manera imperceptible) muchos factores como ser: el riego, la luz recibida, la calidad de
la tierra, la ubicación del germinador, etc. De igual forma, podríamos pensar
experimentos en Ciencias Sociales, toda vez cuando intentamos presentar escenarios
sobre la campaña de lanzamiento de un producto o de una campaña publicitaria, la
reacción de la demanda de distintos consumidores ante aumentos en los precios o los
rendimientos de los alumnos ante un novedoso modelo de evaluación. Así, cuando
realizamos experimentos cuyos resultados finales proporcionan diferente nivel de
respuesta, estaremos hablando de experimentos aleatorios.

El origen del estudio de los experimentos aleatorios estuvo inicialmente ligado al


nacimiento de los juegos de azar. Claramente, al lanzar un dado, una moneda o sustraer

1
un naipe de un mazo de cartas, no se garantiza que en ese intento obtengamos un
resultado concreto y, por lo tanto, el resultado puntual será incierto. La teoría de las
probabilidades tendrá por objetivo tratar de asignar un número que trate de precisar,
con el mayor grado de rigor y cuidado posible, el grado de ocurrencia del fenómeno que
intentamos explicar. De esta manera, si pretendemos arrojar un dado y deseamos
calcular la probabilidad de obtener un cuatro como resultado previo a su lanzamiento,
la probabilidad asignada al cuatro (como una de las seis posibilidades) será el grado de
certeza máxima que disponemos para que dicho número efectivamente ocurra un
instante antes de su lanzamiento. Por lo tanto, vamos a definir a la probabilidad en un
sentido muy aproximado, como una “medida de la creencia de que un evento futuro
pueda ocurrir”. Está claro que una vez lanzado y verificado lo que se obtuvo, el resultado
será “Éxito= Haber obtenido el cuatro” o “Fracaso= No haber obtenido el cuatro”. En
consecuencia, sólo tiene sentido hablar de probabilidad antes que se conozca el resultado
del experimento ya que, una vez que el mismo se consumó, estaremos en presencia
simplemente de un resultado categórico binario.

Cuando el experimento se repite muchas veces en condiciones lo más parecidas posibles,


es posible encontrar cierta regularidad en los resultados, es decir, que la frecuencia
relativa (cantidad de éxitos logrados en las “n” pruebas idénticas repetidas) sea
llamativamente estable. Por ejemplo, hoy vemos cómo día a día sube la cantidad de
infectados en el mundo con el Covid-19, como así también la cantidad de muertos. Ahora
si uno viera a partir de las estadísticas mundiales cuál es la tasa de mortalidad provocado
por el virus, observamos sorprendentemente un porcentaje cercano al 2% cuando todos
los días las cifras de infectados y decesos cambia. Entonces, uno podría estudiar cuál es
la probabilidad de contraer el virus y también la probabilidad de tener la mala fortuna
de perecer a causa de la enfermedad. Sin embargo, como bien sabemos estas
probabilidades constituye el mayor nivel de información disponible respecto a cómo se
comporta la enfermedad y, los resultados sobre un caso en particular, dependerán de un
sinnúmero de factores. La probabilidad obtenida a partir de un proceso de estabilización
de las frecuencias relativas, es sólo una aproximación a dicha medida y, como veremos
un poco más adelante, un tanto incompleta y poco rigurosa del concepto de probabilidad
que mayormente manejamos en Estadística. Para abordar un concepto formal de lo que
se entiende por “probabilidad“, se requiere antes tener claro algunas herramientas
matemáticas de cálculo combinatorio y de teoría de conjuntos. Emprenderemos en breve
ese recorrido.

4.1.- EL ESPACIO MUESTRAL


Al conjunto de todos los resultados posibles de un experimento estadístico se lo conoce
con el nombre de “Espacio muestral” y, en general se lo representa con la letra “S”.
Dicho espacio se integra con cada uno de estos posibles resultados al que lo llamamos
“elemento del espacio muestral” o “puntos muestrales”. El espacio muestral puede
contener una cantidad finita de elementos. Si así fuera el caso, es posible enlistar cada
elemento y visualizar por completo el espacio muestral utilizando una notación de
conjuntos.

2
Ejemplos:

1. Si nuestro experimento consiste en arrojar un dado, el espacio muestral estará


conformado por seis puntos (cada una de las caras del dado) y, cada punto muestral
se corresponderá con el puntaje de presentación de cada una de las caras. Así:

S = 1, 2,3, 4,5, 6 Caso 1: (S) Puntaje al arrojar un dado

2. Si en lugar de arrojar un dado, hubiera sido una moneda, en donde no se puede


identificar “un número” en cada una de sus caras, podríamos definir a S y sus puntos
muestrales de la siguiente forma:

S = C , X  Caso 2: (S) Caras al arrojar una moneda (C=Cara; X=Ceca)

3. Si inspeccionamos la calidad de una serie de 3 productos extraídos de una línea de


fábrica, de forma que (D) hace referencia a un artículo defectuoso y (N) a un artículo
no defectuoso, el espacio muestral quedaría conformado:

S = DDD, DDN , DND, NDD, NND, NDN , DNN , NNN 


Caso 3: (S) Calidad del lote de tres artículos examinados

4. Los espacios muestrales pueden ser también infinitos, pero contables. Tal sería el caso
de una inspección en un depósito extrayendo sucesivamente artículos hasta encontrar
un artículo defectuoso. Entonces, el espacio muestral estaría definido así:

S = D, ND, NND, NNND,... Caso 4: (S) Calidad de un lote de artículos hasta encontrar
un defectuoso.

5. Cuando los espacios muestrales involucran una cantidad infinita o muy grande de
puntos lo cuáles no se pueden contar taxativamente, el espacio muestral se representa
a través de una regla o enunciado:

S =  x / x variedad de pájaros cuyo promedio de vida superan los dos años

Caso 5: (S) Regla que define la variedad de una especie cuyo


promedio de vida supera dos años de vida.

Lo que hay que tener en cuenta de los “espacios muestrales”:

1. Existe un experimento aleatorio (E) que debe ensayarse en condiciones lo


más homogéneas como sea posible (Ej: Lanzar sucesivamente un dado en
idénticas condiciones)
2. Para el experimento aleatorio (E) existe un espacio muestral (S), que define
un conjunto que debe representar todos los resultados posibles del
experimento.
3. Los puntos muestrales deben presentar todos y cada uno de los resultados
que conforman el espacio muestral.

3
4. Los espacios muestrales pueden ser: finitos, infinitos contables e infinitos,
estos últimos definidos a partir de reglas o enunciados.

Representación de los espacios muestrales


La representación gráfica o esquemática del espacio muestral tiene como finalidad
presentar todos los puntos asociados al experimento aleatorio y facilitar su
contabilización. En los casos sencillos de arrojar un dado o una moneda, la
representación del espacio muestral resulta bastante simple (innecesaria, incluso). Aquí
presentamos estos dos primeros casos:

Pensemos ahora en el caso de arrojar dos dados (como resultado del primer
experimento) y dos monedas (en el segundo caso). ¿Cómo deberíamos presentar al
espacio muestral? Al utilizar dos componentes experimentales el gráfico mediante una
sola dimensión (la recta) nos resultará restrictivo. Por tal motivo, utilizamos un diagrama
del tipo cartesiano que denote las dos dimensiones necesarias. El gráfico 4.2., muestra
ambas situaciones:

4
Ya cuando se trabaja con más de dos instrumentos experimentales, la organización del
espacio muestral se complica. En estos casos puede resultar muy útil utilizar los
“diagramas de árbol”, en el cual podemos contar e identificar los puntos muestrales de
una manera bastante clara. Veamos el caso, por ejemplo, de la inspección de tres artículos
respecto a su calidad, detallado en el ejemplo 1, como caso 3. Para contar cada uno de
los puntos muestrales y definir así el espacio muestral completo, procedemos a realizar
un control secuenciado en forma de árbol a partir del primer artículo inspeccionado.
Sobre los nodos terminales del árbol determinamos cada uno de los puntos del espacio.

4.2.- CONTEO DE PUNTOS MUESTRALES.


Hay circunstancias donde presentar estos diagramas del espacio muestral puede
tornarse dificultoso, como así también “enlistar” todos los elementos que conforman
dicho espacio. En tales circunstancias, nos deberemos contentar solamente con saber la
cantidad de casos o elementos que integran dicho espacio. Las técnicas de “conteo”
persiguen entonces como objetivo determinar el número de elementos que integran el
espacio muestral y, de ser posible, lograr enlistarlos (tarea que no siempre resulta
sencilla como anticipamos, al menos no disponiendo de un ordenador).

Comenzaremos comentando cuáles son estas técnicas de recuento de puntos muestrales,


su uso y algún ejemplo que lo clarifique.

1. Regla de la multiplicación. Si un determinado experimento presenta en


una primera fase n1 resultados posibles y el mismo se combina en una segunda
fase con otro experimento que presenta n2 resultados posibles, entonces la
totalidad de puntos muestrales del experimento conjunto presenta N = n1.n2,
resultados posibles. Es importante destacar que n1 y n2 no tienen necesariamente
que ser del mismo tamaño.

5
Ejemplo 1. Una concesionaria automotriz comercializa varias marcas de autos
cuyos segmentos son: Familiar, utilitarios, convertibles y pick up. Cada uno de
los automóviles pueden ser clasificados (de acuerdo a su aprovisionamiento de
combustible) en: Diesel, híbrido y naftero. ¿En cuántas categorías diferentes se
pueden clasificar las marcas comercializadas?

De acuerdo a la regla de la multiplicación, N = n1.n2 = 4.3 = 12

En el caso presentado, podríamos aún trabajar con el espacio muestral para


representar los diferentes puntos muestrales.

Ejemplo 2. El directorio de una compañía solicita a cada gerente de área


nombrar un supervisor y un controller. Si nuestra gerencia maneja 55 personas.
¿Cuántas formas posibles se tienen para presentar la nómina propuesta?

El ejemplo 2 nos muestra la dificultad para representar gráficamente el espacio


muestral. El gerente dispone de 55 posibilidades para nombrar un supervisor y,
luego, 54 para nombrar un controller (dado que quien se eligió para supervisor
no puede ser simultáneamente controller). Por lo tanto:

N = n1.n2 = 55.54 = 2.970

El gerente cuenta con 2970 nóminas posibles para asignar a su personal a la


tarea encomendada por el directorio.

6
Generalización de la regla de la multiplicación: Si una primera etapa de un
experimento estadístico admite n1 formas posibles de presentarse y, n2 en una
segunda etapa, n3 en una tercera y, así sucesivamente,.. entonces el experimento
estadístico realizado en “k” secuencias o etapas admite n1.n2… nk resultados
posibles.
N = n1.n2 ....nk

Ejemplo 3. Si en el ejemplo de la concesionaria se agrega una categorización


más como, por ejemplo, el mecanismo de transmisión de los cambios
(Automática y Manual), la cantidad de casos posibles que conforma el espacio
muestral será:

N = n1.n2 .n3 = 4.3.2 = 24

2. Permutaciones. Una permutación es un arreglo de todo o parte de un


conjunto de objetos. En este caso, interesa fundamentalmente el orden en el que
se disponen los elementos. Se trata de un caso particular de la regla de la
multiplicación. La cantidad total de puntos muestrales que corresponden a un
espacio muestral definido por una permutación es:

N = n ! = n.(n − 1).(n − 2)....2.1.0! donde 0! = 1

Ejemplo 1. Supongamos que dispusiéramos de tres personas que intentan


ingresar a un cajero electrónico. ¿De cuántas formas posibles podrían ingresar
las mismas? Las mismas las denominamos 1,2,3

Cada punto del espacio muestral, vendrá definido por el orden de ingreso. Así:

Ei = Indiv.1er.lugar; Indiv.2do.lugar; Indiv.3er.lugar


Ej: E1 = 2,1,3
El individuo 2 entró primero, el individuo 1 segundo, el individuo
3, tercero.

Entonces: ¿Cuántas combinaciones posibles hay de tres elementos?

N = 3! = 3.2.1.0! = 6

Si nos tomáramos el trabajo de enlistar los puntos que integran el espacio, estos
serían:
S = (1, 2,3);(1,3, 2);(2,1,3);(2,3,1);(3,1, 2); (3, 2,1)

3. Permutaciones de “n” objetos distintos tomados de a “r”


elementos a la vez. Se trata de un caso particular de las permutaciones en
general. Su única diferencia es que pretendemos reagrupar los elementos
muestrales en grupos de individuos.

7
n!
Su fórmula queda indicada por: Prn =
(n − r )!

Ejemplo 1. Se extraerán por sorteo tres alumnos de una comisión de Estadística


de 40 alumnos para participar de una Olimpíada en Matemáticas. La persona
elegida en primer lugar es enviada al Conicet, la elegida en segundo lugar a la
UBA y la tercera, al Congreso de Expertos en Matemática de Córdoba. ¿Cuántos
puntos muestrales están definidos para este experimento estadístico?
Como los eventos se realizan en lugares diferentes, el número de puntos
muestrales es el número de arreglos ordenados de r=3 entre las n=40 personas
posibles. Entonces, la cantidad de puntos muestrales en S serán:

40! 40!
N = Prn = = = 40.39.38 = 59.280
(40 − 3)! 37!

Tarea: Mostrar que el ejemplo 2 de la regla de la multiplicación es un caso de


Permutaciones de “n” objetos distintos tomados de a “r” a la vez.

Ejemplo 2. Este ejemplo es un poco más avanzado del uso de las permutaciones
de n objetos tomados de a “r”. Imaginemos el caso de un consorcio de edificio
en el cual se desea elegir un presidente y un vocal. El edificio cuenta con 64
departamentos (4 departamentos de 2 ambientes en 16 pisos), todos
propietarios. Cuántas opciones tenemos disponibles para conformar la
conducción si:
a. No hay restricciones.
b. El propietario del 1C sólo participará si es presidente.
c. 6A y 6B participan si entre ellos mantienen la conducción.
d. 1D y 2D, por conflictos personales entre ellos, deciden no
participar juntos.

Caso a.) Es el caso más simple consistente en estudiar todos los posibles
grupos diferentes de a 2, tomados de 64. Entonces:

64! 64!
P264 = = = 64.63 = 4.032
(64 − 2)! 62!

Caso b.) Hay dos situaciones para estudiar: Por un lado, elegido 1C como
presidente, quedan 63 posibilidades para conformar el cargo de
vocal y, por el otro, elegir otras combinaciones o duplas posibles
en la que 1C y sus pretensiones no se tengan en cuenta.
Entonces tenemos: 63 (si 1C es presidente) + P263 = 3.906 (Si a 1C
no se lo tiene en cuenta). Por lo tanto: N = 3.906 + 63 = 3.969

Caso c.) Si participan, hay dos posibilidades concretas para conformar el


grupo de conducción (6A presidente y 6B vocal, y al revés). Si no
participan ambos, entonces los grupos que podemos formar son:

8
P262 = 3.782 , entonces la respuesta a este inciso será:
N = 2 + 3.782 = 3.784

Caso d.) Hay dos posibilidades que se pueden dar para que 1D y 2D se
presenten juntos. Por lo tanto, las debemos deducir del total de
combinaciones posibles. Por lo tanto:
N = P264 − 2 = 4.032 − 2 = 4.030

4. Permutaciones circulares. Se trata de permutaciones u ordenamientos que


podríamos imaginar considerando que uno de los elementos del grupo
permanece fijo.

N = (n − 1)!

Ejemplo 1. Imaginemos la cola en un cajero electrónico y que un empleado de


seguridad desee reordenarla, siempre teniendo en cuenta que un cliente, por
ejemplo, el que ocupa el tercer lugar en la cola, mantiene su posición. Si la cola
tiene 10 personas, ¿cuántos arreglos son posibles?

N = (10 − 1)! = 362.880

5. Agrupamiento y particiones de “n” objetos, en k grupos o


categorías distintas. Hasta el momento supusimos que cada uno de los “n”
individuos era distinto del otro. Pero puede ocurrir que algunos compartan una
característica común (por ejemplo, un color) que los haga distintos de otro
grupo, pero en el grupo perfectamente iguales. Entonces diremos que el
“número de permutaciones distintas de “n” objetos, en que n1 son de una clase,
n2 de otra, y así sucesivamente es:

 n  n!
N = =
 n1 , n2 ,..., nk  n1 !.n2 !...nk !

Ejemplo 1. Una guirnalda está conformada por 12 piezas, las cuáles presentan 3
colores distintos por componente: Verde (5), Amarillo (3), Rojo (4). ¿De cuántas
maneras distintas se pueden confeccionar las guirnaldas?

 12  12!
N = = = 27.720
 5,3, 4  5!.3!.4!

Ejemplo 2. En algunos casos nos puede interesar practicar una “partición”, es


decir, establecer subgrupos en donde en uno de ellos van determinada cantidad
de elementos, en un segundo subgrupo otros y así sucesivamente. Cada uno de
estos subgrupos recibe el nombre de “celdas”. Imaginemos que 8 bolas de billar
(por ejemplo, las bolas rayadas) se decide en agruparlas en 3 subgrupos: En el
primero, que vayan 4 bolas, en el segundo 2 y en el tercer subgrupo las restantes
2. Recordemos que las bolas de billar se encuentran numeradas. ¿De cuántas

9
formas posibles puedo combinar los números de las bolas siguiendo esta
partición? Es importante tener presente en este caso que, una vez asignada la bola
al grupo, no interesa el orden o posición que guarda en él.

 8  8!
N = = = 420
 4, 2, 2  4!.2!.2!

6. Combinaciones de “n” objetos distintos tomados de a “r” a la vez.


Se trata de un caso particular de una partición en 2 grupos en donde el primer
grupo quedará conformado por “r” elementos y en el otro, “n-r”. En este caso,
no nos interesará el orden que guarden los r, o (n-r) elementos dentro de cada
uno de ellos. Su fórmula:

 n   n n!
Cnr =  = =
 r ,(n − r )   r  r !(n − r )!

Ejemplo 1. Un nutricionista recomienda comer todos los días 3 variedades de


frutas y 5 variedades de verduras. Si disponemos en una heladera 5 tipos de
frutas y 8 variedades de verduras. ¿De cuántas maneras distintas podemos hacer
la dieta?

En primer lugar, veamos de cuántas formas posibles podemos seleccionar o


combinar 3 variedades de frutas de 5 que disponemos en total.

 5 5! 120
C53 =   = = = 10
 3  3!.(5 − 3)! 6.2

En segundo lugar, hacemos el mismo ejercicio, pero con las verduras.

8 8! 40,320
C85 =   = = = 56
 5  5!.(8 − 5)! 120.6

Entonces, el espacio muestral reflejaría todas las combinaciones de frutas


posibles que disponemos (10), respecto a las combinaciones de verduras. De esta
manera:

N = 10.56 = 560

Ejemplo 2. ¿Cuántos arreglos posibles de letras se pueden realizar con las letras
de la palabra “BANANA” y, si fuera la palabra, “STATISTICS”

 6  6!
Con BANANA →  = = 60
1, 2,3  1!.2!.3!

10
 10  10!
Con STATISTICS →  = = 50.400
 3,3, 2,1,1 3!.3!.2!.1!.1!

4.2.- SUCESOS O EVENTOS ESTADÍSTICOS.


Vamos a definir como un “Evento o suceso estadístico” de un espacio muestral finito (S)
correspondiente a un experimento aleatorio (E), como cualquier subconjunto de S que
cumpla con ciertas condiciones o propiedades especificadas.

Tratemos de entender esta definición con un ejemplo simple: El experimento aleatorio


en cuestión (E) se trata de arrojar un dado. El espacio muestral (S) ya logramos definirlo
en el ejemplo 1, se trata de los seis puntos muestrales asociados a las caras del dado.
Ahora vamos a definir dos eventos: El evento (A), que se trata de obtener un número par
y, el evento (B), obtener un número mayor a cuatro. Por lo tanto, en resumida cuenta
tenemos:

E: Arrojar un dado (Experimento aleatorio)

S = 1, 2,3, 4,5, 6 S: Caras o puntos del dado (Espacio Muestral)

E1 = 1; E 2 = 2; ...; E 6 = 6 Ei: Representan cada uno de los puntos muestrales

A = 2, 4, 6 = E2 , E4 , E6  A: Obtención de número o cara par (Evento A)


B = 5, 6 = E5 , E6  B: Obtención de número o cara mayor a 4 (Evento B)

Usaremos una letra mayúscula de imprenta para denotar cualquier evento de S. Si


queremos saber además cuántos puntos muestrales involucra cada evento, lo único que
haremos será encerrar a cada letra mayúscula con un paréntesis. Así, (A)=3 y (B)=2.

Habremos notado que esta forma de presentar los eventos sólo resulta válida cuando
trabajamos sobre espacios muestrales finitos o discretos. ¿Cómo proceder cuando
trabajamos con espacios muestrales infinitos o continuos, dado que no podemos enlistar
todos los puntos muestrales? Veamos un ejemplo. Nuestro experimento aleatorio
consiste en sembrar una cantidad determinada de semillas de tomates y medir luego de
40 días la altura de los plantines. Nuestro evento en estudio será identificar los plantines
que midan entre 8 y 12 cms de altura. Entonces:

E: Altura de los plantines después de 40 días (Experimento Aleatorio)

S =  X / X  0, X  R S: Altura positiva de los plantines (X) – (Espacio muestral)


Observación: Los puntos muestrales no se pueden
presentar taxativamente
A =  X / 8  X  12, X  R A: Plantines de altura comprendida entre 8 y 12 cms
después de 40 días de sembrados. (Evento)

11
Los eventos o sucesos se clasifican en simples o compuestos: Un evento es elemental o
simple cuando el mismo involucra directamente puntos muestrales, que no pueden
descomponerse en otros. Dicho de otra forma: Un evento simple Ei se incluye en el
evento A, si y sólo si A ocurre siempre que ocurra Ei. Un evento compuesto, por el
contrario, es aquel que puede descomponerse en sucesos simples.

4.3. TEORÍA DE CONJUNTOS APLICADA AL ESTUDIO DE LOS EVENTOS.


La forma más sencilla de estudiar y presentar los espacios y puntos muestrales, junto a
los eventos que se definan a partir de ellos es utilizando diagramas de Venn. Para el caso
del lanzamiento del dado y los dos eventos definidos a partir del mismo, tendríamos:

A partir de cómo se comportan A, B, C,…. dentro del conjunto S, podríamos definir unas
cuántas propiedades, conocidas con el nombre de reglas o propiedades de los conjuntos.

Propiedades de los conjuntos


1. Conjunto vacío. El conjunto vacío es un subconjunto de cualquier conjunto en
general. Por lo tanto, dado que el espacio muestral es un conjunto, diremos que
el conjunto vacío es un subconjunto del espacio muestral. Se trata de un conjunto
especial que no contiene puntos muestrales.

Así, el conjunto vacío de S se define por S = 

2. Pertenencia. Diremos que un punto muestral (Ei) pertenece a un Evento o


conjunto cualquier A definido en S, si:

Ei  A Ei pertenece al Evento A

3. Inclusión. Un conjunto (B) se encuentra incluido en otro conjunto (A), cuando


todos los elementos del primero pertenecen al segundo.

B A si y sólo si: ( Ei  B  Ei  A , i  B )

12
Está claro a partir de la visualización del diagrama anterior que A presenta otros
puntos, tales como Ej, los cuáles son propios de ese conjunto, pero no de B.

4. Igualdad. Dos conjuntos cualesquiera, A y B son iguales cuando cada uno de


ellos se encuentra incluido dentro del otro. O, dicho de otra manera, comparten
los mismos elementos (Ei y Ej pertenecerían a ambos)

A= B  B A y A B

5. Suma o unión, de dos o más conjuntos. La suma de dos conjuntos es otro


conjunto cuyos elementos están presentes en A ó en B (ó en ambos).
Gráficamente, incluye todos los puntos muestrales que son exclusivos de A (Ea,
por ejemplo), aquellos que son exclusivos de B (Eb, por ejemplo) y también
aquellos que se comparten entre ambos conjuntos (Ew).

La propiedad puede extenderse al caso de existir tres o más conjuntos. Para el


caso de tres conjuntos, el diagrama quedaría expresado.

13
Como apreciamos del diagrama, hay puntos que siguen siendo exclusivo de un
solo conjunto (como, por ejemplo, Ea). También hay puntos que son exclusivos
de la vinculación sólo de dos conjuntos (como en A y B, Ek). Y también podemos
observar puntos muestrales como Ew que pertenecen a los tres conjuntos
simultáneamente.

6. Intersección o producto, de dos o más conjuntos. El producto o intersección


entre dos o más conjuntos hace referencia a todos aquellos elementos que
pertenecen simultánea o conjuntamente a los conjuntos bajo análisis.
Esquemáticamente, nos referimos a los puntos muestrales que forman parte de
todos los conjuntos involucrados al mismo tiempo. Aquí seguidamente
mostramos el caso de dos y tres conjuntos.

7. Complemento de un conjunto. A´ (en algunos libros también expresado como


A representa el conjunto de elementos de S que no pertenecen a conjunto de
eventos A.

De esta manera, un punto o elemento muestral como ES se dice que está en el


complemento de A porque el mismo, perteneciendo a S, no se encuentra en A.

8. Principio del tercer excluido. Este principio dice que el complemento del
complemento de un conjunto resulta en el conjunto original.

( A´)´= A

14
9. Conmutatividad de la unión de conjuntos. Los conjuntos son conmutativos
respecto a la unión o suma.
A B = B  A

10. Conmutatividad de la intersección de conjuntos. Los conjuntos son


conmutativos respecto a la intersección o producto.

A B = B  A

11. Asociatividad de la unión de conjuntos. Los conjuntos son asociativos respecto


a la unión o suma. Para esta propiedad se requiere al menos la presencia de tres
o más conjuntos.

A  B  C = A  ( B  C ) = ( A  B)  C

12. Asociatividad de la intersección de conjuntos. Los conjuntos son asociativos


respecto a la intersección o producto. Para esta propiedad se requiere al menos
la presencia de tres o más conjuntos.

A  B  C = A  ( B  C ) = ( A  B)  C

13. Asociatividad de la unión respecto a la intersección. Básicamente la propiedad


trata de analizar cómo se comporta la intersección respecto a la unión de dos
conjuntos.

( A  B)  C = ( A  C )  ( B  C )

14. Asociatividad de la intersección respecto a la unión. Básicamente la propiedad


trata de analizar cómo se comporta la unión respecto a la intersección de dos
conjuntos.

( A  B)  C = ( A  C )  ( B  C )

15. Primer uso del complemento. Es una propiedad muy importante que le daremos
bastante uso en el estudio de la probabilidad y dice que un evento que se dan
concomitantemente con otro puede presentarse de la siguiente manera:

B = ( A  B )  ( A´ B )

Analicemos esta propiedad a través del diagrama de Venn.

15
El objetivo de esta propiedad es describir todos los puntos muestrales
pertenecientes a B relacionando dicho conjunto a partir de la relación que tiene
con A. El conjunto B se integra por dos subconjuntos: El área sombreada (los
puntos muestrales Ei que son B y que también son A) y los puntos muestrales Ej,
que son puntos exclusivos de B (que claramente no pertenecen a A).

16. Segundo uso del complemento. La unión de dos conjuntos puede expresarse
también como:
A  B = A  ( A  B)

Esquemáticamente, vemos que los puntos muestrales originados por la unión de


dos conjuntos corresponden a cualquier área sombreada. Los puntos muestrales
que corresponden a A (área sombreada en azul) y los puntos muestrales de B,
que no pertenecen a A (área sombreada en gris).

17. Primera ley de Morgan o complementatividad de la intersección de conjuntos.


Su objetivo es encontrar una expresión equivalente para el complemento de la
intersección de dos o más conjuntos.

( A  B) = A  B

Evaluemos esta primera ley de Morgan utilizando el diagrama de Venn.

El complemento de la intersección entre A y B, constituye todo el espacio


muestral S, con excepción del área detallada en blanco. Si tomamos el otro lado
de la igualdad, vemos que el complemento de A, es todo el espacio muestral,
excepto A (lo mismo ocurre con B). La única área que no se transcribe o raya
doblemente veríamos se trata de la intersección de A con B. Como se trata de la
Unión de A y B, no interesa si se raya una vez o dos veces, por lo tanto, también
corresponde al área gris del diagrama anterior.

16
18. Segunda ley de Morgan. Su objetivo es encontrar una expresión equivalente para
el complemento de la unión entre de dos o más conjuntos.

( A  B) = A  B

De igual forma que en la propiedad anterior, examinemos la segunda ley de


Morgan utilizando el diagrama de Venn. Dejamos que el alumno examine las
equivalencias resultantes de la igualdad.

4.4.- CLASIFICACIÓN DE LOS SUCESOS O EVENTOS ESTADÍSTICOS.


Cuando la teoría de los conjuntos es aplicada al estudio de los eventos estadísticos surge
una clasificación de los mismos atendiendo el tipo de relación que guardan entre sí. Esta
clasificación nos permitirá luego ensayar distintos teoremas o axiomas de probabilidad.

1. Suceso o evento “Complemento o Complementario”

Se denomina “Complemento de un evento” o “suceso complementario” ( A ), a


todos aquellos puntos muestrales (Ej) contenidos en el espacio muestral S, que no
pertenecen al evento A.

En el diagrama:

Ejemplo: Si al arrojar un dado, definimos a A como “Obtener número par”, el


complemento de A, resultarán todos aquellos puntos o caras posibles de obtener,
que no son número par.

17
S = 1, 2,3, 4,5,6 A = 2, 4,6 A = 1,3,5

2. Suceso o evento “Conjunto o Intersección”

Para definir el evento o suceso conjunto o intersección debemos estar hablando


de dos o más eventos. Diremos que se llama Evento Intersección o Conjunto a
aquel evento que ocurre, sólo si se presentan de manera conjunta o en forma
simultánea las dos o más modalidades de presentación de los conjuntos que
intervienen.

En el diagrama (para dos casos):

El evento conjunto constituye aquel otro conjunto integrado por puntos


muestrales que quedan determinados en la intersección de ambos conjuntos. Lo
podemos expresar como A  B o también como A.B (A y B, al mismo tiempo).

Si el espacio muestral se encontrase integrado por “k” eventos A1, A2,…,Ak,


entonces el evento conjunto entre ellos quedaría definido por:

k
( A1.A2 ...Ak ) o bien A= Ai
i =1

Ejemplo: Si al arrojar un dado, definimos a A como “Obtener número par” y a B


como “Obtener número mayor a cuatro”, entonces el evento conjunto definido
por obtener número par y ser número mayor a cuatro, es el conjunto cuyo único
elemento resulta en el número seis.

S = 1, 2,3, 4,5,6 A = 2, 4,6


B = 5, 6 A  B = A.B = 6

3. Suceso o evento “Unión Incluyente”

Se llama suceso o evento “unión incluyente” a aquel suceso que ocurre cuando
se verifica el cumplimiento de alguno de sucesos o eventos que integran el
espacio muestral.

18
En términos del diagrama (para dos eventos):

Como podemos apreciar del gráfico, cumplen esta condición todos los puntos
muestrales que pertenezcan al evento A, al B o a ambos. Formalmente:

A  B = ( A  B) o ( A  B) o ( A  B)
(Sólo A) (Sólo B) (Ambos)

Si el espacio muestral está formado por “k” sucesos A (A1, A2,…, Ak), el suceso
unión incluyente se define como:

k
( A1  A2  ...  Ak ) o bien A= Ai
i =1

En nuestro ejemplo del dado, la unión incluyente entre el suceso A y el B,


quedaría definido:

S = 1, 2,3, 4,5,6 A = 2, 4,6


B = 5, 6 A  B = A ó B = 2, 4,5,6

Nota: Observamos que sólo A, son los números 2 y 4, sólo B es el número 5 y


elemento muestral perteneciente a ambos eventos es el 6, el cual se expresa una
sola vez en el conjunto unión.

4. Suceso o evento “Unión Excluyente”

En este caso particular, estamos interesados en identificar la sola presencia de


uno de los conjuntos que integran el espacio muestral, excluyendo la posibilidad
que se presenten de manera conjunta. Se llama suceso o evento “unión
excluyente” a aquel suceso que ocurre cuando se verifica el cumplimiento o
aparición de una y sola una vez, de cada uno de los eventos que integran el
espacio muestral. Dicho de otra manera, presentamos los eventos bajo estudio
“excluyendo” aquellos eventos que se presentan de manera conjunta.

19
En términos del diagrama (para dos eventos):

Como podemos apreciar del gráfico, cumplen esta condición todos los puntos
muestrales que pertenezcan al evento A o bien al B (excluyendo la posibilidad
que se presenten ambos al mismo tiempo). Formalmente:

AB = ( A  B) o ( A  B)
(Sólo A) (Sólo B)

Si el espacio muestral está formado por “k” sucesos A (A1, A2,…, Ak), el suceso
unión excluyente se define como:

k
( A1 A2 ...Ak ) o bien A= Ai
i =1
En el ejemplo del dado, la unión incluyente entre el suceso A y el B, quedaría
definido:

S = 1, 2,3, 4,5,6 A = 2, 4,6


B = 5, 6 AB = A ó B = 2, 4,5

5. Sucesos o eventos “Compatibles”

Vamos a decir que dos o más sucesos son “compatibles” si es posible que los
mismos puedan presentarse de manera conjunta. Necesariamente, dos o más
sucesos serán compatibles si tienen algún tipo de solapamiento, es decir,
comparten elementos del espacio muestral.

Formalmente: Para dos sucesos, A B  

Para varios sucesos, ( A1. A2 ... Ak )  

En el ejemplo del dado, A y B son dos eventos compatibles porque en su


intersección existen puntos muestrales (el número 6, en este caso).

20
6. Sucesos o eventos “Incompatibles o mutuamente excluyentes”

Vamos a decir que dos o más sucesos son “incompatibles o mutuamente


excluyentes” si la presentación conjunta entre ellos se encuentra definida por un
conjunto vacío. Los eventos son incompatibles si no comparten elementos del
espacio muestral.

Formalmente: Para dos sucesos, A B = 

Para varios sucesos, ( A1. A2 ... Ak ) = 

En el ejemplo del dado, pongamos como evento C el de obtener un número


impar. Entonces, A y C serán “incompatibles” dado que un elemento o punto
cualquiera del espacio muestral, no puede ser número par e impar al mismo
tiempo. Ahora, A y C respecto a B, son claramente compatibles.

Existe un caso particular de los espacios muestrales es cuando el mismo se


encuentra totalmente integrado por eventos mutuamente excluyentes. Los
espacios muestrales que tienen esta característica o modalidad de presentación
se denominan “particiones”.

Gráficamente, un espacio muestral S, particionado en A eventos mutuamente


excluyentes, ( A1 , A2 ,..., Ak ) se representa:

21
4.5.- UN MODELO DISCRETO COMO APROXIMACIÓN A LA
DEFINICIÓN AXIOMÁTICA DE LA PROBABILIDAD

Una vez caracterizado el espacio muestral (S), su composición en términos de la cantidad


de los puntos muestrales simples (Ei) que lo integra y los conjuntos de eventos que se
puedan determinar a partir de éstos, la definición de probabilidad resulta prácticamente
inmediata. Un modelo probabilístico para un espacio muestral discreto se puede
construir al asignar una probabilidad numérica a cada evento simple del espacio
muestral S. El número asignado es una medida de nuestra creencia en que el evento
ocurrirá en una sola repetición del experimento, de forma que dicha creencia puede ser
consistente con el concepto de la frecuencia relativa, entre otros criterios.

Si asignamos como concepto de probabilidad, por ejemplo, la frecuencia relativa a la


aparición de un determinado punto muestral o grupo de ellos (eventos), diríamos lo
siguiente:

1. La frecuencia relativa asignada como aproximación de la probabilidad debe ser


mayor o igual a cero. Claro está no puede hablarse de frecuencias relativas
negativas.

Por lo tanto,
P( A)  0

2. La frecuencia relativa de todo el espacio muestral (S) debe dar la unidad.

P( S ) = 1

Nota importante: Si la suma de la frecuencia relativa de los puntos o eventos


muestrales debe dar uno y todos deben dar como respuesta individual un
número positivo, está claro por deducción de 1 y 2, que ninguna frecuencia
relativa individual debe ser mayor a 1.

3. Los puntos muestrales o eventos simples son mutuamente excluyentes. Por lo


tanto, integran conjuntos (o eventos) que pueden ser o no mutuamente
excluyentes.

Entonces:

Si A1, A2, A3,…. forman una secuencia de eventos por pares mutuamente
excluyentes en S, es decir:
Ai  Aj =  si i  j

Entonces:

P( A) = P( A1  A2  A3  ...) =  P( Ai )
i =1

22
Esta última propiedad es válida para los todos los eventos simples que
conforman el espacio muestral (es decir, para los puntos muestrales) y para
aquellos conjuntos a partir de ellos (los eventos) que cumplan con la propiedad
de ser mutuamente excluyentes de a pares.1

Es muy importante tener presente que la definición de probabilidad dada anteriormente


establece las condiciones necesarias para lograr una asignación adecuada de las
probabilidades, pero no nos dice con qué criterio asignar probabilidades específicas a
los diferentes puntos muestrales o eventos.

Estas condiciones establecidas anteriormente definen lo que se conoce con el nombre de


“definición axiomática de la probabilidad” y constituye un soporte casi necesario para
poder establecer en base a la misma el criterio para asignar probabilidades específicas a
los eventos o puntos muestrales. Siempre que dicha asignación individual de
probabilidad respete los criterios establecidos anteriormente constituirá una “buena
definición de probabilidad”. Aparecen así enfoques o “escuelas” para interpretar la
probabilidad específica de cada evento, las cuáles pueden compartirse o ser compatibles
perfectamente con una definición axiomática y que evaluaremos en breve. Veamos antes
de ello algunos ejemplos.

Ejemplo 1: Definición axiomática de probabilidad para el lanzamiento de un dado

Imaginemos el experimento estadístico de arrojar un dado simétrico y computar las


probabilidades (siguiendo la definición axiomática) de los puntos muestrales y eventos
relacionados con el mismo

En consecuencia:

E: Arrojar un dado (Experimento aleatorio)

S = 1, 2,3, 4,5, 6 S: Caras o puntos del dado (Espacio Muestral)

E1 = 1; E 2 = 2; ...; E 6 = 6 Ei: Representan cada uno de los puntos muestrales

A = 2, 4, 6 = E2 , E4 , E6  A: Obtención de número o cara par (Evento A)


B = 1 = E1 B: Obtención de número o cara inferior a 2 (Evento B)
C = 1, 2,3 = E1 , E2 , E3 C: Obtención de número o cara inferior a 4 (Evento C)

1
Observemos el límite superior de la sumatoria: Infinito. Se trata del caso general donde una sucesión
infinita de eventos mutuamente excluyente de pares, definen un evento. Pero también es perfectamente
válida para casos finitos, donde en este caso, tendríamos:

n
P( A1  A2  ...  An ) =  P( Ai )
i =1

23
Paso 1) Asignación de las probabilidades. Teniendo en cuenta que el dado es simétrico
y contamos con 6 puntos muestrales, la asignación individual de la
probabilidad para cada uno de los puntos será de 1/6

Paso 2) Verificación de las condiciones axiomáticas. Verificamos que, la probabilidad de


obtener cualquier puntaje asociado a los distintos puntos muestrales y a los dos
primeros eventos A y B, cumplen con dichas condiciones.

P( Ei ) = 1/ 6 (todas iguales en este caso y positivas) i = 1, 2,..., 6


6
P( S ) =  P( Ei ) = 1 (Conforman el espacio muestral S, y cada probabilidad
i =1
individual es menor a 1)

La probabilidad de cualquier evento A,B,C puede obtenerse agregándose a partir


las probabilidades correspondientes a cada punto muestral.

P( A) = P( E2  E4  E6 ) = P( E2 ) + P( E4 ) + P( E6 ) = 1/ 2
P( B) = P( E1 ) = 1/ 6
P(C ) = P( E1  E2  E3 ) = 1/ 2

Ahora observemos muy bien si definimos un evento W como la unión de los


eventos A y B. Esto es: “W = Obtener número par o número inferior a dos). Acá no
tenemos ningún problema, de acuerdo a la condición axiomática Nro.3, los eventos
A y B son mutuamente excluyentes (no presentan elementos en común), entonces:

P (W ) = P ( A  B ) = P ( A) + P ( B ) = 1/ 2 + 1/ 6 = 2 / 3

Ahora si defino otro evento, por ejemplo V, en la unión de A y C nos encontramos


con un inconveniente. No son ambos conjuntos mutuamente excluyentes,
comparten un elemento en común que es E2. La definición axiomática de
probabilidad no cumpliría con la condición 3 que requiere que A y C sean
mutuamente excluyentes. Ya veremos oportunamente que esta situación puede ser
salvada utilizando el Teorema de la Probabilidad Total, pero si quisiera calcular
en forma axiomática la probabilidad de V, no me quedaría más remedio que
computarlo a partir de las probabilidades individuales de los eventos evitando su
repetición, esto es:

P(V ) = P( E1 ) + P( E2 ) + P( E3 ) + P( E4 ) + P( E6 ) = 5 / 6

Observación importante: Los eventos simples (es decir, los puntos muestrales) son
necesariamente mutuamente excluyentes entre sí. Es decir que, en esta situación,
agregarlos en eventos compuestos para obtener la probabilidad correspondiente
no es un problema. La dificultad surge cuando la definición se aplica a partir de
eventos compuestos.

24
Ejemplo 2: Definición axiomática de probabilidad aplicado a un problema logístico

Una empresa dispone de 5 camionetas de reparto, 3 de las cuales están equipadas con
sistema de refrigeración. Si un cliente de la empresa realiza en la semana dos pedidos de
mercadería (sabiendo que una camioneta no puede ser utilizada para un mismo cliente
y que no interesa el orden del reparto)

1. ¿Cómo queda definido el espacio muestral para este experimento estadístico?


2. Llamando A al evento “Pedido refrigerado”. Indicar los puntos muestrales que
definen a A.
3. Representar gráficamente el problema.
4. Asignar probabilidades a los eventos simples, verificando se cumplan con las
condiciones axiomáticas de la probabilidad.
5. Hallar la probabilidad del evento A.

Punto 1. Llamaremos R1, R2 y R3 las camionetas que disponen de sistema de refrigeración


y N1 y N2, las que no. Entonces el espacio muestral de envío quedará definido
por:

¿Cuántos puntos muestrales tendrá S? Son combinatorias de a 2 tomadas de 5,


por lo tanto:

5 5!
C52 =   = = 10
 2  3!.2!

Estos puntos serán:

E1 =  N1 , N 2  E5 =  N 2 , R1 E8 = R1 , R2  E10 = R2 , R3 


E2 =  N1 , R1 E6 =  N 2 , R2  E9 = R1 , R3 
E3 =  N1 , R2  E7 =  N 2 , R3 
E4 =  N1 , R3 

S = E1 , E2 , E3 , E4 , E5 , E6 , E7 , E8 , E9 , E10 

Punto 2. Llamaremos R1, R2 y R3 las camionetas que disponen de sistema de refrigeración


y N1 y N2, las que no. El espacio muestral de envío quedará definido por:

A = E8 , E9 , E10 

Punto 3. El diagrama de Venn utilizado en el caso,

25
Punto 4. Como no hay razones para suponer cómo se entregarán los envíos, todos los
puntos muestrales son igualmente probables. Entonces:

P( Ei ) = 1/10 i = 1, 2,...,10

Cada una de las probabilidades halladas son no negativas, menores a la


unidad, suman de manera agregada 1 (la probabilidad del espacio muestral S)
y además son eventos simples definiendo puntos muestrales mutuamente
excluyentes.

Punto 5. Para hallar la probabilidad del evento A, sumamos las probabilidades


individuales asociadas a los puntos muestrales que cumplen con la condición
de ser ambos refrigerados.

P( A) = P( E8 ) + P( E9 ) + P( E10 ) = 3 /10

Ejemplo 3: Definición axiomática de probabilidad con eventos individuales no


simétricos

Los dos ejemplos anteriores se fundamentaron en que los puntos muestrales tenían la
misma probabilidad de ocurrencia. Cuando esta situación ocurre decimos que los
sucesos son simétricos. La definición axiomática de probabilidad permite también ser
aplicada a casos no simétricos. Este ejemplo lo extraemos literalmente de Mendenhall.
Se trata de partido de tenis entre dos participantes A y B. Las probabilidades son dos a
uno de que A gane cuando juegue versus B, dado su nivel de entrenamiento. Suponiendo
que A y B jueguen dos partidos de tenis. ¿Cuál es la probabilidad que A gane, al menos
1 partido?

E: Resultados de dos partidos de tenis (Experimento aleatorio)

Definición de los puntos muestrales:

E1 = ( A, A) A gana el primer y segundo partido

26
E2 = ( A, B) A gana el primer partido, B el segundo
E3 = ( B, A) B gana el primer partido, A el segundo
E4 = ( B, B) B gana el primer y segundo partido

El espacio muestral S, queda entonces como: S = E1 , E2 , E3 , E4 

Dado que la asignación de las probabilidades individuales no es simétrica y A


tiene doble chance de ganar que B, las probabilidades asignadas serán: A tiene
2/3 de probabilidad de ganar un partido y B, 1/3. Alguno de esos jugadores gana
el juego y, con esta asignación A tiene doble chance para ganar que B.

Si los resultados de los partidos son independientes uno de otro, diremos que la
asignación de probabilidades para cada uno de los puntos será:

P( E1 ) = 4 / 9 P( E2 ) = 2 / 9 P( E3 ) = 2 / 9 P( E4 ) = 1/ 9

Observamos así que las probabilidades de cada uno de los puntos son distintas
que, son positivas, menores a la unidad y su suma es uno.

4
4 2 2 1
P(S ) =  P( E4 ) = + + + =1
i =1 9 9 9 9

La probabilidad que al menos A gane un partido involucra las probabilidades


asociadas a E1, E2 y E3. Sólo E4 (donde B gana ambos partidos) no cumple con
dicha condición. Por lo tanto:

4 2 2 8
P (C ) = P ( E1 ) + P ( E2 ) + P ( E3 ) = + + =
9 9 9 9

Donde (C), define al evento “A gane al menos un partido de tenis”

4.6.- ESCUELAS O ENFOQUES EN LA DEFINICIÓN DE PROBABILIDAD


Resulta muy frecuente ver artículos científicos y de divulgación intentando discutir
todavía (y después de más de 4 siglos de los primeros antecedentes en el tema) cuál es
enfoque más apropiado para trabajar con el enfoque de “Probabilidad”. La discusión
parece casi interminable y, dependiendo de los autores, algunos le dan mayor
trascendencia a una u otra escuela. Lo que mayormente no hay discusión es que, una vez
acordado cuál es el concepto apropiado a utilizar, qué hacer con dicha probabilidad. La
generalidad de los enfoques modernos considera al tratamiento mayormente de manera
axiomática y deductiva, basándose en una serie de teoremas y postulados, para
considerar a los diferentes casos o situaciones bajo estudio. Esto es, una vez asignada la
probabilidad a cada punto o elemento del espacio muestral, cómo operar a partir de ella,
no parecería ser centro de discusión o de diferencias. Por eso, vamos a estudiar muy
someramente cómo diferentes escuelas asignan probabilidades puntuales a elementos o

27
eventos simples del espacio muestral, sobre qué supuestos edifican sus teorías y cuáles
son sus mayores críticas.

4.6.1. DEFINICIÓN CLÁSICA DE PROBABILIDAD O ENFOQUE DE LAPLACE

La definición clásica de probabilidad se la debemos a Laplace (1812)2 para quien


“probabilidad de un suceso” es la razón entre el número de casos favorables y el número
de casos posibles, siempre que nada obligue a creer que alguno de estos casos debe tener
lugar de preferencia a los demás y sea, para nosotros, igualmente posibles. Expresándolo
de una manera más matemática diremos que “La probabilidad de que ocurra un evento
aleatorio A, es igual al cociente entre el número de casos favorables a la presentación de
dicho suceso y el número de casos posibles, cuando todos los casos son igualmente
posibles”

Diremos:
A : Suceso Aleatorio de S
( A) : Cantidad de casos favorables al suceso A
( A) : Cantidad de casos contrarios a la ocurrencia del suceso A
N : Número total de casos posibles

Está claro que teniendo en cuenta la forma en que hemos definido ( A) y ( A) , la suma
de ambos deberá ser igual al total de los casos posibles.

( A) + ( A) = N

Por ejemplo, si quisiéramos obtener la probabilidad de cara al arrojar una moneda, o sea
P ( A) , tendríamos dos casos posibles (cara y ceca) y uno favorable (cara), de modo que
la probabilidad de A es igual al cociente correspondiente: 1/2. Análogamente, la
probabilidad de obtener As al arrojar un dado será 1/6 y la probabilidad de sacar figura
de un mazo de 40 cartas españolas será 12/40.

Una de las características de las probabilidades (que surge a partir de lo explicado) es


que las probabilidades están constituidas por fracciones propias, o sea un número
comprendido entre 0 y 1. Las probabilidades no podrán ser negativas (ya que no tiene
sentido pensar en un número negativo de casos). En el peor de los casos, lo que podría
ocurrir es que, bajo determinadas condiciones, no se presentara ningún caso favorable
y, en consecuencia, la probabilidad del suceso favorable resultase cero. El otro extremo
del cociente es el número 1. El cociente será igual a 1 cuando todos los casos posibles
sean también favorables. Surge así que nunca una probabilidad puede ser mayor que la
unidad, ya que el número de casos favorables no podrá exceder nunca el número de
casos posibles.

En cierto sentido, siguiendo con la definición clásica de probabilidad los límites 0-1
estrictamente no configuran una probabilidad, ya que no tendría sentido hablar de
sucesos aleatorios cuando los mismos resultan “imposibles” o “ciertos”. En efecto, tanto
la certeza como la imposibilidad son situaciones susceptibles de predicción categórica.

2
En “Teoría analítica de las probabilidades”, 1812

28
De manera que entre estos dos límites (imposibilidad-certeza) se establecerá el campo
de variación de las probabilidades. Lógicamente, una probabilidad muy próxima a cero
nos indicará un suceso de muy difícil presentación). Asimismo, una probabilidad
cercana a 1, indicará que es muy posible que el suceso ocurra.

Condiciones o supuestos en los que se basa la definición clásica de probabilidad

1. Simetría de los sucesos: “Todos los N casos son igualmente posibles”

La condición de simetría de los sucesos implica ensayar o realizar el


experimento aleatorio en base a un dado no fallado o cargado, una moneda
perfecta, un mazo de cartas sin trucos. Es decir, que para calcular las
probabilidades partimos de la suposición que tanto el dado, como las
monedas o las cartas presentan condiciones de homogeneidad en todas sus
presentaciones aleatorias. Imaginemos un caso donde se violaría: El caso de
una ruleta con cierta inclinación que hace que determinados números tengan
más chance de salir que otros. En este caso, la ruleta no será homogénea y la
probabilidad de obtener un número cualquiera dejaría de ser 1/37.

2. Condición de exclusión: “Los N casos son mutuamente excluyentes”

Es una condición que se encuentra implícita en la definición de LAPLACE. En


los ejemplos que hemos ido señalando, los casos posibles se excluyen entre sí.
No puede ocurrir que, al arrojar una moneda o un dado, salgan las dos caras
al mismo tiempo, o dos números de dados, o que un naipe sea figura y no lo
sea al mismo tiempo.

3. Condición de Finitud: “Los N casos deben ser contabilizados”

Implica que los N casos que figuran en el denominador pueden ser contados,
a pesar de ser un número grande y clasificados conforme cumplan o no las
propiedades para constituirse en eventos favorables o no favorables. Es por
ello que la definición clásica excluye el cálculo de probabilidad para espacios
muestrales infinitos contables o directamente infinitos.

4. Conjunto completo: “Los N casos constituyen un conjunto completo”

Equivale a decir que los casos posibles son los que constituyen el denominador
del cociente y no existe ninguna otra posibilidad más. Se excluye toda
posibilidad que no se encuentre dentro de los N casos posibles.

Definición clásica o Laplaciana de Probabilidad

La definición de probabilidad clásica resulta aplicable únicamente cuando se cumplen


con las condiciones de finitud y equiposibilidad de las contingencias. La segunda
condición se cumple, cuando existe un criterio de simetría de las contingencias.
Entonces, la definición clásica de probabilidad es:

( A)
P ( A) =
N

29
Críticas a la definición clásica de probabilidad

Por cierto, que la definición dada resulta restrictiva para estudios más profundos, pero
como iniciación a un curso de probabilidades es una aproximación suficiente, pues tiene
la ventaja de ser fácilmente comprensible y de inmediata aplicación. Nos permite
resolver muchos problemas interesantes del cálculo de probabilidades, precisamente en
aquellos en los cuáles es posible determinar, por recuento o mediante la aplicación del
cálculo combinatorio, el número de casos posibles y favorables. No obstante, a pesar de
estas facilidades, las limitaciones que tiene esta concepción primitiva de la probabilidad
son importante y se pueden numerar:

1. Dificultad para definir los casos posibles

No siempre resulta fácil determinar el número de los casos posibles. Hay


innumerable cantidad de situaciones que, a pesar de tratarse de espacios
muestrales finitos, llegar de determinar ese valor N resulta muy tedioso. Es
más, veremos ejemplos y aplicaciones, en los cuáles la probabilidad no podrá
ser determinada de esta manera, en virtud de que no se pueden indicar con
certeza el número de casos posibles.

2. Tautología de carácter lógico

Al decir que todos los casos deben ser igualmente posibles, es una forma
bastante rebuscada de eludir la afirmación de que todos los casos deben ser
“igualmente probables”, que todos los casos presentan, en definitiva, la misma
probabilidad de ocurrencia. Cuando decimos que el dado es homogéneo
estamos también señalando que todas las caras tienen la misma probabilidad
de presentarse. Resulta evidente entonces que en la definición se está
incluyendo la misma palabra que se intenta definir, dando lugar a una
referencia circular o tautología.

3. Asimetría de los sucesos

Aunque de manera imperceptible, no hay muchas veces garantía que los


instrumentos experimentales no se muestren fallados o cargados. ¿Cómo
entonces verificar que un dado sea homogéneo, una moneda no se encuentre
cargada o que una ruleta no posea una leve inclinación? ¿Experimentando
muchísimas veces y observando lo que pasa?

Aún con todas las limitaciones impuestas por sus supuestos y las críticas recibidas, la
definición clásica se sigue usando porque implícitamente tiene un costo de
implementación muy bajo. Esto es, ante un experimento aleatorio (como por ejemplo el
del dado) corresponde preguntarnos si este está bien fabricado y diagnosticar sobre su
calidad de fábrica o directamente usarlo, suponiendo que las cumple, para resolver los
casos que se nos proponen. A esta situación es a la que algunos autores como, por
ejemplo, T. YAMANE han definido como “principio de razón insuficiente”3, que consiste
en que cuando no hay fundamentos para preferir uno de los posibles resultados o

33
Taro Yamane. “Estadística”. Editorial Harla. Madrid, 1987

30
sucesos a cualquier otro, todos deben considerarse con la misma probabilidad de
ocurrencia.

Algunas consideraciones derivadas de la definición clásica de probabilidad

Partiendo de la definición clásica de probabilidad, sabemos que la probabilidad que A


ocurra será:

( A)
P ( A) =
N

Asimismo, podríamos definir la probabilidad del evento contrario a A, llamado A ,


aplicando la definición de Laplace, será:

( A)
P( A) =
N
De esta manera, por ejemplo, la probabilidad de obtener figura al sacar una carta de un
mazo que sea figura (suceso A ), será 12/40, y de no sacar una figura en una extracción
(suceso contrario A ) será 28/40. De esta manera:

( A) ( A) N
( A) + ( A) = N , P( A) + P( A) = + = =1
N N N

Por lo tanto, la probabilidad de ( A) más la probabilidad de ( A) es igual a 1, es decir, a


la certeza. Esto es muy simple de interpretar: Como hemos sumado la probabilidad que
un suceso ocurra con la probabilidad que dicho suceso no ocurra, nos encontramos con
una situación de certeza absoluta, ya que necesariamente una de estas dos situaciones se
va a producir. A veces, por cuestiones de comodidad de notación a la probabilidad del
suceso favorables se la describe con “p”, y la del suceso no favorable con “q”, entonces:

P( A) + P( A) = p + q = 1

Y también se suele usar mucho (especialmente al momento de realizar demostraciones


matemáticas) el uso de la probabilidad contraria, la cual se deriva de esta última fórmula:

Si p + q = 1 → p = 1− q  q = 1− p

4.6.1. DEFINICIÓN EMPÍRICA O FRECUENTISTA DE LA PROBABILIDAD

Los autores que mayormente desarrollaron el enfoque fueron Von Mises, Kolmogorov y
Smirnov, bajo ciertos matices y diferencias, pero fundamentalmente orientados a realizar
ensayos o experimentos aleatorios como manera de obtener valores probabilísticos. Bajo
este enfoque, se realiza un experimento aleatorio “E” (como puede ser, por ejemplo, el
lanzamiento de una moneda) de manera reiterada y bajo condiciones uniformes.
Planteamos dos resultados mutuamente excluyentes (obtener “Cara”, por ejemplo, como
suceso favorable) y computamos la frecuencia relativa de la cantidad de sucesos

31
favorables (Cara, en nuestro ejemplo) sobre las “n” pruebas repetidas realizadas. Al
momento previo a un nuevo intento, vamos representando cómo se comporta dicha
frecuencia relativa. Gráficamente, veremos un comportamiento similar al siguiente
gráfico.

Del gráfico apreciamos que las fluctuaciones de las frecuencias relativas de obtener
caras, f r ( A) varía considerablemente cuando “n” es pequeño, pero cuando “n” es
grande, la amplitud de las frecuencias relativas o de las fluctuaciones disminuye. Este
fenómeno se expresa así: “La frecuencia relativa resulta estable o la frecuencia relativa
presenta regularidad estadística a medida que “n” crece”. Vemos en el gráfico, cómo la
amplitud de las fluctuaciones decrece gradualmente cuando “n” aumenta. A partir de
200 tiradas de moneda, vemos claramente que dicha frecuencia relativa (en azul) se
“pega” a una línea roja constante, sobre la cual muestra convergencia, dicho valor
representa la probabilidad P(A). Este valor es 0,50, curiosamente nuestro valor de
probabilidad para obtener Cara utilizando una moneda simétrica usando la definición
clásica de probabilidad. ¿Y si la moneda no hubiera resultado ser simétrica, por ejemplo,
por estar arqueada? La definición clásica o Laplaciana no nos podría suministrar un
valor de P(A), pero la definición frecuentista sí, toda vez que dicha línea roja se hubiera
posicionado en otro punto en la escala 0-1.

Lo más interesante del principio de estabilidad de las frecuencias relativas resulta en que
para cualquier tipo de experimento aleatorio realizado bajo idénticas condiciones, el
valor de estabilización de la frecuencia relativa siempre se podrá obtener a medida que
“n” crece indefinidamente y, ese resulta en el valor de la probabilidad P(A). La cuestión
es cuán grande deba ser “n”. Los autores más duros de esta escuela (en particular,
Kolmogorov) sugiere que esto se logra o alcanza recién en el infinito, y sólo en el infinito
de pruebas, se puede hablar de probabilidad. Por lo tanto:

P( A) = lim f r ( A)
n →

Entonces, en una versión débil de la escuela empírica o frecuentista de la probabilidad


nos diría que P(A) y fr(A) son prácticamente iguales cuando “n” es grande, mientras que
en una posición fuerte P(A) es el límite de la frecuencia relativa cuando “n” tiende a

32
infinito. Esta diferencia no es menor, dado que en la primera versión podemos hablar de
P(A) para un suceso A, en tanto que, en la segunda versión, solo podemos hablar de P(A)
como el límite de un proceso.

Críticas a la definición frecuentista o empírica de la probabilidad

La definición frecuentista es muy utilizada en Estadística para definir la probabilidad de


ocurrencia de un suceso o fenómeno, especialmente cuando se desconoce su naturaleza
o se sospecha de las condiciones de simetría bajo las que se presentan los resultados del
experimento. Sin embargo, no está libre de críticas, entre las cuáles:

1. Impracticabilidad de realizar infinitas pruebas o ensayos

El concepto de probabilidad frecuentista habla de un límite para “n”


tendiendo a infinito el cual, por cierto, y por más grande que éste resulte, no
es realizable. La objeción representa una laguna en la intención de
fundamentar experimentalmente el concepto. Tampoco hay respuesta a
cómo conseguir una manera de prolongar idealmente el proceso, porque los
procesos regidos por el azar, no pueden ser racionalmente prolongados, sin
quitarles el carácter aleatorio, que es su esencia.

2. Imposibilidad de probar la aleatoriedad

Esta condición está postulada como condición para realizar las pruebas, pero
no está debidamente probada en la experimentación. Dicho de otra manera,
cómo verificar que la moneda sea lanzada correctamente y en las mismas
condiciones experimentales, por ejemplo.

3. Prescindencia absoluta del concepto de probabilidad “a priori”

Especialmente en su definición más rigurosa, esta teoría restringe el cálculo


de probabilidades, considerando a la probabilidad como un caso excepcional
de convergencia de un proceso y omitiendo la utilización de cualquier uso
de la probabilidad a priori, la que, a pesar de sus limitaciones resulta de un
concepto muy fecundo y es base fundamental para gran parte de las
aplicaciones del cálculo de probabilidades.

4.6.1. DEFINICIÓN SUBJETIVA DE LA PROBABILIDAD

El principal exponente de esta escuela o postura en el concepto de probabilidad es


SAVAGE para quien “La probabilidad mide la confianza que tiene un individuo
determinado en la verdad de una preposición en particular”. Un ejemplo de ello, sería
la probabilidad de que mañana llueva. Supone que cuando estima, el individuo es
razonable y mucho más lo es, a cuanta más gente se la consulte sobre dicha preposición,
y se tome un promedio de las respuestas. Sin embargo, no niegan la posibilidad de que

33
dos individuos razonables con la misma prueba puedan tener grados diferentes de
confianza en la verdad de una preposición.

Veamos un ejemplo de cómo funciona la probabilidad subjetiva. Imaginemos que un


profesor desea evaluar el nivel de un alumno en base a tres exámenes. Entonces le asigna
a cada uno de ellos, una ponderación o grado de confianza o importancia a que dicha
prueba pueda tener para identificar cual es el grado de conocimiento que el alumno tiene
respecto a la materia en cuestión. Veámoslo con el siguiente caso:

Puntaje obtenido Ponderación Ponderación relativa Nota ponderada


5 10 0,20 1,00
8 15 0,30 2,40
7 25 0,50 3,50
Total 50 1,00 6,90

Las ponderaciones se pueden expresar en términos proporcionales, por lo que dicha


suma representa la unidad. Estas ponderaciones relativas se pueden considerar como las
probabilidades que se asignan a estos sucesos (exámenes). El enfoque subjetivo se aplica
a sucesos que todavía no han ocurrido, o que suceden por única vez y no requieren de
una gran cantidad de ensayos ni del uso de la hipótesis de regularidad estadística.

SAVAGE, KEYNES y JEFFREY adhirieron fuertemente a esta postura. Según ellos, la


teoría de la probabilidad no es una teoría de hechos, sino de juicios, de manera que el
valor de la probabilidad depende del conjunto de conocimientos que se tenga de lo que
se estudia, y solamente puede definirse en función de estos acontecimientos. Según
Keynes, a toda preposición puede atribuírsele una probabilidad con respecto a un
sistema de conocimientos, como una medida razonable de su creencia. La teoría
bayesiana de la probabilidad ha tomado muchos elementos de esta escuela en la
definición de las probabilidades iniciales que sirven para evaluar cursos de acción o
estrategias, las cuáles quedan fuera del alcance de este material introductorio.

Críticas a la definición subjetiva de la probabilidad

La crítica más importante que recibe esta escuela para concebir la probabilidad radica en
la falta de consistencia teórica y científica para definir y conceptualizar a la misma. La
crítica abarca tanto a los fundamentos para definir a la probabilidad, como en los
alcances que la misma tiene desde el punto de vista aplicado.

4.7.- PROPIEDADES O AXIOMAS DE LA PROBABILIDAD


El tratamiento axiomático de la probabilidad admite que las propiedades aplicadas sobre
los conjuntos puedan ser asociadas a una medida de esos conjuntos que es, en definitiva,
la probabilidad.4 En secciones posteriores, y de manera optativa, daremos algunos

4
La teoría de la medida de la probabilidad resulta en el tratamiento más formal que se puede aplicar sobre la
probabilidad a los conjuntos. Su nacimiento es atribuido a Andreí Kolmogorov quien en 1933 en su obra “Los

34
fundamentos teóricos de dicha relación entre conjuntos y medidas sobre los conjuntos.
Parte de estas medidas son las conocidas como propiedades, axiomas o postulados de la
probabilidad que seguidamente veremos:

Propiedad 1: La probabilidad del evento “conjunto vacío”

Se enuncia así: “Si  es el conjunto vacío, entonces P () = 0 ”

Demostración:

Por propiedad de unión entre conjuntos mutuamente excluyentes,


decimos que:

P( A  B) = P( A) + P( B)

Denotando que B = 

P ( A  ) = P ( A) + P () (1)

Si digo ahora que, P ( A  ) = P ( A) (2)

Entonces, igualando (1 y 2): P ( A) + P () = P ( A) → P () = 0

La conclusión es inmediata: La probabilidad de un evento de “imposible ocurrencia”


(conjunto vacío) es cero. Sin embargo, es importante destacar que la proposición inversa
no es necesariamente cierta ya que P(S)=0, no implica necesariamente que el espacio S
resulte un conjunto vacío. Imaginemos el caso en el que el evento sea A=Obtener bolilla
negra y contamos con una urna que resulta de una sucesión continua de bolas que se
van agregando a la misma, en la cual una sea negra. ¿Cuál es la probabilidad de obtener
bola negra en un intento? Uno, dividido la cantidad “n” de bolas totales. Pero como el
proceso de incorporar “n” bolas a la urna no está acotado, esa probabilidad buscada es
cero (ni siquiera es un límite tendiendo a cero, resulta directamente cero) dado que el
proceso implica infinitas bolillas incorporadas al proceso.

Propiedad 2: La probabilidad del complemento de un evento A

Se enuncia así: “La probabilidad complementaria a A es P( A) = 1 − P( A) ”

Demostración:

Sabemos que el espacio muestral “S” se puede descomponer en los


eventos A y A mutuamente excluyentes entre ellos. Es decir:
S = A A

Como: P(S ) = P( A  A) = P( A) + P( A) = 1

fundamentos de la teoría de la probabilidad” estableció una correspondencia entre los conjuntos y una medida de
dichos conjuntos, el cuál en Estadística dicha medida responde al concepto de “Probabilidad”.

35
Entonces, resulta: P( A) = 1 − P( A)

Propiedad 3: Propiedad de la Monotonía de la probabilidad

Se enuncia así: “Si el evento A se encuentra incluido en otro evento B, ( A  B ), entonces


P ( A)  P ( B ) ”

Demostración:

Si A  B , entonces el evento B se puede descomponer en los dos


eventos siguientes: A y B / A (Evento B, dada la ocurrencia de A que
constituye el complemento de A en B). Ambos sucesos son mutuamente
excluyentes. Gráficamente pasa lo siguiente:

Como: P( B) = P  A  ( B / A) = P( A) + P( B / A)

Resulta en: P ( B / A)  0 (por tratarse de una probabilidad), entonces:

P ( B )  P ( A)

Propiedad 4: La probabilidad es una medida menor o igual a la unidad

Se enuncia así: “La probabilidad de un evento A es un valor no negativo y acotada


superiormente en la unidad”

Demostración:

Si A  S , y la P( S ) = 1 (segunda condición axiomática de la


probabilidad), entonces P ( A)  1 , ya que P ( A)  P ( S ) = 1

Propiedad 5: Propiedad de completitud del espacio muestral

Se enuncia así: “La suma de las probabilidades de todos los sucesos posibles
mutuamente excluyentes que conforman el espacio muestral es 1”

Demostración:

Si: S = E1  E2  ...  En entonces P( S ) = P( E1 ) + P( E2 ) + ... + P( En ) = 1

36
Propiedad 6: Propiedad de la adición de dos sucesos no excluyentes

Se enuncia así: “Si los eventos A y B, pertenecientes al espacio muestral “S”, son dos
eventos no excluyentes entre sí, entonces P ( A  B ) = P ( A) + P ( B ) − P ( A  B ) ”

No hay acuerdo generalizado entre los autores por considerar a dicha propiedad como
estrictamente una propiedad de la probabilidad o uno de los teoremas de la
probabilidad. Como resulta de una cuestión de mucha importancia tener esta relación,
por sus consecuencias teóricas y prácticas, dejaremos la demostración para cuando la
misma sea estudiada como teorema propiamente dicho.

4.8.- TEOREMA DE LA PROBABILIDAD TOTAL O DE LA ADICIÓN


La utilidad de los teoremas de probabilidad reside en la oportunidad que disponemos
para formalizar el cálculo de las probabilidades de los eventos, particularmente cuando
estamos trabajando con un conjunto de “eventos compuestos”, definidos en el espacio
muestral “S”. Los teoremas se derivan, en su mayoría, de las propiedades que guardan
los conjuntos y que estudiamos en detalle cuando abordamos el tema de la “teoría de los
conjuntos”.

El Teorema de la Probabilidad Total tiene por objetivo determinar la probabilidad que


ocurran dos o más sucesos de manera indistinta. Esto es, calcular la probabilidad que
ocurran uno de ellos, dos o varios de forma alternativa. Por tal motivo, buscamos una
probabilidad asociada a la suma de eventos.

1. Caso de dos eventos (A, B)

“Dados dos eventos cualesquiera, definidos en el espacio muestral S, el teorema


de la probabilidad total tiene por objetivo calcular la probabilidad asociada a la
aparición de suceso A o del suceso B, o de ambos al mismo tiempo”.

Se admiten dos casos o situaciones en estas circunstancias: Que los eventos A y B,


compartan elementos del espacio muestral, esto es, se traten de “eventos compatibles” o
“no excluyentes” (situación I). O bien, los eventos A, B no compartan entre sí elementos
del espacio muestral, para lo cual diremos que A y B son “eventos incompatibles” o
“mutuamente excluyentes” (situación II).

Situación I: Caso general: Sucesos compatibles o no excluyentes

P ( A  B ) = P ( A) + P( B) − P( A  B)

La probabilidad P ( A  B ) representa la situación probabilística de que


ambos eventos A,B se presenten de manera conjunta o simultánea.

DEMOSTRACIÓN.

Examinando previamente el diagrama de Venn, observamos

37
Recordando la propiedad Nro.16 de la Teoría de Conjuntos (segundo uso del
complemento), vimos que:

A  B = A  ( A  B) [1]

Esto es: “A” queda representado por los puntos muestrales contenidos en él (propios y
compartidos con B) y los puntos exclusivos de “B” no compartidos con A. El diagrama
siguiente muestra en colores, ambos conjuntos. Claramente, A y ( A  B) son conjuntos
mutuamente excluyentes.

Además, del mismo diagrama podemos apreciar que: B = ( A  B)  ( A  B) [2]

Nuevamente, ( A  B) y ( A  B ) constituyen conjuntos mutuamente excluyentes.

Aplicando probabilidades a la ocurrencia de los eventos aleatorios antes descriptos [1] y


[2], diremos:

P( A  B) = P( A) + P( A  B) y, P( B) = P( A  B) + P( A  B)

(1) (2)

Ambas probabilidades contienen la P( A  B) (subrayadas), y dado que ambas


probabilidades no resultan expresiones independientes una de otras por estar definidas
en el mismo espacio muestral S, entonces despejando P( A  B) de la segunda expresión,
tenemos:

P( A  B) = P( B) − P( A  B)

38
Y reemplazando en la (1), se obtiene la fórmula buscada de la probabilidad total para
sucesos compatibles o no excluyentes

P( A  B) = P( A) + P( A  B) = P( A) + P( B) − P( A  B)

Intuitivamente, diremos que al sumar los elementos contenidos en el conjunto A con los
del conjunto B, existen elementos muestrales contenidos en la intersección de ambos que
son contabilizados o sumados doblemente, lo cual se requiere deducirlos. Esta es la
razón por la que aparece la resta de la intersección de ambos conjuntos.

Situación II: Caso particular: Sucesos incompatibles o mutuamente excluyentes

P( A  B) = P( A) + P( B)

En caso que los conjuntos A y B, no presenten elementos muestrales comunes


a ellos, la probabilidad de total será simplemente la probabilidad asociada a
la aparición de los elementos muestrales de ambos, entendiendo que la
probabilidad de aparición conjunta de ambos resulta en el conjunto vacío.

Ejemplo I

Una cooperativa de préstamos para consumo ha decidido, como regla de ordenamiento


de sus registros de clientes, asignar con número par a los préstamos para jubilados y,
con números que resultan múltiplos a 5, a aquellas personas que residan en un radio de
20 cuadras a la redonda del centro de operaciones de cada sucursal. Si la sucursal del
Partido de San Martín cuenta habilitadas 87 cuentas a la fecha. ¿Cuál es la probabilidad
de seleccionar un registro al azar que resulte de un cliente jubilado o de un vecino de a
la sucursal?

Solución:

Definimos a los eventos:

A: Obtener cuenta de Jubilados


B: Obtener cuenta de vecino a la sucursal San Martín

Luego, procedemos a identificar en el espacio muestral (que contiene 87 registros) la


cantidad de cuentas asociadas a cada una de las categorías (o de ambas). La siguiente
representación puede resultar de utilidad

39
Los registros en color anaranjado y la última columna en verde representan los casos
pertenecientes al conjunto (A). Se trata de 43 cuentas de Jubilados. Los registros en color
gris y también la última columna, representan casos de cuentas pertenecientes a Vecinos
en el radio descripto en el enunciado a la cooperativa (B). En caso se trata de 17 cuentas
asignadas. La última columna, representan cuentas de jubilados (por ser cuentas pares)
y de vecinos a la institución (por ser múltiplos de 5). Entonces existen 8 casos en esta
condición. Teniendo en cuenta esta asignación, la probabilidad hallada será:

43 17 8 52
P ( A  B ) = P ( A) + P ( B ) − P ( A  B ) = + − = = 0,5977
87 87 87 87
Ejemplo II

Un sistema de detector de humo en un local bailable utiliza dos dispositivos A y B. Si


hay humo, la probabilidad que sea detectado por el dispositivo A es del 85% y por el B,
83%, y por ambos, 77%.

a. Si hay humo en el local, ¿cuál es la probabilidad que el mismo sea detectado?


b. ¿Cuál es la probabilidad que el humo no fuere detectado?

Solución:

a) Tomando la denominación de los detectores como eventos, vemos claramente


que el ejercicio es un problema de probabilidad total y contamos para ello con las
probabilidades necesarias para proceder a su cálculo. Dado que nuestro interés
resulta en “detectar el humo” no nos interesa en particular establecer si fue el
detector A quien lo hizo, el B o ambos. Por lo tanto,

P( A  B) = P( A) + P( B) − P( A  B) = 0,85 + 0,83 − 0, 77 = 0,91

b) La probabilidad que el humo no sea detectado, se puede indicar como el


complemento de dicha probabilidad. En el inciso previo, se indicó la
probabilidad que humo sea detectado de alguna forma, por tanto, uno menos
dicha probabilidad es indicativa que el humo resulte desapercibido.

P( A  B) = 1 − P( A  B) = 1 − 0,91 = 0,09

40
Ejemplo III

Por problemas de cuestión sanitaria, los bancos atenderán los días lunes a los jubilados
con terminación de documento 0 o 1. A continuación, se detalla la nómina de jubilados
clientes según terminación de documento:

Terminación DNI Cantidad de clientes jubilados


0 26.778
1 29.626
2 31.214
3 18.331
4 22.997
5 25.550
6 27.498
7 30.704
8 28.335
9 21.890
Total 262.923

¿Cuál es la probabilidad de atender clientes jubilados los días lunes?

Estamos ante un caso de probabilidad total con sucesos mutuamente excluyentes o


incompatibles, dado que una persona no puede contar con dos números de DNI
distintos. Si los lunes se decide atender clientes cuya terminación resulte en 0 o en 1,
dicha probabilidad será:

P( A  B ) = P ( A) + P ( B ) = 0,1018 + 0,1127 = 0, 2145

2. Caso de tres eventos (A, B, C)

“Dados tres eventos cualesquiera, definidos en el espacio muestral S, el teorema


de la probabilidad total tiene por objetivo calcular la probabilidad asociada a la
aparición de suceso A o del suceso B o del suceso C, o de cualesquiera de ellos al
mismo tiempo”.

De manera similar al caso de dos eventos, existirán dos situaciones bajo las cuales se
desarrolla el teorema:

Situación I: Caso general: Sucesos compatibles o no excluyentes

P( A  B  C ) = P ( A) + P ( B ) + P (C ) − P ( A  B ) − P ( A  C ) − P ( B  C ) + P ( A  B  C )

La probabilidad P ( A  B ) , P ( A  C ) y P ( B  C ) representan la situación


probabilística de que los eventos intervinientes se presenten de a dos de manera conjunta
y la probabilidad P ( A  B  C ) , se presenten los tres de manera conjunta.

41
DEMOSTRACIÓN.

Tomando los elementos de la demostración para dos eventos (A y B), la demostración


del teorema de la probabilidad total sigue los mismos lineamientos generales, en la
medida que los eventos puedan reagruparse en otros, atendiendo las propiedades
asociativas y distributivas ya vistas con anterioridad. Así:

P( A  B  C ) = P  A  ( B  C ) 

Pongamos particular atención en esta igualdad. Vemos que el segundo miembro


(aplicando la propiedad asociativa de conjuntos) la unión del suceso B y C, formaría
parte de otro suceso simple (como si se tratase de D). Entonces:

P ( A  B  C ) = P ( A  D) = P( A) + P( D) − P( A  D) Sabiendo que D = B  C

Entonces, reemplazando “D” por su equivalente:

P( A  B  C ) = P( A) + P( B  C ) − P  A  ( B  C )

La primera probabilidad P ( B  C ) se trabaja como si se tratase de la probabilidad de la


unión del evento A y B y, sobre la segunda probabilidad se aplica la propiedad 13 de las
desarrolladas en la teoría de los conjuntos de la asociatividad de la intersección respecto
a la unión. Entonces, hagámosla por pasos así nos resulta más ordenada la exposición.
Primero desarrollamos la probabilidad total entre B y C.

P( A  B  C ) = P( A) + P( B) + P(C ) − P( B  C ) − P  A  ( B  C ) 

Y ahora trabajemos sobre la segunda probabilidad (teniendo muy en cuenta que está
precedida por un signo negativo)

P( A  B  C ) = P( A) + P( B) + P(C ) − P( B  C ) − P ( A  B)  ( A  C ) 

Finalmente, trabajamos la última de las probabilidades desarrolladas en la expresión


anterior como si ( A  B ) y ( A  C ) se tratasen de dos eventos cualquiera, recordando
siempre el tema del signo negativo que la precede.

P( A  B  C ) = P( A) + P( B) + P(C ) − P( B  C ) − P( A  B) + P( A  C ) − P ( A  B)  ( A  C ) 

Teniendo en cuenta que la última probabilidad es equivalente a:

P  ( A  B)  ( A  C )  = P( A  B  C )

Sacando las llaves del último miembro y respetando el signo negativo que la precede a
cada uno de sus componentes, nos queda la versión definitiva del teorema de la
probabilidad total para sucesos compatibles de tres eventos.

P( A  B  C ) = P ( A) + P ( B ) + P (C ) − P ( A  B ) − P ( A  C ) − P ( B  C ) + P ( A  B  C )

42
Utilizando los diagramas de Venn, la representación del cálculo de la probabilidad total
con tres eventos, viene dado del siguiente modo:

Observamos que la fórmula implica sumar de manera completa los tres conjuntos A,B y
C. Se deducen las zonas superpuestas de a dos entre los tres conjuntos, por estar
doblemente contabilizadas de los tres conjuntos, motivo por el cual se lo agrega una vez.

Situación II: Caso particular: Sucesos incompatibles o sucesos mutuamente excluyentes

P( A  B  C ) = P ( A) + P ( B ) + P (C )

Si los eventos son mutuamente excluyentes o incompatibles, no encuentran zonas


comunes o de intersección, razón por la cual, la probabilidad de los tres eventos
consistirá en la suma directa de las tres probabilidades asociadas a cada uno de ellos.

Ejemplo IV

El siguiente es un detalle de composición por materias de los 400 alumnos de la Escuela


de Economía y Negocios que cursan el tercer año de la carrera de Administración
durante el primer cuatrimestre 2020.

Estadística: 195 Costos y Macroeconomía: 52


Macroeconomía: 96 Costos y Estadística: 87
Costos: 229 Estadística y Macroeconomía: 41

43
a. ¿Cuál es la probabilidad que un alumno que se encuentre en el tercer año de la
carrera de Administración, curse alguna de estas materias?
b. ¿Cuál es la probabilidad que un alumno que se encuentre en tercer año de la
carrera de Administración curse las tres materias?

Solución:

Definimos a los eventos:

A: Cursar Estadística B: Cursar Macroeconomía C: Cursar Costos

a) Suponiendo que para cursar tercer año se requiera al menos cursar alguna de
estas tres materias, entonces:

P( A  B  C ) = 1

Pregunta: Si el plan de estudios de tercer año contiene 5 materias. ¿Cómo se altera


la fórmula anterior y que otro dato se requiere para resolver el inciso?

b) Para poder calcular la probabilidad que un alumno se encuentre cursando las


tres materias, se requerirá conocer P ( A  B  C ) . Sabiendo del inciso (a) que
P( A  B  C ) = 1 , entonces:

P( A  B  C ) = 1 − P ( A) − P ( B ) − P (C ) + P ( A  B ) + P ( A  C ) + P ( B  C )

En base a esta fórmula, con la información detallada previamente:

195 96 229 41 87 52 60
P( A  B  C ) = 1 − − − + + + = = 0,15
400 400 400 400 400 400 400

Ejemplo V

Un pelotero se encuentra conformado por 350 pelotas numeradas y 500 sin numeración.
Se sabe además que las pelotas numeradas son negras y las que no se encuentran
numeradas son de 4 colores distintos: verdes (100), rojas (160), azules (40) y el resto color
marrones. ¿Cuál es la probabilidad que al extraer 3 bolas con reposición se tenga una
pelota de distinto color, no numerada?

Solución: (También explicado como Ejercicio Suplementario Nro.1)

En el presente caso sólo nos interesará saber la probabilidad de combinar tres de cuatro
colores distintos sin interesar en el ordenamiento de los colores al momento de extraer
las tres pelotas.

Si definimos como eventos:

V: Pelota Verde; R: Pelota Roja; A: Pelota Azul; M: Pelota Marrón

44
Las combinaciones de pelotas de cuatro colores distintos serán: (V,R,A): (V,R,M);
(R,A,M) y (V,A,M). En cada una de estas combinaciones no interesará el orden en el cuál
lo colores van apareciendo. Tomemos, por ejemplo, el primer caso:

(V,R,A): Implica que nos será indistinto tener las pelotas ordenadas así: (VRA),(VAR);
(RVA), (RAV), (ARV) y (AVR). O sea, seis formas posibles para ordenar las extracciones
con esos colores. Por lo tanto:
0 1 1 1 0
3!  350   100   160   40   200 
P(V  R  A) = .  .  .  .  .  = 0, 0062
0!.1!.1!.1!.0!  850   850   850   850   850 
Esto se lee: La probabilidad de que al extraer tres pelotas del pelotero con reposición se
obtenga una pelota verde, una roja y otra azul, sin interesar el orden que se produjo la
extracción es de 0,0062 (no llegamos siquiera a 1%).

El mismo ejercicio realizo combinando las otras posibilidades de colores con (V,R,M),
(R,A,M) y (V,A,M)

0 1 1 0 1
3!  350   100   160   40   200 
P(V  R  M ) = .  .  .  .  .  = 0, 0313
0!.1!.1!.0!.1!  850   850   850   850   850 

0 0 1 1 1
3!  350   100   160   40   200 
P( R  A  M ) = .  .  .  .  .  = 0, 0125
0!.0!.1!.1!.1!  850   850   850   850   850 

0 1 0 1 1
3!  350   100   160   40   200 
P(V  A  M ) = .  .  .  .  .  = 0, 0039
0!.0!.1!.1!.1!  850   850   850   850   850 

Entonces, si defino como eventos:

A: Obtener tres pelotas color V,R,A

B: Obtener tres pelotas color V,R,M

C: Obtener tres pelotas color R,A,M

D: Obtener tres pelotas color V,A,M

La probabilidad de obtener que las tres bolas extraídas sean de diferentes colores y no
numeradas, tendrá como probabilidad:

P( A  B  C ) = P( A) + P( B) + P(C ) + P( D) = 0, 0062 + 0, 0313 + 0, 0125 + 0, 0039 = 0, 0539

3. Generalización del teorema de la Probabilidad total a K eventos (A1, A2, A3,…Ak)

“Dados K eventos cualesquiera, definidos en el espacio muestral S, el teorema de


la probabilidad total tiene por objetivo calcular la probabilidad asociada a la

45
aparición de suceso A1 o del suceso A2 o del suceso A3, … o del suceso Ak, o de
cualesquiera de ellos al mismo tiempo”.

Se sustituye la notación A, B, C,… por A1, A2, A3,… por razones de comodidad en la
notación. Sin entrar en detalles formales ni demostración, diremos que el caso general
(para los K sucesos) compatibles o no excluyentes, vendrá dado por la siguiente fórmula:

Caso general a k Sucesos compatibles

k k k
P( A1  A2  ...  Ak ) =  P( Ai ) −  P( Ai ).P( Aj ) +  P( A ).P( A ).P( A ) + ... + (−1)
h i j
( k −1)
P( A1 ).P( A j )..P( Ak )
i =1 i j h i  j

Para el caso particular de los sucesos mutuamente excluyentes o incompatibles, la


fórmula se simplifica o reduce sólo a la suma de cada una de las probabilidades de los
sucesos intervinientes.

Caso particular a k Sucesos incompatibles o mutuamente excluyentes

P( A1  A2  ...  Ak ) = P( A1 ) + P( A2 ) + ... + P( Ak )

4.8.- TEOREMA DE LA PROBABILIDAD CONDICIONAL


En muchas oportunidades, la probabilidad de ocurrencia de un evento depende de si
han ocurrido otros eventos. Llamaremos “probabilidad incondicional” a la probabilidad
de un evento aleatorio determinado, prescindiendo del efecto que pudo o puedan llegar
a tener otros eventos. Por el contrario, la “probabilidad condicional” de un evento
aleatorio consiste en la probabilidad del mismo, dado el hecho o situación en donde otro
u otros eventos hayan influido. Un ejemplo de probabilidad incondicional sería “la
probabilidad que los alumnos que cursan Estadística tienen de aprobar el primer
parcial”. Para determinarla, una buena aproximación podría ser tomar durante varios
cuatrimestres, la cantidad de alumnos aprobados sobre los que se han presentado
(definición de probabilidad utilizando la frecuencia relativa). Esto sería una
probabilidad incondicional en el sentido que cualquier alumno que curse sabe que, por
ejemplo, tiene un 35% de chances de aprobar su primer examen dada la historia de la
materia. Pero si tuviéramos el caso de un alumno, que ha recursado varias veces las
correlativas previas (por ejemplo, análisis matemático), que tiene un historial académico
bastante complicado en cuando a notas y atraso en la carrera, es muy probable para el
mismo, que el 35% le resulte engañoso. Para un alumno en estas condiciones, diremos
que la probabilidad de aprobar el primer parcial de Estadística le resulte mucho menor,
está peor preparado para afrontar las dificultades de la materia. Esta sería la
“probabilidad condicional” (en el caso, por ejemplo, un 20%) mostrando que otros
eventos condicionan la probabilidad de éxito de su primer examen de la asignatura.

En definitiva, “la probabilidad condicional de un evento es la probabilidad del evento,


conocido el hecho de que uno o más eventos hayan ocurrido previamente”. Por
supuesto, la probabilidad de un evento puede condicionar a otros eventos a futuro. Por
ejemplo, el 20% que tiene de aprobar este alumno el parcial condicionará la probabilidad,

46
por ejemplo, que no promocione la materia y necesite rendirla en la modalidad examen
final.

La probabilidad condicional de un evento A, dado que el evento B ya haya ocurrido:

P( A  B)
P( A / B) = siempre que P( B)  0
P( B)

DEMOSTRACIÓN.

Dado un acontecimiento aleatorio “E” que corresponde al espacio muestral “S”,


consideramos los eventos “A, B” de forma tal que A  B . Utilizando los diagramas de
Venn, será el caso:

El teorema de la probabilidad condicional persigue como objetivo calcular la


probabilidad que ocurra A, bajo la condición que B haya ocurrido. Esta probabilidad la
llamaremos “probabilidad condicional de A respecto a B”, y usaremos la notación:

P ( A / B ) : Probabilidad de A, sabiendo que ocurrió B.

Sabiendo que B ha ocurrido, se restringe el espacio muestral “S”, sólo a los casos
contenidos en B, el cuál funcionaría ahora como espacio muestral de A (se lo denomina
“conjunto fundamental B”). Es decir:

P( A)
P( A / B) =
P( B)

La definición se puede extender o generalizar al caso donde no necesariamente A  B ,


por ejemplo, como está presentado en el siguiente diagrama:

En esta segunda versión, donde “A” no necesariamente está incluido en “B”, debemos
considerar en el numerador sólo la parte de “A común a B”, es decir, su intersección
A  B , por lo tanto:

47
P( A  B)
P( A / B) =
P( B)

Que resulta en la fórmula general de la probabilidad condicional. Es importante tener en


cuenta que la probabilidad de B tiene que ser mayor a 0, dado que, si así no lo fuera, la
probabilidad condicional resultaría indeterminada.

Un autor clásico de Estadística, llamado Taro Yamane, proporciona un concepto


interesante de “probabilidad condicional” al definirla del siguiente modo: “Las
probabilidades obtenidas después de cambiar las condiciones iniciales se denominan
“probabilidades condicionales o condicionadas”5 Hay dos puntos a resaltar de esta
definición de Yamane:

1. Cambiando las condiciones originales en las que se realiza el


experimento, se restringen los sucesos que deben considerarse a una
subpoblación.
2. Las probabilidades que corresponden a los sucesos en esta
subpoblación son tales que los cocientes de las probabilidades entre
los sucesos son las mismas que en la población original, pero su suma
es la unidad. El siguiente y primer ejemplo, clarificará este punto.

Ejemplo 1.

Una urna contiene 10 bolillas numeradas del uno al diez. Las primeras (1 a 3) son Rojas
y las restantes Verdes. Si se efectúa como experimento la extracción de una bolilla al azar.

a. ¿Cuál es la probabilidad que resulte “roja”?


b. ¿Cuál es la probabilidad de obtener cada bolilla numerada del 1 al
3, sabiendo que la extraída fue “roja”?
c. Verificar las condiciones propuestas en la definición de Yamane.

Solución:

a. Debidamente mezcladas, si se efectúa el experimento de extracción de una bolilla


al azar y se la devuelve a la urna, la probabilidad que tiene de salir cualquiera de

5
Taro Yamane. “Estadística”. Editorial Harla. Madrid (1987)

48
ellas es 0,1. La probabilidad de extraer una bollila roja (Suceso R), aplicando la
definición de probabilidad será:

( R) 3
P( R) = = = 0,3
N 10
b. Si al extraer una bolilla esta es roja. Con este cambio en las condiciones
experimentales, ¿cuál es la probabilidad que la bolilla en cuestión se trate de la
numerada con el 1?. La población es la totalidad de los puntos muestrales
elementales, es decir, las 10 bolillas. Al añadir información y cambiar las
condiciones iniciales, hemos limitado la población a una subpoblación de bolillas
rojas. La pregunta ahora es: ¿Qué probabilidad deberíamos asignarle a cada una
de las bolillas rojas en la subpoblación? Como sabemos, la probabilidad total de
obtener bolillas numeradas del 1 al 3, sabiendo que la obtenida es roja, es la
unidad. También se conocía inicialmente que la probabilidad de cualquier bolilla
era 0,1. Las nuevas probabilidades que se calculen para estas tres bolillas han de
ser tales que la proporción entre las probabilidades no cambien y sumen 1.
Entonces, primero hallo la probabilidad total de la subpoblación y luego, divido
cada probabilidad de los sucesos dentro de la subpoblación por ese total. Así:

P( R) = P( B1 ) + P( B2 ) + P( B3 ) = 0,1 + 0,1 + 0,1 = 0,3

Entonces, las nuevas probabilidades que asignamos y que responden a la


respuesta al inciso b) son:

P( B1 ) 0,1
P( B1 / R) = = = 0,33...
P( R) 0,3

P( B2 ) 0,1
P( B2 / R) = = = 0,33...
P( R) 0,3

P( B3 ) 0,1
P( B3 / R ) = = = 0,33...
P( R) 0,3

c. La condición (1) exigida por Yamane fue presentada en el inciso previo, la


segunda condición es que el total de las nuevas probabilidades halladas sumen
1. Por lo tanto:

P( R) = P( B1 / R) + P( B2 / R) + P( B3 / R) = 0,33... + 0,33... + 0,33... = 1

En síntesis, la probabilidad de obtener una bolilla con un determinado número, sabiendo


su color, será:

P( Bi  R) Prob. del suceso conjunto (i,R)


P( Bi / R) = =
P( R) Prob. de la subpoblación (R)

49
Ejemplo 2.

El lote de facturación mensual de una empresa mayorista fue clasificado de acuerdo al


siguiente criterio:

A : Facturas vencidas, A : Facturas no vencidas


B : Facturas de contado, B : Facturas de cuenta corriente

De la clasificación de 12.850 comprobantes se obtuvo la siguiente tabla:

Tipo // Venc. A: Vencidas A´: No Vencidas Total


B: Contado 1.265 7.850 9.115
B´: Cta. Corriente 1.385 2.350 3.735
Total 2.650 10.200 12.850

Calcular las probabilidades asociadas a:

a. Facturas de Contado, dado que las mismas se encuentran vencidas.


b. Facturas No vencidas, dado que las mismas se sabe son de Cuenta corriente.
c. Facturas incondicionalmente vencidas.

Solución:

a. Se nos pide calcular la probabilidad condicional de obtener B (Factura de


contado), sabiendo que las mismas pertenecen al lote de las facturas vencidas
(Suceso A). Por lo tanto:

P( A  B) 1.265 12.850
P( B / A) = = = 0, 4774
P( A) 2.650 12.850

b. En este caso, el hecho conocido es que se sabe estamos trabajando con facturas
de cuenta corriente (Suceso B´). Se nos pide, calcular la probabilidad que las
mismas no se encuentren vencidas (Suceso A´). Por lo tanto:

P( A  B) 2.350 12.850
P( A / B) = = = 0,6292
P( B) 3.735 /12.850

c. Sobre las facturas vencidas puede no interese el hecho que sean de contado o
cuenta corriente. En este caso, son facturas incondicionalmente vencidas, no
interviene el tipo. Por lo tanto, sabiendo que:

A = ( A  B )  ( A  B)

1.265 1.385 2.650


Entonces: P ( A) = P ( A  B ) + P ( A  B ) = + = = 0.2062
12.850 12.850 12.850
Ejemplo 3. (Video)

Se sugiere revisar el “Ejercicio Suplementario 2” del campus virtual en donde se muestra


cómo incide la extracción de sucesivos naipes en los resultados de un color.

50
4.9.- TEOREMA DE LA PROBABILIDAD COMPUESTA O REGLA DEL
PRODUCTO DE LAS PROBABILIDADES
Previamente a mostrar las fórmulas correspondientes a este teorema, desarrollaremos el
concepto de “Independencia estadística de sucesos aleatorios”. En principio, si la
probabilidad que un evento A ocurra no se ve afectada por la presencia o ausencia del
evento B, diremos que ambos eventos (A y B) son independientes. El ejemplo más
sencillo (y de mayor uso también) para entender lo que implica sucesos estadísticamente
independientes consiste en realizar extracciones sucesivas de bolillas de una urna
cuando las bolillas, una vez observadas, son repuestas. Si extraemos dos bolillas con
reposición de una urna que contiene cierta cantidad de bolillas blancas y negras y
exigimos, por ejemplo, obtener dos extracciones con bolillas blancas, una vez extraída y
calculada la probabilidad de obtener bolilla blanca en la primera extracción, ese mismo
cálculo nos serviría para el segundo ensayo, dado que el resultado de lo que ocurrió en
la primera prueba no incide en la segunda. Además, hay situaciones en las cuáles la
definición misma de las variables o eventos son, por naturaleza independientes. Por
ejemplo: Peso y coeficiente intelectual de las personas. No tenemos argumentos para
pensar que el peso incida en el coeficiente intelectual de la gente y, al revés.

Se dice que dos eventos aleatorios A y B son independientes, si se cumple con cualquiera
de los siguientes casos:

1. P( A / B) = P( A)
2. P( B / A) = P( B)
3. P( A  B) = P( A).P( B)

De otro modo, se dice que los eventos resultan dependientes.

Así, por ejemplo, los eventos “A” fumar y “B” contraer epoc, son dependientes porque
la probabilidad condicional de contraer epoc siendo fumador, es mayor que la
probabilidad incondicional de padecer de la enfermedad. Situación parecida ocurre con
la altura y el peso de las personas. En tanto, el evento “llover hoy” y “llover dentro de
un mes” parecen ser independientes.

Ejemplo 1.

Al arrojar un dado simétrico se presentan los siguientes eventos:

A : Obtener impar B : Obtener par C : Obtener 1 o 2


Se pide saber:

a. ¿Los eventos A y B, son independientes?


b. ¿Los eventos A y C, son independientes?

Por lo pronto, sabemos por definición de probabilidad que:

1 1 1
P ( A) = P( B) = P (C ) =
2 2 3

51
a. Sabiendo las probabilidades anteriores, tratamos de determinar alguna de las
probabilidades condicionales:

P( A  B)
P( A / B) = pero; A  B =  entonces: P ( A / B ) = 0
P( B)

Entonces:

P( A / B)  P( A) → “A” y “B” no son independientes.

b. Calculamos, como en el inciso anterior la probabilidad condicional entre A y C.

P( A  C ) 1/ 6
P( A / C ) = = = 1/ 2
P(C ) 2/6

Como: P( A / C ) = P( A) = 1/ 2

Es suficiente para decir que A y C son independientes.

También podríamos haber hecho (aunque no resultaba necesario, dado que la


condición de independencia establece el cumplimiento sólo de una de las
relaciones)

1 1 1
P ( A  C ) = P ( A).P (C ) = . =
2 3 6
(Sabiendo que sólo el 1 cumple con esa doble propiedad de pertenecer a ambos
conjuntos, su probabilidad resulta en un sexto también)

Ejemplo 2.

Un sommelier capta las propiedades de tres marcas de vinos X, Y, Z de forma que


establece las siguientes relaciones (las cuales consideramos como eventos en nuestro
ejercicio)

A : La marca X es preferible a la Y
B : La marca X es la mejor
C : La marca X es la segunda mejor
D : La marca X es la peor

Si el captador no tiene preferencias por ninguna marca de vinos en particular y asigna al


azar el lugar de sus preferencias. Pregunta: ¿El evento A es independiente de B, C y D?

Solución:

Pasemos a repasar cuántos y cuáles son los puntos muestrales de nuestro experimento
aleatorio.

Disponiendo de tres marcas de vinos, tenemos 6! formas posibles de ordenarlas

52
E1 : X , Y , Z E3 : Y , X , Z E5 : Z , X , Y
E2 : X , Z , Y E4 : Y , Z , X E6 : Z , Y , X

Cada uno de estos ordenamientos, son igualmente probables (dado que el sommelier no
tiene intenciones o preferencias a priori por beneficiar o perjudicar a ninguna marca en
particular)

A = E1 , E2 , E5  B = E1 , E2  C = E3 , E5  D = E4 , E6 

Las probabilidades de cada uno de estos eventos son, en consecuencia:

P ( A) = 1/ 2 P( B) = 1 / 3 P (C ) = 1/ 3 P ( D ) = 1/ 3

Recordando la condición de independencia entre dos sucesos: P( Ai / Aj ) = P( Ai )

Buscamos comprobar:

P( A  B) 2 / 6
P( A / B) = = =1  P ( A) → Sucesos dependientes
P( B) 1/ 3

P( A  C ) 1/ 6
P( A / C ) = = = 1/ 2 = P ( A) → Sucesos independientes
P(C ) 1/ 3

P( A  D) 0 / 6
P( A / D) = = =0  P ( A) → Sucesos dependientes
P( D) 1/ 3

En resumen, A es independiente sólo del evento C, y dependiente del B y D.

El Teorema de la probabilidad compuesta para dos sucesos aleatorios

El teorema de la probabilidad compuesta resulta aplicable en aquellos casos en los que


se pretende averiguar la probabilidad de ocurrencia de dos o más sucesos de manera
simultánea. El teorema admite un caso general y es cuando los sucesos son dependientes
y, como caso particular, cuando los sucesos son independientes.

Por lo tanto, la fórmula correspondiente al caso general, será:

P ( A  B ) = P ( A).P ( B / A) Para sucesos dependientes

Teniendo en cuenta lo que vimos anteriormente, cuando los sucesos son dependientes
es habitual que acontezca que P ( B / A)  P( B)

El caso particular de este teorema radica cuando las probabilidades de los sucesos A y B
se muestran de manera independiente. En este caso, no tiene sentido ya condicionar la
probabilidad de B, a la situación que haya ocurrido o no el evento A, ya que ambos
sucesos no dependen el uno del otro.

La fórmula de la probabilidad compuesta para el caso particular, será:

53
P( A  B) = P( A).P( B) Para sucesos independientes

Situación que se deriva del hecho que, cuando los sucesos son independientes, la
P( B / A) = P( B)

DEMOSTRACIÓN.

La demostración de la fórmula correspondiente al caso general del teorema de la


probabilidad compuesta es muy simple:

Si definimos a la probabilidad conjunta o a la probabilidad de la intersección entre los


eventos A y B, como:

( A  B)
P( A  B) =
N
Si multiplicamos y dividimos el segundo término de la igualdad por un mismo número,
en este caso por la cantidad de casos que contiene el evento A, en el espacio muestral S.

( A) ( A  B)
P( A  B) = .
N ( A)

Definiendo el producto del segundo miembro en término de probabilidades:

P ( A  B ) = P ( A).P ( B / A)

Que resulta de la fórmula del teorema en su versión general. Ahora, si además


P( B / A) = P( B) por tratarse A y B de sucesos independientes, obtenemos el caso
particular, expresado por:

P( A  B) = P( A).P( B)

Generalización del teorema de la probabilidad compuesta a “k” eventos

El teorema puede ser generalizado para cualquier número de eventos aleatorios. Para el
caso general, de sucesos dependientes, la fórmula será:

P( A  B  C  ...  K ) = P( A).P ( B / A).P (C / AB )...P ( K / AB...J )

La expresión P( Ak / A1 A2 ... Aj ) representa la probabilidad condicional a que se produzca


el evento aleatorio Ak, sabiendo que previamente se presentó A1, A2,…, Aj, y que, debido
al grado de dependencia entre ellos y Ak, dicha probabilidad se ve afectada.

Si los eventos precedentes a Ak, no tienen ningún tipo de incidencia en su presentación


(son independientes) entonces, la probabilidad compuesta tomaría esta forma particular.

P( A  B  ...  K ) = P( A).P( B)...P( K )

54
Ejemplo 1

Una empresa delivery, cuenta para su reparto de 16 motos y 5 utilitarios. En la última


hora acaban de entrar tres pedidos para ser atendidos. ¿Cuál es la probabilidad que los
tres sean atendidos por motos, teniendo en cuenta que la distancia de entrega hace
imposible utilizar una misma moto para el reparto?

Solución:

Atendiendo el caso que una misma moto no pueda ser utilizada para realizar más de
una entrega, estamos en presencia de eventos que son dependientes. Si los tres pedidos
deben ser entregados en motos, entonces definimos a los eventos:

A: Primer pedido entregado en moto


B: Segundo pedido entregado en moto
C: Tercer pedido entregado en moto

Para cumplir con el requisito que las tres entregas sean realizadas por motos, deberemos
calcular P ( A  B  C )

16 15 14 3.360
P ( A  B  C ) = P ( A).P ( B / A).P (C / AB ) = . . = = 0, 421
21 20 19 7.980

Ejemplo 2

Una máquina de ensamble de piezas A tiene una probabilidad de interrumpir su


funcionamiento por averías de 0,10. De igual modo, una máquina B similar tiene una
probabilidad de pararse de 0,20. Si se considera que ambas máquinas son
estadísticamente independientes. Cuál es la probabilidad que las dos se detengan al
mismo tiempo.

Solución:

Teniendo en cuenta que el funcionamiento de una máquina no incide en el de la otra, el


comportamiento entre ambas resulta independiente. Definimos los eventos:

A: Interrupción de funcionamiento en la máquina A


B: Interrupción de funcionamiento en la máquina B

P( A  B ) = P ( A).P ( B ) = 0,1.0, 2 = 0, 02

4.10.- EL MÉTODO DE LA COMPOSICIÓN DE EVENTOS PARA


CALCULAR PROBABILIDADES
Por el momento, si deseábamos calcular las probabilidades de un evento aleatorio
cualquiera contábamos con dos mecanismos: uno, era plantear directamente el espacio
muestral e identificar sobre el mismo los puntos muestrales de dicho evento. El cociente
entre la cantidad de casos favorables y los posibles, determinaban la probabilidad de

55
dicho evento. Un segundo mecanismo, era determinar los eventos favorables
identificando conjuntos dentro del espacio muestral y, aplicando algunas de las
propiedades de los conjuntos, obtener la probabilidad deseada. Cualquiera de los dos
casos descriptos, permiten calcular la probabilidad con la representación del espacio
muestral. Dichos métodos se denominan “cálculo de la probabilidad mediante el método del
punto muestral”.

El estudio de las leyes y axiomas de probabilidad, junto con los teoremas nos permiten
abordar un segundo método de cálculo de probabilidades denominado “cálculo de la
probabilidad mediante el método de la composición de eventos”. Fundamentalmente, el método
consiste en plantear la probabilidad de ciertos eventos compuestos utilizando las
relaciones de los conjuntos y combinando algunos de los teoremas y propiedades ya
desarrolladas.

El método de la composición de los eventos consistirá en calcular la probabilidad de un


evento aleatorio (A) de tipo compuesto, donde (A) resulta de una composición que
puede incluir uniones, intersecciones o complementos de otros conjuntos. Los pasos
requeridos para plantear un problema mediante la composición de eventos serán:

1. Definir el experimento aleatorio.


2. Tener en mente el espacio muestral y la identificación de los puntos
muestrales.
3. Plantear una formalización que involucre varias de las propiedades de
los conjuntos a partir de dos o más eventos. Para ello usaremos
habitualmente las propiedades de unión, intersección o complemento.
En paralelo, nos debemos asegurar que los eventos muestrales asociados
en (A) y el evento implicado en la composición representan el mismo
conjunto.
4. Aplicar los teoremas de probabilidades a la composición.

En síntesis, el método de la composición de eventos no representa, ni un teorema ni una


regla de probabilidad. Es una metodología alternativa que se utiliza fundamentalmente
para resolver ejercicios. Nos da una clara idea que, utilizando diferentes estrategias
podemos arribar al resultado correcto para un problema y, nos permite, además,
justificar en muchas ocasiones la razonabilidad de los resultados obtenidos. Claramente,
esta división metodológica no es a nivel “teórico” sino más bien a nivel práctico. Muchos
ejercicios que utilizando el conteo de puntos muestrales puedan resultan muy difíciles
de resolver, usando la metodología de la composición de eventos pueden ser abordados
de una manera mucho más fácil. A continuación, presentaremos varios ejemplos para
tener presente cómo funciona el método.

Ejemplo 1

Un país cuenta con cuatro partidos políticos mayoritarios y una quinta minoría entre
indecisos y otras fuerzas políticas menores. El gobierno de turno decide llevar adelante
un plebiscito sobre un tema de interés nacional, por ejemplo, de una reforma impositiva
profunda. A continuación, se detalla la composición de votantes sobre los resultados de

56
las últimas elecciones y el porcentaje a favor de la reforma que se tienen dentro de cada
uno de los partidos.

Partido Porcentaje de los votos Porcentaje a favor de la Reforma


A 46% 35%
B 39% 61%
C 15% 57%
D 4% 15%
Otros 6% 50%
Total 100% -

¿Cuál es la probabilidad que, tomando un votante al azar, este se encuentre a favor de la


reforma impositiva?

Solución:

Si bien el ejemplo puede ser presentado mediante la representación de Venn, las


probabilidades no pueden ser calculadas mediante el método de conteo de los puntos
muestrales. No hay forma posible de representar cada elemento del espacio muestral.
No obstante, los eventos pueden ser presentados de la siguiente forma.

Podemos ver que el espacio muestral está conformado como una partición de eventos
mutuamente excluyentes respecto al partido que se ha votado (nadie pudo haber
participado votando dos o más partidos al momento de las elecciones), y un evento R
que muestra la probabilidad a favor de la Reforma en cada uno de los partidos
involucrados, el cual se encuentra condicionado conforme cada uno de los partidos que
se tome en consideración.

El ejemplo nos pide calcular la probabilidad de (R). Así, por ejemplo, si deseamos saber
cuál es la probabilidad que una persona haya votado a (A) y, además, esté a favor de la
Reforma (R), tendríamos que aplicar el teorema de la probabilidad compuesta con
sucesos dependientes. Por lo tanto:

P( A  R) = P( A).P( R / A) = (0, 46).(0,35) = 0,161

57
Así, podríamos calcular la probabilidad compuesta para cada uno de los partidos
involucrados:

P( B  R) = P( B).P( R / B) = (0,39).(0, 61) = 0, 238

P (C  R ) = P (C ).P ( R / C ) = (0,15).(0,57) = 0, 086

P( D  R ) = P ( D ).P ( R / D ) = (0, 04).(0,15) = 0, 006

P(O  R ) = P (O ).P ( R / O ) = (0, 06).(0,50) = 0, 030

Para obtener la probabilidad de (R), debemos aplicar el teorema de la probabilidad total


(nos interesa conocer la probabilidad que un votante esté a favor de la reforma, de
acuerdo a las contribuciones que hayan realizado al cálculo de dicha probabilidad
conforme cada uno de los partidos que haya votado). Los eventos para la aplicación de
la probabilidad total deben considerarse mutuamente excluyentes, dado que una
persona que votó a un determinado partido no puede estar opinando como parte de un
partido distinto. Por lo tanto,

P( R) = P( A  R) + P( B  R) + P(C  R) + P( D  R) + P(O  R) = 0,5204

La probabilidad que un votante vote a favor de la reforma impositiva, conforme la


participación que han tenido los votantes en las últimas elecciones y las preferencias
partidarias por el plebiscito es de un 52,04%

Ejemplo 2

Una variedad híbrida de cebada tiene una probabilidad de germinar en suelos arenosos
del orden del 80%. Se hace una prueba de laboratorio con tres semillas, las cuáles son
depositadas en distintos germinadores con arena.

1. Hallar la probabilidad de que al menos una de las semillas germine.


2. Qué probabilidad de éxito de una prueba en particular garantiza en tres
semillas un éxito de al menos, un 70%

Solución:

a. Definimos los eventos:

A : Al menos una de las tres semillas germine.

B1 : La primera semilla no germina.


B2 : La segunda semilla no germina.
B3 : La tercera semilla no germina.

Podemos decir que: A = B1  B2  B3 → Ninguna semilla germine.

Entonces, aplicando la ley de la probabilidad complementaria y el teorema de la


probabilidad compuesta para sucesos independientes (dado que lo que ocurre con cada

58
semilla es independiente de lo que pasa con las restantes, al estar el experimento
diseñado en germinadores distintos).

P( A) = 1 − P( A) = 1 − P( A1  A2  A3 ) = 1 −  P( B1 ).P( B2 ).P( B3 )  = 1 − (0, 2)3 = 0,992

De esta manera, estamos casi seguros en que alguna de las tres semillas germinará en las
condiciones en que se realizó el experimento.

b. Si deseo garantizar al menos un 70% de éxito en la experimentación (al menos una


de las tres semillas germinadas), la probabilidad mínima de éxito individual de cada
semilla, se obtendría de la siguiente manera:

P( A) = (1 − p 3 )  0, 70

Igualando y despejando “p”, obtenemos: p = 3 0,30 = 0,6695

El punto (a) también podría haberse planteado y resuelto de la siguiente manera:

A1 : La primera semilla germina.


A2 : La segunda semilla germina.
A3 : La tercera semilla germina.

De esta forma, la probabilidad de que al menos una semilla de las tres germine (A), será:

P( A1  A2  A3 ) = P( A1 ) + P( A2 ) + P( A3 ) − P( A1  A2 ) − P( A1  A3 ) − P( A2  A3 ) +

+ P( A1  A2  A3 )

Dado que cada uno de los eventos compuestos son independientes, entonces:

P( A1  A2  A3 ) = 0,8 + 0,8 + 0,8 − 0,64 − 0,64 − 0,64 + 0,512 = 0,992

Obtuvimos el mismo resultado que en (a) utilizando el teorema de la probabilidad total


para sucesos compatibles o no excluyentes, y de la probabilidad compuesta con sucesos
independientes.

Ejemplo 3

Los infectólogos aseguran que el virus del Covid19 es sumamente contagioso y


recomiendan, en lo posible exponerse lo mínimo a la circulación del mismo. Con este
ejemplo, intentaremos ver sí esta recomendación es realmente cierta o no. Imaginemos
encontrarnos en la cola de un supermercado o de un cajero y vamos a suponer una
probabilidad de padecer el virus muy baja, digamos un 0,05% (en realidad es mucho
más baja, pero ponemos esta proporción para que el ejercicio resulte fácil a los cálculos).
La pregunta que intentaremos responder es la siguiente: ¿Cuál es la probabilidad de que

59
el “r” ésimo individuo en la fila resulte ser un portador asintomático del virus y un
peligro potencial de contagio?

Esquemáticamente, el ejercicio plantea lo siguiente:

Entonces, el individuo “r” podría estar ubicado en la escala desde el primero al “n”,
donde podríamos decir que “n” no necesariamente debe estar definido, es decir, podrían
presentarse muchísimos individuos a realizar la compra u operación ese día.

De: Ei : El número que guarda cada individuo en la fila, donde i = 1, 2,..., n , nos
interesa el individuo “r” (primer caso portador del virus)

El individuo Er presentará una P ( Er ) que es indicativa de la probabilidad de que el


individuo “r” ésimo sea el primer caso portador del virus.

Si definimos a Aj como caso no positivo, diremos que:

Er = A1  A2  A3  ...  Ar −1  Ar

Aplicando el teorema de la probabilidad compuesta y sabiendo que los eventos Aj son


independientes (Pregunta: ¿Qué significa que sean independientes en este caso?),
entonces:

P( Er ) = P( A1 ).P( A2 ).P( A3 )...P( Ar −1 ).P( Ar )


P( Er ) = (1 − 0,005).(1 − 0,005).(1 − 0,005)....(1 − 0,005).(0,005) = (0,995)r −1.(005)

r = 1, 2,3,..., n

¿Cuál es la probabilidad que exactamente, sabiendo que ocupo el lugar 10 en la fila, no


se haya detectado un caso previamente (incluyéndome)? ¿Y, si hubiera ocupado el lugar
100?

Entonces, P( E10 ) = (1 − 0,05)10 = 0,9511

60
P( E100 ) = (1 − 0,005)100 = 0,6060
¿Cuál es la probabilidad que exactamente el voluntario 10, sea el primer caso detectado?

P( E10 ) = (1 − 0,05)9 .(0,005) = 0,0048

Cómo quedaría definido el espacio muestral (S) de este evento. Si recordamos que E1,
primer caso portador sea el individuo 1, E2, primer caso portador sea el individuo 2, etc.

P( S ) = P( E1 ) + P( E2 ) + P( E3 ) + ... + P( Ei ) + ...

Se trata, como podemos apreciar de un espacio muestral infinito numerable. Entonces,


reemplazando por las probabilidades del ejercicio:

P( S ) = (0, 005) + (0,995).(0, 005) + (0,995) 2 .(0, 005) + ... + (0,995)i −1.(0, 005) + ...

1
= (0,005). (0,995)i = (0,005). =1
i =0 1 − (0,995)

Dada que la fracción implicada en la sumatoria, involucra una serie geométrica cuyo
factor “r” es menor que uno, es decir:


1
r  1 →  ri = la misma es una serie convergente
i =0 1− r
Conclusión: Aún con tasas de presencia de portadores muy bajas, la probabilidad de
tropezarnos con un caso positivo, no resulta ser tan baja y dicha probabilidad aumenta
notablemente con la circulación de gente. Por otra parte, dado que un portador puede
no tomar medidas de higiene apropiadas, la ubicación en la fila es sumamente
importante. ¿Conviene hacer las compras temprano?

Ejemplo 4 (Video)

El ejemplo permite ver cómo, utilizando el método del punto muestral o


alternativamente, el de la composición de eventos, se puede resolver un ejercicio
llegando, por supuesto al mismo resultado. El caso consiste en enviar dos personas de
un grupo de cinco empleados a un curso de capacitación fuera de la empresa. En el
grupo, es perfectamente posible determinar un orden o ranking de calidad de
empleados. Así, el empleado 1 es el mejor empleado del grupo, el 2, segundo mejor,… y
así sucesivamente. El ejercicio solicita calcular la probabilidad de que exactamente uno
de los dos mejores empleados participe de la capacitación.

61
4.11.- PROBABILIDAD DE LAS CAUSAS O REGLA DE BAYES
La regla de Bayes fue publicada en 1763 por el matemático inglés Thomas Bayes6. Desde
su aparición dentro del cálculo de probabilidades el tipo de probabilidades que utiliza o
emplea resulta controvertido, por cuanto combina elementos del cálculo probabilístico
tradicional y algunos aspectos de la teoría subjetiva de la probabilidad. Su importancia
es fundamental en la Estadística Moderna a tal punto, que hay toda una rama de la
Estadística llamada “Estadística Bayesiana”. La misma permite revisar una probabilidad
subjetiva cuando un experimento aleatorio aporta información adicional. La estadística
bayesiana muestra utilidad en estimaciones basadas en el conocimiento subjetivo a priori
y el hecho de permitir revisar esas estimaciones en función de la evidencia empírica.
También hay discusión metodológica respecto a si se trata de una regla o de un teorema:
Por un lado, su traducción del inglés hace referencia originariamente a la “Bayes´ Rule”,
y por el otro, aquellos autores de naturaleza más matemática se niegan a elevar al rango
de “teorema” un planteo formal que en esencia no es más que una aplicación de los
teoremas de probabilidad que ya discutimos previamente. No se trata de una discusión
tan relevante, pero su nivel de aplicabilidad en el campo de la Estadística y las
Probabilidades, es innegable.

ENUNCIADO.

Si la realización de un acontecimiento A depende necesariamente de que se produzcan uno de los


acontecimientos o modalidades excluyentes de B, (B1, B2,…, Bn) y se sabe que A se ha cumplido o
manifestado, la probabilidad de ocurrencia de Bi, que se ha presentado conjuntamente con A, viene
dado por la fórmula:

P( Bi ).P( A / Bi )
P( Bi / A) =
P( B1 ).P( A / B1 ) + ... + P( Bi ).P( A / Bi ) + ... + P( Bn ).P( A / Bn )

DEMOSTRACIÓN.

La regla hace referencia a la vinculación de dos acontecimientos aleatorios, cuando ellos


están ligados de tal manera, que la realización de un acontecimiento supone también, la
realización de algunas de las posibilidades del segundo. Se supone un suceso aleatorio
“A”, que para presentarse debe ocurrir necesariamente con alguna o algunas de las
modalidades en las que se presenta el otro suceso, “B”. Es decir, que el suceso “A”, de
presentarse, tendría que ocurrir conjuntamente con algunas de las modalidades de
ocurrencia del suceso “B”: B1, B2,…,Bn

El punto anterior implica que el espacio muestral (S) podría particionarse en “n


conjuntos B” mutuamente excluyentes entre ellos.

6
Thomas Bayes, “An Essay Towards Solving a Problem in the Doctrine of the Chances”, (1763)

62
Del estudio del diagrama podemos apreciar que el espacio muestral queda
completamente definido por una partición de B, de forma tal que la suma de los
subconjuntos “Bn” dan por resultado (S). Por otra parte, por tratarse de una partición no
presentan solapamiento o zonas de intersección entre ellos. Si, el evento “A” es
representado sobre el mismo espacio muestral, el mismo queda completamente definido
mediante zonas de intersección con algunas de las modalidades de B (aunque no
necesariamente con todas).

Entonces, podríamos definir la probabilidad de ocurrencia de “A”, aplicando el teorema


de la “Probabilidad Total” para sucesos mutuamente excluyentes, de la siguiente forma:

“Si los eventos B1 , B2 ,..., Bn son particiones del espacio muestral (S) y, por tanto,
mutuamente excluyentes, tal que P ( Bi )  0 , para i = 1, 2,..., n , entonces para
n n
cualquier evento A, definido en S: P( A) =  P( A  Bi ) =  P(Bi ).P( A / Bi ) ”
i =1 i =1

Ello implica a decir que la probabilidad de ocurrencia de A, es la suma de las


probabilidades de las intersecciones de A, con las diversas modalidades de B relevantes,
es decir, en las cuáles A comparte zonas de intersección.

Como podemos apreciar, las probabilidades de la intersección entre A con las diferentes
modalidades de B, representa una probabilidad compuesta con sucesos dependientes,
por lo tanto:
n n
P( A) =  P( A  Bi ) =  P( Bi ).P( A / Bi )
i =1 i =1

Esto es así debido a que buscamos determinar la probabilidad asociada al conjunto A:

A = ( A  B1 )  ( A  B2 )  ...  ( A  Bn )

Aplicando el teorema de la probabilidad total:

P( A) = P( A  B1 ) + P( A  B2 ) + ... + P( A  Bn )

63
Cada uno de los componentes sumandos del segundo término, es resuelto mediante el
teorema de la probabilidad compuesta con sucesos dependientes, por lo tanto:
n
P( A) = P( B1 ).P( A / B1 ) + P( B2 ).P( A / B2 ) + ... + P( Bn ).P( A / Bn ) =  P( Bi ).P( A / Bi )
i =1

Con estos antecedentes, la regla de Bayes busca averiguar la probabilidad condicional


que ocurra alguna modalidad de presentación de B (por ejemplo, Bi), sabiendo que el
evento A, ha ocurrido o se ha manifestado. Por lo tanto, aplicando el teorema de la
probabilidad condicional:

P( A  Bi )
P( Bi / A) =
P ( A)

Sabiendo que A y Bi son sucesos dependientes, conocida la P(A) de acuerdo a lo que


recientemente acabamos de demostrar, si reemplazamos en la fórmula anterior:

P( Bi ).P( A / Bi )
P( Bi / A) =
P( B1 ).P( A / B1 ) + ... + P( Bi ).P( A / Bi ) + ... + P( Bn ).P( A / Bn )

Que constituye la formalización genérica de la fórmula que corresponde a la Regla de


Bayes, la que representa claramente un caso de probabilidad condicional. La fórmula
representa la tesis del Teorema de Bayes y se la conoce además como “probabilidad de
las causas”. Esto es así porque, dado que los sucesos Bi forman un sistema exhaustivo
(su suma representa S) y mutuamente excluyentes, uno y sólo uno de ellos ha de ocurrir.
Por lo tanto, si se presentó el suceso A, la fórmula proporciona la probabilidad de que la
causa de la presentación de A sea un Bi en particular. Cada probabilidad P(Bi) que
compone la fórmula se denomina “probabilidad marginal” y cada expresión P(A/Bi)
representa una “probabilidad condicional”

REPRESENTACIÓN DE LA REGLA DE BAYES MEDIANTE EL DIAGRAMA DE ÁRBOL

Resulta usual ver la representación de la fórmula de Bayes aplicando árboles de decisión.


Por tal motivo, dicha fórmula también es conocida como fórmula decisoria para casos
bayesianos. Veámoslo, atendiendo a un caso muy sencillo.

Ejemplo 1
Imaginemos tres estaciones de peajes, en donde además se realizan controles
vehiculares. La estación AU.1, recibe diariamente el 45% del tránsito de acceso a la
ciudad, la AU.2, el 35% y la AU.3, el 20% restante. Se sabe que la probabilidad de que se
realicen multas para los vehículos que circulan por la vía AU.1 es del orden del 6%, de
la vía AU.2, 3% y los que recorren la vía AU.3, un 18%. Responderemos tres preguntas:

1. ¿Cuál resulta la probabilidad que un vehículo que circula hacia la ciudad


(desconociendo por la vía que lo realiza) sea multado?

64
2. Sabiendo que el conductor seleccionado ha sido multado, ¿cuál es la
probabilidad que haya circulado por la vía AU.3?
3. Sabiendo que el conductor no ha sido multado, ¿cuál es la probabilidad que
haya circulado por la Vía AU.1 o por la Vía AU.2?

Solución.
Antes de resolver el caso, definimos los eventos:

A : Automovilista multado → Evento cierto (conf.inc.b)

B1 : Circular por AU.1


B2 : Circular por AU.2
B3 : Circular por AU.3

Ahora, planteamos el diagrama de árbol para resolver el primer inciso

Aplicamos el teorema de la probabilidad total (denominador de la fórmula de Bayes),


para el caso de sucesos mutuamente excluyentes.

P ( A) = (0, 45).(0, 06) + (0,35).(0, 03) + (0, 20).(0,18) = 0, 0735

La probabilidad que un conductor resulte multado, desconociendo la vía de acceso a la


ciudad, resulta de un 7,35%

El segundo inciso, nos muestra que el conductor resultó multado y deseamos averiguar
la probabilidad que haya sido por haber tomado el camino AU.3. Por lo tanto, aplicamos
la fórmula de Bayes:

65
(0, 20).(0,18) 0, 036
P( B3 / A) = = = 0, 4898
(0, 45).(0, 06) + (0,35).(0, 03) + (0, 20).(0,18) 0, 0735

En términos del diagrama de árbol, el numerador viene representado por el producto de


probabilidades asociado a la rama recuadrada y, el denominador, la suma del producto
de probabilidades subrayadas.

El tercer inciso, nos indica que el conductor no resultó multado y deseamos saber que
haya circulado por la AU.1 o por la AU.2. Entonces, diremos que:

P( B1 / A) P( B2 / A)
P ( B1  B2 ) / A = +
P( B1 / A) + P( B2 / A) + P ( B2 / A) P ( B1 / A) + P ( B2 / A) + P ( B2 / A)

(0, 45).(0,94) (0,35).(0,97)


= + =
(0, 45).(0,94) + (0,35).(0,97) + (0, 20).(0,82) (0, 45).(0,94) + (0,35).(0,97) + (0, 20).(0,82)

= 0, 4512 + 0,37 = 0,8212

El mismo ejercicio se podría haber resuelto mediante el uso de la regla o axioma de la


probabilidad contraria. Si deseamos averiguar que haya circulado por AU.1 o AU.2.,
implica a saber que definitivamente el único camino vedado es circular por AU.3. Por lo
tanto, si calculo la probabilidad de no haber tomado el camino AU.3. y no ser multado:

P( B3 / A) = 1 − P( B3 / A) = 1 − 0,1788 = 0,8212

66
En términos del diagrama de árbol, el producto de las probabilidades posicionadas en
las ramas sombreadas, representan nuestro numerador, y el producto de las
probabilidades subrayadas, el denominador.

Ejemplo 2
Una empresa pesquera cuenta en el muelle de amarre con tres embarques de frutos de
mar destinados a la exportación, a los que llamaremos Embarque 1, 2 y 3,
respectivamente, con el siguiente contenido (en miles de cajas estándar):

Número Embarque Miles Cajas. Pescado Miles Cajas. Mariscos


1 2 8
2 10 5
3 3 9

En aduana, se elige uno de los embarques al azar para estudiar la calidad y contenido de
una de las cajas. La seleccionada resulta ser una caja de pescados. ¿Cuál es la
probabilidad que el embarque elegido haya sido el 2, sabiendo que el mismo corre
mayores riesgos de rechazo de producto por los días de estacionamiento en muelle?

Solución.
Antes de entrar en los detalles de resolución del caso analicemos dos conceptos muy
asociados (y que se usan con frecuencia) en el caso de la regla de Bayes: El de las
“probabilidades a priori” y el de las “probabilidades a posteriori”. La probabilidad
inicial (a priori) de elegir el embarque 2 (el embarque problemático) resultaría de un
33,33%, pero el hecho conocido que ya se tenga en inspección una caja de pescados,
debería preocupar enormemente a los directivos de la empresa. Si uno observa, la
cantidad de cajones de pescado que cuenta dicho embarque son muy altas comparadas

67
con los otros dos. Por lo tanto, el hecho de encontrarnos con un suceso ya consumado,
cambia las condiciones de cálculo de la probabilidad buscada:

Denominando los eventos:

A : Caja de pescado → Evento cierto

B1 : Embarque Nro.1
B2 : Embarque Nro.2
B3 : Embarque Nro.3
Por lo tanto,

P( B2 ).P( A / B2 )
P( B2 / A) = =
P( B1 ).P( A / B1 ) + P( B2 ).P( A / B2 ) + P( B3 ).P( A / B3 )

(1/ 3).(10 /15)


= = 0,5970
(1/ 3).(2 /10) + (1/ 3).(10 /15) + (1/ 3).(3 /12)

Estos conceptos pueden asociarse a los ya vistos de probabilidad “incondicional” y


“condicional” estudiados antes. En nuestro caso, aumenta a casi el doble la probabilidad
de selección al embarque 2 (de 33% a casi un 60%)

Ejemplo 3
Una persona, al perderse en una excursión de campo, sale a un claro desde donde surgen
cinco caminos. Se sabe que la probabilidad de encontrar la salida al término de una hora,
tomando cada uno de los caminos alternativos es respectivamente: 0,6; 0,3; 0,2; 0,1 y 0,1.
¿Cuál es la probabilidad que esta persona que se ha perdido regrese por el primer
camino, saliendo que retornó a su grupo al cabo de una hora?

Solución.
Denominando los eventos:

A : Haber encontrado al grupo → Evento cierto

B1 : Tomar el camino Nro.1


B2 : Tomar el camino Nro.2
B3 : Tomar el camino Nro.3
B4 : Tomar el camino Nro.4
B5 : Tomar el camino Nro.5

P( B1 ).P( A / B1 ) (1/ 5).(0, 6) 0,12


P( B1 / A) = = = = 0, 4615
5
(1/ 5).(0, 6) + (1/ 5).(0,3) + ... + (1/ 5).(0,1) 0, 26
 P( B ).P( A / B )
i =1
i i

68
REFERENCIAS BIBLIOGRÁFICAS

ANDERSON, D – SWEENEY, D – WILLIAMS, T. “ESTADÍSTICA PARA ADMINISTRACIÓN


Y ECONOMÍA”. DÉCIMA EDICIÓN. EDITORIAL CENCAGE LEARNING. ISBN: 6074813191.
MÉXICO, 2008.
BERTSEKAS, D – TSITSIKLIS, J - “INTRODUCTION TO PROBABILITY”. SECOND EDITION.
ATHENS SCIENTIFIC PSH. ISBN: 978-1-886529-23-6. U.S., 2008.
CAPRIGLIONI, C. - “ESTADÍSTICA (TOMO I)”. 3C EDITORES. ISBN: 950-797-006-1.
BUENOS AIRES, 2003.

DEVORE, J. “INTRODUCCIÓN A LA PROBABILIDAD Y ESTADÍSTICA”. PRIMERA EDICIÓN.


CENCAGE. ISBN: 978-1-305-25180-9. MÉXICO, 2019.
FELLER, W. - “INTRODUCCIÓN A LA TEORÍA DE LAS PROBABILIDADES Y SUS APLICACIONES
(VOL.I)”. PRIMERA EDICIÓN. LIMUSA WILLEY. ISBN: N/D. MÉXICO, 1973.
LEVIN, R – RUBIN, D - “ESTADÍSTICA PARA ADMINISTRACIÓN Y ECONOMÍA”. SÉPTIMA
EDICIÓN. PEARSON. ISBN: 970-26-0497-4. MÉXICO, 2004.
NEWBOLD, P – CARLSON, W – THORNE, B. - “ESTADÍSTICA PARA ADMINISTRACIÓN
Y ECONOMÍA”. OCTAVA EDICIÓN. PEARSON. ISBN: 978-84-1555-2208. MADRID,
2013.
TORANZOS, F. “TEORÍA ESTADÍSTICA Y APLICACIONES”. EDICIONES MACCHI. ISBN: 950-
537-404-6. BUENOS AIRES, 1997
WACKERLY, D – MENDENHALL, W – SCHEAFFER, R. - “ESTADÍSTICA MATEMÁTICA
CON APLICACIONES”. SÉPTIMA EDICIÓN. CENCAGE LEARNING. ISBN: 970-83-0010-0.
MÉXICO, 2010.
WALPOLE, R – MYERS, R- MYERS, S. - “PROBABILIDAD Y ESTADÍSTICA PARA INGENIERÍA
Y CIENCIAS”. NOVENA EDICIÓN. PEARSON. ISBN: 978-607-32-1417-9. MÉXICO, 2012.

YAMANE, T. “ESTADÍSTICA”. TERCERA EDICIÓN. HARLA. ISBN: 978-006-31-9775-8


MADRID, 1987.

69

También podría gustarte