Proba Stat SDM

Probabilités et Statistiques
Dr Mory Ouattara
USP
SDM
17 octobre 2022
Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 1/1

Espaces de probabilité Rappel de théorie de la mesure
Tribus
Pour un ensemble X , on note P(X ) = {A : A ⊂ X } l’ensemble de

ses parties.
Définition
A ⊂ P(X ) est une tribu (ou une σ-algèbre) si :
X ∈A
Si A est stable par réunion dénombrable : pour tout i ∈ N,
Ai ∈ A alors ∪i∈N Ai ∈ A.
Si A est stable par complémentaire : SI A ∈ A alors Ac ∈ A

Tribus borélienne
Définition
Lorsque X est un espace topologique (c’est à dire muni d’une famille
d’ouverts), la plus petite tribu contenant tous les ouverts est appelée
la tribu borélienne. Elle est notée B(X ).
Définition
Une application f : (X ; A) −→ (Y ; B) est dite mesurable si ∀B ∈ B,
f −1 (B) ∈ A.

Mesures
On considère (X ; A) un espace mesurable.
Définition
Une mesure µ sur (X ; A) est une application de A −→ [0; +1] telle
que :
µ(∅) = 0
si (An )n≥1 est une suite dénombrable d’ensembles de A deux à
deux disjoints alors
+∞
X
µ (∪∞
n=1 An ) = µ(An )
n=1
Le triplet (X ; A; µ) est appelé un espace mesuré (espace mesurable

+ mesure).
Exemples de Mesures
Mesure de Dirac sur (X ; P(X )) : soit a ∈ X ,

1 si a ∈ X
0 sinon
Mesure de Lebesgue Mesure de Lebesgue sur (R; B(R)) : c’est

la mesure qui généralise la notion de longueur des intervalles.
Elle est invariante par translation :
λ([a, b]) = b − a, λ(A + x) = λ(A)

Une mesure µ est dite de probabilité sur (X , A) si µ(X ) = 1.
Traditionnellement, pour un espace de probabilité, on note
(Ω, F, P) au lieu de (X , A, µ).

Espaces de probabilité Espaces de probabilité
Espaces de probabilité
Un espace de probabilité (Ω, P) est constitué de

Définition
Ω, un ensemble
P, une probabilité sur Ω.
Ω correspond à l’ensemble des résultats d’une expérience aléatoire.

Un élément ω ∈ Ω est appelé une réalisation, c’est un résultat
possible d’une expérience aléatoire.
Un sous-ensemble A ⊂ Ω est appelé un événement. C’est un ensemble
de réalisations (celles qui vérifient une certaine condition). Les
opérations usuelles sur des événements A et B ont un sens logique :

Les opérations usuelles sur des événements A et B

ont un sens logique
Notation Sens mathématique Interprétation en probabilités

c
A (= Ω − A) complémentaire de A contraire de A, « non A »
A∪B réunion de A et B « A ou B »
A∩B intersection de A et B « A et B »
A∩B =∅ A et B sont disjoints « A et B sont incompatibles »
A⊂B A est inclus dans B « A implique B »

Espaces de probabilités ; exemples
Ω correspond aux résultats de l’expérience :

tirage à pile-ou-face, Ω = { , }
lancer d’un dé, Ω = { , }
lancer de deux pièces, Ω = { , }
choix de deux parts dans une gâteau coupée en 8 : Ω = { , }
attente d’un bus qui passe toutes les T minutes, Ω = { , }

Ω correspond aux résultats de l’expérience :

tirage à pile-ou-face, Ω = {P, F } ou {0, 1}
lancer d’un dé, Ω = {1, 2, 3, 4, 5, 6}
lancer de deux pièces, Ω = {P, F }2
choix de deux parts dans un gâteau coupé en 8 :
Ω = {(i, j), i, j ∈ {1, . . . , 8} et i 6= j}
attente d’un bus qui passe toutes les T minutes, Ω = [0, T ]
Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 10 / 1

Définition
Une probabilité sur Ω est une application P : P(Ω) −→ [0, 1], définie
sur les événements, telle que :
P(Ω) = 1
pour toute suite (An )n∈N d’événements disjoints deux à deux,
X
P(∪n∈N An ) = P(An )
n∈N
Si un événement A vérifie P(A) = 0, on dit que A est

négligeable ; et si P(A) = 1, on dit que A est presque sûr, ou
que A a lieu presque sûrement, abrégé « p.s. ».

Espaces de probabilités
Propriétés
1 P(∅) = 0
2 Pour tout événement A, P(Ac ) = 1 − P(A)
3 Si A ⊂ B, alors P(A) ≤ P(B)
4 Pour tous événements A et B,
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

Espaces de probabilités
Preuve de (2) : A et Ac sont disjoints (A ∩ Ac = Ω), et

Ω = A ∪ Ac donc
1 = P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ),
d’où P(Ac ) = 1 − P(A). Et on obtient (1) en prenant A = Ω.
Preuve de (3) A et B − A sont disjoints, et A ∪ (B − A) = B
donc P(B) = P(A ∪ (B − A)) = P(A) + P(B − A) ≥ P(A) et
P(B − A) = P(B) − P(A).
Preuve de (4) : A − (A ∩ B), A ∩ B et B − (A ∩ B) sont
disjoints, d’union A ∪ B, donc
P(A ∪ B) = P(A − (A ∩ B)) + P(A ∩ B) + P(B − (A ∩ B))
= P(A) − P(A ∩ B) + P(A ∩ B) + P(B) − P(A ∩ B)

Distribution uniforme de probabilité
On suppose que Ω est fini, avec Card Ω = n Ω = ω1 , ω2 , . . . , ωn . Si

ces résultats jouent des rôles symétriques, il est naturel de considérer
la probabilité uniforme sur Ω, telle que P(ω1 ) = . . . = P(ωn ) = n1
Définition
La probabilité uniforme sur Ω (ou distribution équiprobable) est la
probabilité P définie par : pour tout A = ωi1 , ωi2 , . . . , ωik ⊂ Ω,
k card(A) Nombre de cas favorables

P(A) = = =
n card(Ω) Nombre de cas possibles

Rappels de dénombrement
Soit E un ensemble fini.
Une permutation de E est une façon d’ordonner les éléments de E .
n! = 1 × 2 × 3 × . . . × (n − 2) × (n − 1) × n.
Un arrangement de k éléments de E est une suite de k éléments de E
distincts 2 à 2. L’ordre est important.
n!
Akn = n(n − 1) . . . (n − k + 1) =
(n − k)!
.
Une combinaison de k éléments de E est une façon de choisir k
éléments de E , sans spécifier d’ordre : c’est un sous-ensemble de E à
k éléments.
n(n − 1) . . . (n − k + 1) n!
Cnk = =
k! k!(n − k)!
Exemple : paradoxe des anniversaires
Dans un groupe de n étudiants, quelle est la probabilité que 2 (au

moins) aient leur anniversaire le même jour ?

Exemple : paradoxe des anniversaires

Dans un groupe de n étudiants, quelle est la probabilité que 2 (au
moins) aient leur anniversaire le même jour ?
On note N = 365, on suppose les dates équiprobables (et qu’il n’y a

pas de jumeaux, ni d’années bissextiles).
On considère ainsi :
Ω = {(j1 , . . . , jn ) | j1 , . . . , jn ∈ 1, . . . , N} = {1, . . . , N}n
et on cherche P(A) où A={ 2 étudiants sont nés le même jour } =
{(j1 , . . . , jn ) ∈ Ω | ∃k 6= l, jk = jl }.
Alors
A = {les étudiants sont nés des jours 6=} = {(j1 , . . . , jn ) ∈ Ω | ∀k 6=
l, jk 6= jl }.
et c) AnN
P(A) = 1 − P(Ac ) = 1 − Card(A Card(Ω)
= 1 − Nn
Exemple : Pour n =
Dr Mory Ouattara (USP SDM)
23, P(A) ' 0, 5. Pour
Probabilités et Statistiques
n = 57, P(A) ' 0, 99. 17 / 1
17 octobre 2022
Quelle probabilité pour le bus
Pour l’attente du bus qui passe toutes les T minutes, Ω = [0, T ]

Le bus a autant de chances d’arriver dans [t, t + σ] que dans
[t 0 , t 0 + σ].
le bus a 2 fois plus de chances d’arriver dans [t, t + 2σ] que dans
[t, t + σ].
la probabilité que le temps d’attente soit dans un intervalle I est
proportionnel à sa longueur : (loi uniforme sur [0, T ])
Longueur (I )
P(I ) =
T

Espaces de probabilité Probabilités conditionnelles
Probabilités conditionnelles
Définition
Soit B un événement tel que P(B) > 0. Pour A ⊂ Ω, on définit
P(A ∩ B)
P(A | B) =
P(B)
. P(A | B) est appelée la probabilité conditionnelle de A sachant B.

C’est la proportion de chance que A se réalise parmi les éventualités
où B se réalise.
Définition
Deux événements A et B sont indépendants si
P(A ∩ B) = P(A)P(B).
Si P(B) 6= 0, cela revient à P(A | B) = P(A) Savoir que B est réalisé

influence pas(USP
Dr Mory Ouattara la SDM)
probabilité Probabilités
de A. et Statistiques 17 octobre 2022 19 / 1
Probabilités conditionnelles : exemple
On divise une galette selon le nombre d’invités, et chacun prend une

part. Or le nombre d’invité n’est pas encore connu : Nous serons 5, 6
ou 7 avec probabilités 50 %, 30 % et 20 %.
Quelle est la probabilité que j’aie la fève ?
J’ai eu la fève. Quelle est la probabilité que nous étions 5 ?

Probabilités conditionnelles : exemple
On divise une galette selon le nombre d’invités, et chacun prend une

part. Or le nombre d’invité n’est pas encore connu : Nous serons 5, 6
ou 7 avec probabilités 50 %, 30 % et 20 %.
Quelle est la probabilité que j’aie la fève ?
On note F = j’ai la fève et A5 = nous sommes 5, A6 et A7 de même.

Alors : P(A5 ) = 0, 5 P(A5 ) = 0, 3 P(A7 ) = 0, 2
P(F | A5 ) = 51 ; P(F | A6 ) = 61 ; P(F | A7 ) = 17 d’où
P(F ) = P(F ∩A5 )+(F ∩A6 )+P(F ∩A7 ) = P(F | A5 )P(A5 )+P(F | A6 )P(
J’ai eu la fève. Quelle est la probabilité que nous étions 5 ?

5 ∩F )
P(A5 | F ) = P(AP(F )
= P(F |A5 )P(A5 )
P(F )
= 0, 56.

Probabilités conditionnelles
On suppose que (An )n est une partition de Ω (= un “découpage” de
Ω) : pourtousi 6= j, Ai ∩ Aj = ∅, et Ω = ∪n An .
Théorème (Théorème des probabilités totales)
X X
P(A) = P(A ∩ An ) = P(A | An )P(An )
n n
.
Théorème (Théorème de bayes)
P(A ∩ Ai ) P(A | Ai )P(Ai ) P(A | Ai )P(Ai )

P(Ai | A) = = =P
P(A) P(A) n P(A | An )P(An )
.

Espaces de probabilité Indépendance
Événements indépendants : cas général
Deux événements A et B sont indépendants si
P(A ∩ B) = P(A)P(B)
.
Définition
Une famille (Ai )i d’événements est indépendante si pour toute
sous-famille finie Ai1 , . . . , Aik on a
P(Ai1 ∩ Ai2 ∩ Aik ) = P(Ai1 )P(Ai2 ) . . . P(Aik )

Espaces de probabilité Indépendance
Indépendance et complémentaire
Proposition
Si deux événements A et B sont indépendants, alors Ac et B c le sont
aussi, de même que A et B c .
P(Ac ∩ B c ) = P((A ∪ B)c ) = 1 − P(A ∪ B) =

1 − P(A) − P(B) + P(A ∩ B) = 1 − P(A) − P(B) + P(A)P(B) =
(1 − P(A))(1 − P(B)) = P(Ac )P(B c ) Par récurrence, on peut
obtenir :
Proposition
Si A1 , . . . , An sont indépendants, et B1 , . . . , Bn sont tels que, pour
tout i, Bi = Ai ou Bi = Aci alors B1 , ... ,Bn sont indépendants.

Variables aléatoires
Définition
Une variable aléatoire est une application X : Ω −→ R.

Loi
Définition
Une variable aléatoire est une application X : Ω −→ R.
La loi de X est la probabilité PX sur R définie par : pour tout B ⊂ R,
PX (B) = P(ω ∈ Ω | X (ω) ∈ B) = P(X ∈ B)
. X (Ω) (image de X ) est le support de PX .

Variables aléatoires - Remarques

On précise parfois variable aléatoire réelle, ou à valeurs dans R.
S’il existe un réel c tel que P(X = c) = 1 alors X est constante.
Notation : On a noté X ∈ B l’événement formé des éventualités
ω pour lesquelles X (ω) ∈ B, et on abrège :
P(X ∈ B) = P(X ∈ B) = P(ω ∈ Ω | X (ω) ∈ B).
Définition
Si A est un événement, on introduit la variable aléatoire fonction
indicatrice de A, notée 1A , qui indique si l’événement A est réalisé :
pour tout ω ∈ Ω

1 si ω ∈ A
1A (ω) =
0 sinon
Variables aléatoires - Exemples
Lancer de deux dés, Ω = {1, . . . , 6}2 = { }

Valeurs des dés : X1 ((x1 , x2 )) = x1 et X2 ((x1 , x2 )) = x2 (à
valeurs dans {1, . . . , 6})
Somme des résultats : X = (à valeurs dans 2, . . . , 12)

Variables aléatoires - Exemples
Lancer de deux dés,

Ω = {1, . . . , 6}2 = {(x1 , x2 ) | x1 , x2 ∈ {1, . . . , 6}}
Valeurs des dés : X1 ((x1 , x2 )) = x1 et X2 ((x1 , x2 )) = x2 (à
valeurs dans {1, . . . , 6})
Somme des résultats : X = X1 + X2 c.-à-d. X ((x1 , x2 )) = x1 + x2
(à valeurs dans 2, . . . , 12)

Variables aléatoires Lois Discrètes
Lois Discrètes
Définition
Une variable aléatoire X est dite discrète si l’ensemble X (Ω) des
valeurs qu’elle prend est dénombrable.
Si X est discrète, alors pour tout B ⊂ X (Ω), on a

B = {bn | n = 1, 2, . . . , N} avec des bn distincts, et
X ∈ B = ∪n {X = bn }
or ces événements sont disjoints et forment une suite, d’où

X X
PX (B) = P(X ∈ B) = P(X = bn ) = P(X = x)
n x∈B

Lois discrètes - Exemples
Uniforme
Si E ⊂ R est fini, une variable aléatoire X suit la loi uniforme sur E
1
si pour tout x ∈ E , P(X = x) = cardE
la loi du résultat d’un dé est la loi uniforme sur {1, . . . , 6}.

Bernoulli
Soit p ∈ [0, 1]. Une variable aléatoire X suit la loi de Bernoulli de
paramètre p (notée B(p)) si X est à valeurs dans {0, 1} et
P(X = 1) = p, P(X = 0) = 1 − p.
la loi de 1A est B(P(A)).

Binomiale
Soit n ∈ N et p ∈ [0, 1]. Une variable aléatoire X suit la loi binomiale
de paramètres n et p (notée B(n, p)) si X est à valeurs dans
{0, 1, . . . , n} et pour k = 0, . . . , n
P(x = k) = Cnk p k (1 − p)n−k

Expérience : Lancer de deux dés,

Ω = {1, . . . , 6}2 = {(x1, x2) | x1 , x2 ∈ {1, . . . , 6}} associée à la
V.A X ((x1 , x2 )) = x1 + x2 . Quelle est sa loi ?

Expérience : Lancer de deux dés,

Ω = {1, . . . , 6}2 = {(x1, x2) | x1 , x2 ∈ {1, . . . , 6}} associée à la
V.A X ((x1 , x2 )) = x1 + x2 . Quelle est sa loi ?
1
P(X = 2) = P((1, 1)) = 36
2
P(X = 3) = P((1, 2), (2, 1)) = 36
5
P(X = 6) = P((1, 5), (2, 4), ..., (5, 1)) = 36
6
P(X = 7) = P((1, 6), (2, 5), ..., (6, 1)) = 36
5
P(X = 8) = P((2, 6), (3, 5), ..., (6, 2)) = 36
...
1
P(X = 12) = P((6, 6)) = 36

On prend successivement les parts d’une galette (coupée en 8)

NA : Nombre de parts à prendre jusqu’à avoir la fève : à valeurs
dans {1, . . . , 8}
Chaque jour, on prend une part d’une galette différente (coupée
en 8) NB : Nombre de parts à prendre jusqu’à avoir la fève : NB ,
à valeurs dans {1, 2, . . .} = N∗
Nombre de fèves obtenues en n jours : Sn

On prend successivement les parts d’une galette (coupée en 8)

NA : Nombre de parts à prendre jusqu’à avoir la fève : à valeurs
dans {1, . . . , 8})
NA suit la loi uniforme sur {1, . . . , 8}
Chaque jour, on prend une part d’une galette différente (coupée
en 8) NB : Nombre de parts à prendre jusqu’à avoir la fève : NB ,
à valeurs dans {1, 2, . . .} = N∗
Pour tout n ∈ N∗ ,
P(NB = n) = (1 − 18 )n−1 18 (Indépendance ).
Nombre de fèves obtenues en n jours : Sn Sn suit la loi binomiale
de paramètres (n, 18 ).

Variables aléatoires Lois continues
Lois continues
Définition
Une variable aléatoire X est dite continue ou à densité s’il existe une
fonction fX : R −→ R telle que, pour tout B ⊂ R
Z
PX (B) = P(X ∈ B) = fX (x)dx
B
.
La fonction fX est appelée la densité de X . Une fonction f est la
densité d’une variable aléatoire si, et seulement si
pour tout x ∈ R, f (x) ≥ 0
R
f (x)dx = 1
R X
Si X a pour densité fX , Rpour tous a ≤ b,
b
P(a ≤ X ≤ b) = a fX (x)dx
Densités classiques
Uniforme
Soit a < b. La loi uniforme
1sur [a; b] est la loi de densité
1
f (x) = b−a 1[a;b] (x) = b−a si a ≤ x ≤ b
0 sinon
Une variable aléatoire X de loi U([a; b]) est donc à valeurs dans [a; b].
Exponentielle
Soit λ > 0. La loi exponentielle de paramètre λ est la loi de densité
f (x) = λe −λx 1R+ (x)
Une variable X de loi ε(λ) est donc à valeurs dans R+ .

Densités classiques
Exponentielle
Soit λ > 0. La loi exponentielle de paramètre λ est la loi de densité
f (x) = λe −λx 1R+ (x)
Une variable X de loi ε(λ) est donc à valeurs dans R+ .
La loi exponentielle est une loi « sans mémoire ». En effet, pour tous
s, t ≥ 0,
P({X ≥ s + t}) ∩ {X ≥ s})

P(X ≥ s + t | X > s) =
P({X ≥ s})
e −λ(s+t)
P(X ≥ s + t | X > s) = = P({X ≥ t})
e −λ(s)
Utilisée pour modéliser les durées de vie de machine sans vieillissement.
Exemple : soit X une variable aléatoire de loi U([0; 1]). On définit

Y = min(X ; 12 )
On a Y (ω) = min(X (ω); 21 ) pour tout ω ∈ Ω

De nombreuses variables ne sont ni discrètes, ni à densité. Exemple :

soit X une variable aléatoire de loi U([0; 1]). On définit
Y = min(X ; 12 )
On a Y (ω) = min(X (ω); 21 ) pour tout ω ∈ Ω
Y est à valeurs dans [0; 12 ] car X est à valeurs dans [0; 1].
On a R∞ R1
P(Y = 12 ) = P(X ≥ 21 ) = 1 1[0;1] (x)dx = 1 dx = 12 > 0.
2 2
n’a pas de densité
Pour tout 0 ≤ x < 21 P(Y = x) = P(X = x) = 0
Y n’est pas discrète

Variables aléatoires Fonction de répartition
Fonction de répartition
Définition
Soit X une variable aléatoire. La fonction de répartition de X est la
fonction F (X ) : R −→ R définie par : ∀a ∈ R ;
FX (a) = P(X ≤ a)
Proposition
La fonction de répartition FX est une fonction croissante,
lima−→−∞ FX (a) = 0 et lima−→+∞ FX (a) = 1
Si X et Y sont deux variables aléatoires telles que
FX (t) = FY (t) pour tout t ∈ R, alors X et Y ont même loi.
=⇒ la fonction de répartition caractérise la loi d’une variable aléatoire

Fonction de répartition-cas discret
Proposition
Si X est une variable aléatoire discrète, FX est une fonction
constante par morceaux, dont les sauts se situent aux points de
X (Ω), et le saut en x ∈ X (Ω) a pour hauteur P(X = x).
Fonction de répartition d’une v.a. de loi B(p)

Proposition
Fonction de répartition d’une v.a. de loi B(p)

Proposition
Fonction de répartition d’une v.a. de loi unif. sur {1, 2, 3, 4}

Proposition
Fonction de répartition d’une v.a. de loi unif. sur {1, 2, 3, 4}

Fonction de répartition-cas à densité
Proposition
R x variable aléatoire de densité fX , 0on a pour tout x ∈ R ;
Si X est une
FX (x) = −∞ fX (t)dt et on a la dérivée (FX ) (x) = fX (x) (pour tout
x où fX est continue).
Fonction de répartition d’une v.a. de loi E(λ)

Proposition
Si X est une
Fonction de répartition d’une v.a. de loi E(λ)

Proposition
Si X est une
Fonction de répartition d’une v.a. de loi Uniforme

Proposition
Si X est une
Fonction de répartition d’une v.a. de loi Uniforme

Proposition
Si X est une
Inversement, si X est une v.a. telle que FX est
continue sur R
dérivable sauf peut-être en un nombre fini de points, alors X a
pour densité fX = FX0 .


Calcul de la loi de Y = φ(X )
Soit X une variable aléatoire, de loi connue, et φ : X (Ω) −→ R une

fonction. On cherche la loi de la variable aléatoire Y = φ(X ).

Exemples de calculs de loi
Soit X une variable aléatoire de loi uniforme sur {−1, 0, 1}. On pose
Y =| X |. Alors Y est à valeurs dans {0, 1}, et
P(Y = 1) = P(| X |) = 1) = P(X = 1 ou X = −1) = 2/3
et ainsi P(Y = 0) = 1/3 et P(Y = 1) = 2/3 donc Y suit la loi

B(2/3).

Soit X une variable aléatoire de loi E(λ). On pose
1
Y =
1+X
.
On a
Y = φ(X )
1
où : φ(x) −→ 1+x Comme X ∼ ε(λ), on a X > 0 p.s.
φ est strictement décroissante sur ]0; +1[, φ(0) = 1 et limx−→+∞ φ(x) = 0
donc φ(]0; +1[) =]0; 1[.


Ainsi, Y est à valeurs dans ]0; 1[.

0 si y < 0
FY (y ) =
1 si y ≥ 1
et pour 0 ≤ y ≤ 1,
1 1
P(Y ≤ y ) = P( ≤ y ) = P(X ≥ − 1)
1+X y
1 1 −λ( y1 −1)
= 1 − P(X ≤ − 1) = 1 − FX ( − 1) = e
y y
FY est continue sur R (on vérifie FY (0+ ) = 0 et FY (1− ) = 1, et dérivable
sauf peut-être en 0 et(1. Donc Y a pour densité la dérivée
1
λ −λ( y −1)
e si y ∈]0, 1[
fY (y ) = (FY )0 (y ) = y2
0 si y ≥ 1
Espérance
Dans un jeu de hasard A, on peut

Gagner 100 fcfa, avec probabilité 0,1
Perdre 1 fcfa, avec probabilité 0,9.
Dans un autre jeu de hasard B, on peut
À quel jeu devrait-on jouer ?

Dans un jeu de hasard A, on peut

Dans un autre jeu de hasard B, on peut
À quel jeu devrait-on jouer ?

Espérance
Définition
L’espérance d’une variable aléatoire X , notée E [X ], est la moyenne
de ses valeurs, pondérées par leurs probabilités. Si X est discrète,
X
E [X ] = xP(X = x)
x∈X (Ω)
.
Si X est continue, de densité fX ,
Z
E [X ] = xfX (x)dx
R
.
Attention. L’espérance n’est pas toujours définie. Il faut pour cela
que la série ou l’intégrale ci-dessus converge absolument.
Espérance
Intérêt, interprétation :
E [X ] donne une indication de l’ordre de grandeur typique de X .
E [X ] est souvent plus simple à calculer (et à interpréter) que la
loi de X .
E [X ] correspond au “prix équitable” à faire payer pour jouer à un
jeu de hasard où le gain est X (dans l’idée que l’on joue un
grand nombre de fois). prix d’assurances, d’actifs financiers

Espérance - Exemples discrets
Si X suit la loi de Bernoulli B(p)

X est à valeurs dans {0; 1} et P(X = 1) = p, P(X = 0) = 1 − p,
d’où
E [X ] = 1 ∗ p + 0 ∗ (1 − p) = p
Si X suit la loi uniforme sur {1, 2, . . . , n}

X est à valeurs dans {1, 2, . . . , n} et
P(X = 1) = . . . = P(X = n) = n1 , d’où
n+1
E [X ] =
2

Espérance - Exemples discrets
Si X suit la loi géométrique G(p)

X est à valeurs dans N ∗ = {1, 2, . . .} et P(X = k) = (1 − p)k−1 p,
d’où ∞
X 1
E [X ] = k(1 − p)k−1 p =
k=1
p
car ∞ ∞
X d X k d 1 1
kx k−1 = ( x )= ( )=
k=1
dx k=1 dx 1 − x (1 − x)2
∀x ∈] − 1, 1[

Espérance – Exemples à densité
Si X suit la loi uniforme sur [a; b], où a < b

Si X suit la loi uniforme sur [a; b], où a < b

1
X a pour densité f (x) = b−a 1[a;b] (x), d’où
Z b
1 1 b−a
Z
E [X ] = x 1[a;b] (x)dx = xdx =
R b−a b−a a 2

Si X suit la loi exponentielle E(λ), où λ > 0,

Si X suit la loi exponentielle E(λ), où λ > 0,

X a pour densité f (x) = λe −λx 1]0;+∞[ (x),
d’où
∞
1
Z Z
−λx
E [X ] = xλe 1]0;+∞[ (x)dx = xλe −λx (x)dx =
R 0 λ

Espérance – Propriétés
Propriétés
1 Si X est constante, égale à c ∈ R (pour tout ω ∈ X (Ω) = c),
alors E [X ] = E [c] = c.
2 Pour tout événement A ⊂ Ω E [1A ] = P(A).
3 L’espérance est linéaire : pour toutes variables aléatoires X et Y ,
et tout réel a ,
E [aX ] = aE [X ] et E [X + Y ] = E [X ] + E [Y ]
4 L’espérance est croissante : si X ≤ Y p.s., alors E [X ] ≤ E [Y ].

Espérance – Propriétés
Si A1 , ..., An sont des événements indépendants et
P(A1 ) = . . . = P(An ) = p
on a vu que
Sn = 1A1 + . . . + 1An
suit la loi binomiale B(n; p) : pour k = 0, . . . , n,
P(Sn = k) = Cnk p k (1 − p)n−k
Par linéarité,
E [Sn ] = E [1A1 ] + . . . + E [1An ] = P(A1 ) + . . . + P(An ) = np

Espérance de φ(X )
Soit X une variable aléatoire, et φ : R −→ R une fonction.

Si X est discrète, alors
X
E [φ(X )] = φ(x)P(X = x)
x∈X (Ω)
Si X est continue, alors

Z
E [φ(X )] = φ(x)fX (x)dx
R
(À condition que la série et l’intégrale soient bien définies)

Espérance de φ(X )
Si X suit la loi uniforme sur {1, 2, 3},

X 23
E[
]=
1+X 36
Si X suit la loi uniforme sur [0; 1],
X
E[ ] = ln2
1+X

Variance
L’espérance E [X ] représente-t-elle bien les

valeurs typiques de X ?
Comment les valeurs de X sont-elles
dispersées autour de E [X ] ?

Variance
Définition
Soit X une variable aléatoire. La variance de X est l’espérance des
carrés des écarts de X à sa moyenne :
Var (X ) = E (X − E [X ])2 ≥ 0
p
L’écart type de X est σ(X ) = Var (X )
NB. À la différence de la variance, l’écart type σ(X ) est homogène à
X : si par exemple X est une distance, alors σ(X ) est une distance
aussi. Ceci justifie l’intérêt de l’écart type.

Variance
Définition
Pour toutes variables aléatoires X et Y et toute constante a,
Var (X ) = E [X 2 ] − E [X ]2
Var (aX ) = a2 Var (X )
Var (X + a) = Var (X )
Var (X + Y ) = Var (X ) + 2Cov (X , Y ) + Var (Y ), où la
covariance est définie par :
Cov (X ; Y ) = E ((X − E [X ])(Y − E [Y ])) = E [XY ] − E [X ]E [Y ]

Standardisation d’une variable
Pour toute variable aléatoire X possédant une variance, la variable

aléatoire
X − E (X )
Z=
σ(X )
est centrée (E (Z ) = 0) et réduites (var (Z ) = 1)

Variables aléatoires Moments
Moments
Plus généralement, pour r > 0, on définit (s’il existe) le moment

d’ordre r :
mr (X ) = E [X r ]
et le moment centré d’ordre r :
µr (X ) = E ((X − E [X ])r

Variance exemples
Si X suit la loi de Bernoulli B(p)

E (X 2 ) = 12 ∗ p + 02 ∗ (1 − p) = p ; donc Var (X ) = p − p2 = p(1 − p)

Variance exemples
Si X suit la loi géométrique G (p)
1−p
Var (X ) =
p2
Indication : dériver deux fois
∞
X 1
xk =
k=0
1−x
pour obtenir
∞
X 2 3 k
k(k − 1)x =
k=2
1−x
et en déduire le calcul de E [X (X − 1)] puis
E [X 2 ] = E [X (X − 1) + X ] = . . .
Variance exemples
Si X suit la loi uniforme sur [a ;b],

Z b
2 1 1 b a 3 a2 + ab + b 2
E [X ] = x2 dx = ( − ) =
a b−a b−a 3 3 3
d’ou
(b − a)2
Var (X ) =
12

Inégalités
Proposition (Inégalité de Markov)

Soit X une variable aléatoire. Pour tout a > 0,
E (| X |)
P(| X |≥ a) ≤
a
Plus généralement, pour tout a > 0 et r > 0,
E (| X |r )
P(| X |≥ a) ≤
ar
Preuve

Inégalités
Preuve(Inégalité de Markov)
Z
r
E (| X | ) = | X |r fX (x)dx (1)
Z Z R
r
= | X | fX (x)dx + | X |r fX (x)dx (2)
]−a,a[ R−]−a,a[
Z
≥0+ arfX (x)dx = ar P(X ∈ R−] − a, a[) (3)
R−]−a,a[
= ar P(| X |> a) (4)

Inégalités
Inégalité de Bienaymé-Tchebychev
Soit X une variable aléatoire. Pour tout a > 0,
Var (X )
P(| X − E [X ] |≥ a) <
a2
avec probabilité 75 %, | X − E [X ] |≤ 2σ(X ).

Indépendance de variables aléatoires
Définition
Des variables aléatoires {X1 ; . . . ; Xn } sont indépendantes si, pour tous
B1 , . . . Bn ⊂ R
P(X1 ∈ B1 , . . . Xn ∈ Bn) = P(X1 ∈ B1 ) . . . P(Xn ∈ Bn )
Par exemple, deux variables aléatoires X et Y sont indépendantes si

les événements qui ne dépendent que de X sont indépendants des
événements qui ne dépendent que de Y : pour B, C ⊂ R,
P(X ∈ B; Y ∈ C ) = P(X ∈ B)P(Y ∈ C )

Indépendance-Retour sur un exemple
On considère deux tirages de dés : espace de probabilité

Ω = {1, . . . , }2 , avec la probabilité P uniforme. On note X1 , X2 les
résultats des dés : pour tout tirage (k, l) ∈ Ω
X1 (k, l) = k et X2 (k, l) = l
Alors, pour A, B ⊂ {1, . . . , }
P(X1 ∈ A; X2 ∈ B) = P({(k; l) ∈ Ω | k ∈ A; l ∈ B}) =

card(A × B) cardA × CardB
P(A × B) = =
cardΩ cardΩ
car X1 et X2 suivent la loi uniforme/

Indépendance- Propriétés
Si X1 , . . . , Xn sont indépendantes, alors les variables aléatoires

f1 (X1 ), . . . , fn (Xn ) sont indépendantes, quelles que soient les
fonctions f1 , . . . , fn .
Si des événements A1 , . . . , An sont indépendants alors leurs
fonctions indicatrices 1A1 , . . . , 1An sont des variables aléatoires
indépendantes ; et réciproquement.

Indépendance et espérance
Proposition
Si X1 , . . . , Xn sont des variables aléatoires indépendantes, alors
1 si leurs espérances sont bien définies
E (X1 . . . Xn ) = E (X1 ) . . . E (Xn )

2 si leurs variances sont bien définies, alors on a Cov (Xi ; Xj ) = 0
Var (X1 + . . . + Xn ) = Var (X1 ) + . . . + Var (Xn )
(le 1. est évident si Xi = 1Ai , et le cas général s’en déduit par

approximation)
Par le 1) on déduit, si X1 , . . . , Xn sont indépendantes
E [f1 (X1 ) . . . fn (Xn )] = E [f1 (X1 )]E [fn (Xn )]
Théorème Loi des grands nombres
Théorème
Soit Xn , n ≥ 1 une suite de variables aléatoires indépendantes, et de
même loi, d’espérance m et de variance σ 2 . On définit la variable
aléatoires Xn , appelée moyenne empirique, par :
X1 + . . . + Xn
X¯n =
n
On a : Pour tout > 0, P(m − ≤ X¯n ≤ m + ) → 1
Si (An )n1 est une suite d’événements indépendants et qui ont même
probabilité p (par exemple, dans une suite de tirages à Pile-ou-Face,
An = { le n-ième tirage est Pile}, et p = 12 ), alors en posant
1 +...+1
Xi = 1Ai , on a X¯n = A1 n An
Loi normale N (m; σ 2)

La loi normale centrée (m = 0) réduite (σ = 1), notée N (0; 1), est la loi
de densité
1 −x 2
f (x) = √ e 2
2π
Si m ∈ R et σ ∈]0; +1[ la loi normale de moyenne m et de variance σ 2 .
notée N(m, σ 2 ), est la loi de la variable aléatoire X = m + σZ , où Z suit
la loi N (0, 1).
Si X suit une loi normale, on dit que X est une v.a. gaussienne
Si Z ∼ N (0; 1), sa fonction de répartition est

Z x
1 1 2
φ(x) = P(Z ≤ x) = √ e − 2 t dt
−∞ 2π
φ ne peut pas s’exprimer à l’aide des fonctions usuelles, donc on utilise une
table (imprimée, ou dans un logiciel de calcul numérique).
Loi normale N (m; σ 2)

Proposition
Toute combinaison linéaire de variables aléatoires gaussiennes
indépendantes est une variable aléatoire gaussienne.
Plus précisément, si X1 , . . . Xn sont indépendantes et Xi ∼ N (m; σ 2 ) alors,
pour tous a1 , . . . an ∈ R
X = a1 X1 + . . . + an Xn ∼ N (M, Σ2 )
n
X
M = E (X ) = ai mi
i=1
et
n
X
Σ2 = ai2 σi2
i=1
Les lois normales interviendront en statistique (pour étudier la marge

Loi du couple
Proposition
Soit (X , Y ) deux variables aléatoires. La loi du couple (X , Y ) est la
probabilité P(X , Y ) sur R2 qui vérifie : pour tous A, B ⊂ R ;
P(X , Y )(A × B) = P(X ∈ A; Y ∈ B) :
Les lois de X et Y se déduisent de P(X , Y ) : pour A ⊂ R,
PX (A) = P(X ∈ A) = P(X ∈ A; Y ∈ R) = P( X , Y )(A ∈ R)
Inversement, les lois de X et de Y sont les lois marginales de

P(X , Y ).
Si X et Y sont indépendantes, la loi du couple est fournie par les lois

de X et de Y :
P( X , Y )(A × B) = PX (A)PY (B)

Loi du couple
Si X et Y sont indépendantes, la loi du couple est fournie par les lois

de X et de Y :
P( X , Y )(A × B) = PX (A)PY (B)

La loi du couple contient davantage d’information que PX et PY :
elle indique aussi la façon dont les variables dépendent l’une de
l’autre (connaître X peut renseigner sur Y ).

On choisit au hasard (uniformément) un étudiant entré à l’université

en 2017. On note
S ∈ {H; F }son sexe
D ∈ {bio − sant, droit, lettres, sciences, sport, sciencesco} la
discipline où il est inscrit. Ce sont deux variables aléatoires.
Décrire la loi de (S, D) revient à se donner les proportions d’étudiants
dans chaque cas :
les variables D et S sont elles indépendantes ?

On choisit au hasard (uniformément) un étudiant entré à l’université

en 2017. On note
Le total de droite est la loi de S. Le total du bas est la loi de D.

D et S ne sont pas indépendantes : P(D = bio; S = H) = 0.06 et
P(D = bio)P(S = H) = 0.2 · 0.43 = 0; 086

Cas de deux variables discrètes

Si X et Y sont discrètes alors la loi de (X , Y ) est donnée par les
probabilités élémentaires :
p(X ,Y ) (x, y ) = P(X = x, Y = y ) pour tous x ∈ X (Ω) ; y ∈ Y (Ω) :
Elles vérifient p(X ,Y ) (x, y ) ∈ [0; 1] pour tous x, y, et
X X
p(X ,Y ) (x, y ) = 1
x∈X (Ω) y ∈Y (Ω)
Inversement, les lois marginales se déduisent des (p(X ,Y ) (x, y )) : pour

tout x ∈ X (Ω)
X X
pX (x) = P(X = x) = P(X = x, Y = y ) = P(X ,Y ) (x, y )
y ∈Y (Ω) y ∈Y (Ω)
X et Y sont indépendantes si, et seulement si

p(X ,Y ) (x, y ) = pX (x)pY (y ) pour tous x,y .
Cas de deux variables à densité

On dit que le couple (X , Y ) a une densité s’il y a une fonction
f(X ,Y ) : R → P(X = x, Y = y ) telle que D ⊂ R
Z Z
P( x, y ) = f(X ,Y ) (x, y )dxdy
D D
f (X , Y ) est appelée la densité du couple (X , Y ). Alors

f(X ,Y ) (x, y ) ≥ 0 pour tous x, y ∈ R, et
Z Z
P( x, y ) = f(X ,Y ) (x, y )dxdy = 1
R R
Presque sûrement, (X , Y ) ∈ Supp(f(X ;Y ) ) où le support de la

fonction f(X ,Y ) est défini par
Supp(f(X ,Y ) ) = f(x,y ) ∈ R 2 | f(X ,Y ) (x, y ) > 0
Cas de deux variables à densité

On dit que le couple (X , Y ) a une densité s’il y a une fonction
f(X ,Y ) : R → P(X = x, Y = y ) telle que D ⊂ R
Z Z
P( x, y ) = f(X ,Y ) (x, y )dxdy
D D
f (X , Y ) est appelée la densité du couple (X , Y ). Alors

f(X ,Y ) (x, y ) ≥ 0 pour tous x, y ∈ R, et
Z Z
P( x, y ) = f(X ,Y ) (x, y )dxdy = 1
R R
Presque sûrement, (X , Y ) ∈ Supp(f(X ;Y ) ) où le support de la

fonction f(X ,Y ) est défini par
Supp(f(X ,Y ) ) = f(x,y ) ∈ R 2 | f(X ,Y ) (x, y ) > 0
Cas où P(X , Y ) a une densité

On déduit les lois marginales de la loi du couple et, dans le cas
indépendant, on déduit la loi du couple des lois marginales :
Proposition
1 Si (X , Y ) a pour densité f (X , Y ), alors X et Y ont des densités
fX et fY données par
Z Z
fX (x) = f(X ,Y ) (x, y )dy et fY (y ) = f(X ,Y ) (x, y )dx
R R
2 Si X et Y ont des densités fX et fY et sont indépendantes, alors

(X , Y ) a pour densité
f(X ,Y ) (x, y ) = fX (x)fY (y )

Donner les loi de X et Y.


Cas où P(X , Y ) a une densité :exemple
Déterminer la loi de X : la variable aléatoire X a pour densité.

Cas où P(X , Y ) a une densité :exemple
Déterminer la loi de X : la variable aléatoire X a pour densité.

Calculs d’espérances
Soit φ : R2 −→ R une fonction.

Si X et Y sont discrètes, alors
X X
E (φ(X , Y )) = φ(x, y )P(X = x, Y = y )
x∈X (Ω) y ∈Y (Ω)
Si (X , Y ) a pour densité f(X ,Y ) , alors

Z Z
E (φ(X , Y )) = φ(x, y )f(X ,Y ) (x, y )dxdy
R R
(À condition que les séries et les intégrales soient bien définies)

Que se passe t’il lorsque X et Y sont indépendants

Calculs d’espérances : exemple

Calculs d’espérances : exemple

Somme de variables aléatoires indépendantes.
On peut souvent calculer la loi de fonctions de X et Y. Par exemple

Proposition
On suppose X et Y indépendantes, de densités fX et fY et on
considère
Z =X +Y
Z a pour densité.
Z
fX +Y (z) = fX (x)fY (z − x)dx = fX ∗ fY
R
fX +Y est le produit de convolution de fX et fY .

Statistiques
Statistiques
Les statistiques descriptives visent à décrire un ensemble, en général

important, de données, c’est-à-dire à en résumer certaines
particularités :
sous la forme de représentations graphiques
à l’aide de grandeurs numériques (moyenne,...).
L’interprétation des résultats est ensuite propre à chaque champ
d’application.
On ne suppose pas les données aléatoires) −→ pas de probabilités.
(simplement des méthodes pour présenter un ensemble de données)
En revanche, la partie suivante (Estimation) supposera les données
issues de la répétition d’une expérience aléatoire, et fera appel aux
statistiques pour obtenir des renseignements sur l’expérience.

Statistiques
Vocabulaire : Notion de variable statistique
En statistiques, les données dont on dispose associent à chaque

individu d’une certain ensemble (la population), une ou plusieurs
variables qui quantifient ou qualifient certains caractères des
individus. Ces données sont aussi appelées une série statistique.
Pour une population de taille n (où n est l’effectif total), les données
sont de la forme : (x1 , y1 , . . .), (x2 , y2 , . . .), . . . (xn , yn , . . .) où
(xn , yn , . . .) sont les observations des variables associées au i-ième
individu.
Une variable peut avoir divers types

Statistiques
Variable qualitative-Représentations graphiques
Pour une variable qualitative (ou quantitative discrète),

l’effectif d’une modalité (ou d’une valeur) est le nombre de fois
où elle est présente dans la population. Représentation :
diagramme en bâtons.
la fréquence d’une modalité (ou d’une valeur) est le quotient de
l’effectif de cette valeur par l’effectif total. Représentation :
diagramme circulaire (ou diagramme en bâtons, éventuellement
empilés).

Statistiques
Variable quantitative-Représentations graphiques

Pour représenter graphiquement des observations de variables
quantitatives continues (ou discrètes avec de nombreuses valeurs
différentes), on choisit en général un nombre fini d’intervalles et on
classifie les individus selon l’intervalle qui contient leur valeur
on approche la variable continue par une variable discrète. La
représentation des effectifs (ou fréquences) est un histogramme
Quelle est la
difference entre un histogramme et digramme en
bâton
Statistiques
Variable quantitative-Représentations graphiques

Statistiques
Boxplot
les boîtes de dispersion peuvent avoir d’autres interprétations :

vérifier comment la boîte est définie

Statistiques
Boxplot
les boîtes de dispersion peuvent avoir d’autres interprétations :

vérifier comment la boîte est définie

Statistiques
Représentation numérique
Comment synthétiser des observations d’une variable quantitative

graphiquement, via un histogramme, etc.
numériquement, en calculant des quantités qui mesurent l’ordre de
grandeur des valeurs observées (ex. : médiane), quantifient leur
dispersion (ex. : quantiles), leur asymétrie, etc.

Statistiques
Représentation numérique
Proposition
La moyenne est l’unique réel c qui minimise
n
X
(xi − c)2
i=1
Les médianes sont les réels c qui minimisent

n
X
| xi − c |
i=1
La moyenne est sensible aux valeurs aberrantes, à la différence de la

médiane.
Statistiques
Couple de variables

Statistiques Estimation
Principe de l’estimation statistique
Définition
Soit X une variable aléatoire. Un échantillon de taille n de X est une
famille X1 , . . . , Xn de variables aléatoires indépendantes, de même loi
que X.
On souhaite étudier la loi de X.

Exemple : X est la taille en centimètres d’un individu choisi
uniformément dans la population adulte Ivoirienne. Son espérance est
donc la taille moyenne d’un ivoirien adulte, que l’on peut vouloir
estimer.
Que faire ?

Principe de l’estimation statistique

Définition
Soit X une variable aléatoire. Un échantillon de taille n de X est une
famille X1 , . . . , Xn de variables aléatoires indépendantes, de même loi
que X.
On ne dispose pour cela que d’une réalisation d’un échantillon de

taille n : une réalisation X1 , . . . , Xn ∈ R n de n variables aléatoires
indépendantes (X1 , . . . , Xn ) qui ont la même loi que X. À défaut de
pouvoir mesurer toute la population, ce qui serait long, coûteux et
compliqué, on se contente de mesurer la taille de n personnes choisies
au hasard parmi les Ivoiriens adultes.
Objectif de l’estimation statistique : déduire certaines propriétés
de la loi de X (espérance, variance, paramètres...) à partir d’un
échantillon X1 , . . . , Xn
Statistiques simples

Statistiques simples
Proposition
Si X a pour espérance m et pour écart type σ, alors :
σ2
E (X¯n ) = m et var (X¯n ) =
n
n−1 2
E (S¯n2 ) = σ et E (Σ2n ) = σ 2
n

Estimateur
On suppose que X suit une loi Pθ qui dépend d’un paramètre θ ∈ Θ,

où Θ ⊆ R est l’ensemble des valeurs a priori possibles du paramètre.
On ignore la valeur de θ, et on souhaite l’estimer.
Définition
Un estimateur de θ est une variable aléatoire Tn = f (X1 , . . . , Xn )
qui dépend d’un échantillon X1 , . . . , Xn de X. On utilise souvent
la notation θ̂ pour un estimateur de θ.
Une estimation de θ est la valeur réelle tn = f (x1 , . . . , xn ) prise
par une réalisation particulière de l’échantillon.

Estimateur
On suppose que X suit une loi Pθ qui dépend d’un paramètre θ ∈ Θ,

où Θ ⊆ R est l’ensemble des valeurs a priori possibles du paramètre.
On ignore la valeur de θ, et on souhaite l’estimer.
Définition : qualités d’un estimateur Tn de θ
Le biais de Tn est la différence E (Tn) − θ
On dit que Tn est sans biais si E (Tn ) = θ, quel que soit θ ∈ Θ.
On dit que Tn est asymptotiquement sans biais si E (Tn ) → θ,
quel que soit θ ∈ Theta.
On dit que Tn converge si quel que soit θ ∈ Θ. pour tout α > 0
P(| Tn − θ |> α) → 0

Estimateur
Proposition
On suppose que X a pour espérance m et variance σ 2 .
La moyenne empirique est un estimateur sans biais et convergent
de m.
La variance empirique est un estimateur asymptotiquement sans
biais et convergent de σ 2 , et la variance empirique modifiée est
un estimateur sans biais et convergent de σ 2 .
Exemple : Si on sait que X1 , . . . , Xn suivent la loi P(λ), et que l’on

cherche la valeur de λ, on peut utiliser le fait que λ est l’espérance
des Xi , donc la moyenne empirique X¯n est un estimateur sans biais,
convergent, de λ.
En fait, λ est aussi la variance des Xi donc on pourrait aussi utiliser
la variance empirique (modifiée ou non) pour estimer λ.
Estimateurs-Risque quadratique
Comment mesurer la qualité et comparer deux estimateurs ?
Proposition
Le risque quadratique d’un estimateur Tn de θ est
RTn (θ) = E ((Tn − θ)2 )
On dit que l’estimateur Sn est meilleur que Tn si, quel que soit θ.
RSn (θ) ≤ RTn (θ)
Par l’inégalité de Markov, un estimateur dont le risque quadratique

tend vers 0 (quel que soit θ) est convergent. NB. Si Tn est sans biais,
alors RTn (θ) = Var (Tn ).

Statistiques Construction d’estimateurs
Construction d’estimateurs
Problème
Comment trouver un “bon” estimateur d’un paramètre θ ?
Deux méthodes classiques :

1 méthode des moments
2 méthode du maximum de vraisemblance

Méthode des moment : Karl Pearson en 1894

Le principe est d’utiliser la loi des grands nombres pour estimer les
moments, et d’utiliser ensuite ces estimateurs des moments pour
estimer θ. Par la loi des grands nombres, on a :
Proposition
Soit X une variable aléatoire d’espérance m et de variance σ 2 .
1 La moyenne empirique est un estimateur sans biais et convergent
de m.
2 La variance empirique est un estimateur asymptotiquement sans
biais et convergent de σ 2 , et la variance empirique modifiée est
un estimateur sans biais et convergent de σ 2 .
3 Pour tout r > 0, le moment empirique d’ordre r,
n
1X
m
cr = (Xi )r
Dr Mory Ouattara (USP SDM)
n i=1
Probabilités et Statistiques 17 octobre 2022 124 / 1
Construction d’estimateurs
On en déduit la méthode des moments :

1 calculer les moments m1 = E (X ), m2 = E (X 2 ), etc., jusqu’à
pouvoir exprimer θ à l’aide de ceux-ci ;
2 remplacer dans cette expression les moments par les moments
empiriques : m1 remplacé par X¯n etc.
Ceci fournit un estimateur convergent de θ. L’expression peut aussi
faire intervenir σ 2 , que l’on remplace par Sn2 ou Σ2n

Exemple

Exemple

Exemple

Méthode du maximum de vraisemblance
Principe : estimer θ par la valeur qui maximise la densité de

(X1 , . . . , Xn ).
La vraisemblance de l’échantillon (X1 , . . . , Xn ) est la fonction L, où :
si X est discrète, de loi Pθ pour tous X1 , . . . , Xn ∈ X (Ω)
n
Y
L(X1 , . . . , Xn , θ) = Pθ (xi )
i=1
si X est continue, de densité fθ , pour tous X1 , . . . , Xn ∈ X (Ω)

n
Y
L(X1 , . . . , Xn , θ) = fθ (xi )
i=1

Principe : estimer θ par la valeur qui maximise la densité de

(X1 , . . . , Xn ).
La vraisemblance de l’échantillon (X1 , . . . , Xn ) est la fonction L, où :
Un estimateur du maximum de vraisemblance pour θ est un
estimateur h(X1 , . . . , Xn ) tel que, pour tous x1 , . . . , xn ∈ X (Ω),
L(x1 , . . . , xn ; h(x1 , . . . , xn )) = maxθ∈Ω L(x1 , . . . , xn ; θ)


En pratique,
on calcule la vraisemblance L(x1 , . . . , xn , θ)
pour x1 , . . . , xn constants, on cherche θ qui maximise la fonction
φ(θ) = L(x1 , . . . , xn , θ)
en général, on dérive φ et on résout φ0 (θ) = 0 (et on étudie les

variations de φ0 pour voir que c’est un maximum).
souvent, il est plus simple de chercher le maximum de
ψ(θ) = lnL(x1 , . . . , xn , θ)
(c’est équivalent car le logarithme est strictement croissant) et
donc calculer de φ, etc.
L’estimateur du maximum de vraisemblance s’obtient en prenant
x1 , . . . , xn égaux aux variables aléatoires x1 , . . . , Xn .
Sous
Dr Mory des hypothèses
Ouattara (USP SDM) assez Probabilités
générales, on montre que ceci
et Statistiques définit
17 octobre 2022 un131 / 1
Intervalles de confiance
Un estimateur fournit une valeur (l’estimation), sensée être proche du

paramètre θ estimé. Quelle est la marge d’erreur "typique" d’un
estimateur ?
IC
Un intervalle de confiance de niveau 1 − α est un intervalle I, qui
dépend de X1 , . . . , Xn , contenant la valeur θ avec probabilité 1 − α.
NB. L’intervalle dépend du niveau de confiance, qu’il faut en principe

choisir selon l’enjeu du résultat. En pratique, on prendra souvent un
niveau de 95% (c’est-à-dire vérifié 19 fois sur 20).

Théorème Central Limite

Soit X une variable aléatoire de moyenne m et de variance σ 2 . Soit
(X1 , . . . , Xn ,) un échantillon de X . On cherche un intervalle de
confiance pour la moyenne, à partir des estimateurs sans biais X¯n et
Σ2n . Résultat crucial : quelle que soit la loi de X , X¯n a le même type
de loi :
TCL
Soit (Xn )n une suite de variables aléatoires indépendantes, de même
loi de moyenne m et d’écart type σ. Soit Zn la variable aléatoire
définie par √ ¯
n(Xn − m)
Zn = → Z ∼ N (0, 1)
σ
On a une convergence en loi.
Dans la pratique on pourra souvent appliquer ce résultat dès que
nDr ≥ 30.
Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 133 / 1
Intervalle de confiance pour la moyenne m

Soit Z ∼ N (0, 1) et a et α définis par
P(−a ≤ Z ≤ a) = 1 − α
Si n ≥ 30, le théorème de la limite centrale permet d’écrire
√ ¯
n(Xn − m)
P(−a ≤ ≤ a) ' 1 − α
σ
On obtient, vu que Σ2n est un estimateur convergent de σ 2
√ ¯
n(Xn − m)
P(−a ≤ ≤ a) ' 1 − α
Σn
ce qui peut se réécrire
Σn Σn
P(X¯n − a √ ≤ m ≤ X¯n + a √ ) ' 1 − α
n n
Intervalle de confiance pour une proportion p
Ici X est une variable aléatoire de Bernoulli de paramètre p, pour n

grand :
E (X ) = p et Var (X ) = p(1 − p)
√ ¯
n(X − p)
p n ∼ N (0, 1)
p(1 − p)
et l’intervalle de confiance pour p de niveau 1 − α précédent est donc
" p p #
¯n (1 − X¯n )
X X¯n (1 − X¯n )
IC = X¯n − a √ , X¯n + a √
n n

Intervalle de confiance pour une proportion p
Attention : pour que ces approximations soient justifiées, les

valeurs de nπ1 , nπ2 , n(1 − π1 ), n(1 − π2 ) doivent être toutes les
quatre supérieures ou égales à 5.
Les intervalles de confiance donnés ci-dessus permettent aussi de
déterminer la grandeur n de l’échantillon nécessaire pour avoir
une précision donnée pour l’estimation d’une proportion.

Tests
On souhaite, à partir de l’échantillon observé x1 , . . . , xn , savoir
si l’on peut raisonnablement conclure qu’une certaine hypothèse
sur la loi de X est fausse (en vue de prendre une décision).
L’hypothèse est appelée hypothèse nulle, et notée H0 . C’est une
hypothèse que l’on veut avoir peu de chance de rejeter si elle est
vraie (dans ce cas, on parle d’erreur de 1re espèce).
Un test est une condition sur l’échantillon x1 , . . . , xn pour
décider si on rejette H0 , ou si on considère les données
compatibles avec H0 . Le seuil de risque du test est la probabilité
d’erreur de première espèce :
α = P(rejet de H0 ) quand H0 est vraie
α doit être petit, en général on souhaite α = 5% (varie selon
l’enjeu du test).
Tests
On se donne également une hypothèse alternative H1

(incompatible avec H0 ), que l’on veut détecter. Souvent H1 sera
le contraire de H0 . La puissance du test est 1 − β, où β est la
probabilité d’erreur de 2e espèce :
β = P(acceptation de H0 ) quand H1 est vraie
On souhaite avoir β petit (donc une puissance 1 − β proche de

1) ; cependant en général on ne contrôle pas cette erreur, mais
on choisit un test qui la minimise, et on veut s’assurer qu’elle
converge vers 0 quand n → ∞.

Test sous toutes ses formes par la pratique
Chez un individu adulte, le logarithme du dosage en d-dimeres,

variable que nous noterons Xi , est modélisé par une loi normale
d’espérance µ et de variance σ 2 en d’autres termes la fonction de
2
1
densité associée est : f (x) = √2πσ exp(− (x−µ)
2σ 2
). La variable Xi est
un indicateur de risque cardio-vasculaire : on considère que chez les
individus sains, µ vaut -1, alors que chez les individus à risque, µ vaut
0. Dans les deux cas, la valeur de σ est la même.
Le Dr Soum ne souhaite pas alarmer inutilement ses patients. Il pose
l’hypothèse H0 : µ = −1 contre l’alternative H1 : µ = 0.

Test d’adéquation de m à une valeur théorique

1-) Donner la règle de décision pour son test (C’est à dire définir la
région critique au niveau α), au seuil de α = 5%. Application
Numérique : prendre n=1, σ = 0.09
2-) Calculer le risque de deuxième espèce et la puissance du test de la
question précédente. Application Numérique : prendre n=1, σ = 0.09
3-) Un patient numéro i présente une valeur de X noté Xi égale à
-0.46. Calculer la p-valeur du test du Dr. Soum. Application
Numérique : prendre n=1, σ = 0.09
4-) Le Dr. O a pour point de vue qu’il vaut mieux alarmer à tort un
patient plutôt que de ne pas l’avertir d’un risque réel. Il propose le
test d’hypothèse suivant : H00 : µ = 0 contre l’alternative
H10 : µ = −1. Donner la règle de décision pour son test, au seuil de
5%.Application Numérique : prendre n=1, σ = 0.09
5-) Selon le seuil, pour quelles valeurs de la statistique Xn les deux
médecins seront-ils d’accord ? Application Numérique : prendre n=1,



Exercices
Produit de convolution
Produit de convolution
calculer f ∗ g avec

1 si x ∈ [−1, 3[
f (x) =
0 si x ≥ 1
et
x

2
si x ∈ [0, 2]
g (x) =
0 si x ≥ 1

Exercices
Nombre de blessés
Le modèle suivant peut être utilisé pour représenter le nombre de
blessés dans les accidents de la circulation au cours d’un week-end.
Le nombre d’accidents suit une loi de Poisson de paramètre λ Le
nombre de blessés par accident, suit une loi de Poisson de
paramètreµ. Le nombre total de blessés est donc :
S = X1 + X2 + +XN S est la somme d’un nombre aléatoire de
variables de Poisson, indépendantes et de même loi.
1 Donner une expression pour P(S = s)
2 Calculer P(S = 0).
3 Calculer E(S) et V (S)

Exercices
Soit X une variable aléatoire suivant une loi de densité :

f (x) = √12π e −x pour x > 0. Soit Y une autre variable aléatoire. On
suppose que la loi conditionnelle de Y sachant X est une loi normale
1
de paramètres m = 0 et σ 2 = 2X
1 Calculer la loi du couple (Y, X)
2 Quelle est la loi conditionnelle de X sachant Y ?
3 En déduire E(X/Y)

Exercices
Une Compagnie pétrolière BEA a le choix entre trois décisions :

vendre la concession (gain direct de 125 000) conserver la concession
pendant 1 an et vendre
Baisse du prix futur du pétrole la vente n’est plus que de 110K
(prob. associée 0.9)
Hausse du prix du pétrole la vente est de 440K (prob.
complémentaire de 0.1)
exploiter la concession avec un coût de 200 000
Le puits est sec (prob. associé 0.5), il n’y aura pas de recette
Le puits est peu productif (prob. associée 0.4), il y aura 400k de
recettes
Le puits est très productif (prob. associée 0.1), il y aura 1500k
de recettes
La compagnie pétrolière BEA décide de lancer une analyse sismique
préalable qui déterminera la structure géologique du sol dans lequel
forer. Il existe 3 sortes de structures : - absence de structure (N) ; -
structure ouverte (0) ; - la structure est fermée (C).

Proba Stat SDM

Transféré par

Droits d'auteur :

Formats disponibles

Proba Stat SDM

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Proba Stat SDM

Transféré par

Droits d'auteur :

Formats disponibles

Probabilités et Statistiques

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 1/1

Pour un ensemble X , on note P(X ) = {A : A ⊂ X } l’ensemble de

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 3/1

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 4/1

Le triplet (X ; A; µ) est appelé un espace mesuré (espace mesurable

Mesure de Dirac sur (X ; P(X )) : soit a ∈ X ,

Mesure de Lebesgue Mesure de Lebesgue sur (R; B(R)) : c’est

λ([a, b]) = b − a, λ(A + x) = λ(A)

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 6/1

Un espace de probabilité (Ω, P) est constitué de

Ω correspond à l’ensemble des résultats d’une expérience aléatoire.

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 7/1

Les opérations usuelles sur des événements A et B

Notation Sens mathématique Interprétation en probabilités

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 8/1

Espaces de probabilités ; exemples

Ω correspond aux résultats de l’expérience :

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 9/1

Espaces de probabilités ; exemples

Ω correspond aux résultats de l’expérience :

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 10 / 1

Espaces de probabilités ; exemples

Si un événement A vérifie P(A) = 0, on dit que A est

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 11 / 1

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 12 / 1

Preuve de (2) : A et Ac sont disjoints (A ∩ Ac = Ω), et

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 13 / 1

Distribution uniforme de probabilité

On suppose que Ω est fini, avec Card Ω = n Ω = ω1 , ω2 , . . . , ωn . Si

k card(A) Nombre de cas favorables

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 14 / 1

Exemple : paradoxe des anniversaires

Dans un groupe de n étudiants, quelle est la probabilité que 2 (au

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 16 / 1

Exemple : paradoxe des anniversaires

On note N = 365, on suppose les dates équiprobables (et qu’il n’y a

Quelle probabilité pour le bus

Pour l’attente du bus qui passe toutes les T minutes, Ω = [0, T ]

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 18 / 1

. P(A | B) est appelée la probabilité conditionnelle de A sachant B.

Si P(B) 6= 0, cela revient à P(A | B) = P(A) Savoir que B est réalisé

Probabilités conditionnelles : exemple

On divise une galette selon le nombre d’invités, et chacun prend une

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 20 / 1

Probabilités conditionnelles : exemple

On divise une galette selon le nombre d’invités, et chacun prend une

On note F = j’ai la fève et A5 = nous sommes 5, A6 et A7 de même.

J’ai eu la fève. Quelle est la probabilité que nous étions 5 ?

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 21 / 1

Théorème (Théorème de bayes)

P(A ∩ Ai ) P(A | Ai )P(Ai ) P(A | Ai )P(Ai )

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 22 / 1

Événements indépendants : cas général

Deux événements A et B sont indépendants si

P(Ai1 ∩ Ai2 ∩ Aik ) = P(Ai1 )P(Ai2 ) . . . P(Aik )

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 23 / 1

P(Ac ∩ B c ) = P((A ∪ B)c ) = 1 − P(A ∪ B) =

Dr Mory Ouattara (USP SDM) Probabilités et Statistiques 17 octobre 2022 24 / 1