Cours de Gestion Des Risques D'assurances Et de Theorie de La Ruine

Cours de gestion des risques
d’assurances et de théorie de la
ruine
Stéphane Loisel
ISFA, 2005-2006
Table des matières
I Modélisation de la charge sinistre : du modèle indi-

viduel au modèle collectif 5
1 Modèle individuel 7
2 Modèle collectif 9
2.1 Modèle collectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Lois utilisées pour le nombre de sinistres . . . . . . . . . . . . . . 9
2.3 Lois composées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Rappels sur les transformées de Laplace, et les fonctions génératrices 11
2.4.1 Définitions et premières propriétés . . . . . . . . . . . . . 11
2.4.2 Moments, fonctions génératrices, transformée de Laplace . 13
2.4.3 Injectivité et inversion . . . . . . . . . . . . . . . . . . . . 16
2.4.4 Indépendance et caractérisation de l’indépendance . . . . 17
2.4.5 Lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.6 Lois composées . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5 Famille et algorithme de Panjer . . . . . . . . . . . . . . . . . . . 20
2.5.1 Etude et caractérisation des distributions vérifiant la re-
lation de récurrence de Panjer . . . . . . . . . . . . . . . . 20
2.5.2 Algorithme de Panjer . . . . . . . . . . . . . . . . . . . . 21
2.5.3 Comment utiliser l’algorithme de Panjer pour des v.a. po-
sitives ou nulles générales ? . . . . . . . . . . . . . . . . . 22
2.6 Hétérogénéité dans le modèle collectif, lois mélanges . . . . . . . 22
2.6.1 Propriétés générales des lois mélange . . . . . . . . . . . . 22
2.6.2 Lois Poisson-mélange . . . . . . . . . . . . . . . . . . . . . 24
2.6.3 Mélange de lois exponentielles . . . . . . . . . . . . . . . . 27
2.6.4 Lois composées mélange . . . . . . . . . . . . . . . . . . . 28
3 Approximation du modèle individuel par le modèle collectif 30
4 Compléments sur la charge sinistre 31

4.1 Normal Power, Gamma de Bowers . . . . . . . . . . . . . . . . . 31
4.2 FFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1
II Processus de Poisson 32
5 Rappels autour de la loi exponentielle 34
5.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . 34
5.2 Minimum de variables aléatoires exponentielles indépendantes . . 35
5.3 Lois exponentielles multivariées . . . . . . . . . . . . . . . . . . . 37
5.4 Sommes de variables aléatoires exponentielles indépendantes . . . 38
6 Processus de Poisson : définition et premières propriétés 41

6.1 Processus de Poisson homogène . . . . . . . . . . . . . . . . . . . 41
6.2 Processus de Poisson non homogène . . . . . . . . . . . . . . . . 48
7 Processus de Poisson composé 50
8 Propriétés de Markov et martingales 52

8.1 Propriétés de Markov . . . . . . . . . . . . . . . . . . . . . . . . 52
8.2 Martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
9 Thinning, superposition et conditionnement 53

9.1 Thinning et superposition . . . . . . . . . . . . . . . . . . . . . . 53
9.2 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
9.2.1 Cas d’un processus de Poisson homogène . . . . . . . . . 54
9.2.2 Cas d’un processus de Poisson inhomogène . . . . . . . . 55
III Théorie de la ruine 56

9.3 Méthodes de martingales . . . . . . . . . . . . . . . . . . . . . . . 61
10 Quatre différents concepts de ruine 64

10.1 La ruine ”vue par les praticiens” . . . . . . . . . . . . . . . . . . 64
10.1.1 Ruine économique . . . . . . . . . . . . . . . . . . . . . . 64
10.1.2 Ruine réglementaire . . . . . . . . . . . . . . . . . . . . . 64
10.2 La ruine ”vue par les académiques” . . . . . . . . . . . . . . . . . 64
10.2.1 Ruine en temps continu . . . . . . . . . . . . . . . . . . . 64
10.2.2 Ruine à l’inventaire . . . . . . . . . . . . . . . . . . . . . 64
10.2.3 Lien entre ruine et ruine à l’inventaire . . . . . . . . . . . 64
11 Processus de renouvellement 65
11.0.4 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
11.0.5 Some Elementary Results . . . . . . . . . . . . . . . . . . 65
11.0.6 Asymptotic Results . . . . . . . . . . . . . . . . . . . . . 66
12 Modèle de Cramer-Lundberg 68
12.1 Classical risk process . . . . . . . . . . . . . . . . . . . . . . . . . 68
13 Probabilité de ruine en temps infini 70
2
14 Probabilité de ruine en temps fini 71
15 Méthodes de martingales, temps de ruine 72
16 Mesures de risque étudiées en théorie de la ruine 73
17 Problèmes de réassurance et d’investissements optimaux, contrôle

stochastique 74
18 Processus de Lévy, résultats connus sur les temps d’atteinte et

les extrema 75
19 Versement de dividendes jusqu’à la ruine 76
20 Modèles fluides et lien avec les files d’attente 77
IV Mesures de risque 78
21 Typologie moderne des risques 79
22 Introduction 80
23 Mesures de risque cohérentes 81
24 VaR et autres mesures de risques 82
25 Mesures de risques agrégés 83
26 Mesures de risques dynamiques 84

26.1 Risques d’assurance multiples . . . . . . . . . . . . . . . . . . . . 84
26.2 Risque de marché . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
26.3 Risque de crédit . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
26.4 Risque opérationnel . . . . . . . . . . . . . . . . . . . . . . . . . 85
26.5 Risque de modèle et risque de paramètre . . . . . . . . . . . . . . 87
26.6 Risque de dérive . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
V Dépendance stochastique 88
27 Introduction 89
28 Copulas ou coupleurs 90
28.1 Définition des coupleurs et théorème de Sklar . . . . . . . . . . . 90
28.2 Copules à densité et densités conditionnelles . . . . . . . . . . . . 90
28.3 Familles de copules usuelles . . . . . . . . . . . . . . . . . . . . . 90
28.4 Inférence statistique des copules . . . . . . . . . . . . . . . . . . . 90
28.5 Copules archimédiennes . . . . . . . . . . . . . . . . . . . . . . . 90
3
29 Concepts et mesures de dépendance 91
30 Modèles à chocs communs 92
31 Modèles à environnement markovien, modèles à facteurs 93
32 Dépendance des extrêmes 94
VI Appendice, pense-bête 95
33 Lois usuelles 96
33.1 Lois de probabilité usuelles . . . . . . . . . . . . . . . . . . . . . 96
34 Types de convergence 98
34.1 Convergence en Loi . . . . . . . . . . . . . . . . . . . . . . . . . . 98
34.2 Convergence presque sûre et convergence en probabilité . . . . . 103
34.3 Convergence en moyenne . . . . . . . . . . . . . . . . . . . . . . . 111
35 Théorèmes de convergence 115

35.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . 115
35.2 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . 118
35.3 Convergence de la fonction de répartition empirique . . . . . . . 122
36 Espérance conditionnelle 123

36.1 Definition of Conditional Expectation . . . . . . . . . . . . . . . 123
36.1.1 General definition . . . . . . . . . . . . . . . . . . . . . . 123
36.1.2 Couples of random variables with p.d.f. . . . . . . . . . . 125
36.2 Properties of Conditional Expectation . . . . . . . . . . . . . . . 126
36.2.1 Conditional expectation . . . . . . . . . . . . . . . . . . . 126
36.2.2 Conditional variance . . . . . . . . . . . . . . . . . . . . . 128
36.2.3 Compound distributions . . . . . . . . . . . . . . . . . . . 129
37 Citations (à dispatcher) 130
VII Bibliographie 131
4
Première partie
Modélisation de la charge
sinistre : du modèle
individuel au modèle
collectif
5
Pour représenter et quantifier le montant cumulé de tous les sinistres à payer
sur une période donnée, l’actuaire peut utiliser le modèle individuel (voir sec-
tion 1) ou le modèle collectif (voir section 2). L’avantage du modèle individuel
est qu’il permet de tenir compte de l’hétérogénéité du portefeuille. En effet,
si tous les contrats ont les mêmes caractéristiques, alors le modèle individuel
correspond exactement au modèle collectif, et fait intervenir les distributions
composées (voir section 2.3). Le modèle collectif peut également permettre de
tenir compte de l’hétérogénéité du portefeuille en utilisant les lois mélanges et
les lois mélanges composées (voir section 2.6).
6
Chapitre 1
Modèle individuel
Le modèle individuel vise à représenter le montant total des sinistres à payer

par la compagnie d’assurances sur une période donnée (typiquement un an) en
sommant assuré par assuré les montants des sinistres subis par chaque individu
sur cette période. Soit n le nombre d’assurés, aussi appelé l’effectif du portefeuille
d’assurances, ou encore le nombre de polices. Soit Ii la variable aléatoire de
Bernouilli qui vaut 1 si au moins un sinistre a touché la i-ème police et 0 sinon,
et Wi la variable aléatoire à valeurs dans R+ représentant le montant total de
ces éventuels sinistres (qui peut être décrite soit directement, soit à l’aide du
modèle collectif décrit dans la section 2). La charge sinistre totale S sur la
période considérée est alors donnée par la formule
n
X
S= Ii .Wi .
i=1
En pratique, il est très difficile de mener les calculs dès que le nombre de polices
est élevé, même sous des hypothèses restrictives. Le plus souvent, on supposera
que les Ii sont i.i.d., avec P (I1 = 1) = p, que les Wi sont i.i.d., et que les Wi
sont indépendants des Ii . Dans ce cas, la fonction de répartition de S est donnée
par la formule classique des convolutions :
n
X
∗k
FS (x) = Cnk pk (1 − p)n−k FW (x),
k=0
∗k
oùFW est la fonction de répartition de W1 + · · · + Wk et vérifie la relation de
récurrence Z x
∗(k+1) ∗k
FW (x) = FW (x − y)dFW (y).
0
Remarquons que
Cnk pk (1 − p)n−k
représente ici la probabilité que k contrats parmi n aient subi au moins un
sinistre sur la période considérée. Dans ce cas,
2
E(S) = npE(W1 ) et Var (S) = np2 Var (W1 ) + np(1 − p) [E(W1 )] .
7
Lorsque W suit un certain type de lois, comme les lois Gamma, il est possible
∗k
d’utiliser les propriétés d’additivité de ces lois pour obtenir directement les FW
pour k ≥ 1. Par exemple, si W ∼ Γ(α, λ), dont la densité est donnée par
∗k
l’équation 5.1, alors FW est la fonction de répartition d’une loi Gamma de
paramètres (kα, λ). Ce résultat se généralise si l’indépendance est vérifiée, même
si les Wi ∼ Γ(αi , λ), avec des paramètres αi différents, mais le même paramètre
λ.
Si les Ii sont indépendants des Wi , dans le cas général, on peut juste écrire :
1
X 1
X
FS (x) = ... P (I1 = i1 , . . . , In = in )P (i1 W1 + · · · + in Wn ≤ x), (1.1)
i1 =0 in =0
ce qui correspond à une somme de 2n termes, impossible à utiliser. Dans l’exemple,

si Wi ∼ Γ(αi , λ), avec des paramètres αi différents, mais le même paramètre λ,
alors
P (i1 W1 + · · · + in Wn ≤ x)
est la fonction de répartition d’une loi
 
Xn
Γ ij αi , λ .
j=1
Si les Wi sont i.i.d., on peut simplifier (1.1) en

n
X
∗k
FS (x) = P (N = k)FW (x),
k=0
où N est la variable aléatoire correspondant au nombre de polices (parmi n)

ayant subi au moins un accident. Le modèle individuel étant souvent difficile à
utiliser numériquement, on lui préfère souvent le modèle collectif, dans lequel le
N n’est plus le nombre de polices ayant au moins un accident, mais le nombre
total d’accidents, sans distinguer police par police. Avant de passer à l’étude du
modèle collectif, mentionnons l’existence de l’algorithme de De Pril, qui permet
théoriquement d’obtenir la loi de S, mais qui est en pratique très peu utilisé
(voir Partrat et Besson (2004) page 129, et exercice en TD).
8
Chapitre 2
Modèle collectif
2.1 Modèle collectif

Le modèle collectif consiste à approcher le modèle individuel non plus en
regardant si chaque police fait défaut ou pas, mais en comptabilisant un nombre
aléatoires de montants de sinistres i.i.d.. On définit ainsi la charge sinistre totale
sur une période T dans le modèle collectif par la variable aléatoire positive
N
S coll =
X
Wi ,
i=1
où N est une variable aléatoire à valeurs dans N représentant le nombre de

sinistres sur la période T , et pour i ≥ 1, Wi est une variable aléatoire à va-
leurs dans R+ représentant le coût du i-ème sinistre, avec la convention selon
laquelle la somme est nulle si N = 0. Les (Wi )i≥1 sont supposés indépendants
et identiquement distribués, et indépendants de N (indépendance fréquences-
coûts). Ces deux hypothèses sont contestables, le fait que les montants soient
représentés par des variables identiquement distribuées n’est possible que si le
facteur d’actualisation peut être négligé, et s’il n’y a pas de risque de dérive du
coût des sinistres ; l’indépendance fréquences-coûts est valable si le portefeuille
est homogène. Si le portefeuille ne l’est pas (par exemple géographiquement),
alors on peut tenir compte de cette hétérogénéité par des lois mélanges et com-
posées mélanges (voir section 2.6). Toutefois ces hypothèses certes restrictives
facilitent énormément les calculs grâce aux résultats sur les lois composées (voir
section 2.3).
2.2 Lois utilisées pour le nombre de sinistres

La loi de Poisson a le double avantage d’être compatible à une étude dyna-
mique de la survenance des sinistres (voir le chapitre 6) et d’apparaı̂tre natu-
rellement comme limite de lois binomiales (voir page 134 de Durrett (1999)).
9
Néanmoins, la surdispersion due à l’hétérogénéité du portefeuille peut conduire
à lui préférer d’autres types de lois (voir le chapitre 2.6 de ce document et le
chapitre Modélisation de la fréquence des sinistres du cours de Christian Par-
trat).
2.3 Lois composées

Soit
N
X
S= Wi ,
i=1
où les Wi sont des v.a.i.i.d. et indépendantes de N , et où S = 0 si N = 0. Il

y a trois types de résultats principaux à connaı̂tre sur les distributions com-
posées : la formule (2.1) qui donne la fonction de répartition de S, les formules
sur les moments, et la formule sur les transformées de Laplace et les fonctions
génératrices (voir section 2.4.6 après un rappel sur les transformées de Laplace,
de Fourier et sur les fonctions génératrices), qui permet d’ailleurs de retrouver
les formules sur les moments par dérivations successives. Dans certains cas, on
dispose de méthodes numériques pour accélérer les calculs (algorithme de Panjer
(voir section 2.5), FFT (voir section 4.2) ou approximations du type Gamma ou
Normal Power (voir section 4.1)).
Commençons par écrire la fonction de répartition de S en conditionnant par le
nombre de sinistres N :
X
∗n
FS (x) = P (N = n)FW (x), (2.1)
n≥0
∗n
où FW est la fonction de répartition de W1 + · · · + Wn et vérifie la relation de
récurrence
Z x
∗(n+1) ∗n
pour n ≥ 0, FW (x) = FW (x − y)dFW (y).
0
On obtient également par conditionnement sur N les premiers moments de S :
E(S) = E (E [S | N ]) = E (N.E(W1 )) = E(N ).E(W1 ),
et
Var (S) = E (Var [S | N ]) + Var (E [S | N ])

= E (N.Var (W1 )) + Var (N.E(W1 ))
2
Var (S) = E(N ).Var (W1 ) + [E(W1 )] .Var (N ) (2.2)
Cas particulier important : loi Poisson-composée.

Si N ∼ Poi (λ), alors E(N ) = Var (N ) = λ, et la formule (2.2) se simplifie en
Var (S) = λE W12 .

10
D’une manière générale, la formule (2.2) décompose la variance de S en deux
termes : le premier correspond à la variabilité des coûts des sinistres autour
du coût moyen, le second correspond à la variabilité du nombre de sinistres
autour de la moyenne. Elle fait appel à la notion de variance conditionnelle (voir
définition VI.4 en appendice) et à la formule de décomposition de la variance
(voir section 36.2 en appendice). Ces formules peuvent aussi se retrouver grâce
aux fonctions génératrices (voir section 2.4.6). Nous devons d’abord revenir sur
les définitions et les propriétés de ces objets.
2.4 Rappels sur les transformées de Laplace, et

les fonctions génératrices
2.4.1 Définitions et premières propriétés
La fonction caractéristique d’une variable aléatoire est définie à partir de la
transformée de Fourier de sa loi. Il convient de rappeler quelques propriétés de la
transformée de Fourier, dont la définition peut varier d’une source à l’autre, sans
changer l’essence des résultats qui s’y rapporte. Ces résultats sur la transformée
de Fourier sont principalement
– son injectivité, qui va nous permettre de caractériser une loi par sa fonc-
tion caractéristique,
– le fait que la transformée de Fourier d’un produit de convolution est le
produit des transformées de Fourier, qui implique que la fonction ca-
ractéristique de la somme de deux v.a. indépendantes est le pro-
duit de leurs fonctions caractéristiques (associé au point précédent,
cela nous donne d’ailleurs un critère d’indépendance, et un moyen simple
de démontrer la stabilité d’une famille de lois (par exemple Poisson ou
normale) par l’addition),
– une formule d’inversion qui nous permet de retrouver la loi quand
on connaı̂t la transformée de Fourier, et qui peut fournir des méthodes
numériques (nous reviendrons sur les méthodes FFT (Fast Fourier Trans-
form) au chapitre 4.2),
– le fait que les moments de la variable aléatoire s’obtiennent en
fonction des dérivées successives de la fonction caractéristique.
Ces moments (voir section 2.4.2 pour un rappel sur ce sujet), ainsi que
les cumulants, peuvent être obtenus directement en dérivant des fonctions
construites à partir de la fonction caractéristique, ce qui nous amènera
à les considérer (fonction génératrice des moments, des cumulants, des
probabilités, transformée de Laplace). Ces objets ne seront pas définis
sur le même domaine, mais dans les conditions habituelles vérifieront les
principes d’indépendance (voir récapitulatif dans le théorème I.8) et de ca-
ractérisation. On choisira l’une ou l’autre selon le problème (v.a. à valeurs
dans N ou continues, les quantités recherchées sont les moments centrés
ou factoriels, ...), mais les idées générales restent les mêmes.
11
Nous rappelons ici uniquement les résultats dont nous aurons besoin. Pour plus
de détails sur les transformées de Fourier, et plus largement sur l’analyse réelle et
complexe, consulter le livre de Rudin (1987). Il est aussi utile de se remémorer le
théorème de transfert et la proposition I.1 (particulièrement dans le sens 1 ⇒ 4),
que nous utiliserons très bientôt (respectivement dès la définition I.2 et dès la
proposition I.5).
Théorème I.1 Théorème de transfert, ou de la loi image

Soit (Ω, A, P ) un espace probabilisé et X une variable aléatoire réelle. On note
PX la probabilité image de P par X, définie sur (R, B) par PX (B) = P (X −1 (B)), ∀B ∈
B. Soit g une variable aléatoire réelle définie sur (R, B). g(X) est intégrable par
rapport à P si et seulement si g est intégrable par rapport à PX et on a alors :
E P [g(X)] = E PX [g].
Proposition I.1 Soit X et Y deux variables aléatoires définies sur un espace

probabilisé (Ω, A, P ). Les quatre propositions suivantes sont équivalentes :
1. X et Y sont indépendantes.
2. Pour toutes fonctions réelles f et g mesurables et positives, E P [f (X)g(Y )] =
E P [f (X)]E P [g(Y )].
3. Pour toutes fonctions réelles f et g mesurables et bornées, E P [f (X)g(Y )] =
E P [f (X)]E P [g(Y )].
4. Pour toutes fonctions complexes mesurables f et g telles que |f (X)| et
|g(Y )| sont bornés, E P [f (X)g(Y )] = E P [f (X)]E P [g(Y )].
Definition I.1 Transformée de Fourier d’une mesure

Soit P une mesure de probabilité définie sur (R, B). On appelle transformée
de Fourier deR la mesure P , la fonction ϕ définie sur R, à valeur dans C, définie
par : ϕ(t) = eitx dP (x).
Remarques :
– si on note f , la fonction réelle
R mesurable, à valeurs dans C, qui à x as-
socie eitx , on peut réécrire eitx dP (x) comme E P (f ) avec les notations
probabilistes.
– f étant continue, c’est une v.a. sur (R,R B).
– On remarque que | eitx |= 1 et donc | eitx | dP (x) = 1. x −→ eitx est
donc donc P -intégrable et la transformée de Fourier ϕ(t) est définie en
tout t ∈ R.
Definition I.2 Fonction caractéristique

Soit (Ω, A, P ) un espace probabilisé et X une variable aléatoire réelle définie
sur (Ω, A). On définit la fonction caractéristique de X, comme étant la
transformée
R itx X de Fourier de la mesure image de P par X, P X , et on note ϕX (t) =
P itX
e dP (x) = E (e ).
Proposition I.2 Soit (Ω, A, P ) un espace probabilisé et X une variable aléatoire

réelle définie sur (Ω, A). La fonction caractéristique de X, ϕX (t)
12
1. est définie sur R,
2. vérifie ϕX (0) = 1,
3. et pour tout t ∈ R, | ϕX (t) |6 1,
4. est uniformément continue :
∀ > 0, ∃δ > 0, ∀s, t ∈ R, |t − s| < δ ⇒| ϕX (t) − ϕX (s) |< .
5. De plus, pour tout t ∈ R, ϕX (−t) = ϕX (t),

6. et pour tous a, b, t ∈ R, ϕaX+b (t) = eitb ϕX (at).
2.4.2 Moments, fonctions génératrices, transformée de La-

place
Théorème I.2 Fonction caractéristique et moments
Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, A, P ).
Si E [| X |n ] < ∞, la fonction caractéristique ϕX (t) est n fois dérivable et :
(k)
ϕX (0) = ik E(X k ), ∀k 6 n.
La réciproque du théorème I.2 est vrai pour n pair uniquement. Pour n im-
pair, si ϕX dérivable n fois, alors ϕX dérivable n − 1 fois, et comme n − 1 est
pair, on peut utiliser la réciproque du théorème I.2 avec n − 1.
On a le même genre de résultat avec la transformée de Laplace, et avec

d’autres concepts qu’on peut choisir d’utiliser en fonction du problème. L’outil
clé de ce paragraphe est la dérivation sous le signe somme.
Definition I.3 Transformée de Laplace d’une variable aléatoire Soit
X une variable aléatoire réelle définie sur un espace probabilisé (Ω, A, P ). On
appelle transformée de Laplace de la loi de X (ou de la mesure R de probabilité
P X ), la fonction réelle MX , définie par MX (t) = E P e−tX = e−tx dP X (x).
MX est définie pour t tel que l’espérance précédente est finie.
Propriété I.1 Soit X une variable aléatoire réelle définie sur un espace pro-
babilisé (Ω, A, P ). La transformée de Laplace MX est définie sur un intervalle
contenant 0.
De plus, si X est à valeurs dans R+ , alors l’ensemble de définition de MX
contient R+ .
La transformée de Laplace est un outil indispensable en théorie de la ruine,
on le verra par exemple dans l’étude du modèle de Cramer-Lundberg (voir
section12).
Definition I.4 Fonction génératrice des moments
On appelle fonction génératrice des moments de la variable aléatoire X, la
fonction MX (t) définie par MX (t) = E P etX , pour tout t ∈ R tel que etX est
P -intégrable.
13
La fonction génératrice des moments est s’obtient de manière immédiate à
partir de la transformée de Laplace
M (s) = L(−s),
et on peut transposer les propriétés déjà présentées pour la transformée de
Laplace.
Propriété I.2 Si X est une variable aléatoire réelle positive, et si MX (ou
LX ) reste finie sur un intervalle ouvert contenant 0, alors MX est infiniment
dérivable en zéro, X admet des moments à tous les ordres et
(r) (r)
E P [X r ] = MX (0) = (−1)r LX (0).
Definition I.5 Fonction génératrice des cumulants
On appelle fonction génératrice
des cumulants de la loi de X, la fonction KX
définie par KX (t) = log E P etX pour tout t ∈ R, tel que l’espérance est définie.
La fonction génératrice des cumulants est simplement le logarithme de la
fonction génératrice des moments. Les “cumulants” interviennent dans le développement
en série (quand celui ci existe) de KX (voir page 15).
Definition I.6 seconde fonction caractéristique
On appelle seconde fonction caractéristique de la loi de X, la fonction par t −→
log ϕX (t) (il s’agit du logarithme complexe).
Definition I.7 fonction génératrice (des probabilités)
Soit X une variable aléatoire définie sur un espace probabilisé (Ω, A, P ). La
fonction génératrice de X au point u est définie par
GX (u) = E P uX .

Remarquons que pour s ∈ R tel que MX (s) existe, alors GX (es ) existe et
MX (s) = GX (es ) .
Propriété I.3 Soit N une variable aléatoire définie sur un espace probabilisé
(Ω, A, P ) et à valeurs dans N. Alors
+∞
X
GN (u) = P (N = n)un
n=0
est une série entière de rayon de convergence supérieur ou égal à 1, qui ca-
ractérise la loi de N , et telle que pour n ≥ 0,
(n)
GN (0)
P (N = n) = .
n!
Ces outils permettent d’obtenir différents renseignements sur la loi de la
variable aléatoire en les dérivant. La propriété précédente permet d’obtenir des
probabilités. Voyons donc quel type de moment on peut obtenir, et comment.
14
Petits rappels sur les différents types de moments
On peut être amené à utiliser différents types de moments, les moments
simples, centrés ou factoriels, voire les cumulants.
– Pour k ∈ N, le moment simple d’ordre k d’une variable aléatoire X, noté
mk , est défini par
k
mk = E (X) .
Remarquons que m0 = 1, et que m1 , noté aussi m, est égal à E(X). Le
moment simple d’ordre k, lorsqu’il existe, est égal à la dérivée k-ème en
zéro de la fonction génératrice des moments d’après la propriété I.2.
– Pour k ≥ 1, le moment centré d’ordre k d’une variable aléatoire X, noté
µk , est défini par
k
µk = E (X − m) .
Remarquons que µ1 = m − m = 0, et que µ2 = Var (X). On peut les
obtenir à partir des moments simples par la formule
k
X
µk = (−1)k+l Ckl ml mk−l .
j=0
– Les cumulants, notés κr , sont les coefficients du développement en série

entière en zéro (qui existe dès que MX est définie sur un voisinage de 0) de
la fonction génératrice des cumulants (voir définition I.5), qui est définie
par
KX (t) = log (MX (t)) .
En cas d’existence, on a donc
(r)
κr = KX (0).
En particulier,
κ1 = m, κ2 = µ2 = Var (X), κ3 = µ3 , κ4 = µ4 − 3µ22 . (2.3)
– Pour une variable aléatoire N à valeurs dans N (représentant par exemple

le nombre de sinistres sur une période donnée), le moment factoriel d’ordre
k, noté µ(k) , est défini par
µ(k) = E (X(X − 1) . . . (X − k + 1)) .
Il est possible de récupérer les moments simples à partir des moments

factoriels grâce aux nombres de Stirling de seconde espèce :
k
X
mk = S(k, j)µ(j) ,
j=1
15
où les nombres de Stirling de seconde espèce S(n, k) correspondent aux
nombres de partitions de {1, . . . , n} en k sous-ensembles non vides, et
peuvent être obtenus récursivement par :
S(n, k) = S(n − 1, k − 1) + k.S(n − 1, k)

S(n, 1) = S(n, n) = 1.
En particulier,
m = µ(1) , m2 = µ(1) + µ(2) , m3 = µ(1) + 3µ(2) + µ(3) ,
et m3 = µ(1) + 7µ(2) + 6µ(3) + µ(4) .

Rappelons aussi pour n ≥ 0, P (N = n) est donné directement par la
dérivée n-ème de GN en 0 d’après la propriété I.3. De plus, lorsque le rayon
de convergence de la série entière GN (u) est strictement supérieur à 1, alors
on peut obtenir les moments factoriels de N grâce au développement en
série entière de GN en 1 (et non plus en 0) :
(n)
∀n ∈ N, µ(n) = GN (1).
Pour calculer les moments simples d’une variable aléatoire entière, lors-
qu’on connaı̂t GN et qu’elle a une expression qui s’y prête, il peut être
plus efficace de dériver plusieurs fois GN en 1 pour obtenir les n premiers
moments factoriels de N , puis d’utiliser les formules avec les nombres de
Stirling.
2.4.3 Injectivité et inversion

Théorème I.3 formule d’inversion avec fonction de répartition
Soit P une probabilité sur (R, B) ayant pour transformée de Fourier, ϕ(t) =
R itx
e dP (x). On note F (x) = P (] − ∞, x[), la fonction de répartition de P .
1. Soient a et b deux réels (a < b). Alors,
c
F (b) + F (b+ ) F (a) + F (a+ ) e−ita − e−itb
Z
1
− = lim ϕ(t)dt.
2 2 2π c→∞ −c it
2. Si F est continue en a et en b, alors,

Z c −ita
1 e − e−itb
F (b) − F (a) = lim ϕ(t)dt.
2π c→∞ −c it
Théorème I.4 injectivité de la transformée de Fourier d’une mesure

de probabilité
Soit P et Q deux probabilités sur (R, B). Si eitx dP (x) = eitx dQ(x), pour
R R
tout t ∈ R (égalité entre les transformées de Fourier), alors P = Q.
16
Corollaire I.1 Soit X et Y , deux variables aléatoires réelles définies sur un
espace probabilisé (Ω, A, P ). L’égalité entre les fonctions caractéristiques de X
et Y implique que X et Y ont la même loi, c’est-à-dire que P X = P Y .
La fonction caractéristique ϕX caractérise donc X. Il en est de même pour

la transformée de Laplace si elle est définie sur un intervalle contenant 0.
Théorème I.5 formule d’inversion

Soit P une probabilité sur (R, B) ayant pour transformée de Fourier, ϕ(t).
R Si ϕ
est intégrable par rapport à la mesure de Lebesgue sur R (c’est-à-dire R | ϕ(t) |
dt < ∞), alors P possède une densité p par rapport à la mesure de Lebesgue,
cette densité est continue et est donnée par :
Z
1
p(x) = e−itx ϕ(t)dt.
2π
2.4.4 Indépendance et caractérisation de l’indépendance

Definition I.8 cas multivarié
Soit X = (X1 , . . . , Xn ) un vecteur aléatoire défini sur un espace probabilisé
(Ω, A, P ). La fonction
i<t,X>caractéristique
de X est la fonction complexe, définie
P
par
Pn X ϕ (t) = E e , pour tout t = (t1 , . . . , tn ) ∈ Rn , où < t, X >=
t
i=1 i iX .
Definition I.9 Transformée de Laplace d’un vecteur aléatoire

(Ω, A, P ). On appelle transformée de Laplace de la loi
de X (ou de la mesure de
probabilité P X ), la fonction MX (t) = E P e−<t,X> , pour tout t = (t1 , . . . , tn )
tel que l’intégrale précédente est définie.
Definition I.10 fonction génératrice des moments d’un vecteur aléatoire

(Ω, A, P ). On appelle fonction génératrice des moments conjoints du vec-
teur aléatoire X, la fonction ϕ̄X (t) définie par ϕ̄X (t1 , . . . , tn ) = E P et1 X1 +...+tn Xn ,
pour tout (t1 , . . . , tn ) ∈ Rn , tel que et1 X1 +...+tn Xn est P -intégrable.
Definition I.11 fonction génératrice d’un vecteur aléatoire

(Ω, A, P ). La fonction génératrice de X au point (u1 , . . . , un ) est définie par
h i
GX (u1 , . . . , un ) = E P uX1 X2 Xn
1 u2 . . . u n .
L’injectivité de la transformée de Fourier reste vraie dans le cas vectoriel, ce

qui fournit le résultat suivant, vrai aussi pour la transformée de Laplace si elle
est définie sur un voisinage de 0.
Propriété I.4 Soit X et Y deux vecteurs aléatoires définis sur un espace pro-
babilisé (Ω, A, P ). Si ϕX = ϕY , alors P X = P Y .
17
Propriété I.5 Somme de deux variables indépendantes
Si X et Y sont deux variables aléatoires réelles définies sur un espace probabilisé
(Ω, A, P ) indépendantes, alors :
ϕX+Y (t) = ϕX (t)ϕY (t).
La propriété I.5 nous sera très utile pour étudier les distributions composées, en
fournissant entre autres l’argument essentiel à la preuve de la proposition I.3.
Théorème I.6 fonctions caractéristiques et indépendance

(Ω, A, P ). Une condition nécéssaire et suffisante pour que les composantes Xi
soient indépendantes est que la fonction caractéristique de X, ϕX (t) soit le
produit des fonctions caractéristiques des Xi , ϕXi (ti ), pour tout t = (t1 , . . . , tn )
de Rn .
Théorème I.7 fonctions caractéristiques et indépendance

Soit X et Y deux vecteurs aléatoires définis sur un espace probabilisé (Ω, A, P )
à valeurs respectivement dans Rn et Rm . X et Y sont indépendants si et seule-
ment si leur fonction caractéristique conjointe ϕ(X,Y ) (u, v) (où u ∈ Rn et
v ∈ Rm ) est égale au produit des fonctions caractéristiques de X et de Y ,
ϕX (u)ϕY (v), ∀(u, v) ∈ Rn × Rm .
Propriété I.6 lien entre le cas multivarié et le cas univarié

Soit X = (X1 , . . . , Xn ) un vecteur aléatoire à valeurs dans Rn défini sur un
espace probabilisé (Ω, A, P ). Alors ϕX (t) = ϕt0 X (1).
Terminons par un récapitulatif important :

Théorème I.8 Soit X et Y deux variables aléatoires définies sur un espace
probabilisé (Ω, A, P ) à valeurs dans R. Lorsque ces quantités existent, si X et
Y sont indépendantes, alors
ϕX+Y (t) = ϕX (t).ϕY (t)

MX+Y (t) = MX (t).MY (t)
LX+Y (t) = LX (t).LY (t)
GX+Y (t) = GX (t).GY (t)
CX+Y (t) = CX (t) + CY (t).
En particulier, la dernière égalité du théorème précédent nous permet en iden-

tifiant avec les formules (2.3) de retrouver que si X et Y sont indépendantes,
alors Var (X + Y ) = Var (X) + Var (Y ), mais surtout de montrer que
µ3 (X + Y ) = µ3 (X) + µ3 (Y ),
et que cette formule ne se généralise pas pour k ≥ 4.
18
2.4.5 Lois usuelles
Exemples de fonctions caractéristiques pour des lois usuelles.
Distribution probabilités fonction caractéristique
ϕX (t)
it n
Binomiale B(n, p) Cnk pk q n−k (1 − p) + pe
k
e−λ λk!

Poisson exp λ eit − 1
r−1 r k−r
Binomiale négative Ck−1 p q ,k>r
Distribution densité fonction caractéristique ϕX (t)

eit −1
Uniforme 1I[0,1] (x) it
2
−t2 /2
Normale centrée réduite (2π)−1/2 e−x /2 e
2 2 2 2
Normale (2πσ 2 )−1/2 e−(x−µ) /(2σ) eiµt−σ t/2
p
θ p −θx p−1 1
Gamma Γ(p) e x 1−θit
1 −|t|
Cauchy π(x2 +1) e
1 −|x| 1
Laplace 2e 1+t2
2.4.6 Lois composées

Proposition I.3 Pour
N
X
S= Yi ,
i=1
avec les hypothèses d’indépendance,
MS (s) = GN (MY (s)). (2.4)
On verra également des propriétés des fonctions génératrices des lois mélanges
(voir section 2.6). On en déduit le résultat suivant sur les moments des lois
composées :
Proposition I.4 (A CORRIGER, faire cas général) Soit
N
X
S= Wi ,
i=1
Pour r, t > 0, si GW est la fonction génératrice de W1 ,
h(r, t) = E rS = e−µ(t)(1−GW (r)) ,

d’où
d
E rS |r=1 = λtG0W (1) = µ(t)E(W1 )

E (S) =
dr
et
d2
E rS |r=1 = µ(t)E W12 .

V ar (S) =
dr2
19
2.5 Famille et algorithme de Panjer
On démontre ici sous la forme d’un problème que les lois vérifiant la relation
de Panjer (2.5) sont exactement les lois binômiales, de Poisson, et binômiales
négatives, et que pour les distributions composées, i.e. de variables aléatoires du
type
XN
S= Yi ,
i=1
lorsque N appartient à la famille de Panjer, et que les Yi sont à valeurs dans

dN∗ , où d > 0, on peut calculer directement avec l’algorithme de Panjer (2.6)
les masses de probabilité de S.
2.5.1 Etude et caractérisation des distributions vérifiant

la relation de récurrence de Panjer
On représente le nombre de sinistres rencontrés par une compagnie d’as-
surances sur une période par une variable aléatoire discrète N, à valeurs dans
N, et décrite par les pk = P (N = k) pour k ∈ N. Parmi ces distributions on
s’intéressera ici à celles vérifiant la relation de récurrence de Panjer :

b
∃a < 1, b ∈ R, ∀k ∈ N∗ , pk = a + pk−1 (2.5)
k
Le but de cette partie est de caractériser les distributions vérifiant (2.5).

Rappelons que la loi de Poisson de paramètre λ est décrite par
λk
∀k ∈ N, pk = e−λ ,
k!
et que la loi binômiale de paramètres n ∈ N∗ et p ∈]0, 1[ est décrite par

n k
∀0 ≤ k ≤ n, pk = p (1 − p)n−k
k
et pk = 0 pour k > n.
1. Montrer que si N vérifie (2.5) et que a = 0, alors N suit une loi de Poisson
dont on précisera le paramètre.
2. On définit la distribution binômiale négative de paramètres α > 0 et
p ∈]0, 1[ par
α+k−1
∀k ∈ N, pk = (1 − p)α pk
k
3. Calculer sa moyenne et sa variance en fonction de α et de p.
4. Comment pouvez-vous interpréter cette distribution à partir d’une expérience
réalisée avec succès avec probabilité p ?
20
5. Quelle distribution obtient-on lorsque α = 1 ?
6. Montrer que dans le cas α = 1 la distribution obtenue est sans mémoire,
c’est-à-dire que P (N > n + m|N > n) = P (N > m) pour tous m, n ∈ N.
7. Toujours dans le cas α = 1, montrer que N peut être vu comme la partie
entière d’une variable aléatoire absolument continue sans mémoire que l’on
précisera.
8. Lorsque N vérifie la relation de récurrence (2.5) avec a 6= 0, montrer que
pour tout k ∈ N,
k−1
ak Y
p k = p0 (∆ + i)
k! i=0
pour un certain ∆ à préciser.
9. Montrer que pour tout k ∈ N,

∆+k−1
pk = (1 − p)∆ ak (1 − a)∆
k
10. En déduire selon le signe de a la distribution de N.
11. Conclure que les distributions vérifiant la relation (2.5) sont exactement
les distributions de Poisson, binômiales et binômiales négatives.
12. Parmi ces 3 types de distributions, lequel choisiriez-vous pour modéliser
N si des observations vous montraient que la variance empirique de N est
beaucoup plus grande que la moyenne empirique de N ?
2.5.2 Algorithme de Panjer

On s’intéresse maintenant à un montant composé
N
X
X= Uk
k=1
où N et les Uk , k ∈ N sont des variables aléatoires à valeurs entières. De plus

les Uk sont indépendantes, identiquement distribuées, de loi décrite par les qk =
P (Ui = k), et indépendantes de N. La somme est nulle par convention si N =
0. Définissons de plus l’espérance d’une variable aléatoire Y à valeurs dans N
conditionnellement à un événement A par :
X
E(Y |A) = kP (Y = k|A)
k∈N
Le but de cette partie est de démontrer la validité de l’algorithme de Panjer qui

permet d’obtenir récursivement la loi de X.
1. Montrer que pour j, k ∈ N et n ∈ N∗ ,
n
!
X j
E U1 | Ui = j =
i=1
n
21
2. Définissons pour n, j ∈ N les probabilités qj∗n = P (U1 + · · · + Un = j).
Montrer que pour k, j ∈ N,
n ∗(n−1)
X qk qj−k
P (U1 = k| Ui = j) =
i=1
qj∗n
3. Supposons dans la suite que N vérifie la relation (2.5). Soit rk = P (X = k)

pour k ∈ N. Calculer r0 en fonction des qk et des pk .
4. En utilisant les questions précédentes, démontrer la formule récursive de
l’algorithme de Panjer :
j
∗
X bk
∀j ∈ N , rj = a+ qk rj−k (2.6)
j
k=1
5. Exemple : pour n ∈ N on définit la transformation stop-loss du cumul X

par πn = E[(X − n)+ ], où (X − n)+ = max(X − n, 0). Obtenir πn en
fonction des rk .
6. Démontrer une relation de récurrence entre les πn . (On pourra faire inter-
venir dans cette relation de récurrence les FX (n) = P (X ≤ n).)
7. Expliquer alors comment calculer les πn .
2.5.3 Comment utiliser l’algorithme de Panjer pour

des v.a. positives ou nulles générales ?
En pratique, deux types de problèmes risquent de se poser : la loi de la
variable aléatoire représentant le coût d’un sinistre peut être absolument
continue, ou peut avoir un atome en 0.
Il est facile d’éliminer les sauts d’amplitude nulle dans le modèle Poisson
composé.
Pour des v.a. à densité, il faut discrétiser pour obtenir une v.a. à valeurs
dans δN∗ , en respectant la moyenne, ou en respectant une règle de pru-
dence qui dépend du problème considéré.
2.6 Hétérogénéité dans le modèle collectif,

lois mélanges
L’introduction du mélange sert à prendre en compte l’hétérogénéité du
portefeuille d’assurance, et a pour effet principal d’augmenter la variance
du montant cumulé des sinistres.
2.6.1 Propriétés générales des lois mélange

Soit X une variable aléatoire suivant une certaine loi L à un ou plusieurs
paramètres, et soit α le paramètre sur lequel va porter le mélange (dans
22
la modélisation, on suppose que l’hétérogénéité du portefeuille porte prin-
cipalement sur ce paramètre). On dit que Y suit une loi L-mélange de loi
de mélange Θ sur le paramètre α si
Y ∼ L(αΘ),
où le paramètre αΘ est donc aléatoire. La variable aléatoire de mélange Θ

est en général une variable aléatoire de moyenne 1 (de manière à assurer
que la moyenne reste préservée, i.e. E(X) = E(Y )), et à valeurs dans
un ensemble A ⊂ R tel que pour θ ∈ A, αθ soit une valeur possible du
paramètre de la loi L. La restriction E(Θ) = 1 n’est pas automatique et
dépend des auteurs et du problème.
Plus généralement, on peut adopter la définition suivante :
Definition I.12 Soit Θ une variable aléatoire (de fonction de répartition
FΘ ) et A ⊂ R tel que P (Θ ∈ A) = 1, et (F (. | θ))θ∈A une collection de
fonctions de répartitions pour A ⊂ R. On dit que X suit un mélange de
lois (avec Θ comme loi de mélange) si pour tout x ∈ R, pour tout θ ∈ A,
P (X ≤ x | Θ = θ) = F (x | θ).
Dans ce cas, pour tout x ∈ R,

Z

FX (x) = P (X ≤ x) = E E 1{X≤x} | Θ = F (x | θ) dFΘ (θ).
θ∈A
Prenons tout de suite deux exemples, pour éclaircir cette notion, les lois
Poisson-mélange, qui seront étudiées en détail dans la sous-section sui-
vante, et les lois binômiale-mélange. On dit que N suit une loi Poisson-
mélange si
N ∼ Poi (λΘ),
où Θ est une variable aléatoire positive et de moyenne 1 (de manière à
assurer que λΘ est toujours positif, et que E(N ) = λ).
On dit que N suit une loi binômiale-mélange si
N ∼ Bin(n, pΘ),
où Θ est une variable aléatoire à valeurs dans [0, 1/p] et de moyenne 1 (de
manière à assurer que pΘ est toujours entre 0 et 1, et que E(N ) = np).
Une formulation plus correcte de ces deux exemples aurait consisté à dire
que sachant que Θ = θ, N suit une certaine loi de paramètres dépendant
de la valeur de θ (voir la définition I.14 dans le cas poissonien).
Remarquons qu’on a déjà vu un exemple (certes peu représentatif de
l’usage habituel des lois mélanges) de loi mélange dans un chapitre précédent.
Le modèle collectif, avec N ∼ Poi (λ) et W ∼ Exp (µ), fournit un exemple
de loi Gamma-mélange avec une loi de Poisson comme loi de mélange : en
effet si N = n, la charge sinistre globale
S ∼ Γ(µ, n),
23
et donc S suit une loi Gamma-mélange
S ∼ Γ (µ, N ) .
Dans ce cas, remarquons qu’on n’impose pas E(N ) = 1. La moyenne et la

variance de S qu’on obtenait dans le modèle collectif correspondent à un
cas particulier du résultat général suivant, dont la démonstration est basée
sur les notions d’espérance de variance conditionnelles, et sur la formule
de décomposition de la variance.
Proposition I.5 Soit X une variable aléatoire suivant un mélange de lois
(avec Θ comme loi de mélange). Alors
E(X) = E (E [X | Θ]) .
Var (X) = E (Var [X | Θ]) + Var (E [X | Θ]) .

Preuve :
voir page 128 les rappels sur la variance conditionnelle.

2.6.2 Lois Poisson-mélange

Les lois Poisson-mélange forment une classe très importante et très utilisée
des lois mélange. La loi de Poisson étant équidispersée, les lois Poisson-
mélange (avec une loi de mélange non triviale) sont de fait surdispersées.
Definition I.13 Lois Poisson-mélange
Soit Θ une variable aléatoire (de fonction de répartition FΘ ) et A ⊂
]0, +∞[ tel que P (Θ ∈ A) = 1. On dit que N suit une loi Poisson-mélange
de paramètres (λ, Θ) (avec Θ comme loi de mélange) si E(Θ) = 1 et si
pour tout n ∈ N, pour tout θ ∈ A,
(λθ)n
P (N = n | Θ = θ) = e−λθ .
n!
Exercice I.1 (Exemple simple en lien avec la théorie de la crédibilité
(voir cours de Pierre Thérond) et les processus de Poisson (voir cha-
pitre 6)) Modèle à bons et mauvais conducteurs :
On suppose qu’il y a exactement 2 sortes de conducteurs : les bons conduc-
teurs qui ont un accident tous les 10 ans en moyenne et les mauvais
conducteurs qui ont un accident tous les 5 ans en moyenne. Soit B l’événement
“être un bon conducteur” et M l’événement “être un mauvais conducteur”.
Supposons qu’il y a autant de bons que de mauvais conducteurs, si bien
que P (B) = P (M ) = 12 .
(a) On modélise le temps en années jusqu’au prochain accident d’un bon
(resp. mauvais ) conducteur par une variable aléatoire exponentielle
de paramètre λB (resp. λM ). Quelles sont les valeurs que l’on doit
prendre pour λB et λM ?
24
(b) On suppose ou on démontre que le nombre de sinistres pendant un
temps t suit une loi de Poisson de paramètre λt si le temps entre deux
sinistres suit une loi exponentielle de paramètre λ. De plus dans toute
cette partie on suppose que le coût d’un sinistre est déterministe égal
à c. A l’aide des probabilités totales calculer la prime pure qu’un
assureur pourrait faire payer à un nouvel assuré pour un an, c’est-à-
dire π = cE(N ) où N est le nombre de sinistres subis par l’assurés
en 1 an.
(c) Sachant que l’assuré n’a pas eu d’accident la première année, calculer
la nouvelle probabilité qu’il soit un bon conducteur : P (B|N = 0).
(d) Calculer P (B|N = k) pour k = 1, 2, 3, 4.
(e) Comparez ces probabilités à P (B). Qu’observez-vous ? Comment pouvez-
vous l’expliquer ?
Après cet exercice, voici les propriétés les plus importantes des lois Poisson
mélange.
Proposition I.6 Identification des lois Poisson-mélange
Soit N1 et N2 deux variables aléatoires suivant des lois Poisson mélange
de paramètres respectifs (λ, Θ1 ) et (λ, Θ2 ). N1 et N2 ont même loi équivaut
alors à Θ1 et Θ2 ont même loi.
Preuve :
La démonstration de cette proposition est immédiate d’après la propo-
sition I.9 et le fait que la fonction génératrice suffit à caractériser une
loi.

Proposition I.7 Moyenne et variance des lois Poisson-mélange
Soit N une variable aléatoire suivant une loi Poisson mélange de pa-
ramètres (λ, Θ). Alors
E(N ) = λ et Var (N ) = λ (1 + λVar (Θ)) .
Preuve :
Démonstration directe avec la proposition générale I.5 et la moyenne et la
variance d’une loi de Poisson.

Le mélange augmente donc la variance, qui, contrairement au modèle de
Poisson (sans mélange), devient strictement plus grande que la moyenne,
ce qui correspond au phénomène de surdispersion. La proposition précédente
nous dit qu’après mélange les valeurs prises par la variable aléatoire sont
en moyenne plus éloignées de la moyenne qu’avant le mélange. Dans le cas
des lois de Poisson mélange, le théorème suivant nous donne encore plus
d’information : les masses de probabilité sont augmentées par le mélange
en-dehors d’un intervalle donné par deux valeurs t1 < t2 , et diminuent
pour les valeurs comprises entre t1 et t2 .
25
Proposition I.8 Théorème des deux croisements de Shaked (1980)
ramètres (λ, Θ). Alors il existe deux entiers 0 ≤ k1 < k2 tels que
(λ)n
P (N = n) ≥ e−λ pour n ≤ k1 et pour n > k2
n!
et
(λ)n
P (N = n) ≤ e−λ pour k1 < n ≤ k2 .
n!
Preuve :
P (N = k)
c(k) = −1
e−λ λk /k!
Z +∞ k
θ
= eλ−θ fΘ (θ)dθ − 1
0 λ
c est convexe en k comme barycentre de fonctions convexes, car pour tout

x > 0, la fonction
α → xα = eα ln(x)
est convexe. c peut donc s’annuler et changer de signe au plus deux fois.
c doit avoir au moins un changement de signe, sinon on aurait E(N ) > λ
ou E(N ) < λ. Elle ne peut pas en avoir un seul car c(0) = eλ − 1 > 0 et
limn→+∞ c(n) = +∞.

Proposition I.9 Mélange et fonctions génératrices
ramètres (λ, Θ), GN (.) = E(.N ) la fonction génératrice de N , et LΘ (.) =
E e−.Θ la transformée de Laplace de Θ. Alors pour x ≥ 0,
GN (x) = LΘ (λ(1 − x)).
Preuve :
Il suffit de se souvenir que pour x ≥ 0, si N 0 suit une loi de Poisson de
paramètre λ0 , 0
GN (x) = eλ (x−1)
pour obtenir en conditionnant par Θ le résultat souhaité :
Z
GN (x) = eλθ(x−1) fΘ (θ)dθ = LΘ (λ(1 − x)).
θ∈A
26
Proposition I.10 Soit N une variable aléatoire suivant une loi Poisson
mélange de paramètres λ et
Θ ∼ Γ(α, α).
Alors
N ∼ P(λΘ)
suit une loi binômiale négative :

α
N ∼ BN α, .
α+λ
Preuve :
Exercice : calculer la fonction génératrice des probabilités de N , et re-
connaı̂tre celle d’une loi binômiale négative.

Exercice I.2 Soit N1 et N2 deux variables aléatoires indépendantes sui-
vant des lois Poisson-mélange de paramètres respectifs (λ1 , Θ1 ) et (λ2 , Θ2 ).
Alors N1 + N2 suit une loi Poisson-mélange de paramètres

1
λ1 + λ2 , (λ1 Θ1 + λ2 Θ2 ) .
λ1 + λ 2
2.6.3 Mélange de lois exponentielles

On peut aussi obtenir la loi de Pareto de deuxième espèce comme mélange
de lois exponentielles :
Proposition I.11 Soit
X ∼ Exp (Θ)
avec
Θ ∼ Γ(α, t).
Alors pour x ≥ 0, α
t
P (X > x) = ,
x+t
i.e. X suit une loi de Pareto de deuxième espèce de paramètres t et α.
Preuve :
Exercice : il suffit d’écrire la formule classique du mélange.

Proposition I.12 La fonction de queue F̄ de X ∼ Exp (Θ) est donnée
au point x ≥ 0 par
Z +∞
e−θx fΘ (θ)dθ = E e−xΘ

F̄ (x) = P (X > x) =
0
et correspond donc à la transformée de Laplace de la variable aléatoire

positive Θ.
27
2.6.4 Lois composées mélange
Les lois composées mélange sont juste des lois mélange pour lesquelles la loi
sous-jacente est une loi composée quelle que soit la valeur du paramètre de
mélange θ. On a donc exactement les mêmes propriétés que précédemment.
Voyons ce que cela donne pour les loi Poisson-composées mélange.
Definition I.14 Lois Poisson-composées mélange
Soit Θ une variable aléatoire (de fonction de répartition FΘ ) et A ⊂
]0, +∞[ tel que P (Θ ∈ A) = 1. Soit W une variable aléatoire. On dit que
S suit une loi Poisson-composée mélange de paramètres (λ, W, Θ) (avec
Θ comme loi de mélange) si E(Θ) = 1 et si pour tout x ∈ R, pour tout
θ ∈ A,
Nθ
!
X
P (S ≤ x | Θ = θ) = P Wi ≤ x ,
i=1
où Nθ suit une loi de Poisson de paramètre λθ, et où les (Wi )i≥1 forment
une suite de variables aléatoires indépendantes, identiquement distribuées,
de même loi que W , et indépendantes de Nθ , et avec la convention que la
somme ci-dessus est nulle si Nθ = 0.
Proposition I.13 Moyenne et variance des lois Poisson-composées
mélange
Soit S une variable aléatoire suivant une loi Poisson-composée mélange
de paramètres (λ, W, Θ), avec W et Θ de carré intégrable. Alors
E(S) = λE(W ) et Var (S) = λE(W 2 ) + (λE(W ))2 Var (Θ).
Preuve :
Démonstration directe avec la proposition générale I.5 et la moyenne et la
variance d’une loi Poisson-composée.

La variance d’une loi Poisson-composée mélange peut se réécrire sous la
forme suivante
Var (S) = λVar (W ) + λ[E(W )]2 + (λE(W ))2 Var (Θ).
Exercice : interpréter cette décomposition de la variance de la charge si-

nistre globale.
Remarque : on aurait pu introduire de l’hétérogénéité dans la fréquence et
dans le coût des sinistres, en définissant une suite de variables aléatoires
(Wθ )θ∈A . Toutefois, dans la littérature, il n’y a en général pas de mélange
sur les coûts dans ce qui est appelé loi Poisson-composée mélange.
Proposition I.14 Convergence en loi
Soit (Sλ )λ>0 une collection de variables aléatoires telle que pour λ > 0, Sλ
28
suit une loi Poisson-composée mélange de paramètres (λ, W, Θ). Supposons
de plus que W et Θ sont de carré intégrable. Alors
Sλ
→Θ en loi
λ
quand λ → +∞.
Preuve :
exercice.

Notons que contrairement au cas sans mélange, on n’a pas de convergence
vers une loi normale (éventuellement en renormalisant) avec un argument
du type théorème central limite, mais vers la loi de mélange elle-même.
29
Chapitre 3
Approximation du
modèle individuel par le
modèle collectif
En séances de TD seront abordées diverses majorations de l’erreur faite en

approchant le modèle individuel par le modèle collectif. On peut se référer
par exemple à Charpentier et Denuit (2004) page 285.
30
Chapitre 4
Compléments sur la
charge sinistre
4.1 Normal Power, Gamma de Bowers

Voir exercice en séance de TD, et par exemple Partrat et Besson (2004)
pages 542 et suivantes, Charpentier et Denuit (2004) page 210, ou le po-
lycopié de Pierre Thérond sur le modèle collectif.
4.2 FFT
Voir exercice en séance de TD et par exemple page 141 de Rolski et al.
(1999).
31
Deuxième partie
Processus de Poisson
32
Ce chapitre est utile pour le cours de modèle de durées de Frédéric Plan-
chet, l’étude du modèle à chocs communs (voir partie 30), les modèles
structurels et à intensité en théorie du risque de crédit, et bien sûr le
cours de théorie de la ruine (voir partie III).
33
Chapitre 5
Rappels autour de la loi

exponentielle
5.1 Définition et premières propriétés

Definition II.1 On dit qu’une variable aléatoire X suit la loi exponen-
tielle de paramètre λ > 0 si sa fonction de répartition est donnée pour
x ∈ R par
FX (x) = (1 − e−λx )1R+ (x).
On utilisera alors la notation X ∼ Exp (λ).
Proposition II.1 Soit X ∼ Exp (λ). Alors, X admet pour densité fX
donné pour x ∈ R par
fX (x) = λe−λx 1R+ (x).
De plus, X est de carré intégrable et
1 1
E X2 = 2 .

E(X) = et
λ λ
Preuve :
On obtient les deux premiers moments par une simple intégration par
parties.

La proposition suivante sera très utilisée en théorie de la ruine, car elle
permettra de dire qu’un processus de Poisson composé perd sa mémoire à
un instant bien choisi, ou d’utiliser des méthodes de martingales lorsque
les coûts de sinistres suivent une loi exponentielle (voir partie III).
Proposition II.2 La loi exponentielle possède la propriété de perte de
mémoire : pour tous s, t ≥ 0
P (X > t + s | X > s) = P (X > t).
34
On peut démontrer que la loi exponentielle est la seule loi continue sur
R+ à avoir cette propriété.
Théorème II.1 La seule loi continue sur R+ à vérifier la propriété de
perte de mémoire est la loi exponentielle. La seule loi à valeurs dans N∗ à
vérifier la propriété de perte de mémoire est la loi géométrique.
Preuve :
Exercice, voir Rolski et al. (1999).

5.2 Minimum de variables aléatoires expo-

nentielles indépendantes
Soit n ≥ 1 et X1 , . . . , Xn des variables aléatoires indépendantes telles que
pour 1 ≤ i ≤ n,
Xi ∼ Exp(λi )
avec λi > 0. En risque de défaut, cette situation pourrait intéresser un
investisseur pouvant acheter des obligations de n différentes compagnies.
Dans les modèles à intensité (voir chapitre 26.3 sur le risque de crédit), on
modélise le temps au bout duquel la i-ème compagnie fait défaut par le
premier instant de saut d’un processus de Poisson non homogène (qui sera
défini chapitre 6). Les variables aléatoires Xi ne sont dans ces modèles
en général pas indépendantes. Toutefois, afin d’interpréter les résultats
suivants, on peut s’intéresser au cas particulier de n processus de Poisson
homogènes indépendants, ce qui nous donne (comme nous le verrons dans
la partie 6) n premiers instants de sauts indépendants et suivant des lois
exponentielles. Il existe des produits financiers du type first-to-default swap
dont le payoff dépend de la survenance ou non d’un événement défavorable
avant une date t sur un des n actifs. Un investisseur serait entre autres
intéressé par connaı̂tre la loi du premier temps de défaut, c’est-à-dire de
T = min(X1 , . . . , Xn ),
et par savoir lequel des actifs risque de faire défaut en premier. On peut
répondre très facilement à ces deux questions pour des variables aléatoires
indépendantes et de lois exponentielles.
Proposition II.3 Soit n ≥ 1 et X1 , . . . , Xn des variables aléatoires indépendantes
telles que pour 1 ≤ i ≤ n,
Xi ∼ Exp(λi ).
Alors !
n
n X
T = min(Xi ) ∼ Exp λi .
i=1
i=1
35
Preuve :
n
Y Pn
P (T > t) = P (X1 > t, . . . , Xn > t) = P (Xi > t) = e−( i=1 λi )t
,
i=1
ce qui montre que !

n
X
T ∼ Exp λi .
i=1

Quel actif fait défaut en premier ?
Considérons le cas n = 2.
Z +∞
P (X1 < X2 ) = fX1 (s)P (X2 > t + s | X1 = s)
0
Z +∞
= λ1 e−λ1 s e−λ2 s ds
0
λ1
= ,
λ1 + λ 2
car Z +∞
(λ1 + λ2 )e−(λ1 +λ2 )s ds = 1.
0
On montre de la même manière la proposition suivante :
Proposition II.4 Pour n ≥ 1, et pour 1 ≤ i ≤ n, la probabilité que Xi
soit le plus petit est donnée par
λi
P (min(X1 , . . . , Xn ) = Xi ) = .
λ1 + · · · + λn
Soit I la variable aléatoire à valeurs dans [1, n], définie par
{I = i} = {min(X1 , . . . , Xn ) = Xi }.
Supposons que n = 2 et que λ1 = 100000 et que λ2 = 0.00001 (ce qui

correspond à EX1 = 1/100000 et EX2 = 100000). On pourrait penser que
si min(X1 , X2 ) était égal à 200000, la probabilité que I = 2 serait plus
élevée que si min(X1 , X2 ) était égal à 0.00002. En fait, ce raisonnement
est faux, et au contraire, on a le résultat suivant :
Proposition II.5 Les variables aléatoires I et
T = min(X1 , . . . , Xn )
sont indépendantes.
36
Preuve :
Calculons la densité jointe de I et T (où la densité I correspond à la
densité discrète) : pour 1 ≤ i ≤ n et t > 0,
f(I,T ) (i, t) = fXi (t)P (∀j 6= i, Xj > t)

Y
= λi e−λi t . e−λj t
j6=i
λi
= .(λ1 + · · · + λn )e−(λ1 +···+λn )t
λ1 + · · · + λn
= fI (i).fT (t)
d’après les propositions II.3 et II.4.

5.3 Lois exponentielles multivariées

En risque de crédit, les instants de défaut de différentes entreprises sont
a priori loin d’être indépendants. On s’intéresse donc naturellement aux
lois multivariées dont les marginales sont exponentielles. Une fois les lois
marginales fixées, on obtient la loi jointe par l’intermédiaire d’une copule.
Cette notion sera abordée en détail dans les chapitres 28.1 à 28.5. Les lois
dont les marginales sont des lois exponentielles sont souvent appelées lois
de Marshall-Olkin, ce qui peut aussi concerner uniquement une partie de
ces lois. On donnera ici trois exemples de familles de lois dont les lois mar-
ginales sont des lois exponentielles, et qui fournissent autant d’exercices
de maniement sur les lois exponentielles et sur les lois jointes :
– les lois bivariées de Marshall-Olkin : ce sont celles des couples
X = (X1 , X2 ) = (min(Y1 , Y ) , min(Y2 , Y )) ,
où Y1 , Y2 et Y sont des variables aléatoires indépendantes de lois ex-

ponentielles de paramètres respectifs λ1 , λ2 et λ. D’après la proposi-
tion II.3, Xi ∼ Exp (λi + λ) pour i = 1, 2, et de plus
min(X1 , X2 ) ∼ Exp (λ1 + λ2 + λ)
puisque
min(X1 , X2 ) = min(X1 , X2 , X).
Sa fonction de queue de distribution bivariée est donnée par
F̄X (x1 , x2 ) = P (X1 > x1 , X2 > x2 ) = exp(−(λ1 x1 +λ2 x2 +λ min(x1 , x2 )))
pour x1 , x2 > 0. En particulier, pour h > 0, et pour x1 , x2 > 0,
P (X1 > x1 + h, X2 > x2 + h | X1 > x1 , X2 > x2 ) = P (X1 > h, X2 > h),
37
ce qui correspond à une propriété de perte de mémoire pour une loi
bivariée. La notion de perte de mémoire n’est ici plus unique, nous en
verrons une autre définition possible avec la famille de lois suivante.
Ce cadre peut être étendu aux lois multivariées en général, et il est
possible d’obtenir explicitement la forme de la fonction copule associée
(voir chapitre 28.1).
– les lois exponentielles multivariées de Gumbel : une autre façon de définir
la perte de mémoire est de le faire uniquement sur les accroissements
d’une des marginales : pour h > 0, et pour x1 , x2 > 0,
P (X1 > x1 + h | X1 > x1 , X2 > x2 ) = P (X1 > h | X2 > x2 ),
et
P (X2 > x2 + h | X1 > x1 , X2 > x2 ) = P (X2 > h | X1 > x1 ).
Ceci est vérifié pour les lois bivariées de Gumbel, définies par la fonction
de répartition jointe
FX (x1 , x2 ) = P (X1 > x1 , X2 > x2 ) = 1 − e−x1 − e−x2 + e−x1 −x2 −θx1 x2 .
L’unique paramètre est θ ∈ [0, 1] et aura un impact à la fois sur les

marginales et sur la dépendance.
– les lois exponentielles de Basu-Block, sont données par
F̄ (x1 , x2 ) = exp(−λ1 x1 − λ2 x2 − λ max(x1 , x2 ))
λ
+ [exp(−λ1 x1 − λ2 x2 − λ max(x1 , x2 )) − exp(−(λ1 + λ2 + λ max(x1 , x2 )))]
λ1 + λ 2
pour x1 , x2 > 0. Comme les lois de Marshall-Olkin bivariées, elles sont
définies par trois paramètres λ1 , λ2 et λ > 0, et vérifient la propriété
suivante :
min(X1 , X2 ) ∼ Exp (λ1 + λ2 + λ)
(ce qui est aussi vérifié par les lois de Marshall-Olkin).
5.4 Sommes de variables aléatoires exponen-

tielles indépendantes
Nous verrons dans le chapitre 6 que la loi du temps entre deux sauts d’un
processus de Poisson homogène d’intensité λ > 0 est la loi exponentielle
de paramètre λ. En théorie de la ruine, chaque saut d’un processus de
Poisson correspond à un sinistre (accident de voiture, incendie, ...) que
la compagnie d’assurances va devoir indemniser. Si on modélise par X1
l’instant de survenance du premier sinistre, puis par X2 le temps écoulé
entre le premier et le deuxième sinistre, et plus généralement par Xi le
38
temps écoulé entre le i-ème et le (i + 1)-ième sinistre, et si l’on suppose
que les (Xi )i≥1 sont des variables aléatoires indépendantes, identiquement
distribuées et de loi exponentielle de paramètre λ, quelle est la loi de la
date de survenance du n-ème sinistre ?
Proposition II.6 Soit n ≥ 1 et X1 , . . . , Xn des variables aléatoires indépendantes,
identiquement distribuées et de loi exponentielle de paramètre λ > 0. Alors
Sn = X 1 + · · · + X n
suit une loi Gamma de paramètres (n, λ), de densité
xn−1 λn e−λx
fSn (x) = 1R+ (x).
(n − 1)!
Preuve :
La démonstration se fait par récurrence sur n.

Proposition II.7 Sous les hypothèses de la proposition précédente,
n n
E(Sn ) = et Var (Sn ) = 2 .
λ λ
Preuve :
Immédiat d’après la proposition II.1, car les Xi sont i.i.d..

On parle également de loi d’Erlang de paramètres (n, λ). Les lois d’Erlang
correspondent à la sous-famille des lois Gamma (α, λ) pour lesquelles α ∈
N∗ . Rappelons que dans le cas général, une variable aléatoire X suit une
loi Gamma de paramètres α et λ strictement positifs si elle admet pour
densité :
xα−1 λα e−λx
fX (x) = 1R+ (x), (5.1)
Γ(α)
où, pour α > 0, Z +∞
Γ(α) = tα−1 e−t dt.
0
On peut définir des lois Gamma multivariées à partir de variables aléatoires

exponentielles indépendantes. La famille des lois de Cherian est définie par
(X1 , X2 ) = (Y1 + Y, Y2 + Y ),
où Y1 , Y2 et Y sont des variables aléatoires indépendantes exponentielles

de paramètres respectifs λ1 , λ2 et λ. Les lois marginales sont des lois
Gamma(2, λ) si λ1 = λ2 = λ. Dans le cas général, les lois marginales
ne sont pas des lois Gamma, mais des lois phase-type, qui correspondent
39
au temps d’atteinte d’un état absorbant par un processus de Markov à
nombre d’états finis. La densité jointe est alors donnée sur R+ × R+ par
min(x1 ,x2 )
e−(x1 +x2 )
Z
fX (x1 , x2 ) = (x1 − t)λ1 −1 (x2 − t)λ2 −1 tλ−1 dt.
Γ(λ1 )Γ(λ2 )Γ(λ) 0
Les sommes de variables aléatoires exponentielles indépendantes vérifient

également des propriétés conditionnelles liées aux statistiques d’ordre, ce
que nous verrons au chapitre suivant (voir en particulier le théorème II.3).
40
Chapitre 6
Processus de Poisson :
définition et premières
propriétés
6.1 Processus de Poisson homogène

Il y a plusieurs manières équivalentes de définir un processus de Poisson
homogène. Nous adopterons celle qui permet de construire facilement les
trajectoires du processus, et qui se généralise aux processus dits de renou-
vellement (voir chapitre 11). Néanmoins, la seconde, qui sera énoncée dans
le théorème II.2, se généralisera plus facilement aux processus de Poisson
inhomogènes (voir chapitre 6.2) et aux processus de Poisson en dimensions
supérieures.
Definition II.2 Processus de Poisson homogène
Soit (Xn )n∈N∗ une suite de variables aléatoires indépendantes, identique-
ment distribuées, et de loi exponentielle de paramètre λ > 0. Pour n ≥ 1,
notons Sn = X1 + X2 + ... + Xn , et S0 = 0. Le processus (N (t))t≥0 , défini
par
X
N (t) = 1{Sn ≤t} = nombre de Sn entre 0 et t = sup{n, Sn ≤ t}
n≥1
est appelé processus de Poisson (homogène) d’intensité λ.

Remarque : Rappelons que, d’après la proposition II.6, Sn suit une loi
Gamma de paramètres n et λ, Γ(n, λ), de densité donnée par
sn−1
fSn (s) = e−λs λn 1 + (s)ds.
(n − 1)! R
41
Par des intégrations par parties successives, on peut montrer que la fonc-
tion de répartition de Sn est donnée pour x ∈ R par
n−1
X (λx)k
FSn (x) = 1 − e−λx 1 + (x). (6.1)
k! R
k=0
Remarquons également que
{N (t) = n} = {Sn ≤ t < Sn+1 } (6.2)
et que
{N (t) ≥ n} = {Sn ≤ t}. (6.3)
Si l’on reprend l’exemple de la page 38, dans lequel Xi représente le temps
entre le i-ème et le (i + 1)-ème sinistre, Sn représente la date d’occurrence
du n-ème sinistre, et N (t) représente le nombre de sinistres survenus avant
la date t. L’équation (6.2) dit que le nombre de sinistres survenus avant
t est égal à n si et seulement si le n-ème sinistre a eu lieu avant t, et
le n + 1-ème après t. L’équation (6.3) dit simplement que le nombre de
sinistres survenus avant t est supérieur ou égal à n si et seulement si le
n-ème sinistre a eu lieu avant t. En utilisant les équations (6.1) et (6.3),
on comprend maintenant pourquoi le processus est dit de Poisson et non
exponentiel. En effet, pour n ≥ 0 et t > 0,
P (N (t) = n) = P (N (t) ≥ n) − P (N (t) ≥ n + 1)

= P (Sn ≤ t) − P (Sn+1 ≤ t)
" n−1
#
k
−λt (λt)
X
= 1− e
k!
k=0
" n
#
k
X (λt)
− 1− e−λt
k!
k=0
n
−λt (λt)
= e ,
n!
ce qui montre le lemme suivant :
Lemme II.1 Soit N (t) un processus de Poisson homogène de paramètre
λ. Pour tout t > 0, N (t) suit une loi de Poisson de paramètre λt.
Rappelons quelques propriétés importantes de la loi de Poisson qui vont
nous servir (voir le chapitre 2 pour les démonstrations) :
Lemme II.2 Soit X une variable aléatoire suivant une loi de Poisson de
paramètre λ > 0.
– Sa fonction génératrice est donnée pour t > 0 par
GX (t) = E tX = e−λ(1−t) .

42
– Ses deux premiers moments valent
E(X) = Var (X) = λ.
Cette propriété, dite d’équidispersion (moyenne = variance) est très

importante, car elle est relativement facile à vérifier empiriquement, et
permettra de confirmer ou de mettre en doute la pertinence du modèle
Poisson-composé (voir chapitres 2 et 7).
– Si Y suit une loi de Poisson de paramètre µ > 0 et est indépendante de
X, alors X + Y suit une loi de Poisson de paramètre λ + µ.
Definition II.3 Processus à accroissements stationnaires, à ac-
croissements indépendants
– On dit qu’un processus (X(t))t≥0 est à accroissements indépendants si

pour tout n ≥ 2, pour tous 0 ≤ t1 < t2 < · · · < tn , les variables
aléatoires
X(t1 ), X(t2 ) − X(t1 ), . . . , X(tn ) − X(tn−1 )
sont indépendantes.
– On dit qu’un processus (X(t))t≥0 est à accroissements stationnaires si
pour tout n ≥ 2, pour tous 0 ≤ t1 < t2 < · · · < tn et pour h ≥ 0, la loi
de
(X(t2 + h) − X(t1 + h), . . . , X(tn + h) − X(tn−1 + h))
ne dépend pas de h.
Remarquons que si (X(t))t≥0 est à accroissements indépendants, alors
X(t) est à accroissements stationnaires si et seulement si pour tout s > 0,
la loi de X(t + s) − X(t) ne dépend pas de t, et est donc la même que celle
de X(s) − X(0).
Nous pouvons maintenant énoncer le théorème II.2, qui contient une deuxième
manière de définir un processus de Poisson et qui montre au passage qu’elle
est bien équivalente à la définition II.2 que nous avions choisie.
Théorème II.2 Propriétés caractéristiques d’un processus de Pois-
son (1)
(a) N (0) = 0 presque sûrement.
(b) ∀t > s, N (t) − N (s) suit une loi de Poisson de paramètre λ(t − s)
(en particulier, (N (t))t≥0 est un processus à accroissements station-
naires).
(c) (N (t))t≥0 est à accroissements indépendants.
Réciproquement, tout processus (N (t))t≥0 qui vérifie les points 1 à 3 est
un processus de Poisson homogène d’intensité λ.
Preuve :
Exercice (voir Durrett (1999) page 132 et Rolski et al. (1999)).
43

Ce théorème explique la dénomination processus de Poisson. Néanmoins, il
ne s’agit pas des seules propriétés caractéristiques du processus de Poisson
homogène. Les deux autres caractéristiques principales sont la répartition
uniforme des sauts une fois leur nombre connu, et le fait que lorsque ∆t →
0, la probabilité qu’il y ait un saut dans l’intervalle de temps [0, ∆t] est
équivalente à λ∆t et la probabilité qu’il n’y ait pas de saut à 1 − λ∆t.
Avant de résumer tout cela dans le théorème II.3, rappelons la définition
et les propriétés des statistiques d’ordre, ou lois de Dirichlet, dont nous
allons avoir besoin.
Definition II.4 Soit n ≥ 1 et (U1 , . . . , Un ) n variables aléatoires indépendantes
uniformément distribuées sur un intervalle fini [a, b]. Notons (V1 , . . . , Vn )
leur réarrangement dans l’ordre croissant. La loi de (V1 , . . . , Vn ) est ap-
pelée la statistique d’ordre n ou loi de Dirichlet d’ordre n sur [a, b],
et notée Dn ([a, b]).
Propriété II.1 Soit
(V1 , . . . , Vn ) ∼ Dn ([a, b]) .
(a) (V1 , . . . , Vn ) admet pour densité sur Rn f(V1 ,...,Vn ) donnée par :
n!
f(V1 ,...,Vn ) (t1 , . . . , tn ) = 1{a≤t1 <···<tn ≤b} .
(b − a)n
(b) La densité de Vn est donnée par :
n(t − a)n−1
fVn (t) = 1[a,b] (t).
(b − a)n
(c) Pour tout c ∈ [a, b], la loi conditionnelle de (V1 , . . . , Vn−1 ) sachant
que Vn = c est Dn−1 ([a, c]) .
(d) Pour tout c ∈ [a, b], la loi conditionnelle de (V1 , . . . , Vn−1 ) sachant
que Vn−1 ≤ c ≤ Vn est Dn−1 ([a, c]) .
(e) Pour tout c ∈ [a, b], la loi conditionnelle de (V2 , . . . , Vn ) sachant que
V1 = c est Dn−1 ([c, b]) .
(f ) Pour tout c ∈ [a, b], la loi conditionnelle de (V2 , . . . , Vn ) sachant que
V1 ≤ c ≤ V2 est Dn−1 ([c, b]) .
(g) Pour 1 ≤ k ≤ p ≤ n, avec p ≥ k+2, (Vk , . . . , Vp ) et (V1 , . . . , Vk , Vp , . . . , Vn )
sont conditionnellement indépendants sachant (Vk , Vp ). De plus, pour
a ≤ c < d ≤ b, la loi de (Vk+1 , . . . , Vp−1 ) sachant Vk = c et Vp = d
est donnée par Dp−k−1 ([c, d]).
Preuve :
Exercice d’application du cours de probas 2.
44

On peut maintenant énoncer le théorème annoncé, dont les points 3 et 4
montrent que les lois de Dirichlet apparaissent également lorsqu’on condi-
tionne des sommes de variables aléatoires i.i.d. de loi exponentielle.
Théorème II.3 Propriétés caractéristiques d’un processus de Pois-
son (2)
Soit N (t) un processus à valeurs dans N. Les assertions suivantes sont
équivalentes :
(a) (N (t))t≥0 est un processus de Poisson homogène d’intensité λ.
(b) – (N (t))t≥0 est à accroissements indépendants et stationnaires,
– et pour tout t ≥ 0,
N (t) ∼ Poi (λt).
(c) – Pour tout t ≥ 0,
N (t) ∼ Poi (λt),
– et pour n ≥ 1, sachant que N (t) = n, le vecteur aléatoire
(S1 , . . . , Sn )
des instants de sauts a pour loi Dn ([0, t]), la statistique d’ordre n
sur l’intervalle [0, t].
(d) – (N (t))t≥0 est à accroissements indépendants,
– E(N (1)) = λ,
– et pour n ≥ 1, sachant que N (t) = n, le vecteur aléatoire
(S1 , . . . , Sn )
des instants de sauts a pour loi Dn ([0, t]), la statistique d’ordre n
sur l’intervalle [0, t].
(e) – (N (t))t≥0 est à accroissements indépendants et stationnaires,
– et lorsque h ↓ 0,
P (N (h) = 0) = 1 − λh + o(h) et P (N (h) = 1) = λh + o(h).
(6.4)
Preuve :
Exercice (voir Durrett (1999) page 132 et Rolski et al. (1999)).

La dernière propriété des assertions 3 et 4 du théorème II.3 est très im-
portante, et sera expliquée en détail, démontrée et généralisée au cha-
pitre 9. Elle nous permettra entre autres d’écrire l’espérance d’une fonction
intégrable f des instants de sauts S1 , . . . , SN (T ) d’un processus de Poisson
homogène (N (t))t≥0 jusqu’à un temps fini T sachant que N (T ) = n sous
la forme
Z T Z tn−1 Z t2
E(f (S1 , . . . , SN (T ) )) = ... f (t1 , . . . , tn )dt1 . . . dtn . (6.5)
0 0 0
45
En particulier, pour un processus de Poisson homogène (N (t))t≥0 , sachant
que N (t) = 1, l’instant de saut S1 est uniformément distribué sur [0, t].
La propriété (6.4) sera très utile pour les démonstrations heuristiques de
résultats de théorie de la ruine (voir chapitre III), par exemple pour les
équations intégro-différentielles (12.1) et (12.2).
La proposition suivante correspond à ce qu’on appelle le paradoxe de

l’inspection.
Proposition II.8 (a) Pour tous t > 0, x ≥ 0, 0 ≤ y ≤ t,
Z ∞
1
P(SNt+1 − t ≥ x, t − SNt ≥ y) = P(X1 ≥ u)du.
E(X1 ) x+y
(b) Les variables aléatoires SNt+1 − t et t − SNt sont indépendantes.

Preuve :
Montrons que 1 ⇒ 2 : d’après le point 1, X1 ∼ exp(λ) a pour moyenne
E(X1 ) = λ1 et densité fX1 = λe−λu 1R+ (u). En remplaçant dans la formule,
on obtient :
Z ∞
P(SNt+1 − t ≥ x, t − SNt ≥ y) = λ e−λu du = e−λ(x+y) , (6.6)
x+y
ce qui implique que SNt+1 − t et t − SNt sont des variables aléatoires

indépendantes. Remarquons au passage que
1
E(SNt+1 − SNt ) = E(SNt+1 − t) + E(t − SNt ) > ,
λ
46
alors que SNt+1 − SNt = XNt .
Il ne reste plus qu’à montrer la première affirmation.
P(SNt+1 − t ≥ x, t − SNt ≥ y)
X
= P(Nt = n, Sn + Xn+1 − t ≥ x, t − Sn ≥ y)
n≥0
X
= P(Sn < t < Sn + Xn+1 , Sn + Xn+1 − t ≥ x, t − Sn ≥ y)
n≥0
∞ ∞
XZ sn−1 e−λs
Z
= 1s<t<s+u 1s+u−t≥x 1t−s≥y λe−λu λn dsdu
0 0 (n − 1)!
n≥1
+P(Nt = 0, X1 ≥ t + x, t ≥ y)
XZ ∞ Z ∞
sn−1 e−λs
= 1s<t 1t−s≥y 1u≥t−s+x λe−λu du λn ds + e−λ(t+x)
0 0 (n − 1)!
n≥1
XZ ∞ sn−1 e−λs
= 1s≤t−y e−λ(t−s+x) λn ds + e−λ(t+x)
0 (n − 1)!
n≥1
Z t−y
= e−λ(t+x) λeλs ds + e−λ(t+x)
0

= e−λ(t+x −1 + eλ(t−y) + e−λ(t+x)
= e−λ(y+x) − e−λ(t+x) + e−λ(t+x)
= e−λ(y+x)

In particular from point 1 with y = 0 we get that the time between t and
the next time of accident is distributed as Exp(λ). With x = 0 we have
that
1 − e−λt 1
E(t − SNt ) = →
λ λ
1
as t → +∞. You could then think : as for t > 0, we have E(SNt +1 − t) = λ
−λt
and E(t − SNt ) = 1−eλ , we should have
1 − e−λt 1
EXNt +1 = E(t − SNt ) + E(SNt +1 − t) = +
λ λ
which would be a contradiction with EXNt +1 = λ1 . The last assumption
is actually not true, because the real experiment that you carry out is
to choose a time t at random, and to look at the times of the previous
and next accident. But when you select t at random, you have a greater
probability to choose t into a large interval between two accidents than
in a small interval between two accidents which occur one just after the
other. This paradox is known as the inspection paradox.
47
In driving insurance, one simple model for the number Nt of accidents up
to time t is to take
Nt ≡ P(λt)
It could seem natural to choose exponentially-distributed inter-occurence
times due to the memoryless property of the exponential distribution, and
in this case, you get a Poisson distribution for Nt . Maybe the true reason
is that computations are much easier for Poisson processes !
For an actuary, given the experience data that he gets, it is quite easy
to verify whether the Poisson assumption is realistic or not : indeed for
Nt ≡ P(λ), we have
ENt = V ar(Nt ) = λt ( equidispersion property)
With the historical data, a mere computation of the empirical mean and
variance of the number of accidents during a given period may help you de-
termine if you are using a realistic model or not. In case V ar(Nt ) >> ENt
(over-dispersion), you may use for example a negative binomial distribu-
tion instead of the Poisson distribution for the number of claims during
a given period. If V ar(Nt ) << ENt (under-dispersion), you may use a
binomial distribution for example.
6.2 Processus de Poisson non homogène

Si l’on cherche à représenter le nombre d’accidents survenant avant chaque
date t ≥ 0 par un processus de Poisson homogène (N (t))t≥0 , on pourrait
nous opposer le fait qu’il y a plus de chance que des accidents surviennent
le jour que la nuit, la circulation étant beaucoup plus intense le jour. Une
manière de prendre en compte ce phénomène est de ne plus imposer que
l’intensité λ soit constante, mais de lui laisser la possibilité de varier au
cours du temps, de façon à avoir pour t ≥ 0 lorsque h ↓ 0 :
P (N (t + h) − N (t)) = λ(t)h + o(h)
. On obtient alors un processus de Poisson non homogène :

Definition II.5 Un processus stochastique (N (t))t≥0 est un processus de
Poisson (inhomogène, ou général) de fonction d’intensité λ(t) si
(a) N (0) = 0 presque sûrement,
(b) (N (t))t≥0 est un processus à accroissements indépendants,
(c) et ∀t > s, N (t) − N (s) suit une loi de Poisson de paramètre
Z t
λ(u)du.
s
48
Le processus N (t) n’est plus à accroissements stationnaires, et les temps
inter-sauts Xi ne sont plus indépendants, et ne suivent plus une loi expo-
nentielle si λ(.) n’est pas constante. En effet,
Rt
P (N (t) = 0) = P (X1 > t) = e− 0
λ(u)du
,
donc l’instant du premier saut X1 a pour densité en t
fX1 (t) = λ(t)e−µ(t) ,
où µ est appelée la fonction d’intensité cumulée de N (t), et est définie

pour t ≥ 0 par Z t
µ(t) = λ(u)du.
0
Remarquons que µ est une fonction positive, nulle en zéro, et croissante
sur R+ .
La densité jointe des n premiers instants de sauts S1 , . . . , Sn est donnée
pour 0 ≤ t1 ≤ · · · ≤ tn par
n
Y
f(S1 ,...,Sn ) (t1 , . . . , tn ) = λ(t1 )e−µ(t1 ) .λ(t2 )e−(µ(t2 )−µ(t1 )) . . . λ(tn )e−(µ(tn )−µ(tn−1 )) = e−µ(tn ) . λ(ti ).
i=1
(6.7)
En particulier, la densité jointe des deux premiers temps inter-sauts est
donnée pour s, t ≥ 0 par
f(X1 ,X2 ) (s, t) = f(S1 ,S2 ) (s, s + t) = λ(s)e−µ(s) .λ(s + t)e−(µ(s+t)−µ(s)) ,
ce qui montre que X1 et X2 ne sont pas indépendants dès que λ(.) n’est
pas constante.
49
Chapitre 7
Processus de Poisson
composé
Le processus de Poisson peut nous permettre de modéliser les dates de

survenance des sinistres. Le processus de Poisson composé nous permet
d’associer à chaque sinistre son coût.
Definition II.6 Soit (N (t))t≥0 un processus de Poisson de fonction d’in-
tensité λ et Wn une suite de variables aléatoires indépendantes et identi-
quement distribuées, et indépendantes du processus (N (t))t≥0 . Le proces-
sus (S(t))t≥0 , à valeurs dans R et défini par
S(t) = W1 + · · · + WN (t) ,
avec la convention S(t) = 0 si N (t) = 0, est appelé processus de Poisson

composé de caractéristiques (λ, W ).
En assurance non-vie, Wi représentera le coût du i-ème sinistre (et sera
donc à valeurs dans R+ ), N (t) le nombre de sinistres jusqu’au temps t,
et S(t) le montant cumulé de tous les sinistres survenus avant la date t.
(S(t))t≥0 sera alors un processus croissant et à valeurs dans R+ . D’après
les propriétés des lois composées et des fonctions génératrices (voir cha-
pitres 2.3 et 2.4.6), rappelons la proposition suivante :
Proposition II.9 Soit (S(t))t≥0 un processus de Poisson composé de ca-
ractéristiques (λ, W1 ), et de fonction d’intensité cumulée µ. Pour r, t > 0,
si GW est la fonction génératrice de W1 ,

h(r, t) = E rS(t) = e−µ(t)(1−GW (r)) ,
d’où
d h S(t) i
E (S(t)) = E r = λtG0W (1) = µ(t)E(W1 )
dr |r=1
50
et
d2 h S(t) i
= µ(t)E W12 .

V ar (S(t)) = 2
E r
dr |r=1
Preuve :
Exercice de révision.

51
Chapitre 8
Propriétés de Markov et
martingales
8.1 Propriétés de Markov

Tout processus de Poisson homogène est à accroissements indépendants et
stationnaires, et vérifie donc la propriété de Markov faible et la propriété
de Markov forte. En particulier, si (N (t))t≥0 est un processus de Poisson
homogène d’intensité λ, alors pour tout s ≥ 0, (N (t + s) − N (s))t≥0 est
un processus de Poisson d’intensité λ indépendant de (N (u))u≤s . De plus,
si τ est un temps d’arrêt, alors (N (t + τ ) − N (τ ))t≥0 est un processus de
Poisson d’intensité λ indépendant de (N (u))u≤τ .
8.2 Martingales
Théorème II.4 Soit (N (t))t≥0 un processus de Poisson homogène d’in-
tensité λ. Alors
N (t) − λt,
et α
−1)λt
eαN (t)−(e
sont des martingales par rapport à la filtration naturelle de (N (t))t≥0 .
Ce résultat se généralise sans peine aux processus de Poisson inhomogènes
et aux processus de Poisson composés.
52
Chapitre 9
Thinning, superposition
et conditionnement
9.1 Thinning et superposition

Théorème II.5 Soit (S(t))t≥0 un processus de Poisson composé défini à
partir d’un processus de Poisson homogène de paramètre λ et d’une suite
de v.a. i.i.d. (Wi )i≥1 . Soit k ≥ 1, et A1 , . . . , Ak une partition de R. Pour
1 ≤ j ≤ k, soit (Nj (t))t≥0 le processus de comptage défini pour t ≥ 0 par
N (t)
X
Nj (t) = 1{Wi ∈Aj } ,
i=1
et Nj (t) = 0 si N (t) = 0.
Alors les (Nj (t))t≥0 sont des processus de Poisson homogènes indépendants
de paramètres respectifs λ.P (W1 ∈ Aj ).
En particulier, en assurance non-vie, en prenant A1 = {0}, A2 =]0, +∞[,
et A3 =] − ∞, 0[, comme P (W1 ∈ A3 ) = 0, si le processus décrivant le
nombre de sinistres (nuls et non nuls) jusqu’au temps t est un processus de
Poisson homogène d’intensité λ, alors celui décrivant le nombre de sinistres
non nuls jusqu’au temps t est un processus de Poisson de paramètre λ(1 −
P (W1 = 0)). Séparer un processus de Poisson d’une telle manière se dit
thinning. Le contraire, l’addition de processus de Poisson indépendants
s’appelle superposition.
Théorème II.6 Soit k ≥ 2, et (Nj (t))t≥0 , 1 ≤ j ≤ k des processus
de Poisson homogènes d’intensité λ1 , . . . , λk . Alors (N (t))t≥0 défini pour
t ≥ 0 par
N (t) = N1 (t) + · · · + Nk (t)
est un processus de Poisson d’intensité λ1 + · · · + λk .
53
Ce théorème se généralise sans peine à des processus de Poisson inho-
mogènes.
9.2 Conditionnement
Dans cette section, on s’intéresse à la position des instants de sauts sachant
qu’il y en a n entre 0 et T . On commence par le cas le plus facile, celui
d’un processus homogène, et on généralise ensuite les résultats pour un
processus de Poisson inhomogène.
9.2.1 Cas d’un processus de Poisson homogène

Soit U1 , . . . , Un , . . . des variables aléatoires indépendantes et uniformément
distribuées sur un intervalle de temps fini et fixé [0, T ]. Soit S1 , . . . , Sn , . . .
les instants de sauts d’un processus de Poisson homogène d’intensité λ.
Théorème II.7 Conditionnellement à {N (T ) = n}, l’ensemble des ins-
tants de sauts {S1 , . . . , Sn } a la même loi que {U1 , . . . , Un }.
En d’autres termes, le vecteur aléatoire (S1 , . . . , Sn ) a la même loi que
n-ème statistique d’ordre sur [0, T ], i.e. sa densité est donnée pour 0 ≤
t1 ≤ · · · ≤ tn ≤ T par
1 n!
f(S1 ,...,Sn ) (t1 , . . . , tn ) = = n.
T n /n! T
Rappelons que si U1 , . . . , Un sont des variables indépendantes uniformément

distribuées sur [0, T ], les (Vi )1≤i≤n définis à partir des Ui en les rangeant
par ordre croissant forment la n-ème statistique d’ordre sur [0, T ]. Les Ui
ont pour densité jointe
1
f(U1 ,...,Un ) (t1 , . . . , tn ) = 1{∀i,0≤ti ≤T } ,
Tn
alors que les Vi ont pour densité
n!
f(V1 ,...,Vn ) (t1 , . . . , tn ) = 1{0≤t1 ≤···≤tn ≤T } .
Tn
Le théorème II.7 permet de démontrer directement le résultat suivant,
qui pourrait aussi être obtenu à partir de l’indépendance de N (s) et de
N (t) − N (s) pour s < t.
Théorème II.8 Soit (N (t))t≥0 un processus de Poisson homogène. Pour
s < t et pour tous 0 ≤ m ≤ n, la loi de N (s) sachant que N (t) = n est
une loi binômiale de paramètres (n, s/t) :
s m s n−m
P (N (s) = m | N (t) = n) = Cnm 1− .
t t
54
Remarquons que les lois conditionnelles obtenues dans les théorèmes II.7
et II.8 ne dépendent pas de λ. L’homogénéité est synonyme de symétrie,
qui est brisée dès que l’intensité n’est plus constante. Les généralisations
des deux théorèmes précédents au cas inhomogène feront donc apparaı̂tre
cette dissymétrie en faisant intervenir la fonction d’intensité et la fonction
d’intensité cumulée.
9.2.2 Cas d’un processus de Poisson inhomogène

Lorsque λ(t) n’est plus constant, sachant qu’il y a n sauts, la probabilité
qu’un saut soit au voisinage d’un point u ∈ [0, T ] est d’autant plus élevée
que l’intensité λ(u) à ce point est élevée. En fait, on a le même résultat
que précédemment en tenant compte proportionnellement de la fonction
d’intensité.
Théorème II.9 Soit (N (t))t≥0 un processus de Poisson inhomogène de
Rt
fonction d’intensité λ(t), et de fonction d’intensité cumulée µ(t) = 0 λ(u)du.
Pour une date T > 0 fixée, soit hT la fonction de R dans R définie pour
x ∈ R par
λ(x)
hT (x) = .1[0,T ] (x),
µ(T )
et soit U1 , . . . , Un des variables aléatoires indépendantes de densité hT .
Alors, sachant que N (t) = n, l’ensemble des instants de sauts {S1 , . . . , Sn }
a la même loi que l’ensemble des {U1 , . . . , Un }.
On obtient aussi l’analogue du théorème II.8 :
Théorème II.10 Soit (N (t))t≥0 un processus de Poisson inhomogène
de fonction d’intensité λ(t), et de fonction d’intensité cumulée µ(t) =
Rt
0
λ(u)du. Pour s < t et pour tous 0 ≤ m ≤ n, la loi de N (s) sachant que
N (t) = n est une loi binômiale de paramètres (n, µ(s)/µ(t)) :
m n−m
µ(s) µ(s)
P (N (s) = m | N (t) = n) = Cnm 1− .
µ(t) µ(t)
55
Troisième partie
Théorie de la ruine
56
Soit R(t) = u + X(t) un processus de risque classique :
– (X(t))t≥0 est donc défini pour tout t ≥ 0 par
N (t)
X
X(t) = ct − Wi ,
i=1
– (N (t))t≥0 est un processus de Poisson homogène d’intensité λ,

– les Wi sont des v.a.i.i.d. positives de moyenne µ et indépendantes de
(N (t))t≥0 ,
– la somme est nulle si N (t) = 0,
– le chargement de sécurité relatif
c − λµ
ρ= > 0.
λµ
Définissons la probabilité de ruine
ψ(u) = P (∃t > 0, u + X(t) < 0)
et la probabilité de non-ruine (ou de survie)
ϕ(u) = 1 − ψ(u) = P (∀t > 0, u + X(t) ≥ 0) .
Théorème III.1 (Equation intégro-différentielle)

Pour tout u ≥ 0,
Z u
0 λ
ϕd (u) = ϕ(u) − ϕ(u − y)dFW (y) . (9.1)
c 0
Preuve :
Pour h > 0,
ϕ(u) = E (ϕ(u + X(T1 ∧ h))) .
L’idée est de distinguer les cas T1 ≤ h (dans ce cas le processus repart après
un temps aléatoire T1 de la position aléatoire u + cT1 − W1 ) et T1 > h
(dans ce cas, le processus repart après un temps h de la position u+ch). La
perte de mémoire de la loi exponentielle nous garantit la perte de mémoire
du processus de Poisson (N (t))t≥0 , et donc du processus (X(t))t≥0 qui est
sans mémoire.
Z h Z +∞
ϕ(u) = ϕ(u + ch)P (T1 > h) + fT1 (t) ϕ(u + ct − y)dFW1 (y)dt.
0 0
En inversant les signes, en rajoutant ϕ(u + ch) à droite et à gauche, et en

divisant par h, on obtient
1 − e−λh 1 h −λt +∞

ϕ(u + ch) − ϕ(u)
Z Z
= ϕ(u+ch) − λe ϕ(u+ct−y)dFW1 (y)dt.
h h h 0 0
57
En passant à la limite lorsque h ↓ 0, en utilisant la continuité à droite de
ϕ et le fait que
1 h
Z
g(t)dt → g(0)
h 0
quand h → 0 pour toute fonction g continue à droite, on obtient
Z +∞
cϕ0d (u) = λ ϕ(u) − ϕ(u − y)dFW (y) ,
0
ce qui fournit le résultat demandé en observant que ϕ(x) = 0 pour x < 0.

On obtient de même pour tout u ≥ 0,
Z u−
0 λ
ϕg (u) = ϕ(u) − ϕ(u − y)dFW (y) . (9.2)
c 0
Dans le cas où FW est continue, les dérivées à droite et à gauche sont les
mêmes pour tout u et correspondent donc à ϕ0 (u).
Plaçons-nous dans le cas où W1 admet une densité fW1 .

Proposition III.1 (Equation intégrale)
Pour tout u ≥ 0,
λ u
Z
ϕ(u) = ϕ(0) + ϕ(u − y)(1 − FW (y))dy. (9.3)
c 0
Preuve :
D’après (9.2), pour u > 0,
λ
ϕ0 (u) = (ϕ(u) − (ϕ ∗ fW )(u)) .
c
En prenant la transformée de Laplace, on obtient pour s > 0
λ λ
sLϕ (s) − ϕ(0) = Lϕ (s) − Lϕ (s).sLFW (s). (9.4)
c c
En effet, rappelons que
Z +∞ Z +∞
+∞
ϕ0 (u).e−su du = ϕ(u).e−su 0 + ϕ(u).se−su du = −ϕ(0)+sLϕ (s)

Lϕ0 (s) =
0 0
en utilisant une intégration par parties classique. De la même manière,

Lϕ∗fW = Lϕ .LfW , et donc comme FW (0) = 0,
LfW (s) = LFW

0 (s) = FW (0) + sLF
W
(s) = sLFW (s).
58
En divisant par s l’équation (9.4), on obtient

ϕ(0) λ 1
Lϕ (s) = + Lϕ (s) − LFW (s) ..
s c s
Or, pour toute constante C > 0,

C
LC (s) = ,
s
donc
1
− LFW (s) = L1−FW (s)
s
et on obtient pour tout s > 0
Lϕ (s) = Lϕ(0)+ λ ϕ∗(1−FW ) (s),

c
ce qui donne le résultat recherché d’après l’injectivité de la transformée

de Laplace.

Proposition III.2
ϕ(+∞) = lim ϕ(u) = 1.

u→+∞
Preuve :
ϕ est une fonction croissante. Pour n ≥ 1,

ϕ(n) = E 1{inf X(t)<−n} .
Or In = 1{inf X(t)>−n} est une suite croissante de v.a., qui tend vers
1 presque sûrement. En effet, comme ρ > 0, d’après la loi des grands
nombres, X(t) → +∞ quand t → +∞, et donc le processus est positif à
partir d’un certain temps (aléatoire) T fini presque sûrement, et l’infimum
pris sur le compact [0, T ] est donc fini. D’après le théorème de convergence
monotone,
lim E(In ) = E (lim In ) = E(1) = 1.

En passant à la limite dans l’équation (9.3), on obtient
λµ
ϕ(0) = 1 − ,
c
ce qui constitue un résultat très robuste qui ne dépend de FW que par la
moyenne µ de W .
59
Dans le cas où W ∼ Exp(1/µ), d’après l’équation intégro-différentielle
(9.2), pour tout u ≥ 0,
Z u Z u
0 λ −y/µ λ −(u−y)/µ
ϕ (u) = ϕ(u) − ϕ(u − y)e dy = ϕ(u) − ϕ(y)e dy .
c 0 c 0
(9.5)
En dérivant par rapport à u, on obtient
λ (−1) u
Z
λ λ
ϕ00 (u) = ϕ0 (u) − ϕ(y)e−(u−y)/µ dy − ϕ(u). (9.6)
c c µ 0 cµ
(Par exemple factoriser le e−u/µ à l’extérieur de l’intégrale puis dériver le

produit). Remarquons que d’après (9.2), le second terme de droite dans
(9.6) est égal à
λ (−1) u
Z
1 λ
− ϕ(y)e−(u−y)/µ dy = ϕ(u) − ϕ0 (u) .
c µ 0 µ c
L’équation (9.6) se simplifie donc en

λ 1 λ λ
ϕ00 (u) = ϕ0 (u) + ϕ(u) − ϕ0 (u) − ϕ(u),
c µ c cµ
et donc
00 λ 1
ϕ (u) = − ϕ0 (u).
c µ
Soit
λ 1 ρ
R= − = .
c µ µ(1 + ρ)
En intégrant deux fois, on obtient
ϕ(u) = C1 + C2 e−Ru .
C1 = ϕ(+∞) = 1 et
1
ϕ(0) = C1 + C2 = 1 − ,
1+ρ
d’où pour u ≥ 0,
1 −Ru
ϕ(u) = 1 − e (9.7)
1+ρ
et
1 −Ru
ψ(u) = e . (9.8)
1+ρ
60
9.3 Méthodes de martingales
Appliquons le théorème d’arrêt optimal de Doob à la martingale (M (t))t≥0
(exercice : montrer qu’il s’agit bien d’une martingale par rapport à la
filtration naturelle de (M (t))t≥0 ) définie par
e−r(u+X(t))
M (t) = ,
E e−rX(t)
où r ≥ 0 est tel que h i

E e−rX(t) < +∞,
et au temps d’arrêt Tu ∧ t0 , où
Tu = inf{t ≥ 0, u + X(t) < 0}
est la variable aléatoire défective représentant l’instant de ruine, et t0 est

un réel positif fixé. On obtient en conditionnant par Tu ≤ t0 ou Tu > t0
e−ru = E[M (0)] = E [M (Tu ∧ t0 )] (9.9)

e−ru = E [M (Tu ∧ t0 ) | Tu ≤ t0 ] P (Tu ≤ t0 ) + E [M (Tu ∧ t0 ) | Tu > t0 ] P (Tu > t0 )
e−ru ≥ E [M (Tu ) | Tu ≤ t0 ] P (Tu ≤ t0 ) . (9.10)
Rappelons que pour utiliser le théorème d’arrêt de Doob (voir cours de

2ème année), il faut (le plus souvent) avoir un temps d’arrêt, qui doit être
fini presque sûrement. Or,
P (Tu = +∞) = ϕ(u) > 0
dès que ρ > 0. La solution classique consiste à appliquer le théorème

d’arrêt au temps d’arrêt Tu ∧ t0 (qui est toujours fini car inférieur à t0 <
∞), et à passer à la limite (t0 → +∞) pour obtenir le résultat avec Tu .
On a donc d’après (9.10)
e−ru
P (Tu ≤ t0 ) ≤ . (9.11)
E [M (Tu ) | Tu ≤ t0 ]
Or
1 1 1
= h −r(u+X(T )) i≤ 1 ,
E [M (Tu ) | Tu ≤ t0 ] E e eg(r)Tu u | Tu ≤ t0 E eg(r)Tu | Tu ≤ t0
où g(r) est défini par h i

E e−rX(t) = eg(r)t
et est égal à
g(r) = λ E erW − 1 − rc,

(9.12)
61
car sachant que Tu est fini, u+X(Tu ) < 0. Donc l’inéquation (9.11) devient
e−ru
P (Tu ≤ t0 ) ≤ . (9.13)
E e−g(r)Tu | Tu ≤ t0
On a conditionné par rapport à l’événement {Tu ≤ t0 }, et donc
h i
E e−g(r)Tu | Tu ≤ t0 ≥ inf e−tg(r) ,
0≤t≤t0
et
1 1
≤ = sup etg(r) .
E e−g(r)Tu | Tu ≤ t0 inf 0≤t≤t0 e−tg(r) 0≤t≤t0
Cela permet de réécrire (9.13) en
P (Tu ≤ t0 ) ≤ e−ru sup etg(r) .

0≤t≤t0
En passant à la limite quand t0 → +∞, on obtient
ψ(u) = P (Tu < +∞) ≤ e−ru sup etg(r) .

t≥0
Pour que la borne soit finie et présente un intérêt, il faut que r soit le plus
grand possible tout en ayant g(r) ≤ 0. Il faut donc prendre
R = sup{r ≥ 0, g(r) ≤ 0}.
Dans le cas où W ∼ Exp(1/µ), on retrouve la valeur de l’exposant de

Cramer-Lundberg
ρ
R= ,
µ(1 + ρ)
qui est ici le nombre strictement positif qui vérifie g(R) = 0. On obtient
alors dans le cas général l’inégalité de Cramer-Lundberg
ψ(u) ≤ e−Ru . (9.14)
Le cas où W ∼ Exp(1/µ) nous montre que la valeur de R est optimale. Il

existe dans de nombreux cas des inégalités doubles qui permettent d’en-
cadrer la probabilité de ruine par deux fonctions de type Ceru .
On a appliqué le théorème de Doob à la martingale exponentielle pour
pouvoir utiliser le théorème de convergence dominée : u + X(t) → +∞
presque sûrement quand t → +∞, et donc e−r(u+X(t)) va tendre vers 0
presque sûrement.
L’inéquation (9.11) a été obtenue en passant de (9.9) à (9.10) en minorant
brutalement par 0 le terme
E [M (Tu ∧ t0 ) | Tu > t0 ] P (Tu > t0 ) .
62
En prenant r = R, on peut montrer que ce terme tend vers 0 lorsque t0 →
+∞. Rappelons que dans ce cas g(R) = 0 et que M (t) s’écrit simplement
M (t) = e−R(u+X(t)) .
Ceci nous permet d’écrire

h i
0 ≤ E [M (Tu ∧ t0 ) | Tu > t0 ] P (Tu > t0 ) = E e−R(u+X(t0 )) .1{Tu >t0 } ,
et comme
{Tu > t0 } ⊂ {u + X(t0 ) ≥ 0},
on obtient l’inégalité
h i
0 ≤ E [M (Tu ∧ t0 ) | Tu > t0 ] P (Tu > t0 ) ≤ E e−R(u+X(t0 )) .1{u+X(t0 )≥0} ≤ 1.
(9.15)
Or quand t → +∞,
u + X(t) → +∞ p.s.,
ce qui implique que lorsque t0 → +∞,
1{u+X(t0 )≥0} → 0 p.s..
D’après le théorème de convergence dominée, on peut passer à la limite

dans l’inéquation (9.15), ce qui donne à partir de (9.9) l’égalité suivante :
e−Ru
ψ(u) = . (9.16)
E e−R(u+X(Tu )) | Tu < +∞
Exercice III.1 Dans le cas où W ∼ Exp(1/µ), utiliser la perte de mémoire

de la loi exponentielle et l’équation (9.16) pour retrouver la formule exacte
de la probabilité de ruine dans le cas exponentiel (9.8).
Cet exercice sera corrigé en séance de TD. Il est vivement conseillé de le
faire auparavant. Conseil : utiliser le conditionnement par rapport à la
tribu qui correspond à l’information disponible sur le processus (X(t))t≥0
jusqu’à ”juste avant la ruine” (c’est-à-dire obtenue à des temps strictement
inférieurs à Tu ) :
FTu− = σ (A ∩ {t < Tu }, A ∈ Ft , t > 0) ,
où (Ft )t≥0 est la filtration naturelle du processus (X(t))t≥0 .
63
Sixième partie
Appendice, pense-bête
95
Chapitre 33
Lois usuelles
33.1 Lois de probabilité usuelles
Distribution Probabilités pk Paramètres

Uniforme discrète 1/N , k = 1, 2, . . . , N N = 1, 2, . . .
Bernoulli p1 = p, p0 = q 0 6 p 6 1, q = 1 − p
Binômiale Cnk pk q n−k , k = 0, 1, . . . , n 0 6 p 6 1, q = 1 − p, n = 1, 2, . . .
k
Poisson e−λ λk! , = 0, 1, . . . λ>0
Geométrique q k−1 p, k = 0, 1, . . . 0 6 p 6 1, q = 1 − p
r−1 r k−r
Binômiale négative Ck−1 p q , k = r, r + 1, . . . 0 6 p 6 1, q = 1 − p, r = 1, 2, . . .
96
Distribution Densité Paramètres
Uniforme sur [a, b] 1/(b − a), a 6 x 6 b a, b ∈ R ; a < b
2 2
Normale ou Gaussienne (2πσ 2 )−1/2
e−(x−µ) /(2σ ) , x ∈ R µ ∈ R, σ > 0
2
Log-normale 1
√
σx 2π
exp − (log2σ
x−µ)
2 ,x>0 µ ∈ R, σ > 0
−x2 /2
Rayleigh xe ,x>0
xα−1 e−x/β
Gamma Γ(α)β α , x > 0 α > 0, β > 0
r−1
x (1−x)s−1
Beta B(r,s) ,06x6 1 r > 0, s > 0
−λx
Exponentielle (Γ, α = 1, β = 1/λ) λe ,x>0 λ>0
1 −λ|x|
Laplace 2 λe ,x∈R λ>0
2−n/2 xn/2−1 e−x/2
Chi-deux, χ2 (Γ, α = n/2, β = 2) Γ(n/2) ,x>0 n = 1, 2, . . .

Γ( 2 (n+1))
1 −(n+1)/2
x2
Student, t (nπ)1/2 Γ(n/2)
1 + n , x∈R n = 1, 2, . . .
(m/n)m/2 xm/2−1
F B(m/2,n/2) (1+mx/n)m+n)/2 m, n = 1, 2, . . .
θ
Cauchy π(x2 +θ 2 ) , x ∈ R θ>0
e−(x−α)/β
Logistique (1+e−(x−α)/β )2
α ∈ R, β > 0
α 0 < α < 1,
Weibull αθxα−1 e−θx , x > 0
θ>0
Gumbel exp(x − ex ), x ∈ R
k > 0,
Pareto αk α x−(α+1) , x > k a > 0,
x>k
97
Chapitre 34
Types de convergence
34.1 Convergence en Loi

Nous considérons ici une analyse classique de la convergence de mesures
de probabilité appelée convergence en loi, sachant que d’autres approches
utilisant des distances entre lois de probabilité (on peut par exemple
construire une distance entre lois de probabilité absolument continues par
rapport à une mesure dominante, comme la distance associée à la norme
L1 des densités de probabilité par rapport à cette mesure dominante).
Definition VI.1 Convergence complète d’une suite de fonctions
de répartition
Soit Fn une suite de fonctions de répartition sur Rk , k ∈ N et F une
fonction de répartition sur Rk . On dit que Fn converge complètement vers
c
F et on note Fn −→ F si Fn (x) converge vers F (x) en tout point x ∈ Rk
de continuité de F .
Remarques :
– On a déjà étudié l’ensemble de continuité d’une fonction de répartition
dans Rn .
– Considérons une suite de fonctions de répartition Fn convergeant vers
une fonction F en tout point de continuité de F . F n’est pas forcément
une fonction de répartition. Par exemple, considérons la suite Fn définie
par Fn (x) = 0, si x 6 −n, Fn (x) = 21 , si x ∈] − n, n] et Fn (x) = 1 si
x > n. lim Fn (x) = 21 pour tout x et F n’est pas une fonction de
répartition.
Definition VI.2 Convergence étroite d’une suite de mesures bornées
sur Rk

Soit P, P1 , P2 , . . . une suite de mesures positives bornées sur Rk , B(Rk ) .
e
On dit que Pn converge étroitement vers P et on note Pn −→ P , si pour
98
toute fonction réelle f définie sur Rk continue bornée, on a :
Z Z
f (x)dPn (x) −→ f (x)dP (x).
– Remarques :
– Traduction anglaise de convergence étroite : weak convergence.
– La définition donnée pour des mesures positives bornées (ou finies,
c’est-à-dire Pn (Rk ) < ∞) s’applique en particulier à des mesures de
probabilité.
– La notion de convergence étroite s’étend à des espaces métriques quel-
conques munis de leur tribu borélienne.R R
– On peutRréécrire de manièreR équivalente f (x)dPn (x) −→ f (x)dP (x)
comme f (x)dFn (x) −→ f (x)dF (x) où F, F1 , F2 , . . . sont les fonc-
tions de répartition associées aux mesures P, P1 , P2 , . . ..
Théorème VI.1 Helly-Bray (convergence complète ⇒ convergence étroite)
Si Fn est une suite de fonctions de répartition sur Rk , k ∈ N convergeant
complètement vers une fonction de répartition sur Rk , F . Alors pour toute
fonction f définie sur Rk , continue bornée :
Z Z
f (x)dFn (x) −→ f (x)dF (x)
quand n → ∞.
– Remarque : Notons Pn la mesure de probabilité sur (Rk , B(Rk )) de
fonction de répartition Fn et P la mesure de probabilité associée à F .
– La convergence complète des Fn implique la convergence étroite des me-
sures de probabilité Pn . Il existe une réciproque au théorème précédent.
Théorème VI.2 équivalence entre convergence complète et conver-
gence étroite
k
k k
de répartition sur R , k ∈ N de probabilités
Soit F, F1 , F2 , . . . les fonctions
P, P1 , P2 , . . . sur R , B(R ) . Alors :
e c
Pn −→ P ⇔ Fn −→ F.
La démonstration des deux théorèmes précédents est admise. Dans le cas

de mesures de probabilité admettant des densités, il existe un critère simple
pour vérifier la convergence étroite.
Propriété VI.1 convergence étroite de mesures absolument conti-
nues

Soit (Pn ) une suite de mesures de probabilités sur Rk , B(Rk ) admettant
une densité fn par rapport à la mesure de Lebesgue sur Rk . Si fn converge
presque partout (pour la mesure de Lebesgue sur Rk ) vers une fonction de
densité f , alors Pn converge étroitement vers P la mesure de probabilité
sur Rk , B(Rk ) de densité f .
99
Sauf dans le cas de lois absolument continues par rapport à la mesure de
Lebesgue, le concept de convergence complète est un peu délicat à manier
dans Rk (car il faut étudier l’ensemble de continuité de la loi limite). On
peut néanmoins procéder avec l’approche suivante :
Definition VI.3 Convergence étroite d’une suite de mesures bornées
sur Rk

Soit P, P1 , P2 , . . . une suite de mesures de probabilité sur Rk , B(Rk ) . On
e
dit que Pn converge étroitement vers P et on note Pn −→ P , si pour tout
A ∈ B(Rk ) tel que P (∂A) = 0, on a Pn (A) −→ P (A) quand n → ∞.
Propriété VI.2 Les deux définitions de convergence étroite sont équivalentes.
Elles sont en outre équivalentes à :
(a) lim inf Pn (A) > P (A) pour tout A ouvert.
(b) lim sup Pn (A) 6 P (A) pour tout A fermé.
– Remarques :
– ∂A est la frontière de A définie par ∂A = A∩Ac où A est la fermeture
de A.
– Dans cette définition, on ne demande pas la convergence pour tout
ensemble mesurable, mais simplement pour tout ensemble mesurable
dont la frontière n’est pas chargée pour la probabilité limite P .
Pour terminer considérons une dernière présentation de la convergence
parfois utilisée :
Definition VI.4 Convergence vague d’une suite de mesures bornées
sur Rk

Soit P, P1 , P2 , . . . une suite de mesures positives bornées sur Rk , B(Rk ) .
v
On dit que Pn converge vaguement vers P et on note Pn −→ P , si pour
toute fonction réelle f définie sur Rk continue à support compact, on
a: Z Z
f (x)dPn (x) −→ f (x)dP (x).
– Remarques :
– On montre qu’il est équivalent de dire :
(a) Pn converge étroitement vers P .
(b) Pn converge vaguement vers P et en outre Pn (Rk ) → P (Rk ).
– Dans le cas où P, P1 , P2 , . . . sont des mesures de probabilité, la condi-
tion Pn (Rk ) → P (Rk ) est automatiquement vérifiée puisque Pn (Rk ) =
P (Rk ) = 1. R R
– On peut alors se limiter à la condition f (x)dPn (x) −→ f (x)dP (x)
pour toute fonction f continue à support compact.
– C’est parfois cette dernière définition qui est fournie pour la conver-
gence étroite de mesures de probabilité.
100
Il existe une autre approche très simple pour étudier la convergence étroite,
qui utilise les fonctions caractéristiques et ne fait pas appel à l’étude de la
continuité de la fonction de répartition jointe.
Propriété VI.3 Si F, F1 , F2 , . . . sont des fonctions de répartition sur Rk ,
c
k ∈ N avec des transformées de Fourier associées ϕ, ϕ1 , ϕ2 , . . . et si Fn −→
F alors ϕn (t) −→ ϕ(t) pour tout t ∈ Rk .
Démonstration : voir l’exercice (VI.1).
Exercice VI.1 Montrer que si F, F1 , F2 , . . . sont des fonctions de répartition
sur Rk , k ∈ N de transformées de Fourier associées ϕ, ϕ1 , ϕ2 , . . . et si
c
Fn −→ F alors ϕn (t) −→ ϕ(t) pour tout t ∈ Rk .
Corrigé :
– C’est une conséquence directe du théorème de Helly-Bray.
– Pour tout t ∈ Rk donné, les fonctions qui à x ∈ Rk associent R ei<t,x>
et ei<t,x> sont continues
R Ii<t,x> bornées.
dFn (x) −→ ei<t,x> dF (x), c’est-à-dire ϕn (t) −→ ϕ(t).
R
– e
Théorème VI.3 de continuité (dit de Lévy)
Soit (ϕn ), n ∈ N, une suite de transformées de Fourier, de mesures de
probabilité Pn sur Rk , B(Rk ) , k ∈ N. Si ϕn converge en tout point de Rk
vers une fonction ϕ continue au point (0, 0, . . . , 0), alors ϕ est la trans-
formée de Fourier d’une mesure de probabilité P sur Rk , B(Rk ) et Pn
converge étroitement vers P .
Remarques :
– Ce théorème (admis) établit une réciproque de la propriété précédente.
– Attention : toute fonction n’est pas la transformée de Fourier d’une
mesure (il faut par exemple qu’il y ait continuité uniforme). Il existe
plusieurs propriétés permettant de caractériser des situations où une
fonction donnée est une fonction caractéristique.
– Si ϕn (t) converge vers une fonction caractéristique ϕ(t) d’une proba-
bilité P , alors le théorème s’applique car ϕ est continue en zéro et Pn
converge vers la probabilité P .
Corollaire VI.1 continuité de la convolution
Soit (Pn ) et (Qn ) deux suites de mesures de probabilité sur Rk , B(Rk )
convergeant étroitement, respectivement vers P et Q. Alors (Pn ∗ Qn )
converge étroitement vers P ∗ Q.
Démonstration : La démonstration est immédiate en utilisant le fait que
la transformée de Fourier de Pn ∗ Qn est le produit des transformées de
Fourier et le théorème de Lévy.
Definition VI.5 convergence en loi
Soit Xn une suite de vecteurs aléatoires définis sur un espace probabilisé
à valeurs dans Rk , k ∈ N. On dit que Xn converge en loi vers le vecteur
L
aléatoire X (à valeurs dans Rk ) et on note Xn → X si :
e
P Xn → P X .
101
Remarque :
– Si Fn , F sont les fonctions de répartition de Xn , X, la convergence en
loi de Xn vers X est équivalente à la convergence de Fn (x) vers F (x)
en tout point de continuité de F .
Corollaire VI.2 Cramer-Wold
à valeurs dans Rk , k ∈ N. Xn converge en loi vers le vecteur aléatoire X
(à valeurs dans Rk ) si et seulement si pour tout λ = (λ1 , . . . , λk ) ∈ Rk ,
λ0 Xn converge en loi vers λ0 X.
Démonstration : voir l’exercice VI.2.
Exercice VI.2 Cramer-Wold
Soit Xn une suite de vecteurs aléatoires définis sur un espace probabi-
lisé à valeurs dans Rk , k ∈ N. Montrer que Xn converge en loi vers
le vecteur aléatoire X (à valeurs dans Rk ) si et seulement si pour tout
λ = (λ1 , . . . , λk ) ∈ Rk , λ0 Xn converge en loi vers λ0 X.
Corrigé : on utilise les fonctions caractéristiques :
– Supposons que Xn converge en loi vers X, c’est-à-dire que P Xn converge
étroitement vers P X . R 0
– D’après le théorème de continuité, il est équivalent de dire que eit x dP Xn (x)
R 0
converge vers eit x dP X (x) hpour tout i t ∈ Rk , c’est-à-dire
h i d’après le
0 0
théorème de transfert que E eit Xn converge vers E eit X ou encore
avec les notations habituelles
h que ϕiXn (t) converge vers ϕX (t).
0
iuλ X
– Soit u ∈ R. ϕλ0 Xn (u) = E e n
= ϕXn (uλ) → ϕX (uλ) = ϕλ0 X (u).
– D’après le théorème de continuité, λ0 Xn converge en loi vers λ0 X.
– Réciproquement, supposons que λ0 Xn converge en loi vers λ0 X pour
tout λ ∈ Rk .
– Dans ce cas, ϕλ0 Xn (1) → ϕλ0 X (1) en appliquant le théorème de conti-
nuité.
– En utilisant ϕXn (λ) = ϕλ0 Xn (1) et ϕXn (λ) = ϕλ0 Xn (1), on obtient la
convergence en loi de Xn vers X.
Remarque :
– En prenant λi = 1 et λj = 0, j 6= i, on obtient que la convergence
en loi du vecteur aléatoire Xn vers le vecteur aléatoire X implique la
convergence en loi des composantes de Xn , Xni vers les composantes de
X, X i .
– En revanche, la réciproque est fausse.
– Considérons par exemple X ∼ N (0, 1) et les suite Xn = X, Yn =
(−1)n X. Xn et Yn convergent en loi vers X.
– La suite (Xn , Yn ) ne converge pas en loi (ni la fonction de répartition
jointe, ni la fonction caractéristique jointe ne convergent) et par conséquent
(Xn , Yn ) ne converge pas en loi vers (X, X).
102
Corollaire VI.3 Soit (Xn ) une suite de vecteurs aléatoires convergeant
en loi vers X, tous ces vecteurs aléatoires étant définis sur un espace
probabilisé (Ω, A, P ) et à valeurs dans Rk . Soit h une fonction continue
de Rk dans Rm . Alors h(Xn ) converge en loi vers h(X)
Démonstration : voir exerice (VI.3).
Exercice VI.3 Soit (Xn ) une suite de vecteurs aléatoires convergeant en
loi vers X, tous ces vecteurs aléatoires étant définis sur un espace proba-
bilisé (Ω, A, P ) et à valeurs dans Rk . Soit h une fonction continue de Rk
dans Rm . Montrer que h(Xn ) converge en loi vers h(X)
Corrigé :
0
– Soit t ∈ Rm donné. La fonction x → eit h(x) est une fonction continue
bornée. R 0 R 0
– D’après le théorème de Helly-Bray eit h(x) dP Xn (x) → eit h(x) dP X (x),
c’est-à-dire ϕh(Xn ) (t) → ϕh(X) (t), ce qui montre la propriété d’après le
théorème de P. Levy.
Propriété VI.4 équivalence entre convergence en loi et conver-
gence simple des fonctions caractéristiques
Soit X et Xn , n ∈ N des vecteurs aléatoires à valeurs dans Rk définis
sur un espace probabilisé (Ω, A, P ), de fonctions caractéristiques respecti-
vement ϕ(t) et ϕn (t), t ∈ Rk . Alors,
L
Xn −→ X ⇐⇒ lim ϕXn (t) = ϕX (t), ∀t ∈ Rk .
n→∞
Propriété VI.5 un exemple rare où convergence en loi entraı̂ne

convergence presque sûre
Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, A, P )
et f0 , f1 , . . . une suite de fonctions réelles croissantes. Si fn (X) converge
en loi vers f0 (X) alors fn (X) converge P -presque sûrement vers f (X).
Pour conclure, mentionnons que l’on peut s’intéresser à la métrisabilité de
la convergence en loi, c’est-à-dire à la possibilité de construire une distance
entre mesures de probabilité telle que la convergence étroite de mesures se
caractérise par une distance entre les mesures et la mesure limite tendant
vers 0.
34.2 Convergence presque sûre et convergence

en probabilité
Definition VI.1 convergence presque sûre Soit (Xn = (Xn1 , . . . , Xnk ))
une suite de vecteurs aléatoires à valeurs dans Rk , k ∈ N définis sur un
espace probabilisé (Ω, A, P ). On définit l’ensemble de convergence des Xn
comme {Xn→ } = {ω ∈ Ω, ∃ limn→∞ Xnj (ω), ∀j, 1 6 j 6 k}. On dit que Xn
converge presque sûrement (ou presque-partout) si P ({Xn→ }) = 1.
103
Definition VI.2 convergence presque sûre Soit (Xn ) une suite de
vecteurs aléatoires à valeurs dans Rk , k ∈ N définis sur un espace pro-
babilisé (Ω, A, P ). On dit que Xn converge presque sûrement (ou presque-
p.s
partout) vers le vecteur aléatoire X lorsque n → ∞ et on note Xn → X,
si P ({ω ∈ Ω, lim Xn (ω) = X(ω)}) = 1.
Remarques :
– En d’autres termes Xn converge simplement vers X sur un ensemble de
probabilité égale à un.
– De manière équivalente, l’ensemble des ω tels que Xn (ω) ne converge
pas vers X(ω) est négligeable.
– La cohérence entre les deux définitions est assurée par la propriété sui-
vante.
Propriété VI.1 Soit (Xn = (Xn1 , . . . , Xnk )) une suite de vecteurs aléatoires
à valeurs dans Rk , k ∈ N définis sur un espace probabilisé (Ω, A, P )
convergeant presque sûrement. Alors, il existe un vecteur aléatoire X,
p.s
unique au sens de l’égalité P -presque sûre, tel que Xn → X.
Démonstration : voir exercice (VI.4).
Exercice VI.4 Soit (Xn = (Xn1 , . . . , Xnk )) une suite de vecteurs aléatoires
à valeurs dans Rk , k ∈ N définis sur un espace probabilisé (Ω, A, P )
convergeant presque sûrement. Montrer qu’il existe un vecteur aléatoire
p.s
X, unique au sens de l’égalité P -presque sûre, tel que Xn → X.
Corrigé :
– Pour chaque j = 1, . . . , k, considérons X j = inf n>1 supm>n Xm j
=
j
lim sup Xn .
– X j est défini de manière sur Ω et est une variable aléatoire. X =
(X 1 , . . . , X k ) est un vecteur aléatoire.
– Pour tout ω ∈ {Xn→ }, Xnj (ω) converge et par conséquent X j (ω) =
lim sup Xnj (ω) = lim Xnj (ω).
– On en déduit que pour tout j = 1, . . . , k, Xnj converge vers X j sur un
ensemble de probabilité égale à 1, ce qui montre la propriété.
Notation : Dans la suite, quand x = (x1 , . . . , xk ) ∈ Rk , on note par | x |,
P 1/2
k 2
la norme euclidienne de x, à savoir j=1 xj .
Théorème VI.1 condition nécessaire et suffisante de convergence

presque sûre
Soient X une variable aléatoire réelle et (Xn ) une suite de variables
aléatoires réelles définies sur un espace probabilisé (Ω, A, P ). Une condi-
p.s
tion nécessaire et suffisante pour que Xn → X est que :

P ω ∈ Ω, sup | Xm (ω) − X(ω) |> ε → 0, quand n → ∞,
m>n
pour tout ε > 0.
104
Démonstration :
– Notons Aεm = {ω, | Xm (ω) − X(ω) |> ε} et Aε = n>1 m>n Aεm (en
T S
ε
langage ensembliste,
il s’agit de lim sup An ). S
– On remarque que ω ∈ Ω, supm>n | Xm (ω) − X(ω) |> ε = m>n Aεm
et la condition
S du théorème
s’exprime de manière équivalente comme
ε
limn→∞ P m>n Am = 0 pour tout ε > 0.
– On remarque que pour tout ε > 0, il existe k ∈ N tel que k1 < ε. On alors
1/k 1/k
Aεm ⊂ Am et donc m>n Aεm ⊂ m>n Am . En utilisant la croissance
S S
deP , S S
S ε 1/k ε
– P m>n A m 6 P Am et donc lim n→∞ P Am 6
S m>n m>n
1/k
limn→∞ P m>n Am .
– Il suffit donc de montrer la propriété pour des ε de la forme k1 avec
k ∈ N.
– Examinons les ensembles de convergence, {Xn→ }, et de non convergence,
{Xn→ }c de Xn ,
– ω ∈ {Xn→ } ⇔ ∀k ∈ N∗ , ∃n ∈ N∗ tel que ∀m > n, | Xm (ω) − X(ω) |6 k1 .
– En utilisant les propriétés des quantificateurs,
– ω ∈ {Xn→ }c ⇔ ∃k ∈ N∗ , ∀n ∈ N∗ tel que ∃m > n, | Xm (ω) − X(ω) |> k1 .
– En utilisant les définitions précédentes, on voit que :
1/k
– ω ∈ {Xn→ }c ⇔ ∃k ∈ N∗ tel que ω ∈ n>1 m>n Am , c’est-à-dire tel
T S
que ω ∈ A1/k .
– On a ainsi {Xn→ }c = k>1 A1/k .
S
– La convergence presque
S sûredes Xn est équivalente à :
→ c 1/k
– P ({Xn } ) = P k>1 A = 0.
S
1/k
– P k>1 A = 0 ⇔ P A1/k = 0, ∀k > 1.
S
1/k 1/k
– CommeA1/k = n>1 m>n Am , P A1/k = 0 ⇔ limn→∞ P
T S
m>n Am =
0 par continuité décroissante de P .
1/k
– Comme m>n Am = ω ∈ Ω, supm>n | Xm (ω) − X(ω) |> k1 , on ob-
S
tient la propriété annoncée.

Definition VI.3 convergence en probabilité
Soit (Xn ) une suite de vecteurs aléatoires à valeurs dans Rk , k ∈ N définis
sur un espace probabilisé (Ω, A, P ). On dit que Xn converge en probabilité
P
quand n → ∞ vers le vecteur aléatoire X (et on note Xn → X) si pour
tout ε > 0,
lim P ({| Xn − X |> ε}) = 0.
n→∞
Théorème VI.2 convergence p.s implique convergence en proba-

bilité
sur un espace probabilisé (Ω, A, P ) convergeant presque sûrement vers un
vecteur aléatoire X. Alors Xn converge en probabilité vers X.
105
Exercice VI.5 convergence p.s implique convergence en proba-
bilité
sur un espace probabilisé (Ω, A, P ) convergeant presque sûrement vers un
vecteur aléatoire X. Montrer qu’alors Xn converge en probabilité vers X.
Corrigé :
– D’après le théorème précédent caractérisant la convergence presque sûre,
on a :
– {ω ∈ Ω, | Xn (ω)−X(ω) |> ε} ⊂ ω ∈ Ω, supm>n | Xm (ω) − X(ω) |> ε .
D’où :
– P ({ω ∈ Ω, | Xn (ω) − X(ω) |> ε}) 6 P ω ∈ Ω, supm>n | Xm (ω) − X(ω) |> ε .
– par passage à la limite en n, et en utilisant les notations simplifiées,
– limn→∞ P ({| Xn − X |> ε}) 6 limn→∞ P supm>n | Xm − X |> ε =
0.
Definition VI.4 suite de cauchy pour la convergence en probabi-
lité
sur un espace probabilisé (Ω, A, P ). On dit que Xn est une suite de Cauchy
pour la convergence en probabilité si et seulement si, pour tout ε > 0 :
lim P ({| Xn − Xm |> ε}) = 0.

n,m→∞
On vérifie immédiatement qu’une suite de variables aléatoires convergeant

en probabilité est une suite de Cauchy pour la convergence en probabilité.
On montrera ultérieurement la réciproque.
Théorème VI.3 Soit (Xn ) une suite de vecteurs aléatoires à valeurs
dans Rk , k ∈ N définis sur un espace probabilisé (Ω, A, P ) de Cauchy
pour la convergence en probabilité. Alors, on peut en extraire une sous
suite (Xnk ) convergeant presque sûrement.
Démonstration :
– La définition de Xn suite de Cauchy en probabilité peut se réécrire :
– ∀ε > 0, ∀h > 0, ∃nh , n > nh , m > nh ⇒ P ({| Xn − Xm |> ε}) < h.
– Prenons ε = h = k12 pour k ∈ N∗ .
– ∃nk , ∀n > nk , ∀m > nk ⇒ P | Xn − Xm |> k12 < k12 .

– On peut prendre la suite nk croissante : si nk+1 < nk , on peut remplacer

nk+1 par nk + 1.
− Xnk |> k12 < k12 .

– On a en particulier P | Xnk+1
| Xnk+1 − Xnk |> k12 < k>1 k12 < ∞. On peut donc ap-
P P
– k>1 P
pliquer le lemme de Borel-Cantelli :
– lim sup | Xnk+1 − Xnk |> k12 est négligeable.

– lim sup | Xnk+1 − Xnk |> k12 = n>1 k>n | Xnk+1 − Xnk |> k12 .
T S
– ω ∈ n>1 k>n | Xnk+1 − Xnk |> k12

T S
106
1
– ⇔ ∀n > 1, ∃k > n, | Xnk+1 (ω) − Xnk (ω) |> k2
T S 1
c
– ω∈ n>1 k>n | X n k+1
− X n k
|> k 2
– ⇔ ∃n > 1, ∀k > n, | Xnk+1 (ω) − Xnk (ω) |6 k12

c
– On en conclut que si ω ∈ lim sup | Xnk+1 − Xnk |> k12

(qui est de
probabilité 1), alors
1
P P
– k>1 | Xnk+1 (ω) − Xnk (ω) |6 k>1 k2 < ∞.
– La série de terme général Xnk+1 (ω) − Xnk (ω) est absolument conver-
gente, donc convergente. c Pp
– Pour tout ω ∈ lim sup | Xnk+1 − Xnk |> k12 , k+1 Xnk+1 (ω) −
Xnk (ω) = Xnp+1 (ω) − Xn1 (ω) converge quand p → ∞.
– Ceci montre que l’ensemble de convergence de (Xnp ) est de probabilité
1, c’est-à-dire que la suite (Xnp ) converge presque sûrement.
Lemme VI.1 Soit X et Y deux vecteurs aléatoires à valeurs dans Rk ,
k ∈ N définis sur un espace probabilisé (Ω, A, P ). Alors, pour tout ε > 0,
n ε o n ε o
P ({| X + Y |> ε}) 6 P | X |> +P | Y |> .
2 2
Démonstration :
– Comme | X(ω) + Y (ω) |6| X(ω) | + | Y (ω) |,
– | X(ω) + Y (ω) |> ε ⇒| X(ω) | + | Y (ω) |> ε.
ε ε
– Si | X(ω) | + | Y(ω) |> ε, alors | X(ω)
|> 2 εou | Y (ω) |> 2 ,
ε
– c’est-à-dire ω ∈ | X |> 2 ou ω∈ | Y |> 2 , ou encore
– {| X + Y |> ε} ⊂ | X |> 2ε | Y |> 2ε , ce qui donne le résultat du
S
lemme par croissance de P .
Propriété VI.2 Soit X1 , X2 , . . . une suite de vecteurs aléatoires à valeurs
dans Rk , k ∈ N, définis sur un espace probabilisé (Ω, A, P ) convergeant
en probabilité vers le vecteur aléatoire X. Alors X est unique au sens de
l’égalité presque sûre.
Exercice VI.6 Soit X1 , X2 , . . . une suite de vecteurs aléatoires à valeurs
dans Rk , k ∈ N, définis sur un espace probabilisé (Ω, A, P ) convergeant
en probabilité vers le vecteur aléatoire X. Montrer en utilisant le lemme
(VI.1) que X est unique au sens de l’égalité presque sûre.
Corrigé :
P P
– Supposons que Xn → X et Xn → Y .
– D’après le lemme précédent,
– 0 6 P ({| X − Y |> ε}) 6 P | X − Xn |> 2ε +P | Xn − Y |> 2ε .

– De par la convergence en probabilité, le terme de droite tend vers 0

quand n → ∞ et donc pour tout ε > 0, P ({| X − Y |> ε}) = 0.
– Par la continuité en zéro de P , on en déduit P ({| X − Y |> 0}) = 0,
– soit P ({X = Y }) = 1, ce qui montre l’égalité presque sûre de X et Y .
107
Théorème VI.4 Soit (Xn ) une suite de vecteurs aléatoires à valeurs
dans Rk , k ∈ N définis sur un espace probabilisé (Ω, A, P ) de Cauchy
pour la convergence en probabilité. Alors, il existe un vecteur aléatoire X
tel que Xn converge en probabilité vers X.
Démonstration : voir exercice (??).
Exercice VI.7 Soit (Xn ) une suite de vecteurs aléatoires à valeurs dans
Rk , k ∈ N définis sur un espace probabilisé (Ω, A, P ) de Cauchy pour la
convergence en probabilité. Montrer en utilisant le théorème (VI.3) et le
lemme (VI.1) qu’il existe un vecteur aléatoire X tel que Xn converge en
probabilité vers X.
Corrigé :
– Considérons Xnp la sous-suite presque sûrement convergente mise en
évidence au théorème VI.3 et notons X sa limite.
– Xnp converge aussi en probabilité vers X d’après le théorème VI.2.
– Pour tout ε > 0, d’après le lemme VI.1, on a :
– 0 6 P ({| Xn − X |> ε}) 6 P | Xn − Xnp |> 2ε +P | Xnp − X |> 2ε .

– Quand p tend vers l’infini, np tend vers l’infini (c’est une suite crois-
sante).
– Quand p et n tendent vers l’infini, P | Xn − Xnp |> 2ε

tend vers
zéro car Xn est de Cauchy en probabilité.
– De même P | Xnp − X |> 2ε

tend vers 0 quand n → ∞ et donc la
convergence en probabilité de Xn vers X.
Remarques :
– Par ailleurs, comme toute suite convergeant en probabilité est de cauchy
en probabilité et en vertu du théorème VI.3, si Xn converge en probabi-
lité vers X, il existe une sous-suite Xnp convergeant presque sûrement.
Notons Z cette limite.
– De par le théorème VI.2, Xnp converge aussi en probabilité vers Z.
– Par ailleurs, on remarque que Xnp converge en probabilité vers X.
– De par l’unicité de la limite pour la convergence en probabilité, on en
conclut Z = X, c’est-à-dire que :
– Si Xn converge en probabilité vers X, il existe une sous-suite Xnp
convergeant presque sûrement vers X.
– Le théorème suivant généralise cette propriété.
Théorème VI.5 Soit X, (Xn ) respectivement un vecteur aléatoire et une
suite de vecteurs aléatoires à valeurs dans Rk , k ∈ N, définis sur un es-
pace probabilisé (Ω, A, P ). Une condition nécessaire et suffisante pour que
P
Xn → X est que toute sous-suite de Xn contienne une sous-suite qui
converge presque-sûrement vers X.
Démonstration :
– Condition nécessaire :
P
– Supposons Xn → X.
108
– En écrivant la définition de la convergence en loi, on remarque que toute
sous-suite Xnp (np croissante en p) converge en loi vers X.
– De par la remarque précédente, il existe une sous-suite de Xnp qui
converge presque sûrement vers X, ce qui montre que la condition
donnée est nécessaire.
– Condition suffisante :
– Raisonnons par l’absurde et supposons que toute sous-suite de Xn contient
une sous-suite qui converge presque sûrement vers X mais que Xn ne
converge pas en probabilité vers X.
– La condition de convergence en probabilité s’écrit ∀ε > 0, ∀h > 0, ∃k ∈
N, ∀n > k, P ({| Xn − X |> ε}) < h.
– La non convergence s’écrit ∃ε > 0, ∃h > 0, ∀k, ∃n > k, P ({| Xn − X |>
ε}) > h.
– Notons nk ce n. On peut prendre nk croissant en k sans perte de
généralité.
– On a donc ∀k ∈ N, P ({| Xnk − X |> ε}) > h et ni Xnk ni aucune
sous-suite extraite de Xnk ne converge en probabilité vers X.
– Ainsi, aucune sous-suite de Xnk ne converge presque sûrement car si elle
convergeait presque sûrement, elle convergerait aussi en probabilité.
– Ceci est en contradiction avec le point de départ.
Théorème VI.6 invariance de la convergence en probabilité par
transformation continue
Soit X, (Xn ) respectivement un vecteur aléatoire et une suite de vecteurs
aléatoires à valeurs dans Rk , k ∈ N, définis sur un espace probabilisé
(Ω, A, P ). Soit f une fonction mesurable de Rk dans Rl , l ∈ N, f étant
en outre continue sur un borélien de Rk , B, tel que P (X ∈ B) = 1. Si
P P
Xn → X, alors f (Xn ) → f (X)
Démonstration :
– La démonstration est une conséquence du théorème précédent.
– Considérons f (Xnj ) une sous-suite de f (Xn ).
– Comme Xnj converge en probabilité vers X (vérifier la définition), il
existe une sous suite de Xnj , soit Xrj (c’est aussi une sous suite de Xn )
qui converge presque T sûrement vers X.
– Notons A = {Xr→ j
} {X ∈ B}.
– A appartient, intersection de deux événements appartient à A. Ces deux
événements étant de probabilité 1, A est également de probabilité 1.
– Pour tout ω ∈ A, Xrj (ω) → X(ω).
– Comme en outre f est continue sur A, on en déduit que f (Xrj (ω)) →
f (X(ω)), pour tout ω ∈ A, c’est-à-dire que :
– f (Xrj ) converge presque sûrement vers f (X).
– D’après le théorème précédent f (Xn ) converge en probabilité vers f (X).
Propriété VI.3 Soient X, X1 , X2 , . . . et Y, Y1 , Y2 , . . . deux suites de vec-
teurs aléatoires à valeurs respectivement dans Rk , k ∈ N, et Rl , l ∈ N,
109
P P
définis sur un espace probabilisé (Ω, A, P ). Si Xn → X et Yn → Y , alors
P
(Xn , Yn ) → (X, Y ).
Exercice VI.8 Soient X, X1 , X2 , . . . et Y, Y1 , Y2 , . . . deux suites de vec-
teurs aléatoires à valeurs respectivement dans Rk , k ∈ N, et Rl , l ∈
N, définis sur un espace probabilisé (Ω, A, P ). Montrer en utilisant le
P P P
lemme (VI.1) que si Xn → X et Yn → Y , alors (Xn , Yn ) → (X, Y ).
Corrigé :
– Rappelons tout d’abord que (Xn , Yn ) et (X, Y ) sont bien des vecteurs
aléatoires à valeurs dans Rk+l , définis sur (Ω, A, P )
– Avec les notations précédentes, l’inégalité triangulaire donne :
– | (Xn , Yn ) − (X, Y ) |6| (Xn , Yn ) − (X, Yn ) | + | (X, Yn ) − (X, Y ) |.
– Par ailleurs, | (Xn , Yn ) − (X, Yn ) |=| Xn − X | et | (X, Yn ) − (X, Y ) |=|
Yn − Y |.
– Avec le même raisonnement que dans le lemme précédent (VI.1), on
montre que :
– P ({| (Xn , Yn ) − (X, Y ) |> ε}) 6 P | Xn − X |> 2ε +P | Yn − Y |> 2ε .

– Comme les deux quantités de droite convergent vers 0 quand n → ∞,

on en conclut la convergence en probabilité de (Xn , Yn ) vers (X, Y ).
Corollaire VI.1 Soient X, X1 , X2 , . . . et Y, Y1 , Y2 , . . . deux suites de va-
riables aléatoires réelles définies sur un espace probabilisé (Ω, A, P ). Si
P P
Xn → X et Yn → Y et si f est une fonction réelle définie sur R2 , conti-
nue sur un borélien B de R2 , tel que P ((X, Y ) ∈ B) = 1, alors :
P
f (Xn , Yn ) → f (X, Y ).
Démonstration : Ceci est une conséquence immédiate de la propriété VI.3

et du théorème VI.6.
Corollaire VI.2 Soient X, X1 , X2 , . . . et Y, Y1 , Y2 , . . . deux suites de vec-
teurs aléatoires à valeurs dans Rk , k ∈ N définis sur un espace probabilisé
P P
(Ω, A, P ). Si Xn → X et Yn → Y , alors :
P
(a) aXn + bYn → aX + bY , ∀a, b ∈ R
1 P 1
(b) Xn → X si P (Xn 6= 0) = P (X 6= 0) = 1, ∀n.
P
(c) Xn Yn → XY
Théorème VI.7 convergence en probabilité ⇒ convergence en loi
Soit X, X1 , X2 , . . . une suite de vecteurs aléatoires à valeurs dans Rk ,
k ∈ N définis sur un espace probabilisé (Ω, A, P ).
P L
Xn → X ⇒ Xn → X.
110
Démonstration :
– | ϕXn (t)−ϕX (t) |=| E ei<t,Xn > − ei<t,X> |6 E | ei<t,Xn > − ei<t,X> |
(voir cours sur l’intégration de fonctions à valeurs complexes).
– RL’espérance précédente s’écrit comme :R
– |Xn −X|>η | ei<t,Xn > − ei<t,X> | dP + |Xn −X|6η | ei<t,Xn > − ei<t,X> |
dP .
– Comme | ei<t,Xn > − ei<t,X> |6 2, le premier terme est majoré par :
– 2P ({| Xn − X |> η}).
– | ei<t,Xn > − ei<t,X> | représente la longueur de la corde qui relie les
points ei<t,Xn > et ei<t,X> , ces deux points étant sur le cercle unité.
– La longueur de la corde étant inférieure à la longueur de l’arc joignant
les deux points, on en déduit :
– | ei<t,Xn > − ei<t,X> |6|< t, Xn > − < t, X >|. Par Cauchy-Schwarz,
– | ei<t,Xn > − ei<t,X> |6|< t, Xn > − < t, X >|6| t | × | Xn − X |.
– Le deuxième terme est donc majoré par | t | η.
– Pour tout ε > 0 (t étant donné), On peut choisir η tel que | t | η < 2ε .
– η étant maintenant donné, il existe n tel que ∀m > n, P ({| Xn − X |> η}) <
ε
4 , de par la convergence en probabilité de Xn vers X.
– Ceci montre que ∀m > n, | ϕXn (t) − ϕX (t) |< ε.
– ϕXn converge simplement vers ϕX , ce qui montre la convergence en loi
de Xn vers X.
34.3 Convergence en moyenne

Definition VI.1 Convergence en moyenne d’ordre p
Soit X, X1 , X2 , . . . et Y, Y1 , Y2 , . . . une suite de vecteurs aléatoires à valeurs
dans Rk , k ∈ N définis sur un espace probabilisé (Ω, A, P ). On dit que Xn
converge en moyenne d’ordre p (ou converge dans Lp ) vers X si X p est
intégrable (E (| X p |) < ∞) et si
lim E (| Xn − X |p ) = 0.
n→∞
Remarques :
1/p
– On rappelle que l’application X →k X kp = (E [| X |p ]) définit une
norme sur l’ensemble des variables aléatoires intégrables à l’ordre p.
– On peut vérifier que l’on conserve une norme dans le cas de vecteurs
aléatoires, en notant comme précédemment | X | la norme euclidienne
de X.
– La définition peut se réécrire k Xn − X kp −→ 0 quand n → ∞, c’est-
à-dire que l’on considère la convergence des vecteurs aléatoires pour la
norme k kp .
– Comme k Xn kp 6k X kp + k Xn − X kp et que k Xn − X kp , Xn
a automatiquement des moments finis d’ordre p à partir d’un certain
rang.
111
– Dans le cas où p = 2, on parle de convergence en moyenne quadratique.
Dans le cas où p = 1, on parle de convergence en moyenne.
– Comme P est une probabilité, si r < p, nous avons déjà vu que k X kr 6k
X kp .
– Par conséquent, si k Xn − X kp → 0, alors k Xn − X kr → 0. La conver-
gence en moyenne à l’ordre p entraı̂ne la convergence en moyenne à tous
les ordres inférieurs à p.
– En particulier, la convergence en moyenne quadratique (ou dans L2 )
entraı̂ne la convergence en moyenne (ou dans L1 ).
Propriété VI.1 convergence en moyenne implique convergence
en probabilité
Soit X, X1 , X2 , . . . une suite de vecteurs aléatoires à valeurs dans Rk , k ∈
N définis sur un espace probabilisé (Ω, A, P ). La convergence en moyenne
L
de Xn vers X (notée Xn →1 X) entraı̂ne la convergence en probabilité de
Xn vers X.
Exercice VI.9 convergence en moyenne implique convergence en
probabilité
Soit X, X1 , X2 , . . . une suite de vecteurs aléatoires à valeurs dans Rk , k ∈
N définis sur un espace probabilisé (Ω, A, P ). Montrer que la convergence
L
en moyenne de Xn vers X (notée Xn →1 X) entraı̂ne la convergence en
probabilité de Xn vers X.
Corrigé : R
– k Xn − X k= | Xn (ω) − X(ω) | dP (ω).
– RSoit ε > 0 quelconque. R
– | Xn (ω) − X(ω) | dP (ω) > |Xn (ω)−X(ω)|>ε | Xn (ω) − X(ω) | dP (ω).
R
– |Xn (ω)−X(ω)|>ε | Xn (ω) − X(ω) | dP (ω) > εP (| Xn (ω) − X(ω) |> ε).
– On en conclut, k Xn − X k→ 0 ⇒ P (| Xn (ω) − X(ω) |> ε) → 0 pour
tout ε > 0.
– La dernière propriété n’étant autre que la convergence en probabilité.
Nous rappelons quelques propriétés étudiées dans le chapitre consacré aux
espaces Lp .
Propriété VI.2 Soit (Xn ) une suite de vecteurs aléatoires à valeurs dans
Rk , k ∈ N définis sur un espace probabilisé (Ω, A, P ). On suppose que la
série de terme général Xn est absolument
P convergente (on rappelle P que
l’absolue convergence est définie par n k Xn k1 < ∞), alors n Xn
converge presque partout et dans L1 , c’est-à-dire qu’il existe un vecteur
aléatoire X ∈ L1 , tel que :
P p.s.
(a) n6m Xn −→ X,
P L1
(b) n6m Xn −→ X,
quand m → ∞.
112
Propriété VI.3 Toute suite de cauchy dans L1 est convergente.
Si Xn est une suite de cauchy dans L1 , il existe donc X vers lequel X
converge en moyenne (et a fortiori en probabilité).
Nous énonçons maintenant un théorème de convergence énoncant des

conditions suffisantes pour la convergence en moyenne. Par rapport au
théorème de convergence dominée de Lebesgue, on ne suppose ici que la
convergence en probabilité. En revanche, les variables aléatoires sont ma-
jorées par une constante et non simplement par une variable aléatoire
intégrable.
Théorème VI.1 convergence
(Ω, A, P ) à valeurs dans Rk (k ∈ N) et X un vecteur aléatoire. On suppose
que les | Xn | sont presque sûrement majorés par une constante K, K > 0,
et que les Xn convergent en probabilité vers X, alors Xn converge en
moyenne vers X.
démonstration :
P p.s P p.s
– Montrons d’abord que X 6 K. | X |6| X − Xn | + | Xn | 6 |
X − Xn | +K. Soit k ∈ N et ω ∈ Ω.
– | X(ω) |> K + k1 ⇒| X(ω) − Xn (ω) | +K > K + k1 . On a alors {| X
|>
K + k1 } ⊂ {| X −Xn |> k1 }. P | X |> K + k1 6 P | X − Xn |> k1 . De
par la convergence en probabilité, limn→∞ P | X − Xn |> k1 = 0. D’où
P | X |> K + k1 = 0. Comme {| X |> K} = k∈N {| X |> K + k1 },
S
1 1
S P
P (| X |> K) = P k∈N {| X |> K + k } 6 k∈N P | X |> K + k =
P p.s
0, on a P (| X |> K) = 0, ce qui montre que X 6 K.
– Montrons maintenant le théorème. Soit ε > 0. Comme Xn converge
en probabilité vers X, limn→∞ P | Xn − X |> 3ε = 0. Donc il existe

n0 ∈ N, tel que n > n0 ⇒ P | Xn − X |> 3ε < 3K ε

. Pour n > n0 ,
E(| Xn −X |) = E(| Xn −X | 1I|Xn −X|> 3ε )+E(| Xn −X | 1I|Xn −X|6 3ε ) 6

E (| Xn | + | X |)1I|Xn −X|> 3ε + 3ε E(1I|Xn −X|6 3ε ). Cette dernière quan-
tité est majorée par 2KP (| Xn − X |> 3ε ) + 3ε , et donc par ε, ce qui
montre que Xn converge en moyenne vers X.
Pour aller plus loin dans les liens entre convegence en probabilité et
convergence en moyenne, il est utile d’introduire le concept d’uniforme
intégrablité. On rappelle au préalable que si | X | est un vecteur aléatoire
intégrable (E P (| X |) < ∞), alors E P (| X | 1I|X|>α ) → 0 quand α →
0. En effet, pour toute suite αn tendant vers 0, la suite Xn =| X |
1I|X|>αn converge P presque-sûrement vers 0 et les Xn sont majorés par
X intégrable, ce qui montre l’assertion par le théorème de convergence
dominée. Étant donné une suite de vecteurs aléatoires, le concept d’uni-
forme intégrabilité exprime que cette décroissance vers 0 se fait de manière
uniforme.
113
Definition VI.2 uniforme intégrabilité.
Soit Xi , i ∈ I, une famille de vecteurs aléatoires définis sur un espace
probabilisé (Ω, A, P ) à valeurs dans Rk (k ∈ N). On dit que cette famille
est uniformément intégrable si pour tout ε > 0, il existe K > 0 tel que :
∀i ∈ I, E P | Xi | 1I|Xi |>K < ε.

La famille I n’est pas forcément dénombrable. L’uniforme intégrabilité

implique l’intégrabilité et que la famille Xi est bornée dans L1 , c’est-à-
dire que toutes les espérances des | Xi | sont majorées par une constante
(indépendante de i). En effet, prenons ε = 1 et notons K1 tel que ∀i ∈
I, E P | Xi | 1I|Xi |>K
1
< 1. Comme E P (| Xi |) = E P | Xi | 1I|Xi |>K1 +
E P | Xi | 1I|Xi |6K1 < 1 + K1 . En revanche, une famille de vecteurs
aléatoires intégrables n’est pas forcément uniformément intégrable. Il se
peut même qu’une famille de vecteurs aléatoires intégrables soit bornée
dans L1 sans être uniformément intégrable. Considérons par exemple le
cas où P est la mesure uniforme sur [0, 1] et une suite de variables aléatoires
Xn = n1I]0,1/n[ . On a E P [Xn ] = 1, ∀n ∈ N. Soit K > 0 quelconque et
n > K. On a E P (| Xn | 1I|Xn |>K ) = 1, ce qui montre que la suite Xn n’est
P p.s
pas uniformément intégrable. On remarque au passage que Xn → 0, mais
que E P (Xn ) = 1 ne tend pas vers 0.
Propriété VI.4 condition suffisante d’uniforme intégrabilité Soit
(Ω, A, P ) un espace probabilisé et Soit Xi , i ∈ I une famille de vecteurs
aléatoires définis sur (Ω, A, P ) à valeurs dans Rk , k ∈ N.
(a) Si la famille Xi , i ∈ I est bornée dans Lp pour p > 1,c’est-à-dire s’il
existe une constante A > 0 telle que ∀i ∈ I, E P (| Xi |p ) < A, alors
la famille Xi est uniformément intégrable.
(b) Si la famille Xi est dominée par une variable intégrable Y , c’est-à-
P p.s
dire si ∀i ∈ I, | Xi | 6 Y et E P (Y ) < ∞, alors la famille Xi est
uniformément intégrable.
démonstration : la démonstration est laissée à titre d’exercice.
On remarque que la condition 2 est celle qui intervient dans le théorème

de convergence dominée de Lebesgue. Énonçons maintenant le théorème
qui relie convergence en probabilité en convergence en moyenne au moyen
du concept d’uniforme intégrabilité.
Théorème VI.2 Soit (Ω, A, P ) un espace probabilisé, Xn une suite de
vecteurs aléatoires intégrables définis sur (Ω, A, P ) à valeur dans Rk (k ∈
N) et X un vecteur aléatoire intégrable. Alors Xn converge en moyenne
(ou dans L1 ) vers X si et seulement si les deux conditions suivantes sont
vérifiées.
(a) Xn converge vers X en probabilité.
(b) la suite Xn est uniformément intégrable.
114
Chapitre 35
Théorèmes de
convergence
35.1 Loi des grands nombres

On rappelle pour mémoire le lemme de Borel-Cantelli démontré au cha-
pitre I.
Propriété VI.1 Lemme de Borel-Cantelli
Soit (Ω, A, P ) unPespace probabilisé et An une suite d’évènements de A.
On suppose que P (An ) < ∞. Alors lim sup An est négligeable.
Il est également possible d’établir le résultat suivant :
Corollaire VI.1 théorème de Borel-Cantelli
Soit (Ω, A, P ) un espace probabilisé et An une suite d’évènements indépendants
de A.
P
(a) Si P (An ) < ∞, alors lim sup An est négligeable.
P
(b) Si P (An ) diverge, alors P (lim sup An ) = 1.
Démonstration :
– Vérifions la partie 2 du corollaire. S
– On rappelle que P (lim sup An ) = limn→∞ ↓ P m>n Am .
S
– Il faut donc montrer que pour tout n P m>n Am = 1.
S c
– D’après les propriétés des opérations sur les ensembles, m>n Am =
S T
c c
T
m>n Am et par conséquent P Am = 1 − P m>n Am .
T T m>n
c
– P m>n Am = limN →∞ ↓ P Acm .
n6m6N Q
c c
T
– D’après l’indépendance des An , P n6m6N Am = n6m6N P (Am ) =
Q
n6m6N (1 − P (Am )).
115
– Comme
T 1 = x 6 exp x, 0 6 1P − P (Am ) 6 exp (−P
(Am )).
c
– P n6m6N Am 6 exp − n6m6N P (Am ) .
P P
– Comme P (An ) diverge, limN →∞ exp − n6m6N P (Am ) = 0.
T
c
– Donc, P m>n m = 0, ce qui montre le corollaire.
A
Propriété VI.2 Soit Xn une suite de variables aléatoires réelles définies

sur un espace probabilisé (Ω, A, P ) et µ une constante. On a :
P L
Xn −→ µ ⇔ Xn −→ µ.
Démonstration :
– L’implication est un résultat général déja démontré. Montrons la réciproque.
– Soit ε > 0. On veut montrer que P (| Xn − µ |> ε) → 0 quand n → ∞,
ou de manière équivalente que P (| Xn − µ |6 ε) → 1.
Xn R
– P (| Xn −µ |6 ε) = E P 1I|Xn −µ|6ε = E P 1I|x−µ|6ε = 1I|x−µ|6ε dP Xn (x).
– Considérons la fonction réelle continue f , nulle en dehors de ]µ−ε, µ+ε[,
telle que f (µ) = 1 et linéaire sur [µ − ε, µ], [µ, µ + ε]. f est continue,
bornée et f (x) 6 1I|x−µ|6εR.
– D’où P (| Xn − µ |6 ε) > f (x)dP Xn (x).
e
– Comme P Xn → P µ = δ(µ), f (x)dP Xn (x) → f (x)dP µ (x) = f (µ) =
R R
1.
– Comme 1 > P (| Xn − µ |6 ε) > f (x)dP Xn (x), on en déduit que
R
P (| Xn − µ |6 ε) → 1, ce qui montre la propriété.

Théorème VI.1 Loi faible des grands nombres de Khintchine
Soit Xn une suite de variables aléatoires réelles définies sur un espace
probabilisé (Ω, A, P ), indépendantes, de même loi, intégrables d’espérance
E(Xn ) = µ. Alors,
1 X Sn P
Xm = −→ µ.
n n
m6n

Exercice VI.10 Loi faible des grands nombres de Khintchine
E(Xn ) = µ. Montrer en utilisant le théorème de Lévy et en faisan un
développement limité que,
1 X Sn P
Xm = −→ µ.
n n
m6n
Corrigé :
– Montrons d’abord la convergence en loi de Snn vers µ.
– On utilise les fonctions caractéristiques ; on note ϕ, la fonction ca-
ractéristique de Xn (ne dépendant pas de n).
116
– D’après l’indépendance des Xnm , la fonction caractéristique de m6n Xnm
P
n
s’écrit comme ϕ nt .
– Comme le premier moment existe, on en déduit que ϕ(1) (0) = iµ.
– En faisant
n un développement tlimité autour
de zéro, ϕ(t) = 1+iµt+o(t).
– ϕ nt = exp n ln 1 + iµ n + o nt dont la limite quand n → ∞
est eitµ .
– La limite est donc la fonction caractéristique d’une variable aléatoire
constante égale à µ, ce qui montre la convergence en loi vers µ.
– D’après la propriété précédente, la convergence en loi vers une constante
implique la convergence en probabilité, ce qui montre la loi faible des
grands nombres.
Théorème VI.2 Loi forte des grands nombres de Kolmogorov
E(Xn ) = µ. Alors,
1 X Sn p.s.
Xm = −→ µ.
n n
m6n
Théorème VI.3 Loi des grands nombres dans L2

probabilisé (Ω, A, P ), non corrélées, de carré intégrable, et de même
espérance µ et variance σ 2 . Alors,
1 X Sn L2
Xm = −→ µ.
n n
m6n
Démonstration : voir exercice (VI.11)
Remarques : on demande ici l’existence des moments d’ordre 2. Par

ailleurs, on n’a pas besoin de l’indépendance, il suffit que les Xn soient non
corrélés. On n’a pas non plus besoin que les Xn soient de même loi, mais
simplement que les deux premiers moments soient invariants. Bien sûr si
les Xn sont iid, les hypothèses du théorème sont vérifiées. Enfin, rappelons
que la convergence dans L2 implique la convergence en probabilité, mais
que convergence en moyenne quadratique et convergence presque sûre ne
sont pas comparables en toute généralité.
Exercice VI.11 Loi des grands nombres dans L2
probabilisé (Ω, A, P ), non corrélées, de carré intégrable, et de même
espérance µ et variance σ 2 . Alors,
1 X Sn L2
Xm = −→ µ.
n n
m6n
Corrigé :
117
h 2 i
– On cherche à montrer que E Snn − µ tend vers zéro quand n → ∞.
h 2
i
– Comme E nn − µ = 0, E Snn − µ
S
= Var Snn − µ .

– Var Snn − µ = Var Snn = n12 Var [Sn ].

– Comme hles Xn sontinon corrélés, Var [Sn ] = nσ 2 .

2 2
– D’où E Snn − µ = σn → 0 quand n → ∞, ce qui montre le
théorème.
35.2 Théorème central limite

Théorème VI.1 théorème central limite (Lindeberg-Lévy) unidi-
mensionnel
Soit (Xn ) une suite de variables aléatoires réelles définies sur un espace
probabilisé (Ω, A, P ), indépendantes et de même loi, de carré intégrable
(E(Xn2 ) < ∞). OnPnote µ et σ 2 respectivement la moyenne et la variance
n
de Xn et X̄n = n1 i=1 Xi . Alors,
√

X̄n − µ L
n → N (0, 1).
σ
L
Remarque : on rappelle que → N (0, 1) signifie la convergence étroite des
√ X̄n −µ
mesures images associées aux variables aléatoires n σ vers la loi
normale centrée réduite.

Exercice VI.12 théorème central limite (Lindeberg-Lévy) unidi-
mensionnel
Soit (Xn ) une suite de variables aléatoires réelles définies sur un espace
probabilisé (Ω, A, P ), indépendantes et de même loi, de carré intégrable
(E(Xn2 ) < ∞). On note 2
Pn µ et σ respectivement la moyenne et la variance
de Xn et X̄n = n1 i=1 Xi . En utilisant ϕ, la fonction caractéristique
de Xiσ−µ et en faisantun développement limité à l’ordre 2 de la fonction
√ X̄n −µ
caractéristique de n σ , montrer que :
√

X̄n − µ L
n → N (0, 1).
σ
Corrigé :
– Notons ϕ la fonction caractéristique de la variable aléatoire, Xiσ−µ .
Comme les Xi sont de même loi, cette fonction caractéristique ne dépend
pas de i.
√ Pn
– On peut réécrire n X̄nσ−µ comme √1n i=1 Xiσ−µ .
118
– La fonction caractéristique de √1 Xi −µ s’écrit en fonction de ϕ comme
n σ
t → ϕ √tn .
– Les variables aléatoires √1 Xi −µ
sont indépendantes. La fonction ca-
n σ
n
ractéristique de leur somme est égale à ϕ √tn .
– On remarque que Xiσ−µ est d’espérance égale à zéro et de variance égale
à 1. On en déduit les dérivées première et seconde de la fonction ca-
ractéristique en zéro : ϕ(1) (0) = 0 et ϕ(2) (0) = −1.
– Un développement limité à l’ordre 2 en √tn de ϕ donne :

t2 2
– ϕ √tn = 1 − 2n + tn o √tn , avec limx→0 o(x) = 0. D’où :
n 2 n
– ϕ √tn = 1 + n1 − t2 + o √tn . Cette dernière quantité s’écrit
commeh : h 2 ii
– exp n ln 1 + n1 − t2 + o √tn .
– En utilisant les règles usuelles sur la composition des développements
2
limités, on obtient que la dernière quantité converge vers e−t /2 quand
n → ∞, ce qui montre la convergence en loi vers la loi normale centrée
réduite.
Théorème VI.2 théorème central limite (Lindeberg-Levy) mul-
tidimensionnel
Soit (Xn ) une suite de vecteurs aléatoires à valeurs dans Rp , p ∈ N, définis
sur un espace probabilisé (Ω, A, P ), indépendants et de même loi, de carré
intégrable (E(| Xn |2 ) < ∞). On note µ et Σ2 respectivement le Pvecteur
n
moyenne et la matrice de variance-covariance de Xn et X̄n = n1 i=1 Xi .
Alors,
√ L
n X̄n − µ → N (0, Σ).
Démonstration :
– Soit t ∈ Rp . Posons Yn = t0 Xn et Ȳn = n1 j6n Yj . Les Yn sont des
P
variables aléatoires indépendantes et de même loi, d’espérance égale à
t0 µ et de variance égale à t0 Σt.
√ −t0 µ L
– En utilisant le théorème central limite (unidimensionnel), n (tȲ0nΣt) 1/2 −→
N (0, 1).
– On vérifie facilement en utilisant les propriétés des fonctions caractéristiques
que si une suite de variables aléatoires réelles Zn converge en loi vers
L
N (0, 1) alors pour tout λ ∈ R, λZn → N (0, λ2 ).
√ L
– On en déduit, n Ȳn − t0 µ −→ N (0, t0 Σt).

– Notons X un vecteur aléatoire à valeurs dans Rp , distribué comme

N (0, Σ) (on a vu l’existence de tels vecteurs aléatoires). t0 X est une
0
variable aléatoire gaussienne distribuée comme √ N (0, t Σt).
0
enloi de n Ȳn − t0 µ vers une loi

– Comme Ȳn = t X̄n , la convergence
√
N (0, t0 Σt) signifie que t0 n X̄n − µ converge en loi vers t0 X.

– Comme la propriété précédente est vraie pour tout t ∈ Rp , on en déduit

le résultat annoncé d’après le théorème de Cramer-Wold.
119
Propriété VI.1 approximation de la loi normale par une loi bi-
nomiale
Soit Xn une suite de variables aléatoires réelles, définies sur un espace
probabilisé (Ω, A, P ), Xn suivant une loi B(n, p) (où B(n, p) désigne la loi
binomiale de paramètres n et p). Alors,
Xn − np L
√ −→ N (0, 1),
npq
où q = 1 − p.
Démonstration : Voir exercice (??).
Corrigé :
– On rappelle que si X est distribué comme une loi binomiale de pa-
ramètres n et p, alors P (X = x) = Cnx px (1−p)n−x pour x = 0, 1, 2, . . . , n.
Si l’on considère n tirages avec remise parmi une urne contenant une
proportion p de boules rouges, on a une probabilité P (X = x) de tirer x
boules rouges. La pourPfonction caractéristiquePde X, ϕX est telle que
n n it x n−x
ϕX (t) = E eitX = x=1 P (X = x)e
itx
= x
x=1 Cn pe q =
it
n
pe + q en vertu de la formule du binôme. En considérant les dérivées
de ϕ en zéro, on en déduit les deux premiers moments de X : E(X) = np,
Var(X) = npq.
– Considérons une suite de variables aléatoires indépendantes, de Ber-
noulli, Yi , i = 1, 2, . . . , prenant la valeur 1 avec la probabilité p et 0
avec la probabilité q (il s’agit en fait d’une loi B(1, p).
it
– On
P remarque que la fonction caractéristique de Yiitest égale n à pe + q.
– i6n Yi admet pour fonction caractéristique pe + q et a donc la
même loi que Xn .
– Par la définition même de la convergence en loi si une suite de variables
aléatoires converge en loi vers une loi limite, toute suite de variables
aléatoires de même loi converge P en loi vers la même loi limite.
Yi −np L
– Il suffit donc de vérifier que i6n √
npq −→ N (0, 1).
√ −p
– En notant Ȳn = n i6n Yi , le terme de gauche s’écrit comme n Ȳ√npq
1
P
.
– La propriété énoncée est alors une application directe du théorème cen-
tral limite dans le cas de variables de Bernoulli.
– On peut ainsi simuler une loi normale à partir d’un simple jeu de pile
ou face.
Propriété VI.2 approximation de la loi normale multivariée par
une loi multinomiale
Soit Xn une suite de vecteurs aléatoires à valeurs dans Rm (m ∈ N),
définis sur un espace probabilisé (Ω, A, P ), Xn suivant une loi multino-
Pm M(n, p1 , . . . , pm ) de paramètres n et p1 , . . . , pi , . . . , pm (pi > 0,
miale
i=1 pi = 1). On note p le vecteur de dimension m et de composantes
pi , i = 1, . . . , m et on note qi = 1 − pi . Alors,
Xn − np L
√ −→ N (0, Σ),
n
120
où Σ est la matrice de termes diagonaux pi qi et de termes croisés −pi pj .
– Démonstration :
– Quelques rappels sur la loi multinomiale.
– Si le vecteur aléatoire X = (X1 , . . . , Xm ) est distribué comme une loi
multinomiale de paramètres n et p = (p1 , . . . , pm ), alors :
– P (X1 = x1 et . . . et Xm = xm ) = x1 !...x n!
m! 1
px1 . . . pxmm
Pn
– pour x1 = 0, 1, 2, . . . , n, . . ., xm = 0, 1, 2, . . . , n et i=1 xi = n.
– La fonction caractéristique
P (vectorielle)
n de X, ϕX est telle que :
m itj
– ϕX (t1 , . . . , tm ) = j=1 pj e .
– On remarque que la loi de X est la loi de la somme de n vecteurs
aléatoires Yi = (Yi,1 , . . . , Yi,m ) indépendants identiquement distribués
suivant une loi multinomiale M(1, p).
– En considérant les dérivées en zéro de la fonction caractéristique, on
en déduit que les deux premiers moments du vecteur aléatoire Yi sont
tels que :
– E(Yi,j ) = pj , Var(Yi,j ) = pj qj (où qj = 1 − pj ) et Cov(Yi,j , Yi,l ) =
−pj pl pour j = 1, . . . , m et l = 1, . . . , m.
– On reconnaı̂t la Pmatrice Σ introduite dans l’énoncé de la propriété.
– Comme Xn ∼ i6n Yi , il suffit donc d’étudier la convergence (en loi)
P
Yi −np
de i6n√n .
√
– En notant Ȳn = n1 i6n Yi , le terme précédent s’écrit comme n Ȳn − p .
P
– La propriété énoncée est alors une application directe du théorème

central limite (cas muldimensionnel).
Propriété VI.3 Convergence de la loi de Poisson vers la loi nor-
male
Soit X une variable aléatoire distribuée selon une loi de Poisson P(λ).
L
Alors X−λ
√
λ
−→ N (0, 1) quand λ → ∞.
– On rappelle qu’une variable aléatoire X suit une loi de Poisson de
paramètre λ (λ > 0), notée P(λ) si :
x
– P (X = x) = e−λ λx! pour x ∈ N. On a par ailleurs, E(X) = λ et
Var(X) = λ.
– La fonction caractéristique de X se calcule facilement comme ϕX (t) =
it
eλ(e −1) . √
– Posons Y = X−λ √
λ
= √Xλ − λ. En utilisant les propriétés des fonctions
caractéristiques,
√ √ √
– ϕY (t) = e−it λ ϕX √tλ = exp −it λ + λ(eit/ λ − 1) .
√ 2 2
– eit/ λ − 1 = √itλ + 12 √itλ + √itλ o √1λ .
√ √ 2

– λ eit/ λ − 1 = it λ − t2 1 + o √1λ .
2
– On en conclut que ϕY (t) tend vers e−t /2
quand λ → ∞, ce qui
montre la propriété.
121
Propriété VI.4 Soit Xn une suite de variables aléatoires Xn distribuées
selon des lois binomiales B(n, pn ). Si npn → λ quand n tend vers l’infini,
alors,
L
Xn −→ P(λ),
quand n tend vers l’infini (P(λ) est la loi de Poisson de paramètre λ).
– Notons ϕXn (t) la fonction caractéristique de Xn.
n n
– On a ϕXn (t) = qn + pneit = 1 + pn (eit − 1) .
– Comme npn = λ + o n1 , on peut écrire ϕitXn (t)
comme :
1 1
– ϕXn (t) = exp nLog 1 + n λ + o n (e − 1) .
– On voit alors que ϕXn (t) tend vers exp λ eit − 1 , ce qui montre la
propriété.
35.3 Convergence de la fonction de répartition

empirique
Definition VI.1 Empirical c.d.f. Let Xn be a sequence of independent,
identically distributed, real-valued random variables. The empirical cumu-
lative distribution function Fn is defined by :
n
1X
Fn (x) = 1I{Xk 6x}
n
k=1
For all n, Fn is a simple function. You can use the Fn to approximate the
c.d.f. of the Xn thanks to the following theorem.
Théorème VI.3 (Gnedenko-Cantelli theorem) Let Xn be a sequence
of i.i.d. random variables and Fn the associated empirical c.d.f. ’s. Then
a.s.
sup |Fn (x) − F (x)| −→ 0 as n → ∞.
x∈R
122
Chapitre 36
Espérance conditionnelle
36.1 Definition of Conditional Expectation

36.1.1 General definition
Recall the definition of conditional probability associated with Bayes’ Rule
P(A ∩ B)
P(A|B) ≡
P(B)
For a discrete random variable X we have
X X
P(A) = P(A, X = x) = P(A|X = x)P(X = x)
x x
and the resulting formula for conditional expectation

Z
E(Y |X = x) = Y (ω)P(dw|X = x)
RΩ
X=x
Y (ω)P(dw)
=
P(X = x)
E(Y 1(X=x) )
=
P(X = x)
We would like to extend this to handle more general situations where
densities don’t exist or we want to condition on very “complicated” sets.
Definition VI.2 Given a random variable Y with E|Y | < ∞ defined on
a probability space (Ω, A, P) and some sub-σ-field G ⊂ A we will define the
conditional expectation as the almost surely unique random variable
E(Y |G) which satisfies the following two conditions
1. E(Y |G) is G-measurable
2. E(Y Z) = E(E(Y |G)Z) for all Z which are bounded and G-measurable
123
Remark : one could replace 2. in the previous definition with :
∀G ∈ G, E(Y 1G ) = E(E(Y |G)1G ).
124
Proof of existence and unicity
– Existence Using linearity, we need only consider X ≥ 0. Define a mea-
sure Q on F by Q(A) = E[X1A ] for A ∈ F. This is trivially absolutely
continuous with respect to P|F , the restriction of P to F. Let E[X|F] be
the Radon-Nikodym derivative of Q with respect to P|F . The Radon-
Nikodym derivative is F-measurable by construction and so provides
the desired random variable.
– Unicity : If Y1 , Y2 are two F-measurable random variables with E[Y1 1A ] =
E[Y2 1A ] for all A ∈ F, then Y1 = Y2 , a.s., or conditional expectation is
unique up to a.s. equivalence.
For G = σ(X) when X is a discrete variable, the space Ω is simply par-
titioned into disjoint sets Ω = tGn . Our definition for the discrete case
gives
E(Y |σ(X)) = E(Y |X)

X E(Y 1X=x )
n
= 1X=xn
n
P(X = xn )
X E(Y 1G )
n
= 1Gn
n
P(G n )
which is clearly G-measurable. In general for G = σ(X) :

Definition VI.3 Conditional expectation of Y given X
Let (Ω, A, P ) be a probability space, Y ∈ L1 (Ω, A, P ) and X another ran-
dom variable defined on (Ω, A, P ). Define then E(Y | X) the conditional
expectation of Y given X as E(Y | σ(X)).
Proposition VI.1 Let (Ω, A) be a measurable space,
Y ∈ L1 (Ω, A, P )
and X another real-valued random variable defined on (Ω, A, P ). As

X = f (Y ), where f is measurable, real-valued function if and only if
σ(X) ⊂ σ(Y ), we get that E(Y | X) is a measurable function of X.
Proposition VI.2 Let (Ω, A, P ) be a probability space, and X and Y two
independent random variables such that Y is P-integrable. Then E(Y |
X) = E(Y ), P -almost surely.
Do not mix this notion with the following :
36.1.2 Couples of random variables with p.d.f.

Proposition VI.3 Let (X, Y ) be a couple of real-valued random variables
with p.d.f. fX,Y (x, y) w.r.t. the Lebesgue measure on R2 . Denote the res-
pective marginal p.d.f. of X and Y as fX (x) and fY (y). Consider fX|Y (x |
125
fX,Y (x,y)
y) = fY (y) . Then almost surely
Z
∀C ∈ B, P (X ∈ C | Y = y) = fX|Y (x | y)dx.
C
If besides X is P -integrable, then

Z
E(X | Y = y) = xfX|Y (x | y)dx.
R
If g : R2 → R is a measurable function such that g(X, Y ) is integrable,

then Z
E(g(X, Y ) | Y = y) = g(x, y)fX|Y (x | y)dx.
R
Remarks : As soon as fY (y) > 0, this defines the distribution of X given

that Y = y, described by p.d.f fX|Y (x | y), which is nonnegative and of
integral 1.
If X and Y are independent, fX|Y = fX and fY |X = fY . To make the link
with E[X|Y ] would require to introduce the concept of regular conditional
distribution.
Equation (V I.3) may be useful to compute the mathematical expectation
of g(X, Y ) as
Z Z
E(g(X, Y )) = g(x, y)fX|Y (x | y)dx fY (y)dy.
R R
36.2 Properties of Conditional Expectation

36.2.1 Conditional expectation
E(·|G) may be seen as an operator on random variables that transforms
A-measurable variables into G-measurable ones.
Let us recall the basic properties of conditional expectation :
(a) E(·|G) is positive :
Y ≥ 0 → E(Y |G) ≥ 0)
(b) E(·|G) is linear :
E(aX + bY |G) = aE(X|G) + bE(Y |G)
(c) E(·|G) is a projection :
E(E(X|G)|G) = E(X|G)
126
(d) More generally, the “tower property”. If H ⊂ G then
E(E(X|G)|H) = E(X|H) = E(E(X|H) | G)
Proof : The right equality holds because E[X|H] is H- measurable,

hence G-measurable. To show the left equality, let A ∈ H. Then since
A is also in G,
E[E[E[X|G]|H]1A ] = E[E[X|G]1A ] = E[X1A ] = E[E[X|H]1A ].
Since both sides are H- measurable, the equality follows.

(e) E(·|G) commutes with multiplication by G-measurable variables :
E(XY |G) = E(X|G)Y for E|XY | < ∞ and Y Gmeasurable
Proof : If A ∈ G, then for any B ∈ G,
E[1A E[X|G]1B ] = E[E[X|G]1A∩B ] = E[X1A∩B ] = E[(1A X)1B ].
Since 1A E[X|G] is G-measurable, this shows that the required equa-

lity holds when Y = 1A and A ∈ G. Using linearity and taking limits
shows that the equality holds whenever Y is G-measurable and X and
XY are integrable.
(f) E(·|G) respects monotone convergence :
0 ≤ Xn ↑ X =⇒ E(Xn |G) ↑ E(X|G)
(g) If ϕ is convex (in particular if ϕ(x) = x2 ) and E|ϕ(X)| < ∞ then a

conditional form of Jensen’s inequality holds :
ϕ(E(X|G) ≤ E(ϕ(X)|G)
(h) E(·|G) is a continuous contraction of Lp for p ≥ 1 :
kE(X|G)kp ≤ kXkp
and
Xn Lp X implies E(Xn |G) Lp E(X|G)
−→ −→
(i) Repeated Conditioning. For G0 ⊂ G1 ⊂ . . ., G∞ = σ(∪Gi ), and X ∈

Lp with p ≥ 1 then
E(X|Gn ) a.s. E(X|G∞ )

−→
E(X|Gn ) Lp E(X|G∞ )
−→
127
(j) Best approximation property :
Suppose that the random variable X is square-integrable, but not
measurable with respect to G. That is, the information in G does not
completely determine the values of X. The conditional expectation,
Y = E[X | G], has the property that it is the best approximation
to X among functions measurable with respect to Y , in the least
squares sense. That is, if Ỹ is G-measurable, then
h i
E (Ỹ − X)2 ≥ E (Y − X)2 .

It thus realizes the orthogonal projection of X onto a convex closed

subset of a Hilbert space. This predicts the variance decomposition
theorem that we shall see in a further section.
36.2.2 Conditional variance

Definition VI.4 Let X be a square-integrable, real-valued random va-
riable defined on a probability space (Ω, A, P ), and let F be a sub-σ-
algebra of A. Define the conditional variance of X given F (denoted
by Var(X | F)) as the random variable E((X − E(X | F))2 | F).
Define also the conditional variance of X given a real-valued random va-
riable Y defined on (Ω, A, P ) (denoted by Var(X | Y )) as the random
variable E((X − E(X | Y ))2 | Y ).
Proposition VI.4 Var(X | F) and Var(X | Y ) are well- defined, almost
surely nonnegative and finite.
Var(X | F) = E(X 2 | F) − E(X | F)2 ,
and
Var(X | Y ) = E(X 2 | Y ) − E(X | Y )2 .
Proposition VI.5 Variance decomposition formula
Let (X, Y ) be a couple of random variables defined on a probability space
(Ω, A, P ), such that X is square-integrable. Then
Var(X) = E(Var(X | Y )) + Var(E(X | Y )).
This may be very useful in non-life insurance to find the variance of a
compound distribution.
Proof :
– Var(X | Y ) = E(X 2 | Y ) − (E(X | Y ))2 .
– E[Var(X | Y )] = E[E(X 2 | Y )] − E[(E(X | Y ))2 ].
– E[E(X 2 | Y )] = E[X 2 ].
– E[Var(X | Y )] = E[X 2 ] − E[(E(X | Y ))2 ].
– Var(E(X | Y )) = E[(E(X | Y ))2 ] − (E[E(X | Y )])2 .
– E[E(X | Y )] = E[X].
– Hence Var(E(X | Y )) = E[(E(X | Y ))2 ] − (E[X])2 .
128
36.2.3 Compound distributions
Let (Ω, A, P ) be a probability space, and
– (Xn )n∈N a sequence of i.i.d., nonnegative random variables defined on
(Ω, A, P ). Xn represents the severity of the nth claim in the collective
risk model.
– N an random variable defined on (Ω, A, P ) and taking values in N,
independent from the Xn . It represents the number of claims.
– Let SN = X1 + ... + XN represent the aggregate claim amount.
In many models we may know the mean and variance of N and X1 . How
can we then get the mean and variance of SN ? Simply by conditioning
on the number of claims, and using conditional expectation and variance
given N.
Proposition VI.6 First,
ESN = EN.EX1
Moreover, thanks to the variance decomposition theorem, we may decom-

pose V ar(SN ) into two parts : the first one represents the part due to
variability in claim amounts ; the second one represents the part due to
variability in the number of claims :
V ar(SN ) = EN.V ar(X1 ) + (EX1 )2 .V ar(N )
Formule de décomposition de la variance

Soit (X, Y ) un couple de variables aléatoires réelles définies sur un espace
probabilisé (Ω, A, P ), X de carré intégrable. Montrer que :
Var(X) = E(Var(X | Y )) + Var(E(X | Y )).
Preuve :
– Var(X | Y ) = E(X 2 | Y ) − (E(X | Y ))2 .
– E[Var(X | Y )] = E[E(X 2 | Y )] − E[(E(X | Y ))2 ].
– E[E(X 2 | Y )] = E[X 2 ].
– E[Var(X | Y )] = E[X 2 ] − E[(E(X | Y ))2 ].
– Var(E(X | Y )) = E[(E(X | Y ))2 ] − (E[E(X | Y )])2 .
– E[E(X | Y )] = E[X].
– D’où Var(E(X | Y )) = E[(E(X | Y ))2 ]−(E[X])2 et le résultat annoncé.

129
Septième partie
Bibliographie
131
Basel-Commitee (2001a) Operational risk, consultative document. Sup-
porting Document to the New Basel Capital Accord.
Basel-Commitee (2001b) Sound practices for the management and super-
vision of operational risk Consultative Document.
Basel-Commitee (2001c) Working paper on the regulatory treatment of
operational risk .
Basel-Commitee (2003) Supervisory guidance on operational risk advan-
ced measurement approaches for regulatory capital .
Charpentier, A., Denuit, M. (2004) Mathématiques de l’assurance non-vie,
tome I. Economica.
Durrett, R. (1999) Essentials of stochastic processes. Springer Texts in
Statistics. Springer-Verlag, New York.
Frachot, A., Moudoulaud, O., Roncalli, T. (2003) Loss distribution ap-
proach in practice. dans le livre : The Basel Handbook : A guide for
financial practitionners .
Giuffre, S. E. (2004) Operational risk : How good is the coverage ? .
Jordan, J. S. (2003) Quantifying operational risk : A supervisors pers-
pective. présentation lors du séminaire ”Operational Risk in Banks and
Financial Institutions” à Londres .
Kuritzkes, A., Ziff, B. (2004) Operational risk : New approaches to mea-
surement and modeling .
Lopez, J. A. (2002) What is operational risk ? FRBSF Economic Letter
(2).
McNee, A. (2002) Rating operational risk. disponible en ligne sur le site
www.erisk.com .
OBrien, N., Smith, B., Allen, M. (2002) Operational risk - models. dispo-
nible en ligne sur le site www.financewise.com .
Partrat, C., Besson, J.-L. (2004) Assurance non-vie. Modélisation, simu-

lation. Economica.
Pennequin, M., Roncalli, T., Salomon, E. (2004) La prise en compte de la
diversification des risques opérationnels. Banque Magazine 660.
Rolski, T., Schmidli, H., Schmidt, V., Teugels, J. (1999) Stochastic pro-
cesses for insurance and finance. Wiley Series in Probability and Statis-
tics. John Wiley & Sons Ltd., Chichester.
132
Roncalli, T. (2004) Gestion des risques financiers. Economica.
Rudin, W. (1987) Real and complex analysis, 3e Édition. McGraw-Hill
Book Co., New York.
Shaked, M. (1980) On mixtures from exponential families. J. Roy. Statist.
Soc. Ser. B 42, 192–198.
Tripp, M. H., Bradley, H. L., Devitt, R., Orros, G. C., Overton, G. L.,
Pryor, L. M., Shaw, R. A. (2004) Quantifying operational risk in general
insurance companies. présenté à l’Institute of Actuaries .
133

Cours de Gestion Des Risques D'assurances Et de Theorie de La Ruine

Transféré par

Droits d'auteur :

Formats disponibles

Cours de Gestion Des Risques D'assurances Et de Theorie de La Ruine

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours de Gestion Des Risques D'assurances Et de Theorie de La Ruine

Transféré par

Droits d'auteur :

Formats disponibles

Cours de gestion des risques

I Modélisation de la charge sinistre : du modèle indi-

3 Approximation du modèle individuel par le modèle collectif 30

4 Compléments sur la charge sinistre 31

6 Processus de Poisson : définition et premières propriétés 41

7 Processus de Poisson composé 50

8 Propriétés de Markov et martingales 52

9 Thinning, superposition et conditionnement 53

III Théorie de la ruine 56

10 Quatre différents concepts de ruine 64

13 Probabilité de ruine en temps infini 70

15 Méthodes de martingales, temps de ruine 72

16 Mesures de risque étudiées en théorie de la ruine 73

17 Problèmes de réassurance et d’investissements optimaux, contrôle

18 Processus de Lévy, résultats connus sur les temps d’atteinte et

19 Versement de dividendes jusqu’à la ruine 76

20 Modèles fluides et lien avec les files d’attente 77

23 Mesures de risque cohérentes 81

24 VaR et autres mesures de risques 82

25 Mesures de risques agrégés 83

26 Mesures de risques dynamiques 84

30 Modèles à chocs communs 92

31 Modèles à environnement markovien, modèles à facteurs 93

32 Dépendance des extrêmes 94

35 Théorèmes de convergence 115

36 Espérance conditionnelle 123

37 Citations (à dispatcher) 130

VII Bibliographie 131

Le modèle individuel vise à représenter le montant total des sinistres à payer

ce qui correspond à une somme de 2n termes, impossible à utiliser. Dans l’exemple,

Si les Wi sont i.i.d., on peut simplifier (1.1) en

où N est la variable aléatoire correspondant au nombre de polices (parmi n)

2.1 Modèle collectif

où N est une variable aléatoire à valeurs dans N représentant le nombre de

2.2 Lois utilisées pour le nombre de sinistres

2.3 Lois composées

où les Wi sont des v.a.i.i.d. et indépendantes de N , et où S = 0 si N = 0. Il

On obtient également par conditionnement sur N les premiers moments de S :

E(S) = E (E [S | N ]) = E (N.E(W1 )) = E(N ).E(W1 ),

Var (S) = E (Var [S | N ]) + Var (E [S | N ])

Cas particulier important : loi Poisson-composée.

Var (S) = λE W12 .

2.4 Rappels sur les transformées de Laplace, et

Théorème I.1 Théorème de transfert, ou de la loi image

Proposition I.1 Soit X et Y deux variables aléatoires définies sur un espace

Definition I.1 Transformée de Fourier d’une mesure

Definition I.2 Fonction caractéristique

Proposition I.2 Soit (Ω, A, P ) un espace probabilisé et X une variable aléatoire

5. De plus, pour tout t ∈ R, ϕX (−t) = ϕX (t),

2.4.2 Moments, fonctions génératrices, transformée de La-

On a le même genre de résultat avec la transformée de Laplace, et avec

– Les cumulants, notés κr , sont les coefficients du développement en série

κ1 = m, κ2 = µ2 = Var (X), κ3 = µ3 , κ4 = µ4 − 3µ22 . (2.3)

– Pour une variable aléatoire N à valeurs dans N (représentant par exemple

µ(k) = E (X(X − 1) . . . (X − k + 1)) .

Il est possible de récupérer les moments simples à partir des moments

S(n, k) = S(n − 1, k − 1) + k.S(n − 1, k)

m = µ(1) , m2 = µ(1) + µ(2) , m3 = µ(1) + 3µ(2) + µ(3) ,

et m3 = µ(1) + 7µ(2) + 6µ(3) + µ(4) .