Cours de Gestion Des Risques D'assurances Et de Theorie de La Ruine
Cours de Gestion Des Risques D'assurances Et de Theorie de La Ruine
Cours de Gestion Des Risques D'assurances Et de Theorie de La Ruine
d’assurances et de théorie de la
ruine
Stéphane Loisel
ISFA, 2005-2006
Table des matières
2 Modèle collectif 9
2.1 Modèle collectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Lois utilisées pour le nombre de sinistres . . . . . . . . . . . . . . 9
2.3 Lois composées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Rappels sur les transformées de Laplace, et les fonctions génératrices 11
2.4.1 Définitions et premières propriétés . . . . . . . . . . . . . 11
2.4.2 Moments, fonctions génératrices, transformée de Laplace . 13
2.4.3 Injectivité et inversion . . . . . . . . . . . . . . . . . . . . 16
2.4.4 Indépendance et caractérisation de l’indépendance . . . . 17
2.4.5 Lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.6 Lois composées . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5 Famille et algorithme de Panjer . . . . . . . . . . . . . . . . . . . 20
2.5.1 Etude et caractérisation des distributions vérifiant la re-
lation de récurrence de Panjer . . . . . . . . . . . . . . . . 20
2.5.2 Algorithme de Panjer . . . . . . . . . . . . . . . . . . . . 21
2.5.3 Comment utiliser l’algorithme de Panjer pour des v.a. po-
sitives ou nulles générales ? . . . . . . . . . . . . . . . . . 22
2.6 Hétérogénéité dans le modèle collectif, lois mélanges . . . . . . . 22
2.6.1 Propriétés générales des lois mélange . . . . . . . . . . . . 22
2.6.2 Lois Poisson-mélange . . . . . . . . . . . . . . . . . . . . . 24
2.6.3 Mélange de lois exponentielles . . . . . . . . . . . . . . . . 27
2.6.4 Lois composées mélange . . . . . . . . . . . . . . . . . . . 28
1
II Processus de Poisson 32
5 Rappels autour de la loi exponentielle 34
5.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . 34
5.2 Minimum de variables aléatoires exponentielles indépendantes . . 35
5.3 Lois exponentielles multivariées . . . . . . . . . . . . . . . . . . . 37
5.4 Sommes de variables aléatoires exponentielles indépendantes . . . 38
11 Processus de renouvellement 65
11.0.4 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
11.0.5 Some Elementary Results . . . . . . . . . . . . . . . . . . 65
11.0.6 Asymptotic Results . . . . . . . . . . . . . . . . . . . . . 66
12 Modèle de Cramer-Lundberg 68
12.1 Classical risk process . . . . . . . . . . . . . . . . . . . . . . . . . 68
2
14 Probabilité de ruine en temps fini 71
IV Mesures de risque 78
21 Typologie moderne des risques 79
22 Introduction 80
V Dépendance stochastique 88
27 Introduction 89
28 Copulas ou coupleurs 90
28.1 Définition des coupleurs et théorème de Sklar . . . . . . . . . . . 90
28.2 Copules à densité et densités conditionnelles . . . . . . . . . . . . 90
28.3 Familles de copules usuelles . . . . . . . . . . . . . . . . . . . . . 90
28.4 Inférence statistique des copules . . . . . . . . . . . . . . . . . . . 90
28.5 Copules archimédiennes . . . . . . . . . . . . . . . . . . . . . . . 90
3
29 Concepts et mesures de dépendance 91
VI Appendice, pense-bête 95
33 Lois usuelles 96
33.1 Lois de probabilité usuelles . . . . . . . . . . . . . . . . . . . . . 96
34 Types de convergence 98
34.1 Convergence en Loi . . . . . . . . . . . . . . . . . . . . . . . . . . 98
34.2 Convergence presque sûre et convergence en probabilité . . . . . 103
34.3 Convergence en moyenne . . . . . . . . . . . . . . . . . . . . . . . 111
4
Première partie
Modélisation de la charge
sinistre : du modèle
individuel au modèle
collectif
5
Pour représenter et quantifier le montant cumulé de tous les sinistres à payer
sur une période donnée, l’actuaire peut utiliser le modèle individuel (voir sec-
tion 1) ou le modèle collectif (voir section 2). L’avantage du modèle individuel
est qu’il permet de tenir compte de l’hétérogénéité du portefeuille. En effet,
si tous les contrats ont les mêmes caractéristiques, alors le modèle individuel
correspond exactement au modèle collectif, et fait intervenir les distributions
composées (voir section 2.3). Le modèle collectif peut également permettre de
tenir compte de l’hétérogénéité du portefeuille en utilisant les lois mélanges et
les lois mélanges composées (voir section 2.6).
6
Chapitre 1
Modèle individuel
En pratique, il est très difficile de mener les calculs dès que le nombre de polices
est élevé, même sous des hypothèses restrictives. Le plus souvent, on supposera
que les Ii sont i.i.d., avec P (I1 = 1) = p, que les Wi sont i.i.d., et que les Wi
sont indépendants des Ii . Dans ce cas, la fonction de répartition de S est donnée
par la formule classique des convolutions :
n
X
∗k
FS (x) = Cnk pk (1 − p)n−k FW (x),
k=0
∗k
oùFW est la fonction de répartition de W1 + · · · + Wk et vérifie la relation de
récurrence Z x
∗(k+1) ∗k
FW (x) = FW (x − y)dFW (y).
0
Remarquons que
Cnk pk (1 − p)n−k
représente ici la probabilité que k contrats parmi n aient subi au moins un
sinistre sur la période considérée. Dans ce cas,
2
E(S) = npE(W1 ) et Var (S) = np2 Var (W1 ) + np(1 − p) [E(W1 )] .
7
Lorsque W suit un certain type de lois, comme les lois Gamma, il est possible
∗k
d’utiliser les propriétés d’additivité de ces lois pour obtenir directement les FW
pour k ≥ 1. Par exemple, si W ∼ Γ(α, λ), dont la densité est donnée par
∗k
l’équation 5.1, alors FW est la fonction de répartition d’une loi Gamma de
paramètres (kα, λ). Ce résultat se généralise si l’indépendance est vérifiée, même
si les Wi ∼ Γ(αi , λ), avec des paramètres αi différents, mais le même paramètre
λ.
Si les Ii sont indépendants des Wi , dans le cas général, on peut juste écrire :
1
X 1
X
FS (x) = ... P (I1 = i1 , . . . , In = in )P (i1 W1 + · · · + in Wn ≤ x), (1.1)
i1 =0 in =0
8
Chapitre 2
Modèle collectif
9
Néanmoins, la surdispersion due à l’hétérogénéité du portefeuille peut conduire
à lui préférer d’autres types de lois (voir le chapitre 2.6 de ce document et le
chapitre Modélisation de la fréquence des sinistres du cours de Christian Par-
trat).
∗n
où FW est la fonction de répartition de W1 + · · · + Wn et vérifie la relation de
récurrence
Z x
∗(n+1) ∗n
pour n ≥ 0, FW (x) = FW (x − y)dFW (y).
0
et
10
D’une manière générale, la formule (2.2) décompose la variance de S en deux
termes : le premier correspond à la variabilité des coûts des sinistres autour
du coût moyen, le second correspond à la variabilité du nombre de sinistres
autour de la moyenne. Elle fait appel à la notion de variance conditionnelle (voir
définition VI.4 en appendice) et à la formule de décomposition de la variance
(voir section 36.2 en appendice). Ces formules peuvent aussi se retrouver grâce
aux fonctions génératrices (voir section 2.4.6). Nous devons d’abord revenir sur
les définitions et les propriétés de ces objets.
11
Nous rappelons ici uniquement les résultats dont nous aurons besoin. Pour plus
de détails sur les transformées de Fourier, et plus largement sur l’analyse réelle et
complexe, consulter le livre de Rudin (1987). Il est aussi utile de se remémorer le
théorème de transfert et la proposition I.1 (particulièrement dans le sens 1 ⇒ 4),
que nous utiliserons très bientôt (respectivement dès la définition I.2 et dès la
proposition I.5).
E P [g(X)] = E PX [g].
Remarques :
– si on note f , la fonction réelle
R mesurable, à valeurs dans C, qui à x as-
socie eitx , on peut réécrire eitx dP (x) comme E P (f ) avec les notations
probabilistes.
– f étant continue, c’est une v.a. sur (R,R B).
– On remarque que | eitx |= 1 et donc | eitx | dP (x) = 1. x −→ eitx est
donc donc P -intégrable et la transformée de Fourier ϕ(t) est définie en
tout t ∈ R.
12
1. est définie sur R,
2. vérifie ϕX (0) = 1,
3. et pour tout t ∈ R, | ϕX (t) |6 1,
4. est uniformément continue :
∀ > 0, ∃δ > 0, ∀s, t ∈ R, |t − s| < δ ⇒| ϕX (t) − ϕX (s) |< .
13
La fonction génératrice des moments est s’obtient de manière immédiate à
partir de la transformée de Laplace
M (s) = L(−s),
et on peut transposer les propriétés déjà présentées pour la transformée de
Laplace.
Propriété I.2 Si X est une variable aléatoire réelle positive, et si MX (ou
LX ) reste finie sur un intervalle ouvert contenant 0, alors MX est infiniment
dérivable en zéro, X admet des moments à tous les ordres et
(r) (r)
E P [X r ] = MX (0) = (−1)r LX (0).
Definition I.5 Fonction génératrice des cumulants
Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, A, P ).
On appelle fonction génératrice
des cumulants de la loi de X, la fonction KX
définie par KX (t) = log E P etX pour tout t ∈ R, tel que l’espérance est définie.
La fonction génératrice des cumulants est simplement le logarithme de la
fonction génératrice des moments. Les “cumulants” interviennent dans le développement
en série (quand celui ci existe) de KX (voir page 15).
Definition I.6 seconde fonction caractéristique
Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, A, P ).
On appelle seconde fonction caractéristique de la loi de X, la fonction par t −→
log ϕX (t) (il s’agit du logarithme complexe).
Definition I.7 fonction génératrice (des probabilités)
Soit X une variable aléatoire définie sur un espace probabilisé (Ω, A, P ). La
fonction génératrice de X au point u est définie par
GX (u) = E P uX .
Remarquons que pour s ∈ R tel que MX (s) existe, alors GX (es ) existe et
MX (s) = GX (es ) .
Propriété I.3 Soit N une variable aléatoire définie sur un espace probabilisé
(Ω, A, P ) et à valeurs dans N. Alors
+∞
X
GN (u) = P (N = n)un
n=0
est une série entière de rayon de convergence supérieur ou égal à 1, qui ca-
ractérise la loi de N , et telle que pour n ≥ 0,
(n)
GN (0)
P (N = n) = .
n!
Ces outils permettent d’obtenir différents renseignements sur la loi de la
variable aléatoire en les dérivant. La propriété précédente permet d’obtenir des
probabilités. Voyons donc quel type de moment on peut obtenir, et comment.
14
Petits rappels sur les différents types de moments
On peut être amené à utiliser différents types de moments, les moments
simples, centrés ou factoriels, voire les cumulants.
– Pour k ∈ N, le moment simple d’ordre k d’une variable aléatoire X, noté
mk , est défini par
k
mk = E (X) .
Remarquons que m0 = 1, et que m1 , noté aussi m, est égal à E(X). Le
moment simple d’ordre k, lorsqu’il existe, est égal à la dérivée k-ème en
zéro de la fonction génératrice des moments d’après la propriété I.2.
– Pour k ≥ 1, le moment centré d’ordre k d’une variable aléatoire X, noté
µk , est défini par
k
µk = E (X − m) .
Remarquons que µ1 = m − m = 0, et que µ2 = Var (X). On peut les
obtenir à partir des moments simples par la formule
k
X
µk = (−1)k+l Ckl ml mk−l .
j=0
En particulier,
15
où les nombres de Stirling de seconde espèce S(n, k) correspondent aux
nombres de partitions de {1, . . . , n} en k sous-ensembles non vides, et
peuvent être obtenus récursivement par :
En particulier,
Pour calculer les moments simples d’une variable aléatoire entière, lors-
qu’on connaı̂t GN et qu’elle a une expression qui s’y prête, il peut être
plus efficace de dériver plusieurs fois GN en 1 pour obtenir les n premiers
moments factoriels de N , puis d’utiliser les formules avec les nombres de
Stirling.
16
Corollaire I.1 Soit X et Y , deux variables aléatoires réelles définies sur un
espace probabilisé (Ω, A, P ). L’égalité entre les fonctions caractéristiques de X
et Y implique que X et Y ont la même loi, c’est-à-dire que P X = P Y .
Propriété I.4 Soit X et Y deux vecteurs aléatoires définis sur un espace pro-
babilisé (Ω, A, P ). Si ϕX = ϕY , alors P X = P Y .
17
Propriété I.5 Somme de deux variables indépendantes
Si X et Y sont deux variables aléatoires réelles définies sur un espace probabilisé
(Ω, A, P ) indépendantes, alors :
La propriété I.5 nous sera très utile pour étudier les distributions composées, en
fournissant entre autres l’argument essentiel à la preuve de la proposition I.3.
µ3 (X + Y ) = µ3 (X) + µ3 (Y ),
18
2.4.5 Lois usuelles
Exemples de fonctions caractéristiques pour des lois usuelles.
Distribution probabilités fonction caractéristique
ϕX (t)
it n
Binomiale B(n, p) Cnk pk q n−k (1 − p) + pe
k
e−λ λk!
Poisson exp λ eit − 1
r−1 r k−r
Binomiale négative Ck−1 p q ,k>r
On verra également des propriétés des fonctions génératrices des lois mélanges
(voir section 2.6). On en déduit le résultat suivant sur les moments des lois
composées :
Proposition I.4 (A CORRIGER, faire cas général) Soit
N
X
S= Wi ,
i=1
d’où
d
E rS |r=1 = λtG0W (1) = µ(t)E(W1 )
E (S) =
dr
et
d2
E rS |r=1 = µ(t)E W12 .
V ar (S) =
dr2
19
2.5 Famille et algorithme de Panjer
On démontre ici sous la forme d’un problème que les lois vérifiant la relation
de Panjer (2.5) sont exactement les lois binômiales, de Poisson, et binômiales
négatives, et que pour les distributions composées, i.e. de variables aléatoires du
type
XN
S= Yi ,
i=1
λk
∀k ∈ N, pk = e−λ ,
k!
et que la loi binômiale de paramètres n ∈ N∗ et p ∈]0, 1[ est décrite par
n k
∀0 ≤ k ≤ n, pk = p (1 − p)n−k
k
et pk = 0 pour k > n.
1. Montrer que si N vérifie (2.5) et que a = 0, alors N suit une loi de Poisson
dont on précisera le paramètre.
2. On définit la distribution binômiale négative de paramètres α > 0 et
p ∈]0, 1[ par
α+k−1
∀k ∈ N, pk = (1 − p)α pk
k
3. Calculer sa moyenne et sa variance en fonction de α et de p.
4. Comment pouvez-vous interpréter cette distribution à partir d’une expérience
réalisée avec succès avec probabilité p ?
20
5. Quelle distribution obtient-on lorsque α = 1 ?
6. Montrer que dans le cas α = 1 la distribution obtenue est sans mémoire,
c’est-à-dire que P (N > n + m|N > n) = P (N > m) pour tous m, n ∈ N.
7. Toujours dans le cas α = 1, montrer que N peut être vu comme la partie
entière d’une variable aléatoire absolument continue sans mémoire que l’on
précisera.
8. Lorsque N vérifie la relation de récurrence (2.5) avec a 6= 0, montrer que
pour tout k ∈ N,
k−1
ak Y
p k = p0 (∆ + i)
k! i=0
pour un certain ∆ à préciser.
9. Montrer que pour tout k ∈ N,
∆+k−1
pk = (1 − p)∆ ak (1 − a)∆
k
10. En déduire selon le signe de a la distribution de N.
11. Conclure que les distributions vérifiant la relation (2.5) sont exactement
les distributions de Poisson, binômiales et binômiales négatives.
12. Parmi ces 3 types de distributions, lequel choisiriez-vous pour modéliser
N si des observations vous montraient que la variance empirique de N est
beaucoup plus grande que la moyenne empirique de N ?
21
2. Définissons pour n, j ∈ N les probabilités qj∗n = P (U1 + · · · + Un = j).
Montrer que pour k, j ∈ N,
n ∗(n−1)
X qk qj−k
P (U1 = k| Ui = j) =
i=1
qj∗n
22
la modélisation, on suppose que l’hétérogénéité du portefeuille porte prin-
cipalement sur ce paramètre). On dit que Y suit une loi L-mélange de loi
de mélange Θ sur le paramètre α si
Y ∼ L(αΘ),
P (X ≤ x | Θ = θ) = F (x | θ).
Prenons tout de suite deux exemples, pour éclaircir cette notion, les lois
Poisson-mélange, qui seront étudiées en détail dans la sous-section sui-
vante, et les lois binômiale-mélange. On dit que N suit une loi Poisson-
mélange si
N ∼ Poi (λΘ),
où Θ est une variable aléatoire positive et de moyenne 1 (de manière à
assurer que λΘ est toujours positif, et que E(N ) = λ).
On dit que N suit une loi binômiale-mélange si
N ∼ Bin(n, pΘ),
où Θ est une variable aléatoire à valeurs dans [0, 1/p] et de moyenne 1 (de
manière à assurer que pΘ est toujours entre 0 et 1, et que E(N ) = np).
Une formulation plus correcte de ces deux exemples aurait consisté à dire
que sachant que Θ = θ, N suit une certaine loi de paramètres dépendant
de la valeur de θ (voir la définition I.14 dans le cas poissonien).
Remarquons qu’on a déjà vu un exemple (certes peu représentatif de
l’usage habituel des lois mélanges) de loi mélange dans un chapitre précédent.
Le modèle collectif, avec N ∼ Poi (λ) et W ∼ Exp (µ), fournit un exemple
de loi Gamma-mélange avec une loi de Poisson comme loi de mélange : en
effet si N = n, la charge sinistre globale
S ∼ Γ(µ, n),
23
et donc S suit une loi Gamma-mélange
S ∼ Γ (µ, N ) .
E(X) = E (E [X | Θ]) .
24
(b) On suppose ou on démontre que le nombre de sinistres pendant un
temps t suit une loi de Poisson de paramètre λt si le temps entre deux
sinistres suit une loi exponentielle de paramètre λ. De plus dans toute
cette partie on suppose que le coût d’un sinistre est déterministe égal
à c. A l’aide des probabilités totales calculer la prime pure qu’un
assureur pourrait faire payer à un nouvel assuré pour un an, c’est-à-
dire π = cE(N ) où N est le nombre de sinistres subis par l’assurés
en 1 an.
(c) Sachant que l’assuré n’a pas eu d’accident la première année, calculer
la nouvelle probabilité qu’il soit un bon conducteur : P (B|N = 0).
(d) Calculer P (B|N = k) pour k = 1, 2, 3, 4.
(e) Comparez ces probabilités à P (B). Qu’observez-vous ? Comment pouvez-
vous l’expliquer ?
Après cet exercice, voici les propriétés les plus importantes des lois Poisson
mélange.
Proposition I.6 Identification des lois Poisson-mélange
Soit N1 et N2 deux variables aléatoires suivant des lois Poisson mélange
de paramètres respectifs (λ, Θ1 ) et (λ, Θ2 ). N1 et N2 ont même loi équivaut
alors à Θ1 et Θ2 ont même loi.
Preuve :
La démonstration de cette proposition est immédiate d’après la propo-
sition I.9 et le fait que la fonction génératrice suffit à caractériser une
loi.
Proposition I.7 Moyenne et variance des lois Poisson-mélange
Soit N une variable aléatoire suivant une loi Poisson mélange de pa-
ramètres (λ, Θ). Alors
Preuve :
Démonstration directe avec la proposition générale I.5 et la moyenne et la
variance d’une loi de Poisson.
Le mélange augmente donc la variance, qui, contrairement au modèle de
Poisson (sans mélange), devient strictement plus grande que la moyenne,
ce qui correspond au phénomène de surdispersion. La proposition précédente
nous dit qu’après mélange les valeurs prises par la variable aléatoire sont
en moyenne plus éloignées de la moyenne qu’avant le mélange. Dans le cas
des lois de Poisson mélange, le théorème suivant nous donne encore plus
d’information : les masses de probabilité sont augmentées par le mélange
en-dehors d’un intervalle donné par deux valeurs t1 < t2 , et diminuent
pour les valeurs comprises entre t1 et t2 .
25
Proposition I.8 Théorème des deux croisements de Shaked (1980)
Soit N une variable aléatoire suivant une loi Poisson mélange de pa-
ramètres (λ, Θ). Alors il existe deux entiers 0 ≤ k1 < k2 tels que
(λ)n
P (N = n) ≥ e−λ pour n ≤ k1 et pour n > k2
n!
et
(λ)n
P (N = n) ≤ e−λ pour k1 < n ≤ k2 .
n!
Preuve :
P (N = k)
c(k) = −1
e−λ λk /k!
Z +∞ k
θ
= eλ−θ fΘ (θ)dθ − 1
0 λ
Preuve :
Il suffit de se souvenir que pour x ≥ 0, si N 0 suit une loi de Poisson de
paramètre λ0 , 0
GN (x) = eλ (x−1)
pour obtenir en conditionnant par Θ le résultat souhaité :
Z
GN (x) = eλθ(x−1) fΘ (θ)dθ = LΘ (λ(1 − x)).
θ∈A
26
Proposition I.10 Soit N une variable aléatoire suivant une loi Poisson
mélange de paramètres λ et
Θ ∼ Γ(α, α).
Alors
N ∼ P(λΘ)
suit une loi binômiale négative :
α
N ∼ BN α, .
α+λ
Preuve :
Exercice : calculer la fonction génératrice des probabilités de N , et re-
connaı̂tre celle d’une loi binômiale négative.
Exercice I.2 Soit N1 et N2 deux variables aléatoires indépendantes sui-
vant des lois Poisson-mélange de paramètres respectifs (λ1 , Θ1 ) et (λ2 , Θ2 ).
Alors N1 + N2 suit une loi Poisson-mélange de paramètres
1
λ1 + λ2 , (λ1 Θ1 + λ2 Θ2 ) .
λ1 + λ 2
27
2.6.4 Lois composées mélange
Les lois composées mélange sont juste des lois mélange pour lesquelles la loi
sous-jacente est une loi composée quelle que soit la valeur du paramètre de
mélange θ. On a donc exactement les mêmes propriétés que précédemment.
Voyons ce que cela donne pour les loi Poisson-composées mélange.
Definition I.14 Lois Poisson-composées mélange
Soit Θ une variable aléatoire (de fonction de répartition FΘ ) et A ⊂
]0, +∞[ tel que P (Θ ∈ A) = 1. Soit W une variable aléatoire. On dit que
S suit une loi Poisson-composée mélange de paramètres (λ, W, Θ) (avec
Θ comme loi de mélange) si E(Θ) = 1 et si pour tout x ∈ R, pour tout
θ ∈ A,
Nθ
!
X
P (S ≤ x | Θ = θ) = P Wi ≤ x ,
i=1
où Nθ suit une loi de Poisson de paramètre λθ, et où les (Wi )i≥1 forment
une suite de variables aléatoires indépendantes, identiquement distribuées,
de même loi que W , et indépendantes de Nθ , et avec la convention que la
somme ci-dessus est nulle si Nθ = 0.
Proposition I.13 Moyenne et variance des lois Poisson-composées
mélange
Soit S une variable aléatoire suivant une loi Poisson-composée mélange
de paramètres (λ, W, Θ), avec W et Θ de carré intégrable. Alors
Preuve :
Démonstration directe avec la proposition générale I.5 et la moyenne et la
variance d’une loi Poisson-composée.
La variance d’une loi Poisson-composée mélange peut se réécrire sous la
forme suivante
28
suit une loi Poisson-composée mélange de paramètres (λ, W, Θ). Supposons
de plus que W et Θ sont de carré intégrable. Alors
Sλ
→Θ en loi
λ
quand λ → +∞.
Preuve :
exercice.
Notons que contrairement au cas sans mélange, on n’a pas de convergence
vers une loi normale (éventuellement en renormalisant) avec un argument
du type théorème central limite, mais vers la loi de mélange elle-même.
29
Chapitre 3
Approximation du
modèle individuel par le
modèle collectif
30
Chapitre 4
Compléments sur la
charge sinistre
4.2 FFT
Voir exercice en séance de TD et par exemple page 141 de Rolski et al.
(1999).
31
Deuxième partie
Processus de Poisson
32
Ce chapitre est utile pour le cours de modèle de durées de Frédéric Plan-
chet, l’étude du modèle à chocs communs (voir partie 30), les modèles
structurels et à intensité en théorie du risque de crédit, et bien sûr le
cours de théorie de la ruine (voir partie III).
33
Chapitre 5
34
On peut démontrer que la loi exponentielle est la seule loi continue sur
R+ à avoir cette propriété.
Théorème II.1 La seule loi continue sur R+ à vérifier la propriété de
perte de mémoire est la loi exponentielle. La seule loi à valeurs dans N∗ à
vérifier la propriété de perte de mémoire est la loi géométrique.
Preuve :
Exercice, voir Rolski et al. (1999).
T = min(X1 , . . . , Xn ),
et par savoir lequel des actifs risque de faire défaut en premier. On peut
répondre très facilement à ces deux questions pour des variables aléatoires
indépendantes et de lois exponentielles.
Proposition II.3 Soit n ≥ 1 et X1 , . . . , Xn des variables aléatoires indépendantes
telles que pour 1 ≤ i ≤ n,
Xi ∼ Exp(λi ).
Alors !
n
n X
T = min(Xi ) ∼ Exp λi .
i=1
i=1
35
Preuve :
n
Y Pn
P (T > t) = P (X1 > t, . . . , Xn > t) = P (Xi > t) = e−( i=1 λi )t
,
i=1
Quel actif fait défaut en premier ?
Considérons le cas n = 2.
Z +∞
P (X1 < X2 ) = fX1 (s)P (X2 > t + s | X1 = s)
0
Z +∞
= λ1 e−λ1 s e−λ2 s ds
0
λ1
= ,
λ1 + λ 2
car Z +∞
(λ1 + λ2 )e−(λ1 +λ2 )s ds = 1.
0
On montre de la même manière la proposition suivante :
Proposition II.4 Pour n ≥ 1, et pour 1 ≤ i ≤ n, la probabilité que Xi
soit le plus petit est donnée par
λi
P (min(X1 , . . . , Xn ) = Xi ) = .
λ1 + · · · + λn
{I = i} = {min(X1 , . . . , Xn ) = Xi }.
T = min(X1 , . . . , Xn )
sont indépendantes.
36
Preuve :
Calculons la densité jointe de I et T (où la densité I correspond à la
densité discrète) : pour 1 ≤ i ≤ n et t > 0,
puisque
min(X1 , X2 ) = min(X1 , X2 , X).
Sa fonction de queue de distribution bivariée est donnée par
37
ce qui correspond à une propriété de perte de mémoire pour une loi
bivariée. La notion de perte de mémoire n’est ici plus unique, nous en
verrons une autre définition possible avec la famille de lois suivante.
Ce cadre peut être étendu aux lois multivariées en général, et il est
possible d’obtenir explicitement la forme de la fonction copule associée
(voir chapitre 28.1).
– les lois exponentielles multivariées de Gumbel : une autre façon de définir
la perte de mémoire est de le faire uniquement sur les accroissements
d’une des marginales : pour h > 0, et pour x1 , x2 > 0,
et
Ceci est vérifié pour les lois bivariées de Gumbel, définies par la fonction
de répartition jointe
λ
+ [exp(−λ1 x1 − λ2 x2 − λ max(x1 , x2 )) − exp(−(λ1 + λ2 + λ max(x1 , x2 )))]
λ1 + λ 2
pour x1 , x2 > 0. Comme les lois de Marshall-Olkin bivariées, elles sont
définies par trois paramètres λ1 , λ2 et λ > 0, et vérifient la propriété
suivante :
min(X1 , X2 ) ∼ Exp (λ1 + λ2 + λ)
(ce qui est aussi vérifié par les lois de Marshall-Olkin).
38
temps écoulé entre le i-ème et le (i + 1)-ième sinistre, et si l’on suppose
que les (Xi )i≥1 sont des variables aléatoires indépendantes, identiquement
distribuées et de loi exponentielle de paramètre λ, quelle est la loi de la
date de survenance du n-ème sinistre ?
Proposition II.6 Soit n ≥ 1 et X1 , . . . , Xn des variables aléatoires indépendantes,
identiquement distribuées et de loi exponentielle de paramètre λ > 0. Alors
Sn = X 1 + · · · + X n
xn−1 λn e−λx
fSn (x) = 1R+ (x).
(n − 1)!
Preuve :
La démonstration se fait par récurrence sur n.
Proposition II.7 Sous les hypothèses de la proposition précédente,
n n
E(Sn ) = et Var (Sn ) = 2 .
λ λ
Preuve :
Immédiat d’après la proposition II.1, car les Xi sont i.i.d..
On parle également de loi d’Erlang de paramètres (n, λ). Les lois d’Erlang
correspondent à la sous-famille des lois Gamma (α, λ) pour lesquelles α ∈
N∗ . Rappelons que dans le cas général, une variable aléatoire X suit une
loi Gamma de paramètres α et λ strictement positifs si elle admet pour
densité :
xα−1 λα e−λx
fX (x) = 1R+ (x), (5.1)
Γ(α)
où, pour α > 0, Z +∞
Γ(α) = tα−1 e−t dt.
0
(X1 , X2 ) = (Y1 + Y, Y2 + Y ),
39
au temps d’atteinte d’un état absorbant par un processus de Markov à
nombre d’états finis. La densité jointe est alors donnée sur R+ × R+ par
min(x1 ,x2 )
e−(x1 +x2 )
Z
fX (x1 , x2 ) = (x1 − t)λ1 −1 (x2 − t)λ2 −1 tλ−1 dt.
Γ(λ1 )Γ(λ2 )Γ(λ) 0
40
Chapitre 6
Processus de Poisson :
définition et premières
propriétés
sn−1
fSn (s) = e−λs λn 1 + (s)ds.
(n − 1)! R
41
Par des intégrations par parties successives, on peut montrer que la fonc-
tion de répartition de Sn est donnée pour x ∈ R par
n−1
X (λx)k
FSn (x) = 1 − e−λx 1 + (x). (6.1)
k! R
k=0
et que
{N (t) ≥ n} = {Sn ≤ t}. (6.3)
Si l’on reprend l’exemple de la page 38, dans lequel Xi représente le temps
entre le i-ème et le (i + 1)-ème sinistre, Sn représente la date d’occurrence
du n-ème sinistre, et N (t) représente le nombre de sinistres survenus avant
la date t. L’équation (6.2) dit que le nombre de sinistres survenus avant
t est égal à n si et seulement si le n-ème sinistre a eu lieu avant t, et
le n + 1-ème après t. L’équation (6.3) dit simplement que le nombre de
sinistres survenus avant t est supérieur ou égal à n si et seulement si le
n-ème sinistre a eu lieu avant t. En utilisant les équations (6.1) et (6.3),
on comprend maintenant pourquoi le processus est dit de Poisson et non
exponentiel. En effet, pour n ≥ 0 et t > 0,
GX (t) = E tX = e−λ(1−t) .
42
– Ses deux premiers moments valent
sont indépendantes.
– On dit qu’un processus (X(t))t≥0 est à accroissements stationnaires si
pour tout n ≥ 2, pour tous 0 ≤ t1 < t2 < · · · < tn et pour h ≥ 0, la loi
de
(X(t2 + h) − X(t1 + h), . . . , X(tn + h) − X(tn−1 + h))
ne dépend pas de h.
Remarquons que si (X(t))t≥0 est à accroissements indépendants, alors
X(t) est à accroissements stationnaires si et seulement si pour tout s > 0,
la loi de X(t + s) − X(t) ne dépend pas de t, et est donc la même que celle
de X(s) − X(0).
Nous pouvons maintenant énoncer le théorème II.2, qui contient une deuxième
manière de définir un processus de Poisson et qui montre au passage qu’elle
est bien équivalente à la définition II.2 que nous avions choisie.
Théorème II.2 Propriétés caractéristiques d’un processus de Pois-
son (1)
(a) N (0) = 0 presque sûrement.
(b) ∀t > s, N (t) − N (s) suit une loi de Poisson de paramètre λ(t − s)
(en particulier, (N (t))t≥0 est un processus à accroissements station-
naires).
(c) (N (t))t≥0 est à accroissements indépendants.
Réciproquement, tout processus (N (t))t≥0 qui vérifie les points 1 à 3 est
un processus de Poisson homogène d’intensité λ.
Preuve :
Exercice (voir Durrett (1999) page 132 et Rolski et al. (1999)).
43
Ce théorème explique la dénomination processus de Poisson. Néanmoins, il
ne s’agit pas des seules propriétés caractéristiques du processus de Poisson
homogène. Les deux autres caractéristiques principales sont la répartition
uniforme des sauts une fois leur nombre connu, et le fait que lorsque ∆t →
0, la probabilité qu’il y ait un saut dans l’intervalle de temps [0, ∆t] est
équivalente à λ∆t et la probabilité qu’il n’y ait pas de saut à 1 − λ∆t.
Avant de résumer tout cela dans le théorème II.3, rappelons la définition
et les propriétés des statistiques d’ordre, ou lois de Dirichlet, dont nous
allons avoir besoin.
Definition II.4 Soit n ≥ 1 et (U1 , . . . , Un ) n variables aléatoires indépendantes
uniformément distribuées sur un intervalle fini [a, b]. Notons (V1 , . . . , Vn )
leur réarrangement dans l’ordre croissant. La loi de (V1 , . . . , Vn ) est ap-
pelée la statistique d’ordre n ou loi de Dirichlet d’ordre n sur [a, b],
et notée Dn ([a, b]).
Propriété II.1 Soit
(a) (V1 , . . . , Vn ) admet pour densité sur Rn f(V1 ,...,Vn ) donnée par :
n!
f(V1 ,...,Vn ) (t1 , . . . , tn ) = 1{a≤t1 <···<tn ≤b} .
(b − a)n
n(t − a)n−1
fVn (t) = 1[a,b] (t).
(b − a)n
(c) Pour tout c ∈ [a, b], la loi conditionnelle de (V1 , . . . , Vn−1 ) sachant
que Vn = c est Dn−1 ([a, c]) .
(d) Pour tout c ∈ [a, b], la loi conditionnelle de (V1 , . . . , Vn−1 ) sachant
que Vn−1 ≤ c ≤ Vn est Dn−1 ([a, c]) .
(e) Pour tout c ∈ [a, b], la loi conditionnelle de (V2 , . . . , Vn ) sachant que
V1 = c est Dn−1 ([c, b]) .
(f ) Pour tout c ∈ [a, b], la loi conditionnelle de (V2 , . . . , Vn ) sachant que
V1 ≤ c ≤ V2 est Dn−1 ([c, b]) .
(g) Pour 1 ≤ k ≤ p ≤ n, avec p ≥ k+2, (Vk , . . . , Vp ) et (V1 , . . . , Vk , Vp , . . . , Vn )
sont conditionnellement indépendants sachant (Vk , Vp ). De plus, pour
a ≤ c < d ≤ b, la loi de (Vk+1 , . . . , Vp−1 ) sachant Vk = c et Vp = d
est donnée par Dp−k−1 ([c, d]).
Preuve :
Exercice d’application du cours de probas 2.
44
On peut maintenant énoncer le théorème annoncé, dont les points 3 et 4
montrent que les lois de Dirichlet apparaissent également lorsqu’on condi-
tionne des sommes de variables aléatoires i.i.d. de loi exponentielle.
Théorème II.3 Propriétés caractéristiques d’un processus de Pois-
son (2)
Soit N (t) un processus à valeurs dans N. Les assertions suivantes sont
équivalentes :
(a) (N (t))t≥0 est un processus de Poisson homogène d’intensité λ.
(b) – (N (t))t≥0 est à accroissements indépendants et stationnaires,
– et pour tout t ≥ 0,
N (t) ∼ Poi (λt).
(c) – Pour tout t ≥ 0,
N (t) ∼ Poi (λt),
– et pour n ≥ 1, sachant que N (t) = n, le vecteur aléatoire
(S1 , . . . , Sn )
des instants de sauts a pour loi Dn ([0, t]), la statistique d’ordre n
sur l’intervalle [0, t].
(d) – (N (t))t≥0 est à accroissements indépendants,
– E(N (1)) = λ,
– et pour n ≥ 1, sachant que N (t) = n, le vecteur aléatoire
(S1 , . . . , Sn )
des instants de sauts a pour loi Dn ([0, t]), la statistique d’ordre n
sur l’intervalle [0, t].
(e) – (N (t))t≥0 est à accroissements indépendants et stationnaires,
– et lorsque h ↓ 0,
P (N (h) = 0) = 1 − λh + o(h) et P (N (h) = 1) = λh + o(h).
(6.4)
Preuve :
Exercice (voir Durrett (1999) page 132 et Rolski et al. (1999)).
La dernière propriété des assertions 3 et 4 du théorème II.3 est très im-
portante, et sera expliquée en détail, démontrée et généralisée au cha-
pitre 9. Elle nous permettra entre autres d’écrire l’espérance d’une fonction
intégrable f des instants de sauts S1 , . . . , SN (T ) d’un processus de Poisson
homogène (N (t))t≥0 jusqu’à un temps fini T sachant que N (T ) = n sous
la forme
Z T Z tn−1 Z t2
E(f (S1 , . . . , SN (T ) )) = ... f (t1 , . . . , tn )dt1 . . . dtn . (6.5)
0 0 0
45
En particulier, pour un processus de Poisson homogène (N (t))t≥0 , sachant
que N (t) = 1, l’instant de saut S1 est uniformément distribué sur [0, t].
La propriété (6.4) sera très utile pour les démonstrations heuristiques de
résultats de théorie de la ruine (voir chapitre III), par exemple pour les
équations intégro-différentielles (12.1) et (12.2).
46
alors que SNt+1 − SNt = XNt .
Il ne reste plus qu’à montrer la première affirmation.
P(SNt+1 − t ≥ x, t − SNt ≥ y)
X
= P(Nt = n, Sn + Xn+1 − t ≥ x, t − Sn ≥ y)
n≥0
X
= P(Sn < t < Sn + Xn+1 , Sn + Xn+1 − t ≥ x, t − Sn ≥ y)
n≥0
∞ ∞
XZ sn−1 e−λs
Z
= 1s<t<s+u 1s+u−t≥x 1t−s≥y λe−λu λn dsdu
0 0 (n − 1)!
n≥1
+P(Nt = 0, X1 ≥ t + x, t ≥ y)
XZ ∞ Z ∞
sn−1 e−λs
= 1s<t 1t−s≥y 1u≥t−s+x λe−λu du λn ds + e−λ(t+x)
0 0 (n − 1)!
n≥1
XZ ∞ sn−1 e−λs
= 1s≤t−y e−λ(t−s+x) λn ds + e−λ(t+x)
0 (n − 1)!
n≥1
Z t−y
= e−λ(t+x) λeλs ds + e−λ(t+x)
0
= e−λ(t+x −1 + eλ(t−y) + e−λ(t+x)
= e−λ(y+x) − e−λ(t+x) + e−λ(t+x)
= e−λ(y+x)
In particular from point 1 with y = 0 we get that the time between t and
the next time of accident is distributed as Exp(λ). With x = 0 we have
that
1 − e−λt 1
E(t − SNt ) = →
λ λ
1
as t → +∞. You could then think : as for t > 0, we have E(SNt +1 − t) = λ
−λt
and E(t − SNt ) = 1−eλ , we should have
1 − e−λt 1
EXNt +1 = E(t − SNt ) + E(SNt +1 − t) = +
λ λ
which would be a contradiction with EXNt +1 = λ1 . The last assumption
is actually not true, because the real experiment that you carry out is
to choose a time t at random, and to look at the times of the previous
and next accident. But when you select t at random, you have a greater
probability to choose t into a large interval between two accidents than
in a small interval between two accidents which occur one just after the
other. This paradox is known as the inspection paradox.
47
In driving insurance, one simple model for the number Nt of accidents up
to time t is to take
Nt ≡ P(λt)
It could seem natural to choose exponentially-distributed inter-occurence
times due to the memoryless property of the exponential distribution, and
in this case, you get a Poisson distribution for Nt . Maybe the true reason
is that computations are much easier for Poisson processes !
For an actuary, given the experience data that he gets, it is quite easy
to verify whether the Poisson assumption is realistic or not : indeed for
Nt ≡ P(λ), we have
With the historical data, a mere computation of the empirical mean and
variance of the number of accidents during a given period may help you de-
termine if you are using a realistic model or not. In case V ar(Nt ) >> ENt
(over-dispersion), you may use for example a negative binomial distribu-
tion instead of the Poisson distribution for the number of claims during
a given period. If V ar(Nt ) << ENt (under-dispersion), you may use a
binomial distribution for example.
48
Le processus N (t) n’est plus à accroissements stationnaires, et les temps
inter-sauts Xi ne sont plus indépendants, et ne suivent plus une loi expo-
nentielle si λ(.) n’est pas constante. En effet,
Rt
P (N (t) = 0) = P (X1 > t) = e− 0
λ(u)du
,
ce qui montre que X1 et X2 ne sont pas indépendants dès que λ(.) n’est
pas constante.
49
Chapitre 7
Processus de Poisson
composé
S(t) = W1 + · · · + WN (t) ,
d’où
d h S(t) i
E (S(t)) = E r = λtG0W (1) = µ(t)E(W1 )
dr |r=1
50
et
d2 h S(t) i
= µ(t)E W12 .
V ar (S(t)) = 2
E r
dr |r=1
Preuve :
Exercice de révision.
51
Chapitre 8
Propriétés de Markov et
martingales
8.2 Martingales
Théorème II.4 Soit (N (t))t≥0 un processus de Poisson homogène d’in-
tensité λ. Alors
N (t) − λt,
et α
−1)λt
eαN (t)−(e
sont des martingales par rapport à la filtration naturelle de (N (t))t≥0 .
Ce résultat se généralise sans peine aux processus de Poisson inhomogènes
et aux processus de Poisson composés.
52
Chapitre 9
Thinning, superposition
et conditionnement
et Nj (t) = 0 si N (t) = 0.
Alors les (Nj (t))t≥0 sont des processus de Poisson homogènes indépendants
de paramètres respectifs λ.P (W1 ∈ Aj ).
En particulier, en assurance non-vie, en prenant A1 = {0}, A2 =]0, +∞[,
et A3 =] − ∞, 0[, comme P (W1 ∈ A3 ) = 0, si le processus décrivant le
nombre de sinistres (nuls et non nuls) jusqu’au temps t est un processus de
Poisson homogène d’intensité λ, alors celui décrivant le nombre de sinistres
non nuls jusqu’au temps t est un processus de Poisson de paramètre λ(1 −
P (W1 = 0)). Séparer un processus de Poisson d’une telle manière se dit
thinning. Le contraire, l’addition de processus de Poisson indépendants
s’appelle superposition.
Théorème II.6 Soit k ≥ 2, et (Nj (t))t≥0 , 1 ≤ j ≤ k des processus
de Poisson homogènes d’intensité λ1 , . . . , λk . Alors (N (t))t≥0 défini pour
t ≥ 0 par
N (t) = N1 (t) + · · · + Nk (t)
est un processus de Poisson d’intensité λ1 + · · · + λk .
53
Ce théorème se généralise sans peine à des processus de Poisson inho-
mogènes.
9.2 Conditionnement
Dans cette section, on s’intéresse à la position des instants de sauts sachant
qu’il y en a n entre 0 et T . On commence par le cas le plus facile, celui
d’un processus homogène, et on généralise ensuite les résultats pour un
processus de Poisson inhomogène.
54
Remarquons que les lois conditionnelles obtenues dans les théorèmes II.7
et II.8 ne dépendent pas de λ. L’homogénéité est synonyme de symétrie,
qui est brisée dès que l’intensité n’est plus constante. Les généralisations
des deux théorèmes précédents au cas inhomogène feront donc apparaı̂tre
cette dissymétrie en faisant intervenir la fonction d’intensité et la fonction
d’intensité cumulée.
55
Troisième partie
Théorie de la ruine
56
Soit R(t) = u + X(t) un processus de risque classique :
– (X(t))t≥0 est donc défini pour tout t ≥ 0 par
N (t)
X
X(t) = ct − Wi ,
i=1
Preuve :
Pour h > 0,
ϕ(u) = E (ϕ(u + X(T1 ∧ h))) .
L’idée est de distinguer les cas T1 ≤ h (dans ce cas le processus repart après
un temps aléatoire T1 de la position aléatoire u + cT1 − W1 ) et T1 > h
(dans ce cas, le processus repart après un temps h de la position u+ch). La
perte de mémoire de la loi exponentielle nous garantit la perte de mémoire
du processus de Poisson (N (t))t≥0 , et donc du processus (X(t))t≥0 qui est
sans mémoire.
Z h Z +∞
ϕ(u) = ϕ(u + ch)P (T1 > h) + fT1 (t) ϕ(u + ct − y)dFW1 (y)dt.
0 0
1 − e−λh 1 h −λt +∞
ϕ(u + ch) − ϕ(u)
Z Z
= ϕ(u+ch) − λe ϕ(u+ct−y)dFW1 (y)dt.
h h h 0 0
57
En passant à la limite lorsque h ↓ 0, en utilisant la continuité à droite de
ϕ et le fait que
1 h
Z
g(t)dt → g(0)
h 0
quand h → 0 pour toute fonction g continue à droite, on obtient
Z +∞
cϕ0d (u) = λ ϕ(u) − ϕ(u − y)dFW (y) ,
0
Dans le cas où FW est continue, les dérivées à droite et à gauche sont les
mêmes pour tout u et correspondent donc à ϕ0 (u).
λ u
Z
ϕ(u) = ϕ(0) + ϕ(u − y)(1 − FW (y))dy. (9.3)
c 0
Preuve :
D’après (9.2), pour u > 0,
λ
ϕ0 (u) = (ϕ(u) − (ϕ ∗ fW )(u)) .
c
En prenant la transformée de Laplace, on obtient pour s > 0
λ λ
sLϕ (s) − ϕ(0) = Lϕ (s) − Lϕ (s).sLFW (s). (9.4)
c c
En effet, rappelons que
Z +∞ Z +∞
+∞
ϕ0 (u).e−su du = ϕ(u).e−su 0 + ϕ(u).se−su du = −ϕ(0)+sLϕ (s)
Lϕ0 (s) =
0 0
58
En divisant par s l’équation (9.4), on obtient
ϕ(0) λ 1
Lϕ (s) = + Lϕ (s) − LFW (s) ..
s c s
Preuve :
ϕ est une fonction croissante. Pour n ≥ 1,
ϕ(n) = E 1{inf X(t)<−n} .
Or In = 1{inf X(t)>−n} est une suite croissante de v.a., qui tend vers
1 presque sûrement. En effet, comme ρ > 0, d’après la loi des grands
nombres, X(t) → +∞ quand t → +∞, et donc le processus est positif à
partir d’un certain temps (aléatoire) T fini presque sûrement, et l’infimum
pris sur le compact [0, T ] est donc fini. D’après le théorème de convergence
monotone,
lim E(In ) = E (lim In ) = E(1) = 1.
En passant à la limite dans l’équation (9.3), on obtient
λµ
ϕ(0) = 1 − ,
c
ce qui constitue un résultat très robuste qui ne dépend de FW que par la
moyenne µ de W .
59
Dans le cas où W ∼ Exp(1/µ), d’après l’équation intégro-différentielle
(9.2), pour tout u ≥ 0,
Z u Z u
0 λ −y/µ λ −(u−y)/µ
ϕ (u) = ϕ(u) − ϕ(u − y)e dy = ϕ(u) − ϕ(y)e dy .
c 0 c 0
(9.5)
En dérivant par rapport à u, on obtient
λ (−1) u
Z
λ λ
ϕ00 (u) = ϕ0 (u) − ϕ(y)e−(u−y)/µ dy − ϕ(u). (9.6)
c c µ 0 cµ
λ (−1) u
Z
1 λ
− ϕ(y)e−(u−y)/µ dy = ϕ(u) − ϕ0 (u) .
c µ 0 µ c
et donc
00 λ 1
ϕ (u) = − ϕ0 (u).
c µ
Soit
λ 1 ρ
R= − = .
c µ µ(1 + ρ)
En intégrant deux fois, on obtient
ϕ(u) = C1 + C2 e−Ru .
C1 = ϕ(+∞) = 1 et
1
ϕ(0) = C1 + C2 = 1 − ,
1+ρ
d’où pour u ≥ 0,
1 −Ru
ϕ(u) = 1 − e (9.7)
1+ρ
et
1 −Ru
ψ(u) = e . (9.8)
1+ρ
60
9.3 Méthodes de martingales
Appliquons le théorème d’arrêt optimal de Doob à la martingale (M (t))t≥0
(exercice : montrer qu’il s’agit bien d’une martingale par rapport à la
filtration naturelle de (M (t))t≥0 ) définie par
e−r(u+X(t))
M (t) = ,
E e−rX(t)
e−ru
P (Tu ≤ t0 ) ≤ . (9.11)
E [M (Tu ) | Tu ≤ t0 ]
Or
1 1 1
= h −r(u+X(T )) i≤ 1 ,
E [M (Tu ) | Tu ≤ t0 ] E e eg(r)Tu u | Tu ≤ t0 E eg(r)Tu | Tu ≤ t0
61
car sachant que Tu est fini, u+X(Tu ) < 0. Donc l’inéquation (9.11) devient
e−ru
P (Tu ≤ t0 ) ≤ . (9.13)
E e−g(r)Tu | Tu ≤ t0
On a conditionné par rapport à l’événement {Tu ≤ t0 }, et donc
h i
E e−g(r)Tu | Tu ≤ t0 ≥ inf e−tg(r) ,
0≤t≤t0
et
1 1
≤ = sup etg(r) .
E e−g(r)Tu | Tu ≤ t0 inf 0≤t≤t0 e−tg(r) 0≤t≤t0
Pour que la borne soit finie et présente un intérêt, il faut que r soit le plus
grand possible tout en ayant g(r) ≤ 0. Il faut donc prendre
62
En prenant r = R, on peut montrer que ce terme tend vers 0 lorsque t0 →
+∞. Rappelons que dans ce cas g(R) = 0 et que M (t) s’écrit simplement
M (t) = e−R(u+X(t)) .
et comme
{Tu > t0 } ⊂ {u + X(t0 ) ≥ 0},
on obtient l’inégalité
h i
0 ≤ E [M (Tu ∧ t0 ) | Tu > t0 ] P (Tu > t0 ) ≤ E e−R(u+X(t0 )) .1{u+X(t0 )≥0} ≤ 1.
(9.15)
Or quand t → +∞,
u + X(t) → +∞ p.s.,
ce qui implique que lorsque t0 → +∞,
e−Ru
ψ(u) = . (9.16)
E e−R(u+X(Tu )) | Tu < +∞
63
Sixième partie
Appendice, pense-bête
95
Chapitre 33
Lois usuelles
96
Distribution Densité Paramètres
Uniforme sur [a, b] 1/(b − a), a 6 x 6 b a, b ∈ R ; a < b
2 2
Normale ou Gaussienne (2πσ 2 )−1/2
e−(x−µ) /(2σ ) , x ∈ R µ ∈ R, σ > 0
2
Log-normale 1
√
σx 2π
exp − (log2σ
x−µ)
2 ,x>0 µ ∈ R, σ > 0
−x2 /2
Rayleigh xe ,x>0
xα−1 e−x/β
Gamma Γ(α)β α , x > 0 α > 0, β > 0
r−1
x (1−x)s−1
Beta B(r,s) ,06x6 1 r > 0, s > 0
−λx
Exponentielle (Γ, α = 1, β = 1/λ) λe ,x>0 λ>0
1 −λ|x|
Laplace 2 λe ,x∈R λ>0
2−n/2 xn/2−1 e−x/2
Chi-deux, χ2 (Γ, α = n/2, β = 2) Γ(n/2) ,x>0 n = 1, 2, . . .
Γ( 2 (n+1))
1 −(n+1)/2
x2
Student, t (nπ)1/2 Γ(n/2)
1 + n , x∈R n = 1, 2, . . .
(m/n)m/2 xm/2−1
F B(m/2,n/2) (1+mx/n)m+n)/2 m, n = 1, 2, . . .
θ
Cauchy π(x2 +θ 2 ) , x ∈ R θ>0
e−(x−α)/β
Logistique (1+e−(x−α)/β )2
α ∈ R, β > 0
α 0 < α < 1,
Weibull αθxα−1 e−θx , x > 0
θ>0
Gumbel exp(x − ex ), x ∈ R
k > 0,
Pareto αk α x−(α+1) , x > k a > 0,
x>k
97
Chapitre 34
Types de convergence
98
toute fonction réelle f définie sur Rk continue bornée, on a :
Z Z
f (x)dPn (x) −→ f (x)dP (x).
– Remarques :
– Traduction anglaise de convergence étroite : weak convergence.
– La définition donnée pour des mesures positives bornées (ou finies,
c’est-à-dire Pn (Rk ) < ∞) s’applique en particulier à des mesures de
probabilité.
– La notion de convergence étroite s’étend à des espaces métriques quel-
conques munis de leur tribu borélienne.R R
– On peutRréécrire de manièreR équivalente f (x)dPn (x) −→ f (x)dP (x)
comme f (x)dFn (x) −→ f (x)dF (x) où F, F1 , F2 , . . . sont les fonc-
tions de répartition associées aux mesures P, P1 , P2 , . . ..
Théorème VI.1 Helly-Bray (convergence complète ⇒ convergence étroite)
Si Fn est une suite de fonctions de répartition sur Rk , k ∈ N convergeant
complètement vers une fonction de répartition sur Rk , F . Alors pour toute
fonction f définie sur Rk , continue bornée :
Z Z
f (x)dFn (x) −→ f (x)dF (x)
quand n → ∞.
– Remarque : Notons Pn la mesure de probabilité sur (Rk , B(Rk )) de
fonction de répartition Fn et P la mesure de probabilité associée à F .
– La convergence complète des Fn implique la convergence étroite des me-
sures de probabilité Pn . Il existe une réciproque au théorème précédent.
Théorème VI.2 équivalence entre convergence complète et conver-
gence étroite
k
k k
de répartition sur R , k ∈ N de probabilités
Soit F, F1 , F2 , . . . les fonctions
P, P1 , P2 , . . . sur R , B(R ) . Alors :
e c
Pn −→ P ⇔ Fn −→ F.
99
Sauf dans le cas de lois absolument continues par rapport à la mesure de
Lebesgue, le concept de convergence complète est un peu délicat à manier
dans Rk (car il faut étudier l’ensemble de continuité de la loi limite). On
peut néanmoins procéder avec l’approche suivante :
Definition VI.3 Convergence étroite d’une suite de mesures bornées
sur Rk
Soit P, P1 , P2 , . . . une suite de mesures de probabilité sur Rk , B(Rk ) . On
e
dit que Pn converge étroitement vers P et on note Pn −→ P , si pour tout
A ∈ B(Rk ) tel que P (∂A) = 0, on a Pn (A) −→ P (A) quand n → ∞.
Propriété VI.2 Les deux définitions de convergence étroite sont équivalentes.
Elles sont en outre équivalentes à :
(a) lim inf Pn (A) > P (A) pour tout A ouvert.
(b) lim sup Pn (A) 6 P (A) pour tout A fermé.
– Remarques :
– ∂A est la frontière de A définie par ∂A = A∩Ac où A est la fermeture
de A.
– Dans cette définition, on ne demande pas la convergence pour tout
ensemble mesurable, mais simplement pour tout ensemble mesurable
dont la frontière n’est pas chargée pour la probabilité limite P .
Pour terminer considérons une dernière présentation de la convergence
parfois utilisée :
Definition VI.4 Convergence vague d’une suite de mesures bornées
sur Rk
Soit P, P1 , P2 , . . . une suite de mesures positives bornées sur Rk , B(Rk ) .
v
On dit que Pn converge vaguement vers P et on note Pn −→ P , si pour
toute fonction réelle f définie sur Rk continue à support compact, on
a: Z Z
f (x)dPn (x) −→ f (x)dP (x).
– Remarques :
– On montre qu’il est équivalent de dire :
(a) Pn converge étroitement vers P .
(b) Pn converge vaguement vers P et en outre Pn (Rk ) → P (Rk ).
– Dans le cas où P, P1 , P2 , . . . sont des mesures de probabilité, la condi-
tion Pn (Rk ) → P (Rk ) est automatiquement vérifiée puisque Pn (Rk ) =
P (Rk ) = 1. R R
– On peut alors se limiter à la condition f (x)dPn (x) −→ f (x)dP (x)
pour toute fonction f continue à support compact.
– C’est parfois cette dernière définition qui est fournie pour la conver-
gence étroite de mesures de probabilité.
100
Il existe une autre approche très simple pour étudier la convergence étroite,
qui utilise les fonctions caractéristiques et ne fait pas appel à l’étude de la
continuité de la fonction de répartition jointe.
Propriété VI.3 Si F, F1 , F2 , . . . sont des fonctions de répartition sur Rk ,
c
k ∈ N avec des transformées de Fourier associées ϕ, ϕ1 , ϕ2 , . . . et si Fn −→
F alors ϕn (t) −→ ϕ(t) pour tout t ∈ Rk .
Démonstration : voir l’exercice (VI.1).
Exercice VI.1 Montrer que si F, F1 , F2 , . . . sont des fonctions de répartition
sur Rk , k ∈ N de transformées de Fourier associées ϕ, ϕ1 , ϕ2 , . . . et si
c
Fn −→ F alors ϕn (t) −→ ϕ(t) pour tout t ∈ Rk .
Corrigé :
– C’est une conséquence directe du théorème de Helly-Bray.
– Pour tout t ∈ Rk donné, les fonctions qui à x ∈ Rk associent R ei<t,x>
et ei<t,x> sont continues
R Ii<t,x> bornées.
dFn (x) −→ ei<t,x> dF (x), c’est-à-dire ϕn (t) −→ ϕ(t).
R
– e
Théorème VI.3 de continuité (dit de Lévy)
Soit (ϕn ), n ∈ N, une suite de transformées de Fourier, de mesures de
probabilité Pn sur Rk , B(Rk ) , k ∈ N. Si ϕn converge en tout point de Rk
vers une fonction ϕ continue au point (0, 0, . . . , 0), alors ϕ est la trans-
formée de Fourier d’une mesure de probabilité P sur Rk , B(Rk ) et Pn
converge étroitement vers P .
Remarques :
– Ce théorème (admis) établit une réciproque de la propriété précédente.
– Attention : toute fonction n’est pas la transformée de Fourier d’une
mesure (il faut par exemple qu’il y ait continuité uniforme). Il existe
plusieurs propriétés permettant de caractériser des situations où une
fonction donnée est une fonction caractéristique.
– Si ϕn (t) converge vers une fonction caractéristique ϕ(t) d’une proba-
bilité P , alors le théorème s’applique car ϕ est continue en zéro et Pn
converge vers la probabilité P .
Corollaire VI.1 continuité de la convolution
Soit (Pn ) et (Qn ) deux suites de mesures de probabilité sur Rk , B(Rk )
convergeant étroitement, respectivement vers P et Q. Alors (Pn ∗ Qn )
converge étroitement vers P ∗ Q.
Démonstration : La démonstration est immédiate en utilisant le fait que
la transformée de Fourier de Pn ∗ Qn est le produit des transformées de
Fourier et le théorème de Lévy.
Definition VI.5 convergence en loi
Soit Xn une suite de vecteurs aléatoires définis sur un espace probabilisé
à valeurs dans Rk , k ∈ N. On dit que Xn converge en loi vers le vecteur
L
aléatoire X (à valeurs dans Rk ) et on note Xn → X si :
e
P Xn → P X .
101
Remarque :
– Si Fn , F sont les fonctions de répartition de Xn , X, la convergence en
loi de Xn vers X est équivalente à la convergence de Fn (x) vers F (x)
en tout point de continuité de F .
Corollaire VI.2 Cramer-Wold
Soit Xn une suite de vecteurs aléatoires définis sur un espace probabilisé
à valeurs dans Rk , k ∈ N. Xn converge en loi vers le vecteur aléatoire X
(à valeurs dans Rk ) si et seulement si pour tout λ = (λ1 , . . . , λk ) ∈ Rk ,
λ0 Xn converge en loi vers λ0 X.
Démonstration : voir l’exercice VI.2.
Exercice VI.2 Cramer-Wold
Soit Xn une suite de vecteurs aléatoires définis sur un espace probabi-
lisé à valeurs dans Rk , k ∈ N. Montrer que Xn converge en loi vers
le vecteur aléatoire X (à valeurs dans Rk ) si et seulement si pour tout
λ = (λ1 , . . . , λk ) ∈ Rk , λ0 Xn converge en loi vers λ0 X.
Corrigé : on utilise les fonctions caractéristiques :
– Supposons que Xn converge en loi vers X, c’est-à-dire que P Xn converge
étroitement vers P X . R 0
– D’après le théorème de continuité, il est équivalent de dire que eit x dP Xn (x)
R 0
converge vers eit x dP X (x) hpour tout i t ∈ Rk , c’est-à-dire
h i d’après le
0 0
théorème de transfert que E eit Xn converge vers E eit X ou encore
avec les notations habituelles
h que ϕiXn (t) converge vers ϕX (t).
0
iuλ X
– Soit u ∈ R. ϕλ0 Xn (u) = E e n
= ϕXn (uλ) → ϕX (uλ) = ϕλ0 X (u).
– D’après le théorème de continuité, λ0 Xn converge en loi vers λ0 X.
– Réciproquement, supposons que λ0 Xn converge en loi vers λ0 X pour
tout λ ∈ Rk .
– Dans ce cas, ϕλ0 Xn (1) → ϕλ0 X (1) en appliquant le théorème de conti-
nuité.
– En utilisant ϕXn (λ) = ϕλ0 Xn (1) et ϕXn (λ) = ϕλ0 Xn (1), on obtient la
convergence en loi de Xn vers X.
Remarque :
– En prenant λi = 1 et λj = 0, j 6= i, on obtient que la convergence
en loi du vecteur aléatoire Xn vers le vecteur aléatoire X implique la
convergence en loi des composantes de Xn , Xni vers les composantes de
X, X i .
– En revanche, la réciproque est fausse.
– Considérons par exemple X ∼ N (0, 1) et les suite Xn = X, Yn =
(−1)n X. Xn et Yn convergent en loi vers X.
– La suite (Xn , Yn ) ne converge pas en loi (ni la fonction de répartition
jointe, ni la fonction caractéristique jointe ne convergent) et par conséquent
(Xn , Yn ) ne converge pas en loi vers (X, X).
102
Corollaire VI.3 Soit (Xn ) une suite de vecteurs aléatoires convergeant
en loi vers X, tous ces vecteurs aléatoires étant définis sur un espace
probabilisé (Ω, A, P ) et à valeurs dans Rk . Soit h une fonction continue
de Rk dans Rm . Alors h(Xn ) converge en loi vers h(X)
Démonstration : voir exerice (VI.3).
Exercice VI.3 Soit (Xn ) une suite de vecteurs aléatoires convergeant en
loi vers X, tous ces vecteurs aléatoires étant définis sur un espace proba-
bilisé (Ω, A, P ) et à valeurs dans Rk . Soit h une fonction continue de Rk
dans Rm . Montrer que h(Xn ) converge en loi vers h(X)
Corrigé :
0
– Soit t ∈ Rm donné. La fonction x → eit h(x) est une fonction continue
bornée. R 0 R 0
– D’après le théorème de Helly-Bray eit h(x) dP Xn (x) → eit h(x) dP X (x),
c’est-à-dire ϕh(Xn ) (t) → ϕh(X) (t), ce qui montre la propriété d’après le
théorème de P. Levy.
Propriété VI.4 équivalence entre convergence en loi et conver-
gence simple des fonctions caractéristiques
Soit X et Xn , n ∈ N des vecteurs aléatoires à valeurs dans Rk définis
sur un espace probabilisé (Ω, A, P ), de fonctions caractéristiques respecti-
vement ϕ(t) et ϕn (t), t ∈ Rk . Alors,
L
Xn −→ X ⇐⇒ lim ϕXn (t) = ϕX (t), ∀t ∈ Rk .
n→∞
103
Definition VI.2 convergence presque sûre Soit (Xn ) une suite de
vecteurs aléatoires à valeurs dans Rk , k ∈ N définis sur un espace pro-
babilisé (Ω, A, P ). On dit que Xn converge presque sûrement (ou presque-
p.s
partout) vers le vecteur aléatoire X lorsque n → ∞ et on note Xn → X,
si P ({ω ∈ Ω, lim Xn (ω) = X(ω)}) = 1.
Remarques :
– En d’autres termes Xn converge simplement vers X sur un ensemble de
probabilité égale à un.
– De manière équivalente, l’ensemble des ω tels que Xn (ω) ne converge
pas vers X(ω) est négligeable.
– La cohérence entre les deux définitions est assurée par la propriété sui-
vante.
Propriété VI.1 Soit (Xn = (Xn1 , . . . , Xnk )) une suite de vecteurs aléatoires
à valeurs dans Rk , k ∈ N définis sur un espace probabilisé (Ω, A, P )
convergeant presque sûrement. Alors, il existe un vecteur aléatoire X,
p.s
unique au sens de l’égalité P -presque sûre, tel que Xn → X.
Démonstration : voir exercice (VI.4).
Exercice VI.4 Soit (Xn = (Xn1 , . . . , Xnk )) une suite de vecteurs aléatoires
à valeurs dans Rk , k ∈ N définis sur un espace probabilisé (Ω, A, P )
convergeant presque sûrement. Montrer qu’il existe un vecteur aléatoire
p.s
X, unique au sens de l’égalité P -presque sûre, tel que Xn → X.
Corrigé :
– Pour chaque j = 1, . . . , k, considérons X j = inf n>1 supm>n Xm j
=
j
lim sup Xn .
– X j est défini de manière sur Ω et est une variable aléatoire. X =
(X 1 , . . . , X k ) est un vecteur aléatoire.
– Pour tout ω ∈ {Xn→ }, Xnj (ω) converge et par conséquent X j (ω) =
lim sup Xnj (ω) = lim Xnj (ω).
– On en déduit que pour tout j = 1, . . . , k, Xnj converge vers X j sur un
ensemble de probabilité égale à 1, ce qui montre la propriété.
Notation : Dans la suite, quand x = (x1 , . . . , xk ) ∈ Rk , on note par | x |,
P 1/2
k 2
la norme euclidienne de x, à savoir j=1 xj .
104
Démonstration :
– Notons Aεm = {ω, | Xm (ω) − X(ω) |> ε} et Aε = n>1 m>n Aεm (en
T S
ε
langage ensembliste,
il s’agit de lim sup An ). S
– On remarque que ω ∈ Ω, supm>n | Xm (ω) − X(ω) |> ε = m>n Aεm
et la condition
S du théorème
s’exprime de manière équivalente comme
ε
limn→∞ P m>n Am = 0 pour tout ε > 0.
– On remarque que pour tout ε > 0, il existe k ∈ N tel que k1 < ε. On alors
1/k 1/k
Aεm ⊂ Am et donc m>n Aεm ⊂ m>n Am . En utilisant la croissance
S S
deP , S S
S ε 1/k ε
– P m>n A m 6 P Am et donc lim n→∞ P Am 6
S m>n m>n
1/k
limn→∞ P m>n Am .
– Il suffit donc de montrer la propriété pour des ε de la forme k1 avec
k ∈ N.
– Examinons les ensembles de convergence, {Xn→ }, et de non convergence,
{Xn→ }c de Xn ,
– ω ∈ {Xn→ } ⇔ ∀k ∈ N∗ , ∃n ∈ N∗ tel que ∀m > n, | Xm (ω) − X(ω) |6 k1 .
– En utilisant les propriétés des quantificateurs,
– ω ∈ {Xn→ }c ⇔ ∃k ∈ N∗ , ∀n ∈ N∗ tel que ∃m > n, | Xm (ω) − X(ω) |> k1 .
– En utilisant les définitions précédentes, on voit que :
1/k
– ω ∈ {Xn→ }c ⇔ ∃k ∈ N∗ tel que ω ∈ n>1 m>n Am , c’est-à-dire tel
T S
que ω ∈ A1/k .
– On a ainsi {Xn→ }c = k>1 A1/k .
S
– La convergence presque
S sûredes Xn est équivalente à :
→ c 1/k
– P ({Xn } ) = P k>1 A = 0.
S
1/k
– P k>1 A = 0 ⇔ P A1/k = 0, ∀k > 1.
S
1/k 1/k
– CommeA1/k = n>1 m>n Am , P A1/k = 0 ⇔ limn→∞ P
T S
m>n Am =
0 par continuité décroissante de P .
1/k
– Comme m>n Am = ω ∈ Ω, supm>n | Xm (ω) − X(ω) |> k1 , on ob-
S
105
Démonstration : voir exercice (VI.5).
Exercice VI.5 convergence p.s implique convergence en proba-
bilité
Soit (Xn ) une suite de vecteurs aléatoires à valeurs dans Rk , k ∈ N définis
sur un espace probabilisé (Ω, A, P ) convergeant presque sûrement vers un
vecteur aléatoire X. Montrer qu’alors Xn converge en probabilité vers X.
Corrigé :
– D’après le théorème précédent caractérisant la convergence presque sûre,
on a :
– {ω ∈ Ω, | Xn (ω)−X(ω) |> ε} ⊂ ω ∈ Ω, supm>n | Xm (ω) − X(ω) |> ε .
D’où :
– P ({ω ∈ Ω, | Xn (ω) − X(ω) |> ε}) 6 P ω ∈ Ω, supm>n | Xm (ω) − X(ω) |> ε .
– par passage à la limite en n, et en utilisant les notations simplifiées,
– limn→∞ P ({| Xn − X |> ε}) 6 limn→∞ P supm>n | Xm − X |> ε =
0.
Definition VI.4 suite de cauchy pour la convergence en probabi-
lité
Soit (Xn ) une suite de vecteurs aléatoires à valeurs dans Rk , k ∈ N définis
sur un espace probabilisé (Ω, A, P ). On dit que Xn est une suite de Cauchy
pour la convergence en probabilité si et seulement si, pour tout ε > 0 :
– lim sup | Xnk+1 − Xnk |> k12 = n>1 k>n | Xnk+1 − Xnk |> k12 .
T S
106
1
– ⇔ ∀n > 1, ∃k > n, | Xnk+1 (ω) − Xnk (ω) |> k2
T S 1
c
– ω∈ n>1 k>n | X n k+1
− X n k
|> k 2
107
Théorème VI.4 Soit (Xn ) une suite de vecteurs aléatoires à valeurs
dans Rk , k ∈ N définis sur un espace probabilisé (Ω, A, P ) de Cauchy
pour la convergence en probabilité. Alors, il existe un vecteur aléatoire X
tel que Xn converge en probabilité vers X.
Démonstration : voir exercice (??).
Exercice VI.7 Soit (Xn ) une suite de vecteurs aléatoires à valeurs dans
Rk , k ∈ N définis sur un espace probabilisé (Ω, A, P ) de Cauchy pour la
convergence en probabilité. Montrer en utilisant le théorème (VI.3) et le
lemme (VI.1) qu’il existe un vecteur aléatoire X tel que Xn converge en
probabilité vers X.
Corrigé :
– Considérons Xnp la sous-suite presque sûrement convergente mise en
évidence au théorème VI.3 et notons X sa limite.
– Xnp converge aussi en probabilité vers X d’après le théorème VI.2.
– Pour tout ε > 0, d’après le lemme VI.1, on a :
– 0 6 P ({| Xn − X |> ε}) 6 P | Xn − Xnp |> 2ε +P | Xnp − X |> 2ε .
– Quand p tend vers l’infini, np tend vers l’infini (c’est une suite crois-
sante).
– Quand p et n tendent vers l’infini, P | Xn − Xnp |> 2ε
tend vers
zéro car Xn est de Cauchy en probabilité.
– De même P | Xnp − X |> 2ε
tend vers 0 quand n → ∞ et donc la
convergence en probabilité de Xn vers X.
Remarques :
– Par ailleurs, comme toute suite convergeant en probabilité est de cauchy
en probabilité et en vertu du théorème VI.3, si Xn converge en probabi-
lité vers X, il existe une sous-suite Xnp convergeant presque sûrement.
Notons Z cette limite.
– De par le théorème VI.2, Xnp converge aussi en probabilité vers Z.
– Par ailleurs, on remarque que Xnp converge en probabilité vers X.
– De par l’unicité de la limite pour la convergence en probabilité, on en
conclut Z = X, c’est-à-dire que :
– Si Xn converge en probabilité vers X, il existe une sous-suite Xnp
convergeant presque sûrement vers X.
– Le théorème suivant généralise cette propriété.
Théorème VI.5 Soit X, (Xn ) respectivement un vecteur aléatoire et une
suite de vecteurs aléatoires à valeurs dans Rk , k ∈ N, définis sur un es-
pace probabilisé (Ω, A, P ). Une condition nécessaire et suffisante pour que
P
Xn → X est que toute sous-suite de Xn contienne une sous-suite qui
converge presque-sûrement vers X.
Démonstration :
– Condition nécessaire :
P
– Supposons Xn → X.
108
– En écrivant la définition de la convergence en loi, on remarque que toute
sous-suite Xnp (np croissante en p) converge en loi vers X.
– De par la remarque précédente, il existe une sous-suite de Xnp qui
converge presque sûrement vers X, ce qui montre que la condition
donnée est nécessaire.
– Condition suffisante :
– Raisonnons par l’absurde et supposons que toute sous-suite de Xn contient
une sous-suite qui converge presque sûrement vers X mais que Xn ne
converge pas en probabilité vers X.
– La condition de convergence en probabilité s’écrit ∀ε > 0, ∀h > 0, ∃k ∈
N, ∀n > k, P ({| Xn − X |> ε}) < h.
– La non convergence s’écrit ∃ε > 0, ∃h > 0, ∀k, ∃n > k, P ({| Xn − X |>
ε}) > h.
– Notons nk ce n. On peut prendre nk croissant en k sans perte de
généralité.
– On a donc ∀k ∈ N, P ({| Xnk − X |> ε}) > h et ni Xnk ni aucune
sous-suite extraite de Xnk ne converge en probabilité vers X.
– Ainsi, aucune sous-suite de Xnk ne converge presque sûrement car si elle
convergeait presque sûrement, elle convergerait aussi en probabilité.
– Ceci est en contradiction avec le point de départ.
Théorème VI.6 invariance de la convergence en probabilité par
transformation continue
Soit X, (Xn ) respectivement un vecteur aléatoire et une suite de vecteurs
aléatoires à valeurs dans Rk , k ∈ N, définis sur un espace probabilisé
(Ω, A, P ). Soit f une fonction mesurable de Rk dans Rl , l ∈ N, f étant
en outre continue sur un borélien de Rk , B, tel que P (X ∈ B) = 1. Si
P P
Xn → X, alors f (Xn ) → f (X)
Démonstration :
– La démonstration est une conséquence du théorème précédent.
– Considérons f (Xnj ) une sous-suite de f (Xn ).
– Comme Xnj converge en probabilité vers X (vérifier la définition), il
existe une sous suite de Xnj , soit Xrj (c’est aussi une sous suite de Xn )
qui converge presque T sûrement vers X.
– Notons A = {Xr→ j
} {X ∈ B}.
– A appartient, intersection de deux événements appartient à A. Ces deux
événements étant de probabilité 1, A est également de probabilité 1.
– Pour tout ω ∈ A, Xrj (ω) → X(ω).
– Comme en outre f est continue sur A, on en déduit que f (Xrj (ω)) →
f (X(ω)), pour tout ω ∈ A, c’est-à-dire que :
– f (Xrj ) converge presque sûrement vers f (X).
– D’après le théorème précédent f (Xn ) converge en probabilité vers f (X).
Propriété VI.3 Soient X, X1 , X2 , . . . et Y, Y1 , Y2 , . . . deux suites de vec-
teurs aléatoires à valeurs respectivement dans Rk , k ∈ N, et Rl , l ∈ N,
109
P P
définis sur un espace probabilisé (Ω, A, P ). Si Xn → X et Yn → Y , alors
P
(Xn , Yn ) → (X, Y ).
Démonstration : voir exercice (VI.8).
Exercice VI.8 Soient X, X1 , X2 , . . . et Y, Y1 , Y2 , . . . deux suites de vec-
teurs aléatoires à valeurs respectivement dans Rk , k ∈ N, et Rl , l ∈
N, définis sur un espace probabilisé (Ω, A, P ). Montrer en utilisant le
P P P
lemme (VI.1) que si Xn → X et Yn → Y , alors (Xn , Yn ) → (X, Y ).
Corrigé :
– Rappelons tout d’abord que (Xn , Yn ) et (X, Y ) sont bien des vecteurs
aléatoires à valeurs dans Rk+l , définis sur (Ω, A, P )
– Avec les notations précédentes, l’inégalité triangulaire donne :
– | (Xn , Yn ) − (X, Y ) |6| (Xn , Yn ) − (X, Yn ) | + | (X, Yn ) − (X, Y ) |.
– Par ailleurs, | (Xn , Yn ) − (X, Yn ) |=| Xn − X | et | (X, Yn ) − (X, Y ) |=|
Yn − Y |.
– Avec le même raisonnement que dans le lemme précédent (VI.1), on
montre que :
– P ({| (Xn , Yn ) − (X, Y ) |> ε}) 6 P | Xn − X |> 2ε +P | Yn − Y |> 2ε .
110
Démonstration :
– | ϕXn (t)−ϕX (t) |=| E ei<t,Xn > − ei<t,X> |6 E | ei<t,Xn > − ei<t,X> |
(voir cours sur l’intégration de fonctions à valeurs complexes).
– RL’espérance précédente s’écrit comme :R
– |Xn −X|>η | ei<t,Xn > − ei<t,X> | dP + |Xn −X|6η | ei<t,Xn > − ei<t,X> |
dP .
– Comme | ei<t,Xn > − ei<t,X> |6 2, le premier terme est majoré par :
– 2P ({| Xn − X |> η}).
– | ei<t,Xn > − ei<t,X> | représente la longueur de la corde qui relie les
points ei<t,Xn > et ei<t,X> , ces deux points étant sur le cercle unité.
– La longueur de la corde étant inférieure à la longueur de l’arc joignant
les deux points, on en déduit :
– | ei<t,Xn > − ei<t,X> |6|< t, Xn > − < t, X >|. Par Cauchy-Schwarz,
– | ei<t,Xn > − ei<t,X> |6|< t, Xn > − < t, X >|6| t | × | Xn − X |.
– Le deuxième terme est donc majoré par | t | η.
– Pour tout ε > 0 (t étant donné), On peut choisir η tel que | t | η < 2ε .
– η étant maintenant donné, il existe n tel que ∀m > n, P ({| Xn − X |> η}) <
ε
4 , de par la convergence en probabilité de Xn vers X.
– Ceci montre que ∀m > n, | ϕXn (t) − ϕX (t) |< ε.
– ϕXn converge simplement vers ϕX , ce qui montre la convergence en loi
de Xn vers X.
lim E (| Xn − X |p ) = 0.
n→∞
Remarques :
1/p
– On rappelle que l’application X →k X kp = (E [| X |p ]) définit une
norme sur l’ensemble des variables aléatoires intégrables à l’ordre p.
– On peut vérifier que l’on conserve une norme dans le cas de vecteurs
aléatoires, en notant comme précédemment | X | la norme euclidienne
de X.
– La définition peut se réécrire k Xn − X kp −→ 0 quand n → ∞, c’est-
à-dire que l’on considère la convergence des vecteurs aléatoires pour la
norme k kp .
– Comme k Xn kp 6k X kp + k Xn − X kp et que k Xn − X kp , Xn
a automatiquement des moments finis d’ordre p à partir d’un certain
rang.
111
– Dans le cas où p = 2, on parle de convergence en moyenne quadratique.
Dans le cas où p = 1, on parle de convergence en moyenne.
– Comme P est une probabilité, si r < p, nous avons déjà vu que k X kr 6k
X kp .
– Par conséquent, si k Xn − X kp → 0, alors k Xn − X kr → 0. La conver-
gence en moyenne à l’ordre p entraı̂ne la convergence en moyenne à tous
les ordres inférieurs à p.
– En particulier, la convergence en moyenne quadratique (ou dans L2 )
entraı̂ne la convergence en moyenne (ou dans L1 ).
Propriété VI.1 convergence en moyenne implique convergence
en probabilité
Soit X, X1 , X2 , . . . une suite de vecteurs aléatoires à valeurs dans Rk , k ∈
N définis sur un espace probabilisé (Ω, A, P ). La convergence en moyenne
L
de Xn vers X (notée Xn →1 X) entraı̂ne la convergence en probabilité de
Xn vers X.
Démonstration : voir exercice (VI.9).
Exercice VI.9 convergence en moyenne implique convergence en
probabilité
Soit X, X1 , X2 , . . . une suite de vecteurs aléatoires à valeurs dans Rk , k ∈
N définis sur un espace probabilisé (Ω, A, P ). Montrer que la convergence
L
en moyenne de Xn vers X (notée Xn →1 X) entraı̂ne la convergence en
probabilité de Xn vers X.
Corrigé : R
– k Xn − X k= | Xn (ω) − X(ω) | dP (ω).
– RSoit ε > 0 quelconque. R
– | Xn (ω) − X(ω) | dP (ω) > |Xn (ω)−X(ω)|>ε | Xn (ω) − X(ω) | dP (ω).
R
– |Xn (ω)−X(ω)|>ε | Xn (ω) − X(ω) | dP (ω) > εP (| Xn (ω) − X(ω) |> ε).
– On en conclut, k Xn − X k→ 0 ⇒ P (| Xn (ω) − X(ω) |> ε) → 0 pour
tout ε > 0.
– La dernière propriété n’étant autre que la convergence en probabilité.
Nous rappelons quelques propriétés étudiées dans le chapitre consacré aux
espaces Lp .
Propriété VI.2 Soit (Xn ) une suite de vecteurs aléatoires à valeurs dans
Rk , k ∈ N définis sur un espace probabilisé (Ω, A, P ). On suppose que la
série de terme général Xn est absolument
P convergente (on rappelle P que
l’absolue convergence est définie par n k Xn k1 < ∞), alors n Xn
converge presque partout et dans L1 , c’est-à-dire qu’il existe un vecteur
aléatoire X ∈ L1 , tel que :
P p.s.
(a) n6m Xn −→ X,
P L1
(b) n6m Xn −→ X,
quand m → ∞.
112
Propriété VI.3 Toute suite de cauchy dans L1 est convergente.
Si Xn est une suite de cauchy dans L1 , il existe donc X vers lequel X
converge en moyenne (et a fortiori en probabilité).
113
Definition VI.2 uniforme intégrabilité.
Soit Xi , i ∈ I, une famille de vecteurs aléatoires définis sur un espace
probabilisé (Ω, A, P ) à valeurs dans Rk (k ∈ N). On dit que cette famille
est uniformément intégrable si pour tout ε > 0, il existe K > 0 tel que :
∀i ∈ I, E P | Xi | 1I|Xi |>K < ε.
114
Chapitre 35
Théorèmes de
convergence
115
– Comme
T 1 = x 6 exp x, 0 6 1P − P (Am ) 6 exp (−P
(Am )).
c
– P n6m6N Am 6 exp − n6m6N P (Am ) .
P P
– Comme P (An ) diverge, limN →∞ exp − n6m6N P (Am ) = 0.
T
c
– Donc, P m>n m = 0, ce qui montre le corollaire.
A
Démonstration :
– L’implication est un résultat général déja démontré. Montrons la réciproque.
– Soit ε > 0. On veut montrer que P (| Xn − µ |> ε) → 0 quand n → ∞,
ou de manière équivalente que P (| Xn − µ |6 ε) → 1.
Xn R
– P (| Xn −µ |6 ε) = E P 1I|Xn −µ|6ε = E P 1I|x−µ|6ε = 1I|x−µ|6ε dP Xn (x).
– Considérons la fonction réelle continue f , nulle en dehors de ]µ−ε, µ+ε[,
telle que f (µ) = 1 et linéaire sur [µ − ε, µ], [µ, µ + ε]. f est continue,
bornée et f (x) 6 1I|x−µ|6εR.
– D’où P (| Xn − µ |6 ε) > f (x)dP Xn (x).
e
– Comme P Xn → P µ = δ(µ), f (x)dP Xn (x) → f (x)dP µ (x) = f (µ) =
R R
1.
– Comme 1 > P (| Xn − µ |6 ε) > f (x)dP Xn (x), on en déduit que
R
Corrigé :
– Montrons d’abord la convergence en loi de Snn vers µ.
– On utilise les fonctions caractéristiques ; on note ϕ, la fonction ca-
ractéristique de Xn (ne dépendant pas de n).
116
– D’après l’indépendance des Xnm , la fonction caractéristique de m6n Xnm
P
n
s’écrit comme ϕ nt .
– Comme le premier moment existe, on en déduit que ϕ(1) (0) = iµ.
– En faisant
n un développement tlimité autour
de zéro, ϕ(t) = 1+iµt+o(t).
– ϕ nt = exp n ln 1 + iµ n + o nt dont la limite quand n → ∞
est eitµ .
– La limite est donc la fonction caractéristique d’une variable aléatoire
constante égale à µ, ce qui montre la convergence en loi vers µ.
– D’après la propriété précédente, la convergence en loi vers une constante
implique la convergence en probabilité, ce qui montre la loi faible des
grands nombres.
Théorème VI.2 Loi forte des grands nombres de Kolmogorov
Soit Xn une suite de variables aléatoires réelles définies sur un espace
probabilisé (Ω, A, P ), indépendantes, de même loi, intégrables d’espérance
E(Xn ) = µ. Alors,
1 X Sn p.s.
Xm = −→ µ.
n n
m6n
Corrigé :
117
h 2 i
– On cherche à montrer que E Snn − µ tend vers zéro quand n → ∞.
h 2
i
– Comme E nn − µ = 0, E Snn − µ
S
= Var Snn − µ .
√
X̄n − µ L
n → N (0, 1).
σ
L
Remarque : on rappelle que → N (0, 1) signifie la convergence étroite des
√ X̄n −µ
mesures images associées aux variables aléatoires n σ vers la loi
normale centrée réduite.
√
X̄n − µ L
n → N (0, 1).
σ
Corrigé :
– Notons ϕ la fonction caractéristique de la variable aléatoire, Xiσ−µ .
Comme les Xi sont de même loi, cette fonction caractéristique ne dépend
pas de i.
√ Pn
– On peut réécrire n X̄nσ−µ comme √1n i=1 Xiσ−µ .
118
– La fonction caractéristique de √1 Xi −µ s’écrit en fonction de ϕ comme
n σ
t → ϕ √tn .
– Les variables aléatoires √1 Xi −µ
sont indépendantes. La fonction ca-
n σ
n
ractéristique de leur somme est égale à ϕ √tn .
– On remarque que Xiσ−µ est d’espérance égale à zéro et de variance égale
à 1. On en déduit les dérivées première et seconde de la fonction ca-
ractéristique en zéro : ϕ(1) (0) = 0 et ϕ(2) (0) = −1.
– Un développement limité à l’ordre 2 en √tn de ϕ donne :
t2 2
– ϕ √tn = 1 − 2n + tn o √tn , avec limx→0 o(x) = 0. D’où :
n 2 n
– ϕ √tn = 1 + n1 − t2 + o √tn . Cette dernière quantité s’écrit
commeh : h 2 ii
– exp n ln 1 + n1 − t2 + o √tn .
– En utilisant les règles usuelles sur la composition des développements
2
limités, on obtient que la dernière quantité converge vers e−t /2 quand
n → ∞, ce qui montre la convergence en loi vers la loi normale centrée
réduite.
Théorème VI.2 théorème central limite (Lindeberg-Levy) mul-
tidimensionnel
Soit (Xn ) une suite de vecteurs aléatoires à valeurs dans Rp , p ∈ N, définis
sur un espace probabilisé (Ω, A, P ), indépendants et de même loi, de carré
intégrable (E(| Xn |2 ) < ∞). On note µ et Σ2 respectivement le Pvecteur
n
moyenne et la matrice de variance-covariance de Xn et X̄n = n1 i=1 Xi .
Alors,
√ L
n X̄n − µ → N (0, Σ).
Démonstration :
– Soit t ∈ Rp . Posons Yn = t0 Xn et Ȳn = n1 j6n Yj . Les Yn sont des
P
variables aléatoires indépendantes et de même loi, d’espérance égale à
t0 µ et de variance égale à t0 Σt.
√ −t0 µ L
– En utilisant le théorème central limite (unidimensionnel), n (tȲ0nΣt) 1/2 −→
N (0, 1).
– On vérifie facilement en utilisant les propriétés des fonctions caractéristiques
que si une suite de variables aléatoires réelles Zn converge en loi vers
L
N (0, 1) alors pour tout λ ∈ R, λZn → N (0, λ2 ).
√ L
– On en déduit, n Ȳn − t0 µ −→ N (0, t0 Σt).
119
Propriété VI.1 approximation de la loi normale par une loi bi-
nomiale
Soit Xn une suite de variables aléatoires réelles, définies sur un espace
probabilisé (Ω, A, P ), Xn suivant une loi B(n, p) (où B(n, p) désigne la loi
binomiale de paramètres n et p). Alors,
Xn − np L
√ −→ N (0, 1),
npq
où q = 1 − p.
Démonstration : Voir exercice (??).
Corrigé :
– On rappelle que si X est distribué comme une loi binomiale de pa-
ramètres n et p, alors P (X = x) = Cnx px (1−p)n−x pour x = 0, 1, 2, . . . , n.
Si l’on considère n tirages avec remise parmi une urne contenant une
proportion p de boules rouges, on a une probabilité P (X = x) de tirer x
boules rouges. La pourPfonction caractéristiquePde X, ϕX est telle que
n n it x n−x
ϕX (t) = E eitX = x=1 P (X = x)e
itx
= x
x=1 Cn pe q =
it
n
pe + q en vertu de la formule du binôme. En considérant les dérivées
de ϕ en zéro, on en déduit les deux premiers moments de X : E(X) = np,
Var(X) = npq.
– Considérons une suite de variables aléatoires indépendantes, de Ber-
noulli, Yi , i = 1, 2, . . . , prenant la valeur 1 avec la probabilité p et 0
avec la probabilité q (il s’agit en fait d’une loi B(1, p).
it
– On
P remarque que la fonction caractéristique de Yiitest égale n à pe + q.
– i6n Yi admet pour fonction caractéristique pe + q et a donc la
même loi que Xn .
– Par la définition même de la convergence en loi si une suite de variables
aléatoires converge en loi vers une loi limite, toute suite de variables
aléatoires de même loi converge P en loi vers la même loi limite.
Yi −np L
– Il suffit donc de vérifier que i6n √
npq −→ N (0, 1).
√ −p
– En notant Ȳn = n i6n Yi , le terme de gauche s’écrit comme n Ȳ√npq
1
P
.
– La propriété énoncée est alors une application directe du théorème cen-
tral limite dans le cas de variables de Bernoulli.
– On peut ainsi simuler une loi normale à partir d’un simple jeu de pile
ou face.
Propriété VI.2 approximation de la loi normale multivariée par
une loi multinomiale
Soit Xn une suite de vecteurs aléatoires à valeurs dans Rm (m ∈ N),
définis sur un espace probabilisé (Ω, A, P ), Xn suivant une loi multino-
Pm M(n, p1 , . . . , pm ) de paramètres n et p1 , . . . , pi , . . . , pm (pi > 0,
miale
i=1 pi = 1). On note p le vecteur de dimension m et de composantes
pi , i = 1, . . . , m et on note qi = 1 − pi . Alors,
Xn − np L
√ −→ N (0, Σ),
n
120
où Σ est la matrice de termes diagonaux pi qi et de termes croisés −pi pj .
– Démonstration :
– Quelques rappels sur la loi multinomiale.
– Si le vecteur aléatoire X = (X1 , . . . , Xm ) est distribué comme une loi
multinomiale de paramètres n et p = (p1 , . . . , pm ), alors :
– P (X1 = x1 et . . . et Xm = xm ) = x1 !...x n!
m! 1
px1 . . . pxmm
Pn
– pour x1 = 0, 1, 2, . . . , n, . . ., xm = 0, 1, 2, . . . , n et i=1 xi = n.
– La fonction caractéristique
P (vectorielle)
n de X, ϕX est telle que :
m itj
– ϕX (t1 , . . . , tm ) = j=1 pj e .
– On remarque que la loi de X est la loi de la somme de n vecteurs
aléatoires Yi = (Yi,1 , . . . , Yi,m ) indépendants identiquement distribués
suivant une loi multinomiale M(1, p).
– En considérant les dérivées en zéro de la fonction caractéristique, on
en déduit que les deux premiers moments du vecteur aléatoire Yi sont
tels que :
– E(Yi,j ) = pj , Var(Yi,j ) = pj qj (où qj = 1 − pj ) et Cov(Yi,j , Yi,l ) =
−pj pl pour j = 1, . . . , m et l = 1, . . . , m.
– On reconnaı̂t la Pmatrice Σ introduite dans l’énoncé de la propriété.
– Comme Xn ∼ i6n Yi , il suffit donc d’étudier la convergence (en loi)
P
Yi −np
de i6n√n .
√
– En notant Ȳn = n1 i6n Yi , le terme précédent s’écrit comme n Ȳn − p .
P
121
Propriété VI.4 Soit Xn une suite de variables aléatoires Xn distribuées
selon des lois binomiales B(n, pn ). Si npn → λ quand n tend vers l’infini,
alors,
L
Xn −→ P(λ),
quand n tend vers l’infini (P(λ) est la loi de Poisson de paramètre λ).
– Démonstration :
– Notons ϕXn (t) la fonction caractéristique de Xn.
n n
– On a ϕXn (t) = qn + pneit = 1 + pn (eit − 1) .
– Comme npn = λ + o n1 , on peut écrire ϕitXn (t)
comme :
1 1
– ϕXn (t) = exp nLog 1 + n λ + o n (e − 1) .
– On voit alors que ϕXn (t) tend vers exp λ eit − 1 , ce qui montre la
propriété.
For all n, Fn is a simple function. You can use the Fn to approximate the
c.d.f. of the Xn thanks to the following theorem.
Théorème VI.3 (Gnedenko-Cantelli theorem) Let Xn be a sequence
of i.i.d. random variables and Fn the associated empirical c.d.f. ’s. Then
a.s.
sup |Fn (x) − F (x)| −→ 0 as n → ∞.
x∈R
122
Chapitre 36
Espérance conditionnelle
123
Remark : one could replace 2. in the previous definition with :
124
Proof of existence and unicity
– Existence Using linearity, we need only consider X ≥ 0. Define a mea-
sure Q on F by Q(A) = E[X1A ] for A ∈ F. This is trivially absolutely
continuous with respect to P|F , the restriction of P to F. Let E[X|F] be
the Radon-Nikodym derivative of Q with respect to P|F . The Radon-
Nikodym derivative is F-measurable by construction and so provides
the desired random variable.
– Unicity : If Y1 , Y2 are two F-measurable random variables with E[Y1 1A ] =
E[Y2 1A ] for all A ∈ F, then Y1 = Y2 , a.s., or conditional expectation is
unique up to a.s. equivalence.
For G = σ(X) when X is a discrete variable, the space Ω is simply par-
titioned into disjoint sets Ω = tGn . Our definition for the discrete case
gives
Y ∈ L1 (Ω, A, P )
125
fX,Y (x,y)
y) = fY (y) . Then almost surely
Z
∀C ∈ B, P (X ∈ C | Y = y) = fX|Y (x | y)dx.
C
Y ≥ 0 → E(Y |G) ≥ 0)
E(E(X|G)|G) = E(X|G)
126
(d) More generally, the “tower property”. If H ⊂ G then
ϕ(E(X|G) ≤ E(ϕ(X)|G)
kE(X|G)kp ≤ kXkp
and
Xn Lp X implies E(Xn |G) Lp E(X|G)
−→ −→
127
(j) Best approximation property :
Suppose that the random variable X is square-integrable, but not
measurable with respect to G. That is, the information in G does not
completely determine the values of X. The conditional expectation,
Y = E[X | G], has the property that it is the best approximation
to X among functions measurable with respect to Y , in the least
squares sense. That is, if Ỹ is G-measurable, then
h i
E (Ỹ − X)2 ≥ E (Y − X)2 .
Proof :
– Var(X | Y ) = E(X 2 | Y ) − (E(X | Y ))2 .
– E[Var(X | Y )] = E[E(X 2 | Y )] − E[(E(X | Y ))2 ].
– E[E(X 2 | Y )] = E[X 2 ].
– E[Var(X | Y )] = E[X 2 ] − E[(E(X | Y ))2 ].
– Var(E(X | Y )) = E[(E(X | Y ))2 ] − (E[E(X | Y )])2 .
– E[E(X | Y )] = E[X].
– Hence Var(E(X | Y )) = E[(E(X | Y ))2 ] − (E[X])2 .
128
36.2.3 Compound distributions
Let (Ω, A, P ) be a probability space, and
– (Xn )n∈N a sequence of i.i.d., nonnegative random variables defined on
(Ω, A, P ). Xn represents the severity of the nth claim in the collective
risk model.
– N an random variable defined on (Ω, A, P ) and taking values in N,
independent from the Xn . It represents the number of claims.
– Let SN = X1 + ... + XN represent the aggregate claim amount.
In many models we may know the mean and variance of N and X1 . How
can we then get the mean and variance of SN ? Simply by conditioning
on the number of claims, and using conditional expectation and variance
given N.
Proposition VI.6 First,
ESN = EN.EX1
Preuve :
– Var(X | Y ) = E(X 2 | Y ) − (E(X | Y ))2 .
– E[Var(X | Y )] = E[E(X 2 | Y )] − E[(E(X | Y ))2 ].
– E[E(X 2 | Y )] = E[X 2 ].
– E[Var(X | Y )] = E[X 2 ] − E[(E(X | Y ))2 ].
– Var(E(X | Y )) = E[(E(X | Y ))2 ] − (E[E(X | Y )])2 .
– E[E(X | Y )] = E[X].
– D’où Var(E(X | Y )) = E[(E(X | Y ))2 ]−(E[X])2 et le résultat annoncé.
129
Septième partie
Bibliographie
131
Basel-Commitee (2001a) Operational risk, consultative document. Sup-
porting Document to the New Basel Capital Accord.
Basel-Commitee (2001b) Sound practices for the management and super-
vision of operational risk Consultative Document.
Basel-Commitee (2001c) Working paper on the regulatory treatment of
operational risk .
Basel-Commitee (2003) Supervisory guidance on operational risk advan-
ced measurement approaches for regulatory capital .
Charpentier, A., Denuit, M. (2004) Mathématiques de l’assurance non-vie,
tome I. Economica.
Durrett, R. (1999) Essentials of stochastic processes. Springer Texts in
Statistics. Springer-Verlag, New York.
Frachot, A., Moudoulaud, O., Roncalli, T. (2003) Loss distribution ap-
proach in practice. dans le livre : The Basel Handbook : A guide for
financial practitionners .
Giuffre, S. E. (2004) Operational risk : How good is the coverage ? .
Jordan, J. S. (2003) Quantifying operational risk : A supervisors pers-
pective. présentation lors du séminaire ”Operational Risk in Banks and
Financial Institutions” à Londres .
Kuritzkes, A., Ziff, B. (2004) Operational risk : New approaches to mea-
surement and modeling .
Lopez, J. A. (2002) What is operational risk ? FRBSF Economic Letter
(2).
McNee, A. (2002) Rating operational risk. disponible en ligne sur le site
www.erisk.com .
OBrien, N., Smith, B., Allen, M. (2002) Operational risk - models. dispo-
nible en ligne sur le site www.financewise.com .
132
Roncalli, T. (2004) Gestion des risques financiers. Economica.
Rudin, W. (1987) Real and complex analysis, 3e Édition. McGraw-Hill
Book Co., New York.
Shaked, M. (1980) On mixtures from exponential families. J. Roy. Statist.
Soc. Ser. B 42, 192–198.
Tripp, M. H., Bradley, H. L., Devitt, R., Orros, G. C., Overton, G. L.,
Pryor, L. M., Shaw, R. A. (2004) Quantifying operational risk in general
insurance companies. présenté à l’Institute of Actuaries .
133