Cours TGRF
Cours TGRF
Cours TGRF
Statistique computationnelle
Jean-Claude MASSÉ
Hiver 2009
c
Tous droits réservés
Chapitre 1
Le jackknife
X := (X1 , X2 , . . . , Xn ).]
b = E(θ)
biais(θ) b − θ.
1
1.1. ESTIMATION DU BIAIS 2
θb(i) = θ(X
b b
(i) ) = θ(X1 , . . . , Xi−1 , Xi+1 , . . . , Xn ).
b = θ + biais(θ),
E(θ) b
θbJack = θb − bJack
= nθb − (n − 1)θb(·) .
Justification
b = θ + biais(θ)
E(θ) b
a b 1
= θ+ + 2 +O , (1.1)
n n n3
c
Jean-Claude Massé
1.1. ESTIMATION DU BIAIS 3
E(θbJack ) = E(θ)
b − E(bJack )
a b 1
= θ+ + 2 +O −
n n n3
(n − 1)[E(θb(·) ) − E(θ)].
b
(n − 1)[E(θb(·) ) − E(θ)]
b = (n − 1)[biais(θb(·) ) − biais(θ)]
b
= (n − 1)[biais(θb(i) ) − biais(θ)],
b quel que soit i,
a b 1
= (n − 1) + +O
n − 1 (n − 1)2 (n − 1)3
a b 1
− − 2 −O
n n n3
a b(2n − 1) 1
= + 2 +O ,
n n (n − 1) n2
d’où
b 1
E(θbJack ) = θ − +O
n(n − 1) n2
1
= θ+O . (1.2)
n2
[Vérifier ici qu’on a bien
1 1 1
(n − 1) O −O =O
(n − 1)3 n3 n2
c
Jean-Claude Massé
1.1. ESTIMATION DU BIAIS 4
et
b 1 1
− +O =O .
n(n − 1) n2 n2
Selon le raisonnement qui précède, si θb a un biais d’ordre 1/n (a 6= 0),
alors θbJack a un biais d’ordre 1/n2 . Lorsque la taille d’échantillon n n’est pas
trop petite, θbJack améliore la qualité de l’estimation de θ en diminuant le
biais.
1.1.1 Exemple
1.1.2 Exemple
P
Soit θb = σ
b2 = 2
i (Xi −X) /n, estimateur de la variance σ 2 de la méthode
des moments. On b2 a un biais d’ordre 1/n :
sait que σ
σ2
σ2 ) = σ2 −
E(b .
n
Puisque
P 2
nX−Xi
j6=i Xj − n−1
θb(i) = ,
n−1
on vérifie que
P
− X)2i (Xi
bJack = (n − 1)(θb(·) − θ)
b = −
n(n − 1)
b2
σ
= −
n−1
c
Jean-Claude Massé
1.1. ESTIMATION DU BIAIS 5
et ainsi P
− X)2
i (Xi
θbJack = σ
b2 − bJack = ,
n−1
estimateur usuel S 2 de la variance corrigé pour le biais.
1.1.3 Exemple
2
Considérons θb = X , estimateur de µ2 selon la méthode des moments.
On sait que
2 α2 σ2
E(X ) = µ2 + = µ2 + ,
n n
2
où αk = E(X − µ)k (moment centré d’ordre k), donc X a un biais d’ordre
1/n.
En faisant un peu de calculs, on montre que
2
bJack = (n − 1)(θb(·) − X )
1 X
= (Xi − X)2
n(n − 1)
i
b2
α
= ,
n
P
b2 = S 2 =
où α i (Xi − X)2 /(n − 1) (estimateur de σ 2 corrigé pour le biais
de l’exemple 1.1.2). L’estimateur de µ2 corrigé pour le biais est donc
2 b2
α
θbJack = X − .
n
On vérifie que cet estimateur est sans biais. De manière générale, le jackknife
corrige parfaitement pour le biais tout estimateur ayant un biais exactement
de la forme a/n.
Dans les trois exemples qui précèdent, il est possible d’exprimer l’esti-
mateur jackknife θbJack comme fonction explicite des observations. Dans un
pareil cas, il n’est donc pas nécessaire en pratique de se donner la peine
de calculer les θb(i) . L’utilité du jackknife comme estimateur du biais vient
plutôt de la possibilité d’en faire le calcul par un ordinateur en ignorant son
expression (parfois extrêmement compliquée) comme fonction des Xi . Nous
faisons suite en présentant la deuxième application importante du jackknife.
c
Jean-Claude Massé
1.2. ESTIMATION DE LA VARIANCE 6
Justification heuristique
On note que
θbJack = θb − (n − 1)(θb(·) − θ)
b
P b b b
i [θ + (n − 1)(θ − θ(i) )]
=
n
P e
i iθ e
= (≡ θ).
n
b on a donc l’expression
Pour toute statistique θ,
P e e2
i (θi − θ)
vJack = .
n(n − 1)
c
Jean-Claude Massé
1.2. ESTIMATION DE LA VARIANCE 7
Pour tous ces exemples, nous allons voir que vJack s’exprime de façon
relativement simple en termes des Xi . En effet, pour θb = X, on a
X − Xi
θb(i) − θb(·) = ,
n−1
c
Jean-Claude Massé
1.3. CONDITIONS D’APPLICATIONS DU JACKKNIFE 8
P ( lim δn = δ) = 1,
n→∞
c
Jean-Claude Massé
1.3. CONDITIONS D’APPLICATIONS DU JACKKNIFE 9
et fortement si
vn /Var(θbn ) →p.s. 1.
c
Jean-Claude Massé
1.4. BIBLIOGRAPHIE 10
où X(1) < X(2) < · · · < X(n) désignent les statistique d’ordre. Lorsque F
possède une densité f positive en θ, on peut montrer que la variance jackknfe
de θbn est exactement égale à
n−1 2
vJack = X(m+1) − X(m) .
4
Soit (Xn ) une suite de variables aléatoires réelles et soit X une autre
variable aléatoire réelle. Soient Fn et F les fonctions de répartition de Xn et
X, respectivement, où l’on suppose que F est continue. On rappelle que la
suite (Xn ) tend en loi (ou en distribution) vers X lorsque n → ∞, si pour
d
tout x ∈ R : limn→∞ Fn (x) = F (x). On note cette convergence Xn → X.
Pour la médiane échantillonnale, on peut montrer (Efron (1982), p. 16)
2 2
d χ
que nvJack → 22 /(4f 2 (θ)) et que nVar(θbn ) → 1/(4f 2 (θ)), où θ est la
médiane de la population supposée telle que f (θ) > 0. D’après une propriété
de la convergence en loi, il en résulte que
2
vJack d χ22
→
Var(θbn ) 2
lorsque n → ∞, où χ22 est un khi-deux à 2 degrés de liberté. Puisque le
membre droit est une variable aléatoire presque sûrement 6= 1, l’estimateur
jackknife de la variance ne tend pas dans ce cas vers Var(θbn ) quand n → ∞.
1.4 Bibliographie
– Shao, J. et Tu, D. (1995). The Jackknife and Bootstrap, Springer-
Verlag, New York. Chapitres 1–2. Excellente référence pour la théorie.
Niveau de difficulté élevé.
– Efron, B. (1982). The Jackknife, the Bootstrap and Other Resampling
Plans, SIAM, Philadelphie. Chapitres 1–3. Plutôt théorique. Contient
de bons exemples pratiques.
c
Jean-Claude Massé
1.4. BIBLIOGRAPHIE 11
c
Jean-Claude Massé
Chapitre 2
Le bootstrap
2.1 Introduction
12
2.2. LE PRINCIPE DE SUBSTITUTION 13
associant à chaque xi la masse 1/n (loi uniforme). On désigne par Fb(= Fbn )
la fonction de répartition empirique correspondante. Lorsque F est une loi
univariée, on a donc Fb (x) = #{xi : xi ≤ x}/n pour tout x ∈ R. Lorsque les
xi sont distinctes et x(1) ≤ x(2) ≤ · · · ≤ x(n) représentent les xi ordonnées,
cela signifie que
0 x < x(1)
Fb(x) = i
n x(i) ≤ x < x(i+1)
1 x ≥ x(n) .
Puisque les xi sont les valeurs des variables aléatoires Xi , une fonction
de répartition empirique est elle-même aléatoire en tout point x. Il est facile
de voir que
#{Xi ≤ x} ∼ Bin(n, F (x)).
c
Jean-Claude Massé
2.2. LE PRINCIPE DE SUBSTITUTION 14
c
Jean-Claude Massé
2.2. LE PRINCIPE DE SUBSTITUTION 15
Y
θ(Fb) = .
Z
L’estimateur θb obtenu en appliquant le principe de substitution s’appelle
l’estimateur bootstrap idéal de θ(F ). Dans les 3 exemples qui précèdent, cet
estimateur a une forme simple, facile à calculer. On ne peut cependant en
c
Jean-Claude Massé
2.3. L’ESTIMATION DE LA VARIANCE PAR LE BOOTSTRAP 16
et soit θb = θ(X
b 1 , . . . , Xn ) un estimateur de variance finie VarF (θ).
b Posant
X = (X1 , . . . , Xn ), on peut écrire
b = EF [(θ(X)
VarF (θ) b b 2]
− E (θ))
Z Z F
= [θ(x) b
b − θ(y)dF (y1 ) · · · dF (yn )]2 dF (x1 ) · · · dF (xn )
= θ(F )
obtenu du principe de substitution. [Pour une raison qui sera expliquée dans
la suite, cet estimateur sera également noté v ∗ (θb∗ ).]
2.3.1 Exemple
c
Jean-Claude Massé
2.3. L’ESTIMATION DE LA VARIANCE PAR LE BOOTSTRAP 17
∗ 1 X
vBoot ≡ v ∗ (X ) ≡ VarFb (X) = (Xi − X)2 , (2.2)
n2
i
P (Xi∗ = xj ) = 1/n, 1 ≤ i, j ≤ n,
b
vBoot = VarFb (θ)
b ∗ , . . . , X ∗ ) − E b (θ(X
= EFb [θ(X b ∗ , . . . , X ∗ )]2
1 n F 1 n
b ∗ , . . . , X ∗ )|X1 , . . . , Xn ).
= Var(θ(X1 n
c
Jean-Claude Massé
2.3. L’ESTIMATION DE LA VARIANCE PAR LE BOOTSTRAP 18
n 4 10 15
m 35 92 378 77 558 760
c
Jean-Claude Massé
2.3. L’ESTIMATION DE LA VARIANCE PAR LE BOOTSTRAP 19
b = E b (θ)
où zj est le j e échantillon bootstrap, wj est sa probabilité et θ(·) b =
F
Pm b
1 θ(zj )wj .
Pour la plupart des tailles n rencontrées dans la pratique, le tableau 2.1
montre clairement que m est trop grand pour que le calcul exact de vBoot
soit réalisable, même avec un ordinateur. Presque toujours, on devra donc
se contenter d’une approximation de vBoot obtenue par simulation. Pour ce
faire, on se basera sur la loi des grands nombres énoncée maintenant dans
la généralité dont on a besoin.
il suffira de calculer
Pn 2 Pn 2 Pn Pn 2
1 g(Xi ) 1 g(Xi ) 1 (g(Xi ) − 1 g(Xi )/n)
− =
n n n
c
Jean-Claude Massé
2.4. EXTENSION À DES PROBLÈMES PLUS GÉNÉRAUX 20
iid
X = (X1 , X2 , . . . , Xn ) ∼ F.
c
Jean-Claude Massé
2.4. EXTENSION À DES PROBLÈMES PLUS GÉNÉRAUX 21
√
Par exemple, R pourrait être θb = θ(X)
b comme ci-dessus, ou encore n(X −
µ(F )). Après avoir observé X = x, on pourra vouloir estimer EF (R), PF (R >
1), etc. Pour chaque échantillon bootstrap X ∗ , on calcule alors
R∗ = R(X ∗ , Fb),
puis on évalue les estimateurs bootstrap EFb (R∗ ), PFb (R∗ > 1), etc. Comme
pour l’estimation d’une variance, le nombre d’échantillons bootstrap pos-
sible est généralement trop grand pour pouvoir calculer la valeur exacte de
ces estimateurs, de sorte qu’on engendrera B échantillons bootstrap pour
calculer les approximations
B
(B) 1 X ∗
E b (R∗ ) = R
F B 1 b
et
1
#{Rb∗ > 1; b = 1, . . . , B},
B
où Rb∗ = R(X ∗b , Fb), b = 1, . . . , B, sont les réplications bootstrap de R.
L’estimation du biais d’un estimateur θb fournit un exemple intéressant
d’application de cette extension de la méthode du bootstrap. Dans ce cas,
on estime
b = EF (θ)
biais(θ) b − θ(F )
par
Encore une fois, le plus souvent, on doit se contenter d’approcher cette valeur
en engendrant B échantillons bootstrap X ∗1 , . . . , X ∗B , puis en calculant
B
(B) 1 X b∗ b
bBoot = θb∗ (·) − θb = θb − θ
B
1
c
Jean-Claude Massé
2.5. COMPORTEMENT ASYMPTOTIQUE DU BOOTSTRAP 22
c
Jean-Claude Massé
2.5. COMPORTEMENT ASYMPTOTIQUE DU BOOTSTRAP 23
√
1. La variable R(X, F ) = n(X − µ), où l’on suppose que µ = EF (X) et
σ 2 = VarF (X) existent. L’extension au cas multivarié est également
√ ∗
vraie. L’estimateur bootstrap de R(X, F ) est alors R(X ∗ , Fb) = n(X
√
− X). On sait que le théorème limite central implique que n(X − µ)
tend vers en loi vers la loi N (0, σ 2 ) lorsque n → ∞. Pour cet exemple,
cette loi est donc la loi limite de l’estimateur bootstrap.
√
2. La variable R(X, F ) = n(θ̃ − θ), où θ = F −1 (1/2) et θ̃ sont respecti-
vement la médiane de la loi et la médiane échantillonnale ; l’estimateur
√
bootstrap est alors n(θ̃ ∗ − θ̃). Pour que la convergence faible au sens
ci-dessus ait lieu, il suffit par exemple que F possède une densité f telle
que f (θ) > 0. Dans ce cas, on montre en statistique mathématique que
√
n(θ̃ − θ) converge en loi vers la loi N (0, 1/(4f 2 (θ)), loi limite donc
de l’estimateurbootstrap. Ce résultat peut être étendu aux quantiles
F −1 (q), 0 < q < 1, et à leurs estimateurs θb = Fb−1 (q). Rappelons que
F −1 (q) = inf{x : F (x) ≥ q} et que Fb−1 (q) est défini de la même façon.
√
3. Les variables de la forme n[g(X) − g(µ)], lorsque Var(X) < ∞ et g a
une dérivée continue non nulle en µ = E(X). D’après la méthode delta,
√
n[g(X) − g(µ)] converge alors en loi vers une loi normale. Sous ces
√ ∗
mêmes conditions, la loi limite de l’estimateur bootstrap n[g(X ) −
√
g(X)] est donc celle de n[g(X)−g(µ)] (au sens fort, donc faible aussi).
2
Par exemple, ce résultat s’appliquera à g(X) = X ou g(X) = 1/X
lorsque µ 6= 0.
4. Sous des conditions peu restrictives, on peut énoncer un résultat sem-
blable au précédent pour les moyennes tronquées.
En règle générale, la convergence en loi n’entraı̂ne pas la convergence
d
des moments : Yn → Y n’entraı̂ne pas que E(Ynk ) → E(Y k ). Par exemple,
lorsque les lois de l’estimateur bootstrap θb∗ et de θb sont de plus en plus
b →
proches lorsque n → ∞, il ne s’ensuit pas nécessairement que vBoot /Var(θ)
b → 1 au sens fort dans les
1. On a cependant la convergence vBoot /Var(θ)
cas suivants :
c
Jean-Claude Massé
2.5. COMPORTEMENT ASYMPTOTIQUE DU BOOTSTRAP 24
PFb (θb∗ = X(n) ) = 1 − P (max Xi∗ < X(n) ) = 1 − (1 − 1/n)n → 1 − e−1 ≈ .632
i
xn−1
f (x) = n , 0 < x < θ.
θn
c
Jean-Claude Massé
2.6. LE BOOTSTRAP PARAMÉTRIQUE 25
∗ ) ≤ x). Alors H et
Posons maintenant HBoot (x) = PFb (n(X(n) − X(n) n
c
Jean-Claude Massé
2.6. LE BOOTSTRAP PARAMÉTRIQUE 26
prenant
B
(B) 1 X b∗ b∗ 2
vBoot = (θi − θ ) ,
B
1
P b∗
où θb∗ = B
1 θi /B. On pourra voir cet estimateur comme étant une appro-
ximation de l’estimateur exact ou idéal vBoot = VarFψb (θ ∗ ).
iid
On donne encore à X1∗ , . . . , Xn∗ ∼ Fψb le nom d’échantillon bootstrap.
Notons qu’il peut arriver que Fψb soit une loi continue, alors que, plus haut,
le rééchantillonnage se faisait toujours par rapport à la loi discrète Fb. Le
bootstrap appliqué dans le cadre d’un rééchantillonnage par rapport à une
loi paramétrique s’appelle le bootstrap paramétrique. Le dernier estimateur
(B) b Natu-
vBoot porte le nom d’estimateur bootstrap (paramétrique) de Var(θ).
rellement, on pourra estimer de la même façon d’autres caractéristiques de
l’estimateur (biais, coefficients d’asymétrie ou d’aplatissement, etc.).
Le bootstrap paramétrique est fiable pourvu que le modèle soit adéquat.
Dans ce cas, le bootstrap paramétrique permet d’estimer la variance avec
une précision aussi bonne, sinon meilleure, que l’estimateur bootstrap non
paramétrique ou d’autres estimateurs suggérés par la théorie asymptotique
et la loi normale (méthode delta, méthode de la fonction d’influence).
2.6.1 Exemple
c
Jean-Claude Massé
2.7. BIBLIOGRAPHIE 27
2.7 Bibliographie
c
Jean-Claude Massé
Chapitre 3
P (θ ∈ Iα ) = 1 − 2α.
θb ± k(α)s(θ),
b
28
3.1. MÉTHODE DU BOOTSTRAP-T 29
\
b = Var( b est un estimateur sans biais de Var(θ)
b = σ 2 /n.
où s2 (θ) θ)
Dans ce chapitre, on présente trois méthodes de construction d’IC basés
sur le bootstrap. Contrairement aux méthodes de la statistique mathé-
matique, les méthodes basées sur le bootstrap n’exigent pas une modélisation
paramétrique de la loi F . En outre, les méthodes bootstrap ont l’avantage
d’être applicables aux paramètres les plus complexes.
c
Jean-Claude Massé
3.1. MÉTHODE DU BOOTSTRAP-T 30
c
Jean-Claude Massé
3.1. MÉTHODE DU BOOTSTRAP-T 31
sous des conditions assez faibles, on sait que la suite (θbn ) des estimateurs
du maximum de vraisemblance de θ converge en loi comme suit :
θbn − θ p d
p = nI(θ)(θbn − θ) → N (0, 1), (3.2)
1/ nI(θ)
[θb − t̂(1−α) σ
b, θb − t̂(α) σ
b].
c
Jean-Claude Massé
3.1. MÉTHODE DU BOOTSTRAP-T 32
Dans cet intervalle, on notera que les quantiles t̂(α) et t̂(1−α) dépendent des
observations, ce qui n’est pas le cas pour les intervalles de Student classiques.
En outre, contrairement à ces intervalles, on n’a pas nécessairement t̂(α) =
−t̂(1−α) , et ainsi l’intervalle bootstrap n’est pas nécessairement symétrique
par rapport à θ.b
Dans la forme présentée ci-dessus, la méthode du bootstrap-t est avant
tout applicable à l’estimation des paramètres de localisation. Outre X, les
estimateurs visés sont donc principalement les moyennes tronquées et les
quantiles échantillonnaux.
bb∗ . Lorsque θb = X,
Il nous faut maintenant dire un mot sur le calcul de σ
b est directement calculable à partir
on sait que l’estimateur bootstrap de σ(θ)
de l’échantillon. En effet, selon la formule (2.2)
s
Pn ∗ ∗ 2
∗ ∗ 1 (Xbi − X b )
bb = σ
σ b(X b ) = ,
n2
∗ P
où X b = B ∗
1 Xbi /B. Lorsqu’il n’existe pas de formule simple pour estimer
l’écart type, on pourra toujours se servir du bootstrap à un deuxième niveau,
autrement dit en prélevant des échantillons bootstrap sur X ∗b . En clair, cela
signifie :
1. tirer B1 échantillons bootstrap X ∗b , b = 1, . . . , B1 , et calculer θbb∗ =
b ∗) ;
θ(X b
Selon Efron, pour estimer un écart type une taille B2 comprise entre
25 et 200 est en général suffisante ; en revanche, pour estimer des quantiles
(dans notre cas, ceux des Zb∗ ) il vaut mieux prendre B1 = 1000 au moins.
Cela signifie qu’il faut engendrer au minimum 25 000 échantillons bootstrap
c
Jean-Claude Massé
3.1. MÉTHODE DU BOOTSTRAP-T 33
laquelle produit une variable ayant une loi très proche N (T (ρ), 1/(n − 3)),
où ρ est le coefficient de corrélation de la population. Ainsi, en plus de
normaliser, la transformation T a pour effet de produire la variable T (r) dont
la variance ne dépend plus de ρ. On dit alors que T stabilise la variance. Dans
ce cas particulier, pour construire un IC pour ρ, il suffit d’en construire un
pour φ = T (ρ) à partir du pivot approximatif T (r) − T (ρ), puis d’appliquer
aux deux bornes la transformation inverse
e2φ − 1
ρ = T −1 (φ) = .
e2φ + 1
La même idée de transformation est exploitée pour étendre la méthode
du bootstrap-t aux cas où θb possède une loi asymétrique, cas souvent as-
b dépend de θ. Dans l’exemple qui précède, la
sociés aux situations où Var(θ)
transformation de Fisher stabilise la variance, autrement dit la variance de
φb ne dépend pas de φ = T (ρ). Des études ont montré que les situations où il
c
Jean-Claude Massé
3.1. MÉTHODE DU BOOTSTRAP-T 34
b soit indépendante
existe une transformation monotone g telle que Var(g(θ))
de θ sont celles qui conviennent le mieux au bootstrap-t. On notera qu’une
telle transformation normalisante et stabilisante n’existe pas toujours.
En supposant que l’on puisse stabiliser la variance de θb par une trans-
formation monotone g, on pourra obtenir cette transformation comme suit.
On commence par tirer B1 échantillons bootstrap
q X ∗b , b = 1, . . . , B1 . Pour
b par σ
chaque b, on estime ensuite l’écart type Var(θ) bb∗ à partir de B2
échantillons bootstrap sur X ∗b . À l’aide d’une fonction de régression (pa-
ramétrique ou non), on ajuste alors une courbe continue u 7→ s(u) au dia-
gramme de dispersion des points (θb∗ , σ
b∗ ), b = 1, . . . , B1 . Cela étant, la trans-
b b
formation stabilisante g s’obtient en appliquant la formule utilisée en analyse
de la variance pour stabiliser une variance dépendant de la moyenne :
Z z
1
g(z) = du.
a s(u)
Finalement, étant donné cette transformation g, on tire B3 nouveaux
échantillons bootstrap par rapport à Fb pour appliquer la méthode du boot-
b − g(θ) (puisque la variance de g(θ)
strap-t à g(θ) b ne dépend pas de θ). On
obtient ainsi un IC pour g(θ) que l’on peut inverser par g−1 pour obtenir un
IC pour θ. On notera que tout cela peut être fait automatiquement dans R
(par exemple avec la fonction boott du module bootstrap).
Selon Efron, la construction d’intervalles de confiance à l’aide du boots-
trap devrait normalement se faire en utilisant un nombre d’échantillons
bootstrap relativement élevé, de l’ordre de B ≥ 1000. À la différence de
l’estimation du biais et de la variance, l’estimation par intervalle de confi-
ance repose en effet généralement sur une estimation de quantiles d’ordre
0.9, 0.95, 0.975, 0.995 et leurs symétriques, tous situés dans la région des va-
leurs extrêmes de la variable utilisée pour la construction.
c
Jean-Claude Massé
3.2. MÉTHODE DES PERCENTILES 35
∗(α) ∗(1−α)
[θbB , θbB ] ≈ [G−1 −1
Boot (α), GBoot (1 − α)]
∗(α)
où θbB est le 100·αe percentile de la loi empirique des θbb∗ (avec la convention
déjà vue si (B + 1)α n’est pas un entier).
Pour mettre en évidence les qualités de la méthode et la justifier, faisons
maintenant l’hypothèse qu’il existe une transformation inversible croissante
b − φ(θ) soit symétrique continue et indépendante de
φ telle que la loi de φ(θ)
F , donc un pivot. Si l’on définit la fonction de répartition
b − φ(θ) ≤ x),
Ψ(x) = P (φ(θ) (3.3)
c
Jean-Claude Massé
3.2. MÉTHODE DES PERCENTILES 36
[φb + zα , φb − zα ],
c
Jean-Claude Massé
3.3. MÉTHODE BCA 37
[θb∗(α1 ) , θb∗(α2 ) ],
c
Jean-Claude Massé
3.3. MÉTHODE BCA 38
b − φ(θ)
φ(θ)
U= + z0 ∼ N (0, 1).
1 + aφ(θ)
c
Jean-Claude Massé
3.3. MÉTHODE BCA 39
où Φ−1 est la fonction quantile de la loi normale standard : par exemple,
Φ−1 (.5) = 0, Φ−1 (.95) = 1.645. En gros, zb0 mesure le biais de la médiane
de θb∗ par rapport à θ. b Pour sa part, la constante a est estimée en termes
des réplications jackknife de θ. b De manière précise, en posant encore θb(i) =
b b P b
θ(X (i) ), θ(·) = i θ(i) /n, on prend
Pn b
(θ(·) − θb(i) )3
a = Pn1
b .
6( (θb(·) − θb(i) )2 )3/2
1
c
Jean-Claude Massé
3.4. PRÉCISION DES INTERVALLES CONSTRUITS AVEC LE
BOOTSTRAP 40
En général, les suites O(1/n) convergent vers 0 plus vite que les suites
√
O(1/ n). En ce sens, on considère qu’une méthode de précision d’ordre
deux est supérieure à une méthode de précision d’ordre un. Pour que cette
évaluation asymptotique de la précision ait une valeur pratique, il faut bien
sûr que n soit suffisamment grand.
3.5 Bibliographie
c
Jean-Claude Massé
3.5. BIBLIOGRAPHIE 41
c
Jean-Claude Massé
Chapitre 4
Estimation de densité
4.1 L’histogramme
Fb(bj+1 ) − Fb(bj )
fb(x) = , x ∈ (bj , bj+1 ] = (bj , bj + h],
h
(#{xi ≤ bj+1 } − #{xi ≤ bj })/n
=
h
nj
= ,
nh
où nj = #{xi ∈ (bj , bj+1 ] ; pour x en dehors de l’intervalle [b0 , bk ], on pose
fb(x) = 0. L’estimateur ainsi défini s’appelle l’histogramme.
42
4.1. L’HISTOGRAMME 43
0.35
0.5
0.35
0.30
0.30
0.4
0.25
0.25
0.3
0.20
0.20
densité
densité
densité
0.15
0.15
0.2
0.10
0.10
0.1
0.05
0.05
0.00
0.00
0.0
8 10 12 7 9 11 13 7 9 11 13
c
Jean-Claude Massé
4.1. L’HISTOGRAMME 44
où la notation EF signifie que l’espérance est évaluée par rapport à la loi F
de la variable X. À ce propos, il est important d’observer que pour tout x
fixé la variable aléatoire fb(x) est une statistique :
Nj #{Xi ∈ (bj , bj+1 ]}
fb(x) = = = Tx (X1 , . . . , Xn ).
nh nh
Notons en outre que fb(x) dépend fortement de h ; lorsque, comme ci-dessous,
l’on fait varier h, on désignerait donc plus précisément l’estimateur par
fb(x; h).
Il est cependant préférable de mesurer la précision de façon globale,
autrement dit sur l’ensemble de tous les x. Une telle mesure (aléatoire) est
c
Jean-Claude Massé
4.1. L’HISTOGRAMME 45
EF (Nj ) pj
EF [fb(x)] = =
nh h
et
pj (1 − pj )
VarF [fb(x)] = . (4.2)
nh2
Ces calculs permettent de constater que
c
Jean-Claude Massé
4.1. L’HISTOGRAMME 46
c
Jean-Claude Massé
4.1. L’HISTOGRAMME 47
1 h2 R(f ′ )
M ISE = + + O(h3 ) + O(1/n), (4.5)
nh 12
R
où R(f ′ ) = f ′ (t)2 dt.
On interprète R(f ′ ) comme une mesure de la régularité de la densité
à estimer f . Lorsque f ′ prend de grandes valeurs (f irrégulière), R(f ′ ) est
grand ; lorsque f est lisse (valeurs de f ′ proches de 0), R(f ′ ) prend de petites
valeurs. Dans (4.5), on voit que le carré du biais intégré est proportionnel
au carré du paramètre de lissage h et que la variance intégrée est inver-
sement proportionnelle à ce paramètre. On pourra donc dire qu’un petit
h produit un histogramme peu biaisé, tandis qu’un grand nh détermine
un histogramme peu variable. Pour atteindre ce double objectif, on devra
réconcilier ces contraintes un peu contradictoires.
c
Jean-Claude Massé
4.1. L’HISTOGRAMME 48
c
Jean-Claude Massé
4.1. L’HISTOGRAMME 49
Prendre
b
hopt = 3.491Sn−1/3 .
Une règle du même type, moins sensible aux données aberrantes, est celle
de Freedman-Diaconis.
Prendre
b
hopt = 2IQn−1/3
0.4
0.4
0.3
Densité
Densité
0.3
0.2
0.2
0.1
0.1
0.0
0.0
−2 0 1 2 −1 0 1 2
y y
c
Jean-Claude Massé
4.2. LE POLYGONE DE FRÉQUENCE 50
polygone de fréquence
1.4
1.2
1.0
0.8
densité
0.6
0.4
0.2
0.0
taux
c
Jean-Claude Massé
4.2. LE POLYGONE DE FRÉQUENCE 51
2 49h4 R(f ′′ )
M ISE = + + O(n−1 ) + O(h6 ).
3nh 2880
La variance intégrée est encore inversement proportionnelle à nh. Le carré
du biais intégré est proportionnel à h4 ainsi qu’à R(f ′′ ), un terme dépendant
de la courbure (dérivée seconde) de la densité f . Le biais du polygone de
fréquence est donc d’un ordre de grandeur plus petit que celui de l’histo-
gramme. Le polygone de fréquence parvient à cette augmentation de précision
en ne retenant que les valeurs de l’histogramme aux centres des intervalles
définissant l’histogramme.
Comme ci-dessus, la minimisation de l’AMISE conduit au paramètre de
lissage optimal
1/5
15 1
hopt =2 , (4.7)
49R(f ′′ ) n1/5
ainsi qu’à la valeur minimale
5 49R(f ′′ ) 1/5 1
AM ISEopt = .
12 15 n4/5
De ce point de vue, on peut ainsi dire que la vitesse de convergence du
1
polygone de fréquence, proportionnelle à n4/5
, est supérieure à celle de l’his-
1
togramme, proportionnelle à n2/3
.
Dans la pratique, la manière la plus simple d’estimer le paramètre de
lissage est de supposer que f est gaussienne dans (4.7). On obtient alors
c
Jean-Claude Massé
4.3. L’ESTIMATEUR À NOYAU 52
c
Jean-Claude Massé
4.3. L’ESTIMATEUR À NOYAU 53
1.4
1.4
1.2
1.2
1.0
1.0
0.8
0.8
Densité
Densité
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
7.4 8.0 8.6 7.5 8.5
c
Jean-Claude Massé
4.3. L’ESTIMATEUR À NOYAU 54
0.5
0.0
taux h=0.1153
c
Jean-Claude Massé
4.3. L’ESTIMATEUR À NOYAU 55
On notera que ces conditions n’obligent pas K à être positive et, en par-
ticulier, à être une densité. On suppose aussi que la densité à estimer f
est suffisamment régulière en ce sens que ses dérivées d’ordres deux et trois
existent et ont un bon comportement. En outre, on fait l’hypothèse que
f (x) → 0 lorsque |x| → ∞.
Compte tenu des propriétés du noyau K, au point x on a
" n #
1 X x − X i
BiaisF [fb(x)] = EF K − f (x)
nh h
1
1 x−X
= EF K − f (x) (puisque les Xi sont i.i.d.)
h h
Z
1 x−y
= K f (y)dy − f (x)
h h
Z
= K(u)f (x − hu)du − f (x)
Z
= K(u)[f (x − hu) − f (x)]du
Z
1
= K(u)[−huf ′ (x) + h2 u2 f ′′ (x) + · · · ]du
2
Z Z
1 2 ′′
= −hf (x) uK(u)du + h f (x) u2 K(u)du + · · ·
′
2
2 ′′
h f (x)σK 2
= + O(h4 )
2
= O(h2 )
c
Jean-Claude Massé
4.3. L’ESTIMATEUR À NOYAU 56
lorsque h est petit. De même, lorsque h est petit, le calcul précédent implique
que
1 1 x−X
VarF [fb(x)] = VarF K (puisque les Xi sont i.i.d.)
n h h
( " # )
1 1 x−X 2 1 x − X
= EF K − EF2 K
n h2 h h h
Z 2
1 1 x−y 1 b(x)]
2
= K f (y)dy − f (x) + Biais F [f
n h2 h n
Z
1 1 2
= K 2 (u)f (x − hu)du − f (x) + O(h2 )
nh n
Z
1
= K 2 (u)[f (x) − huf ′ (x) + · · · ]du + O(1/n)
nh
R(K)f (x)
= + O(1/n),
nh
où R a la même signification que pour l’histogramme et le polygone de
fréquence.
L’erreur quadratique moyenne au point x s’obtient en additionnant la
variance et le carré du biais :
R(K)f (x) h4 σK
4 [f ′′ (x)]2
M SEF [fb(x)] = + + O(1/n) + O(h6 ).
nh 4
En intégrant par rapport à x, on obtient ensuite le M ISE, dont la partie
dominante, le M ISE asymptotique, est donnée par
R(K) h4 σK
4 R(f ′′ )
AM ISE = AM ISE(n, h) = + . (4.11)
nh 4
Comme plus haut, l’AMISE est vu comme une mesure globale de précision
de l’estimateur à noyau. Pour minimiser la variance et le biais intégrés, on
choisira h = h(n) tel que nh(n) → ∞ et h(n) → 0 lorsque n → ∞. Pour n
fixé, on vérifie que le h minimisant AM ISE(n, h) est
1/5
R(K) 1
hopt = 4 R(f ′′ ) ,
σK n1/5
c
Jean-Claude Massé
4.3. L’ESTIMATEUR À NOYAU 57
Tab. 4.1 –
c
Jean-Claude Massé
4.3. L’ESTIMATEUR À NOYAU 58
Prendre
b 1
hopt = 1.059S 1/5 .
n
On peut aussi estimer σ avec un estimateur robuste tel que l’écart inter-
quartile IQ = Q3 − Q1 . Pour une loi normale standard, l’écart interquartile
Pour une variable normale X de variance σ 2 , on vérifie sans peine que l’écart
interquartile vaut
FX−1 (.75) − FX−1 (.25) = σR.
b IQ 1 1
hopt = 1.059 = 0.79IQ 1/5 . (4.13)
R n1/5 n
c
Jean-Claude Massé
4.4. CHOIX DE H PAR VALIDATION CROISÉE 59
Règle de Silverman
Prendre
b 1
hopt = 0.9A 1/5 ,
n
où
A = min{S, IQ/1.35}.
c
Jean-Claude Massé
4.4. CHOIX DE H PAR VALIDATION CROISÉE 60
Z Z Z
= 2
f (t) dt + EF b 2
f (t) dt − 2EF b
f (t)f (t)dt (. 4.14)
R
Comme f (t)2 dt est une constante indépendante de h, il suffira de minimiser
un estimateur des deux derniers termes.
En tout point t, observons que fb(t) est une variable aléatoire fonction
de X1 , . . . , Xn . Pour bien le marquer, on notera son espérance EF [fb(t)] =
EX1 ,...,Xn [fb(t)]. Suivant la même logique, pour Y indépendante des Xi , on
peut voir que
Z Z Z
EF b b
f (t)f (t)dt = EF [f (t)]f (t)dt = EX1 ,...,Xn [fb(t)]f (t)dt (4.15)
c
Jean-Claude Massé
4.4. CHOIX DE H PAR VALIDATION CROISÉE 61
Noter que fb−i (t) est l’estimateur à noyau de f basé sur les observations Xj ,
j 6= i. Il est clair que
" #
1 t−X 1 X t − Xi
E[fb−i (t)] = E K =E K = EX1 ,...,Xn [fb(t)],
h h nh h
i
On ne le fait pas parce que cet estimateur est biaisé. En fait, pour tout i,
b 1 1 X Xi − Xj 1
f (Xi ) = K(0) + K ≥ K(0),
nh nh h nh
j6=i
alors qu’en général fb(Y ) n’a pas de borne inférieure strictement positive.
c
Jean-Claude Massé
4.5. MÉTHODE DE SHEATHER-JONES 62
on dit aussi que cette validation croisée est celle des moindres carrés.
Pour le calcul de (4.16), on peut utiliser l’approximation
P P ∗ Xi −Xj
i jK h K(0)
V C(h) ≈ 2
+2 ,
n h nh
R
où K ∗ (x) = K (2) (x) − 2K(x) et K (2) (x) = K(x − y)K(y)dy est le produit
de convolution de K avec lui-même. Dans le cas particulier où K est le noyau
normal, K (2) est la densité N (0, 2).
Des études ont montré que la méthode de la validation croisée sans biais
produit un h très variable. Un autre défaut de cette méthode est qu’elle
produit parfois une fonction V C(h) ayant plus d’un minimum local.
c
Jean-Claude Massé
4.6. EXTENSION À PLUSIEURS DIMENSIONS 63
où H est une matrice symétrique d × d définie positive, |H| son déterminant
et Kd un noyau d-dimensionnel prenant, par exemple, la forme d’une densité.
c
Jean-Claude Massé
4.6. EXTENSION À PLUSIEURS DIMENSIONS 64
où Si est une estimation de l’écart type σi basée sur les ie composantes de
l’échantillon, i = 1, 2. Il existe également une règle basée sur la validation
croisée mais nous ne la considérerons pas ici.
c
Jean-Claude Massé
4.7. PROPRIÉTÉS DE CONVERGENCE DE L’ESTIMATEUR À
NOYAU 65
4.8 Bibliographie
c
Jean-Claude Massé
4.8. BIBLIOGRAPHIE 66
c
Jean-Claude Massé
Chapitre 5
Une introduction à la
régression non paramétrique
yi = β0 + β1 xi + ǫi , i = 1, . . . , n, (5.1)
pour deux constantes, β0 , β1 , où l’on suppose généralement que les ǫi sont
iid de moyenne nulle. À partir des estimateurs des moindres carrés βb0 et βb1 ,
on obtient l’équation de prédiction de la réponse Y en X = x :
Yb = βb0 + βb1 x.
yi = m(xi ) + ǫi , i = 1, . . . , n,
67
5.1. LA RÉGRESSION À NOYAU 68
m(x) = E(Y |X = x)
Z
= yf (y|x)dy
Z
f (x, y)
= y dy, (5.2)
fX (x)
et
n
b 1 X x0 − xi
fX (x0 ) = Kx .
nhx 1 hx
R R
Comme plus haut, supposons que Ky (u)du = 1 et uKy (u)du = 0. En
faisant le changement de variable ui = (y − yi )/hy , on peut évaluer notre
estimateur comme suit :
Pn R
Z Kx x0 −xi 1
yKy y−y i
dy
fb(x0 , y) 1 hx hy hy
y dy = Pn
fbX (x0 ) Kx x0h−x
1
i
x
Pn
x0 −xi
1 Kx hx yi
= Pn .
x0 −xi
1 Kx hx
c
Jean-Claude Massé
5.2. LA RÉGRESSION POLYNOMIALE LOCALE 69
où
Kx x0h−x x
i
wi = Pn
x0 −xi
1 Kx hx
x0 −xi
1 K x hx
= .
nhx fbX (x0 )
Pour x0 fixe et Kx prenant ses valeurs les plus grandes dans le voisinage
de 0, cette expression montre que les poids wi les plus importants sont
ceux associés aux xi proches de de x0 . On se souviendra que l’estimateur à
noyau d’une densité possède la même propriété. À l’opposé, on notera que
l’ajustement en un point d’une fonction de régression polynomiale (modèle
paramétrique) pourrait fortement dépendre d’observations très éloignées du-
b N W (x0 ) hérite des
dit point. Comme fonction de x0 , on observe enfin que m
propriétés de différentiabilité de K = Kx .
c
Jean-Claude Massé
5.2. LA RÉGRESSION POLYNOMIALE LOCALE 70
1 x0 −xi
mieux aux yi lorsque le poids de yi est hK h , i = 1, . . . , n. On voit
ainsi que l’estimation de cette constante est donc davantage influencée par
les (xi , yi ) tels que xi est proche de x0 . En outre, plus h est grand plus
l’influence des points xi éloignés de x0 se fera sentir, et inversement lorsque
h est petit. C’est en ce sens que l’on parle ici de régression locale.
Nous verrons que l’estimateur de Nadaraya-Watson peut être fortement
biaisé près des extrémités de l’intervalle où se trouvent les xi . Le problème de
minimisation (5.3) suggère qu’il pourrait être préférable d’ajuster localement
(i.e. en chaque point x0 ) un polynôme de degré p ≥ 1 plutôt qu’une constante
β0 . Au point x0 , on cherchera donc le polynôme β0 +β1 (x0 −x)+· · ·+βp (x0 −
x)p minimisant en β0 , β1 , . . . , βp l’expression
n
X
p 2 1 x0 − xi
[yi − β0 − β1 (x0 − xi ) − · · · − βp (x0 − xi ) ] K . (5.4)
h h
i=1
(y − Xβ)′ W (y − Xβ).
c
Jean-Claude Massé
5.2. LA RÉGRESSION POLYNOMIALE LOCALE 71
(m b p (xn ))′ = Sh y,
b p (x1 ), . . . , m (5.6)
où
n
1 X x0 − xi
sbr (x0 , h) = (x0 − xi )r K .
nh h
1
c
Jean-Claude Massé
5.3. CHOIX DU PARAMÈTRE DE LISSAGE 72
4
3
concentration
2
1
0
rapport
Fig. 5.1 – Effet du paramètre de lissage sur une régression linéaire locale.
Courbe continue : h = 0.022. Courbe pointillée : h = 0.052.
c
Jean-Claude Massé
5.3. CHOIX DU PARAMÈTRE DE LISSAGE 73
La notation o(h2 ) représente ici une fonction de h telle que limh→0 o(h2 )/h2 =
0 ; de même o((nh)−1 ) représente une fonction de n et h telle que
o((nh)−1 )
lim = lim nh o((nh)−1 ) = 0.
nh→∞ (nh)−1 nh→∞
b0 ≡ m
Des formules tout à fait semblables valent pour m b NW .
Ces résultats montrent que le biais de ces estimateurs est le plus impor-
tant là où m a une forte courbure (m′′ (x0 ) grand en valeur absolue) ; en
outre, ces estimateurs ont leur plus grande variabilité là où f (x0 ) est petit
(là où les observations sont peu nombreuses).
b 0 (x0 ))
Lorsque x0 est proche des xi extrêmes, on peut montrer que biais(m
b 1 (x0 )) = O(h2 ). Pour leur part, les
= O(h) alors qu’on a encore biais(m
variances des deux estimateurs restent toutes deux d’ordre (nh)−1 . Ces
résultats font considérer l’estimateur linéaire local comme supérieur à l’esti-
b0
mateur de Nadaraya-Watson. La figure 5.2 illustre ce comportement de m
b 1 pour le jeu de données elusage.dat et h = 9.
et m
Comme en estimation de densité, il est possible en principe de sélectionner
b 1 en minimisant
le paramètre de lissage optimal de m
2 2 2 Z
σK h σ 2 R(K)
AM ISE(h) = m′′ (u)2 fX (u)du + ,
2 nh
où l’on a supposé que les Xi sont iid de densité fX . Le minimum est atteint
en 1/5
σ 2 R(K)
hopt = 4
R , (5.7)
nσK m′′ (u)2 fX (u)du
où σ 2 et m′′ doivent être estimées. Le package KernSmooth inclut la fonction
dpill calculant une valeur approximative de h pour le noyau gaussien K et
R
une estimation préalable de σ 2 et m′′ (u)2 fX (u)du. Nous nommerons cette
approche la méthode de substitution.
La validation croisée (Stone 1974) offre une autre approche à la sélection
du h optimal. Pour celle-ci, on cherche à minimiser
n
X
V C(h) = b (i)
(yi − m 2
p (xi )) , (5.8)
1
c
Jean-Claude Massé
5.3. CHOIX DU PARAMÈTRE DE LISSAGE 74
100
N−W
Consommation moyenne quotidienne
linéaire local
80
60
40
20
30 40 50 60 70 80
(i)
où mb p (xi )) est l’estimation de mp (xi ) basée sur toutes les données exceptée
(xi , yi ). De ce point de vue, le paramètre de lissage optimal est b hV C , point
minimal de V C(h). Comme en estimation de densité, b
hV C a le défaut de
posséder une variance relativement grande et tend à produire du sous-lissage.
En outre, son calcul est relativement complexe.
À première vue, (5.8) requiert n ajustements. En pratique, à cause de
l’identité
b p (xi )
yi − m
b p(i) (xi ) =
yi − m
1 − Sii (h)
où Sh = (Sij (h)) est la matrice de lissage, on pourra calculer plus simplement
n
X
b p (xi ) 2
yi − m
V C(h) = .
1
1 − Sii (h)
c
Jean-Claude Massé
5.4. LA RÉGRESSION SPLINE 75
validation croisée
Consommation moyenne quotidienne
substitution
80
60
40
20
30 40 50 60 70 80
c
Jean-Claude Massé
5.4. LA RÉGRESSION SPLINE 76
montrer qu’il existe toujours un polynôme de degré n−1 passant par chacun
des points (xi , yi ) (polynôme de Lagrange). Ce polynôme est donné par la
formule Q
n
X j6=i (x − xj )
g(x) = yi Q .
i=1 j6=i (xi − xj )
Une telle solution est en général trop irrégulière pour modéliser la relation
entre x et y de façon satisfaisante. On souhaite plutôt un estimateur de
régression qui s’ajuste bien aux données tout en étant lisse.
La régression spline ou lissage par splines aborde ce problème en mesu-
rant la qualité de l’ajustement par une expression de la forme
n
X
L(g) = (yi − g(xi ))2 + Φ(g),
1
où Φ est une fonction positive mesurant la “lissité” (régularité) d’une fonc-
tion : plus g est lisse, plus Φ(g) est petit. Pour que la solution au problème
de minimisation soit unique, il est nécessaire de restreindre la classe des
fonctions g. Celles-ci doivent être suffisamment lisses, en pratique dérivabies
au moins deux fois. Comme en estimation de densité, on mesurera la lissité
R
d’une fonction g dérivable deux fois à l’aide de l’intégrale Φ(g) = g′′ (x)2 dx.
Supposons que a = x0 < x1 < x2 < · · · < xn < xn+1 = b. On quantifiera
la qualité de l’ajustement et la régularité de g sur [a, b] au moyen de la
somme Z b
n
X
2
Lλ (g) = (yi − g(xi )) + λ g′′ (x)2 dx,
1 a
c
Jean-Claude Massé
5.4. LA RÉGRESSION SPLINE 77
ne peut avoir lieu que pour les polynômes g tels que g′′ (x) = 0 dans [a, b], au-
P
trement dit les polynômes linéaires sur [a, b] ; ainsi, L∞ (g) = n1 (yi −g(xi ))2
est minimisée lorsque g est la régression linéaire des moindres carrés.
Pour qu’une fonction lisse minimisant Lλ (g) soit unique, il est nécessaire
d’imposer des conditions sur les valeurs des dérivées de g. Pour les conditions
ci-dessous et λ fixé positif, on peut montrer en résolvant un système d’équa-
tions linéaires qu’il existe un minimum unique de Lλ (g) dans la classe des
fonctions g sur [a, b] différentiables deux fois telles que (g′′ )2 est intégrable et
g, g′ sont absolument continue (i.e. exprimables sous forme d’une intégrale
de a à b). Le minimum unique est alors un spline cubique appelé spline
de lissage. Un tel spline Sλ est une fonction coı̈ncidant avec un polynôme
cubique pi sur l’intervalle [xi , xi+1 ] et telle qu’aux nœuds xi , i = 2, . . . n − 1,
on a les relations
j 1 2 3 4 5 6 7
xj −3 −2 −1 0 1 2 3
yj = g(xj ) 1 2 5 10 5 2 1
c
Jean-Claude Massé
5.4. LA RÉGRESSION SPLINE 78
10
8
6
4
2
0
c
Jean-Claude Massé
5.4. LA RÉGRESSION SPLINE 79
(i)
où Sλ (xi ) est le spline cubique minimal évalué en xi , obtenu en utilisant
toutes les observations exceptée xi .
On peut montrer que le spline de lissage est un estimateur linéaire. On
veut dire par là que, si l’on définit le vecteur des valeurs ajustées en posant
ybi = Sλ (xi ), ce vecteur s’écrit
b = A(λ)y,
y
où l’on donne à A(λ) le nom de matrice chapeau (par analogie avec la
régression paramétrique). On peut alors vérifier que
n
X
yi − Sλ (xi ) 2
V C(λ) = ,
1 − Aii (λ)
1
c
Jean-Claude Massé
5.5. BIBLIOGRAPHIE 80
où Aii (λ) est le ie élément diagonal de la matrice chapeau. Par analogie avec
la régression paramétrique, la valeur Aii (λ) est appelée valeur de levier ; cette
valeur mesure l’influence du point (xi , yi ) sur l’ajustement.
Pour réduire l’influence des points à effet de levier important, on peut
aussi choisir le paramètre de lissage en minimisant plutôt la validation
croisée généralisée (Craven et Wahba 1979). Celle-ci est définie par
Pn 2
1 (yi − Sλ (xi ))
V CG(λ) = ,
(1 − n−1 tr(A(λ)))2
où tr(A(λ)) est la trace de la matrice A(λ) (somme des éléments diagonaux).
Pour bien comprendre la réduction d’influence des points à effet de levier,
on notera que la validation croisée généralisée remplace les poids 1 − Aii (λ)
par leur valeur moyenne tr(A(λ))/n. Les valeurs minimales des deux types
bV C et λ
de validation croisée seront notées λ bV CG .
5.5 Bibliographie
– Simonoff, J. S. (1996). Smoothing Methods in Statistics, Springer-
Verlag, New York. Chapitre 5. Excellente référence, présentant le sujet
de façon très abordable.
– Ruppert, D., Wand, M. P. et Carroll, R. J. (2003). Semiparametric
Regression, Cambridge University Press, Cambridge.
– Bowman, A. W. et Azzalini, A. (1997). Applied Smoothing Techniques
for Data Analysis. The Kernel Approach with S-Plus Illustrations, Ox-
ford Science Publications, New York. Chapitres 3, 4.
c
Jean-Claude Massé
Chapitre 6
81
6.1. PROBLÈMES UNIVARIÉS 82
est terminée. Si l’on a plutôt g((a0 +b0 )/2) < 0, il existe comme ci-dessus une
racine dans ((a0 + b0 )/2, b0 ) ; dans le cas contraire, il existe une racine dans
l’intervalle (a0 , (a0 + b0 )/2). À l’étape suivante, on poursuit la recherche
en coupant en deux l’intervalle de longueur (b0 − a0 )/2 identifié comme
contenant une racine ; on vérifie si le point milieu de cet intervalle est une
racine, sinon on identifie un sous-intervalle de longueur (b0 −a0 )/4 contenant
une racine. On continue d’appliquer ce raisonnement jusqu’à ce qu’on ait
identifé un sous-intervalle contenant une racine et de longueur correspondant
au degré de précision souhaité.
Formellement, le point de départ de l’algorithme est le calcul de g au
point x0 = (a0 + b0 )/2. À l’étape n, lorsque g((an−1 + bn−1 )/2) = 0, (an−1 +
bn−1 )/2 est une racine ; sinon, on retient l’intervalle
[an−1 , xn−1 ] si g(an−1 )g(xn−1 ) < 0
[an , bn ] = ,
[xn−1 , bn−1 ] si g(an−1 )g(xn−1 ) > 0
et on pose xn = (an + bn )/2. Après n étapes, si une racine n’est pas encore
identifiée, on se retrouve avec l’intervalle [an , bn ] contenant une racine et
ayant la longueur (b0 −a0 )/2n . Si cette longueur est suffisamment petite, il est
naturel d’estimer la racine par le point xn . Puisque an−1 ≤ an ≤ bn ≤ bn−1
pour tout n, on a lim an = lim bn = x∞ . Comme lim g(an )g(bn ) = [g(x∞ )]2 ≤
0, on conclut que g(x∞ ) = 0 et le point limite x∞ est une racine.
Dans la pratique, lorsqu’une itération générale ne réussit pas à identifier
la racine exacte, il est nécessaire de se donner une règle d’arrêt. Une première
règle est celle de la convergence absolue : on s’arrête à l’étape n pour le plus
petit n tel que
|xn − xn−1 | < ǫ,
où ǫ > 0 mesure le degré de précision souhaité. Une autre règle d’arrêt est
celle de la convergence relative pour laquelle on s’arrête dès que
|xn − xn−1 |
< ǫ.
|xn−1 |
c
Jean-Claude Massé
6.1. PROBLÈMES UNIVARIÉS 83
entraı̂ne que
g(x0 )
x∞ ≈ x0 − .
g′ (x0 )
Cela conduit à penser que
g(x0 )
x1 = x0 − (6.2)
g′ (x0 )
a des chances d’être plus proche de x∞ que ne l’est x0 . Notons que l’on
peut aussi obtenir x1 comme solution d’un problème d’optimisation d’une
fonction quadratique. En effet, soit G une fonction telle que G′ = g. Il est
alors facile de vérifier que x1 est l’unique point x annulant la dérivée de
l’approximation quadratique de Taylor de G(x) autour de x0 :
(x − x0 )2 g′ (x0 )
Gq (x) = G(x0 ) + (x − x0 )g(x0 ) + .
2
En effet G′q (x1 ) = 0 et G′′q (x1 ) = g′ (x0 ), d’où x1 est le minimum de Gq si
g′ (x0 ) > 0 et le maximum si g′ (x0 ) < 0.
c
Jean-Claude Massé
6.1. PROBLÈMES UNIVARIÉS 84
g(xn )
xn+1 = xn − ,
g′ (xn )
x−1 + 1 − log x
g(x) ≡ G′ (x) = = 0.
(1 + x)2
On peut vérifier que g(3) = 0.015 et que g(4) = −0.005, et l’on pourra
donc chercher la racine entre 3 et 4. Prenant x0 = 3, on peut vérifier que la
1
Isaac Newton (1642-1727) et Joseph Raphson (1648-1715) étaient deux
mathématiciens anglais.
c
Jean-Claude Massé
6.1. PROBLÈMES UNIVARIÉS 85
G'(x)
−0.010
x x
c
Jean-Claude Massé
6.1. PROBLÈMES UNIVARIÉS 86
0.08
0.06
0.04
g(x)
0.02
x_2
0.00
x_0
x_1
c
Jean-Claude Massé
6.2. PROBLÈMES MULTIVARIÉS 87
Théorème 6.1.1. Supposons que g ait exactement une racine. Pour que
la méthode de Newton converge à partir de n’importe quel point de départ,
il suffit que g soit continûment dérivable deux fois et convexe (g′′ (x) > 0
partout). Un résultat analogue vaut pour g concave (g′′ (x) < 0 partout).
où les xi sont des points distincts de Rd tels que les différences x1 −x0 , . . . , xd
− x0 sont linéairement indépendantes. En dimension 1, un 1-simplexe est
un segment de droite aux bornes x0 et x1 ; en dimension 2, un 2-simplexe
est un triangle aux sommets x0 , x1 et x2 , tandis qu’en dimension 3 un 3-
simplexe est un trièdre aux sommets x0 , x1 , x2 et x3 . La méthode de Nelder-
Mead (1965), ou méthode du simplexe, optimise une fonction f en ne faisant
appel qu’aux valeurs de f sur les sommets d’une suite de simplexes. Par
rapport à la plupart des méthodes d’optimisation en contexte multivarié elle
a l’avantage de ne pas exiger que l’on calcule des dérivées. Nous la décrivons
ici en dimension d = 2.
c
Jean-Claude Massé
6.2. PROBLÈMES MULTIVARIÉS 88
R = C + (C − P ) = 2C − P.
E = R + (R − C) = 2R − C.
c
Jean-Claude Massé
6.2. PROBLÈMES MULTIVARIÉS 89
P
M B
C B
C2
M
C1
V1
B
M V2
c
Jean-Claude Massé
6.2. PROBLÈMES MULTIVARIÉS 90
où 0 < β ′ < 1 est un facteur de contraction. Dans la figure 6.4, on désigne
les sommets ainsi construits par V1 et V2 , et on poursuit avec le triangle
M V1 V2 .
Dans R, la méthode du simplexe est une option de la fonction optim.
Par défaut, on y prend α = 1, β = β ′ = 0.5 et γ = 2.
c
Jean-Claude Massé
6.2. PROBLÈMES MULTIVARIÉS 91
Dans la suite, nous supposerons que les dérivées partielles secondes de l sont
continues, ce qui fera de la matrice hessienne une matrice symétrique. On
notera qu’en théorie de l’estimation la matrice −l′′ (θ) s’appelle l’information
(de Fisher) observée.
On sait qu’optimiser la log-vraisemblance équivaut à résoudre les k équations
∂l
(θ) = 0, i = 1, . . . , k,
∂θi
système que l’on écrira de manière plus compacte à partir du vecteur 0 :
l′ (θ) = 0T .
c
Jean-Claude Massé
6.2. PROBLÈMES MULTIVARIÉS 92
Le terme (l′′ (θn ))−1 l′ (θn )T peut être vue comme la direction ou le pas que
l’on imprime à θn pour obtenir l’itéré suivant. Pour éviter d’avoir à inverser
la matrice hessienne, notons qu’on peut aussi résoudre en θn+1 l’équation
équivalente
l′′ (θn )(θn+1 − θn ) = −l′ (θn )T .
θn+1 = θn − M −1 l′ (θn )T ,
c
Jean-Claude Massé
6.2. PROBLÈMES MULTIVARIÉS 93
pourvu que αn > 0 soit assez petit. En effet, puisque l′ (θ) est défini comme
un vecteur ligne, il découle du développement de Taylor autour de θn que
domine o(αn ), car par définition celui-ci tend plus vite vers 0 que αn .
Nous présenterons maintenant un peu plus en détail deux autres méthodes
de type Newton.
c
Jean-Claude Massé
6.2. PROBLÈMES MULTIVARIÉS 94
où X a la même loi que les Xi . L’entrée (i, j) de la matrice hessienne l′′ (θ)
est donnée par
′′ ∂2
lij (θ) = l(θ|X1 , . . . , Xn )
∂θi ∂θj
Xn
∂2
= l(θ|Xm ),
∂θi ∂θj
m=1
c
Jean-Claude Massé
6.3. L’ALGORITHME EM 95
où Mn est une approximation de la matrice hessienne l′′ (θn ). Elles se dis-
tinguent dans leur manière de mettre à jour les Mn d’une étape à l’autre.
Une particularité de cette mise à jour est qu’elle incorpore de manière re-
lativement simple de l’information sur le comportement de la fonction score
l′ au voisinage de θn dans la direction −Mn−1 l′ (θn )T .
Plus précisément, cela se fait en imposant à la matrice Mn+1 de vérifier
une condition du type
Mn zn znT Mn yn ynT
Mn+1 = Mn − + T ,
znT Mn zn zn yn
6.3 L’algorithme EM
Lorsqu’une fonction de vraisemblance est difficile à maximiser, il s’avère
parfois avantageux d’insérer les variables observées dans un ensemble plus
vaste de variables dont la loi est paramétrisée de la même façon, tout en
ayant la particularité de faciliter la maximisation de la nouvelle fonction de
vraisemblance obtenue par cet ajout de variables. En pratique, les variables
additionnelles prennent alors la forme de variables non observées ou partiel-
lement observées. Pour évaluer la contribution des variables additionnelles à
la fonction de vraisemblance, on se sert alors de la loi conditionnelle de ces
variables étant donné les variables observées. Cette idée est à la base d’un al-
gorithme très général de maximisation des fonctions de vraisemblance connu
c
Jean-Claude Massé
6.3. L’ALGORITHME EM 96
c
Jean-Claude Massé
6.3. L’ALGORITHME EM 97
h(E(X)) ≤ E(h(X)).
De plus, lorsque h est strictement convexe, l’égalité ne peut avoir lieu que
si X est constante avec probabilité 1.
c
Jean-Claude Massé
6.3. L’ALGORITHME EM 98
Dans tous les cas où deux valeurs différentes de θ déterminent des densités
conditionnelles f (u|y; θ) différentes, on a f (U |y; θm+1 )/f (U |y; θm ) 6= d’une
constante avec probabilité 1, et donc l’inégalité de Jensen s’applique stricte-
ment. On a alors l(θm+1 ) > l(θm ) dès que θm+1 6= θm , ce qui fait de (l(θm ))
une suite croissante. Soulignons que la méthode de Newton-Raphson n’a
pas toujours cette propriété. Notons finalement que, sous des conditions de
régularité assez faibles, la suite (θm ) converge vers un point maximum local
de l(θ).
En résumé, l’algorithme EM procède comme suit.
Algorithme EM
c
Jean-Claude Massé
6.3. L’ALGORITHME EM 99
c
Jean-Claude Massé
6.3. L’ALGORITHME EM 100
c
Jean-Claude Massé
6.3. L’ALGORITHME EM 101
égale à
p2mA
nmA/A := E(nA/A |Y = y; pm ) = nA .
p2mA + 2pmA pmO
c
Jean-Claude Massé
6.3. L’ALGORITHME EM 102
c
Jean-Claude Massé
6.3. L’ALGORITHME EM 103
c
Jean-Claude Massé
6.3. L’ALGORITHME EM 104
X n
k X X n
k X
= wi (yj ; θm ) log πi + wi (yj ; θm ) log fi (yj ; φi )(6.9)
i=1 j=1 i=1 j=1
Pk
Comme la maximisation en θ est faite sous la contrainte 1 πi = 1, on
pourra utiliser un multiplicateur de Lagrange. On remarque cependant que
la maximisation en πi peut être faite en ne considérant que le premier terme
du membre droit de (6.9). Or, à une constante près, ce terme a la forme
P
d’une log-vraisemblance multinomiale. Puisque ki=1 wi (yj ; θm ) = 1 pour
tout j, le maximum en πi est donc
Pn Pn
j=1 wi (yj ; θm ) j=1 wi (yj ; θm )
πm+1,i = Pk Pn = ,
i=1 j=1 wi (yj ; θm )
n
c
Jean-Claude Massé
6.4. BIBLIOGRAPHIE 105
pour i = 1, . . . , k.
6.4 Bibliographie
c
Jean-Claude Massé