Optimisation Locale Globale

Optimisation locale et globale
Rodolphe Le Riche1,3 , Stéphane Mottelet2 , Eric Touboul1
1
Ecole des Mines de Saint-Etienne
2
Université de Technologie de Compiègne
3
CNRS
2010
5
Sommaire
I Préambule et généralités sur l’optimisation 5

I.1 Préambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
I.2 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Exemples du chapitre I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
I.3 Formulations des problèmes d’optimisation . . . . . . . . . . . . . . 26
I.4 Généralités sur les optimiseurs . . . . . . . . . . . . . . . . . . . . . 33
II Notions fondamentales d’optimisation convexe 39

II.1 Formes quadratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
II.2 Rappels de calcul différentiel . . . . . . . . . . . . . . . . . . . . . . 46 Sommaire
II.3 Notions sur la convexité . . . . . . . . . . . . . . . . . . . . . . . . . 52 Concepts
II.4 Résultats d’existence et d’unicité . . . . . . . . . . . . . . . . . . . . 60 Notions
Bibliographie
II.5 Conditions nécessaires d’optimalité en l’absence de contraintes . . . 64
Exemples du chapitre II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Exemples
Exercices du chapitre II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Exercices
Documents
2 II
III Les méthodes de gradient 82
III.1 Les méthodes de descente . . . . . . . . . . . . . . . . . . . . . . . 83
III.2 Les méthodes de gradient . . . . . . . . . . . . . . . . . . . . . . . . 86
Exemples du chapitre III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
IV La méthode du gradient conjugué 95

IV.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
IV.2 La méthode du gradient conjugué . . . . . . . . . . . . . . . . . . . . 102
IV.3 Interprétation de la méthode du gradient conjugué . . . . . . . . . . 108
Exemples du chapitre IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
V Méthodes de recherche linéaire 119

V.1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
V.2 Caractérisation de l’intervalle de sécurité . . . . . . . . . . . . . . . . 123
VI Méthodes de Quasi-Newton 135

VI.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
VI.2 Les méthodes de quasi-Newton . . . . . . . . . . . . . . . . . . . . . 141
VI.3 Méthodes spécifiques pour les problèmes de moindres carrés . . . . 156
Exemples du chapitre VI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 Sommaire
Concepts
VII Conditions d’optimalité en optimisation avec contraintes 163 Notions
VII.1 Les conditions de Lagrange . . . . . . . . . . . . . . . . . . . . . . . 164 Bibliographie
VII.2 Les conditions de Kuhn et Tucker . . . . . . . . . . . . . . . . . . . . 176
VII.3 Exemples de problèmes . . . . . . . . . . . . . . . . . . . . . . . . . 183 Exemples
VII.4 Conditions suffisantes d’optimalité . . . . . . . . . . . . . . . . . . . 190 Exercices
Documents
JJ 3 II
VIII Méthodes primales 196
VIII.1 Contraintes d’égalité linéaires . . . . . . . . . . . . . . . . . . . . . . 197
VIII.2 Contraintes d’inégalité linéaires . . . . . . . . . . . . . . . . . . . . . 204
VIII.3 Méthodes de pénalisation . . . . . . . . . . . . . . . . . . . . . . . . 208
VIII.4 Méthodes par résolution des équations de Kuhn et Tucker . . . . . . 216
Exemples du chapitre VIII . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
IX Méthodes utilisant la notion de dualité 225

IX.1 Elements sur la dualité . . . . . . . . . . . . . . . . . . . . . . . . . . 226
IX.2 Methodes duales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
Exemples du chapitre IX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
X Méthodes d’optimisation globale 238

X.1 Généralités sur l’optimisation globale . . . . . . . . . . . . . . . . . . 239
X.2 La méthode DIRECT . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
X.3 La méthode EGO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
X.4 La méthode CMA-ES . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 4
suivant I
Chapitre I
Préambule et généralités sur l’optimisation
I.1 Préambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
I.2 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Exemples du chapitre I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
I.3 Formulations des problèmes d’optimisation . . . . . . . . . . . . . . . 26
Sommaire
I.4 Généralités sur les optimiseurs . . . . . . . . . . . . . . . . . . . . . . 33
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
5
chapitre N section suivante I
I.1 Préambule
I.1.1 Navigation par hyperliens . . . . . . . . . . . . . . . . . . . . . . 7

I.1.2 Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
I.1.3 Historique du cours . . . . . . . . . . . . . . . . . . . . . . . . . 9
I.1.4 Parcours possibles dans le cours . . . . . . . . . . . . . . . . . 10
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
6
section N suivant I
I.1.1 Navigation par hyperliens
Ce cours est réalisé en format pdf avec des renvois par hyperliens. Pour ne pas accroitre inuti-
lement le nombre de liens, la navigation par historique (e.g., revenir à la page lue précédemment)
est laissée à la charge de votre lecteur de fichiers pdf. Il est donc conseillé de repérer cette fonction
maintenant.
TODO Gregory : explication sur la lecture des scripts Scilab et des vidéos sur les différents
systèmes d’exploitation.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
7
J précédent section N suivant I
I.1.2 Remerciements
– Gregory Six (Ecole des Mines de Saint-Etienne) pour son aide

dans la génération de ce cours.
– La Fondation UNIT qui a partiellement financé la rédaction de
ce cours (convention no. 2009-20).
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
8
I.1.3 Historique du cours
– 2001 : cours de Stéphane Mottelet, “Optimisation Non Linéaire”, Université de Technologie

de Compiègne (UTC).
– 2010 : fusion avec les cours d’Eric Touboul (optimisation locale) et Rodolphe Le Riche (opti-
misation globale), Ecole des Mines de Saint Etienne.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
9
J précédent section N
I.1.4 Parcours possibles dans le cours
Voici quelques sous-parties du cours pouvant, parmi d’autres, constituer des cours d’optimisation
donnés à partir de ce support.
Initiation à l’optimisation : section formulations → section généralités → notions fondamen-

tales d’optimisation convexe → méthodes de gradient → méthodes de quasi-Newton.
Optimisation non linéaire sous contraintes : comment traiter les contraintes d’optimisation.
Les concepts introduits dans le parcours “initiation à l’optimisation” sont pré-requis. Condi-
tions d’optimalité avec contraintes → méthodes primales → méthodes duales
Optimisation globale : Les concepts introduits dans le parcours “initiation à l’optimisation”
sont pré-requis. Optimisation locale vs. optimisation globale (intro) → Méthodes d’optimisa-
tion globales
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
10
J section précédente chapitre N section suivante I
I.2 Motivations
I.2.1 A quoi sert l’optimisation ? . . . . . . . . . . . . . . . . . . . . . 12

I.2.2 Un exemple en régression non-linéaire . . . . . . . . . . . . . . 13
I.2.3 Un exemple de modélisation en mécanique . . . . . . . . . . . 15
I.2.4 Le positionnement d’antennes : un exemple de conception optimale 18
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
11
section N suivant I
I.2.1 A quoi sert l’optimisation ?
Cours :
Formulation générale
Optimisation = activité de minimiser, maximiser des fonctions en vérifiant des relations annexes.
On peut distinguer trois grands usages.
1. La modélisation. Par exemple, la minimisation de l’énergie potentielle totale sert à trouver la
position d’un système en mécanique. Cf. Exemple de la position d’une corde.
2. La conception et le contrôle optimal : maximisation la performance d’un système sous des
contraintes de résistance, qualité, fabrication, coût . . .. Cf. Exemple du positionnement optimal
des antennes dans la Loire.
3. L’identification : réglage des paramètres d’un modèle par minimisation de la distance entre ses
réponses et des mesures expérimentales que le modèle est supposé reproduire. Cf. Exemple
d’identification par moindres carrés.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
12
I.2.2 Un exemple en régression non-linéaire
1.0
Ο
Ο
Ο
0.6 Ο Ο ΟΟ
Ο
Ο
ΟΟ
Ο Ο
0.2 Ο ΟΟ Ο Ο
Ο Ο ΟΟ ΟΟΟΟ ΟΟ Ο Ο ΟΟΟ Ο Ο ΟΟ
Ο Ο Ο Ο Ο ΟΟΟ Ο ΟΟΟ
Ο Ο Ο ΟΟΟ Ο
Ο
ΟΟ Ο ΟΟ Ο ΟΟ ΟΟ
Ο Ο Ο Ο
ΟΟ Ο Ο ΟΟ ΟΟ Ο
ΟΟΟΟΟ Ο Ο
Ο Ο Ο
Ο
-0.2 Ο
Ο ΟΟΟ
Ο
Ο
ΟΟ
-0.6
-1.0
0 20 40 60 80 100
Sommaire
Concepts
On considère un problème d’identification des paramètres a, b, c et c d’un signal du type Notions
Bibliographie
y(t) = a exp (−bt) cos (ct + d),
Exemples
à partir d’échantillons [ti , yi ]i=1...m du signal y(t) (ces échantillons sont représentés par les ronds sur Exercices
la figure ci-dessus). Documents
13 II
On propose de faire cette identification en minimisant la fonction Un exemple en

m régression
1X
f (a, b, c, d) = (yi − y(ti ))2 , non-linéaire
2
i=1
m
1X
= (yi − a exp (−bti ) cos (cti + d))2 .
2
i=1
Le choix d’élever au carré la distance entre yi et y(ti ) est bien sûr arbitraire : on aurait pu prendre
la valeur absolue, mais le carré permet d’obtenir une fonction f différentiable (ceci sera bien sûr
clarifié dans la suite). Si nous n’ajoutons pas de conditions sur les paramètres a, b, c, d le problème
posé est donc du type (P ), avec x = [a, b, c, d]> ∈ R4 . Ce problème est communément appelé un
problème de moindres carrés (non linéaire).
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 14
I.2.3 Un exemple de modélisation en mécanique
u(x)
v(x)
On considère une corde horizontale de longueur 1 tendue à ses deux extrémités, avec une tension τ .
La déviation éventuelle de la corde par rapport à sa position d’équilibre est désignée par u(x), pour
x ∈ [0, 1].
[ Attention aux notations : nous utilisons dans cet exemple la notation usuelle de la mécanique où u
est un déplacement et x une coordonnée spatiale. En optimisation par contre, x désigne les variables
d’optimisation ].
Les extrémités étant fixées, on aura toujours u(0) = u(1) = 0. On négligera le poids propre de la
corde par rapport à la tension τ , cela permet d’affirmer qu’en l’absence d’action extérieure, la corde Sommaire
Concepts
est au repos et on a donc u(x) = 0, ∀x ∈ [0, 1]. Notions
Supposons maintenant que la corde est écartée de sa position d’origine. Alors on peut montrer Bibliographie
que l’énergie potentielle associée à cette déformation (supposée petite) est
Z 1 2 Exemples
1 du Exercices
E(u) = τ dx. (I.2.1)
2 0 dx Documents
15 II
En l’absence d’obstacle, la position de repos u(x) = 0 minimise cette énergie. Il peut alors être Un exemple de
intéressant d’étudier un problème où un obstacle empèche la corde de prendre la position triviale modélisation
u(x) = 0. Intuitivement, on voit bien que la corde va toucher l’obstacle en certains points, mais pas en mécanique
forcément en tous les points de l’intervalle [0, 1] (cela va dépendre de la forme de l’obstacle)
Supposons par exemple que cet obstacle peut être représenté par une fonction v(x) ≥ 0. Alors la
présence de l’obstacle se traduit par la condition
u(x) ≥ v(x), x ∈]0, 1[. (I.2.2)
Si on veut connaître la déformation u(x) de la corde lorsque l’obstacle est présent, on peut donc
penser qu’il est raisonnable de considérer le problème
2
1 1
 Z
du
 min τ dx,


u 2 0 dx (I.2.3)

 u(0) = u(1) = 0,
u(x) ≥ v(x), x ∈]0, 1[.

Il s’agit, techniquement parlant, d’un problème de calcul des variations, et donc l’inconnue est
une fonction (la fonction u(x)). Il parait donc pour l’instant impossible de le mettre sous forme
standard. Cependant, on peut essayer de résoudre un problème approché, en utilisant la méthode des
éléments finis : Sommaire
Concepts
Approximation avec la méthode des éléments finis Notions
Bibliographie
Puisque l’on est en dimension 1 d’espace, la méthode est très simple à mettre en oeuvre. D’une
part, on discrétise l’intervalle [0, 1] : on considère les abscisses
Exemples
k Exercices
xk = , k = 0 . . . N. Documents
N
JJ 16 II
On considère le vecteur U = [U1 , . . . , UN −1 ]> , ainsi que la fonction uN (x) définie par : Un exemple de
uN (xk ) = Uk , uN (0) = uN (1) = 0, de plus uN est continue et affine par morceaux. modélisation
On peut alors montrer que en mécanique
1
E(uN ) = U > AU,
2
où A est la matrice (définie positive)
 
2 −1 0
 −1 2 −1 
 
A = τN2 
 .. .. .. .

 . . . 
 −1 2 −1 
0 −1 2
On peut donc proposer la version approchée du problème (I.2.3) :
( 1
min U > AU,
U 2 (I.2.4)
v(xk ) − Uk ≤ 0 , k = 1 . . . N − 1.
Il s’agit donc d’un problème se mettant assurément sous la forme (P CI). De plus la fonction
f (U ) = 21 U > AU est assez particulière : il s’agit d’une forme quadratique (nous y reviendrons plus Sommaire
tard). La fonction g permettant d’exprimer les contraintes d’inégalité, définie par Concepts
  Notions
v(x1 ) − U1 Bibliographie
g(U ) =  ..
,
 
.
v(xN −1 ) − UN −1 ) Exemples
Exercices
est de plus linéaire. Nous aborderons des méthodes tenant compte de ces particularités. Documents
JJ 17
I.2.4 Le positionnement d’antennes : un exemple de conception optimale
Cours : Exemples :
A quoi sert l’optimisation ? Exemple I.1
Une station de radio veut positionner son antenne émétrice de façon à couvrir une surface maxi-
mum dans un département donné. On suppose que le département est plan, et que la surface couverte
par l’antenne est un disque de rayon donné ( voir figure). Le problème revient à chercher la posi-
tion d’un point P, centre d’un disque de rayon R, tel que la surface de l’intersection du disque et du
département soit maximale.
On pourra généraliser le problème avec plusieurs antennes sur le département.
On demande d’écrire un programme en Scilab qui sera capable de :
– calculer automatiquement la position optimale de l’antenne
– visualiser le résultat, ou mieux, l’évolution des itérations y conduisant
Le rayon étant donné, l’aire S est déterminée par la position du centre P du cercle dans le plan.
C’est un problème à deux dimension. Si on note (x,y) les coordonnées de P dans un repère, le pro-
Sommaire
bème revient à : Concepts
min −S(x, y) Notions
x,y
Bibliographie
Ici, S n’est pas une fonction analytique. S(x,y) devra être calculé numériquement à partir de la donnée
du contour du département et de la position du point P (cf. notes sur le calcul de la surface d’un
Exemples
polygone). Il en sera de même pour les gradients de S , et autres dérivées éventuellement nécéssaires Exercices
selon la méthode d’optimisation utilisée. Documents
18 II
Le positionne-
ment
d’antennes :
un exemple de
conception
optimale
F IG . I.2.1 – Intersection disque/département
Dans ce problème en dimension 2, on peut facilement représenter les isovaleurs de la fonction

coût. Celle-ci est relativelent régulière à cause de la morphologie du département, et les techniques
d’optimisation classique ne devaient rencontrer aucun problème particulier. Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 19 II
Le positionne-
ment
d’antennes :
un exemple de
conception
optimale
Sommaire
Concepts
Notions
Bibliographie
F IG . I.2.2 – Lignes de niveau de la fonction coût

Exemples
Exercices
Documents
JJ 20 II
Le positionne-
ment
d’antennes :
un exemple de
conception
optimale
Sommaire
Concepts
Notions
F IG . I.2.3 – Avec deux antennes. Contrainte : pas d’intersection des disques. Bibliographie
Exemples
Exercices
Documents
JJ 21
Exemples du chapitre I
I.1 Calcul de la surface d’un polygone . . . . . . . . . . . . . . . . 23
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
22
section N
Exemple I.1 Calcul de la surface d’un polygone
Calcul numérique de la surface S(x,y)

Plusieurs méthodes numériques sont envisageables. Ce point n’étant pas au centre du sujet, nous
proposons une méthode relativement simple et rapide, mais présentant quelques imprécisions. Le
lecteur pourra de lui même développer une méthode plus performante. L’intérêt ici est d’avoir à op-
timiser une fonction "coût" obtenue par calcul numérique, comme c’est très souvent le cas dans la
pratique. Soulignons que bien souvent cette fonction est relativement complexe et longue à évaluer
informatiquement ( par exemple : la fonction coût est obtenue par un calcul par éléments finis en
mécanique), ce qui met en évidence l’intêtret d’obtenir une certaine rapidité de méthodes d’optimi-
sation.
Calcul de la surface d’un polygone

Un polygone D (fermé, pas forcément convexe, mais suffisament régulier - pas de recoupement
par exemple) étant donné par n points consécutifs, (Mi )i=1...n , de coordonnées (xi , yi ) son aire A
peut être calculée comme une somme d’aires algébriques de triangles, à partir d’un point P quel-
conque.
Sommaire
Si les sommets du polygones sont numérotés dans le sens trigonométrique, comme sur la figure, Concepts
l’aire du triangle (P, Mi Mi+1 ) sera positive si le on passe de (P Mi à P Mi+1 ) en tournant dans Notions
le sens trigonométrique, c’est à dire si le déterminant de la matrice formée par les coordonnées en Bibliographie
colonne des deux vecteurs dans l’ordre est positif. D’autre part, ce déterminant donne le double de
l’aire algébrique, si bien que, si on ferme le polygone ( ie : Mi = Mi+1 ), et si on note (x, y) les Exemples
coordonnées du point P : Exercices
Documents
23 II
section N
Exemple I.1
Calcul de la
surface d’un
polygone
F IG . I.2.4 – Calcul de surface
1 X
A(D) = (xi − x)(yi − y)
2
i=1,n
Exemple pour un triangle et un point P extérieur :
Sommaire
Concepts
Notions
Bibliographie
Exemples
Le lecteur se convaincra que les aires "négatives" contrebalancent exactement le "trop" d’aires Exercices
Documents
JJ 24 II
section N
positives provenant de la non convexité du polygone (si le point P est intérieur et le polygone convexe, Exemple I.1
toute les aires algébriques sont positives). Calcul de la
Le département D sera considéré comme un polygone donné par les coordonnées de points consé- surface d’un
cutifs sur sa frontière, numérotés en tournant dans le sens trigonométrique : Mi et fermé. polygone
Calcul numérique approché de la surface S

La surface S(x,y) est la surface de l’intersection du disque de centre P(x,y) et du polygone D
(département). La méthode proposée ici pour l’approcher est de générer un polygone approchant
l’intersection, puis de calculer la surface de ce polygone par la méthode précédement décrite.
Pour approcher ce polygone, on considère chaque segment P Mi . Si kP Mi k < R, on garde le
point Mi , sinon on le remplace par le point Ni tel que (voir figure) :
P Ni = R kPP M i
Mi k
Sommaire
Concepts
Notions
Bibliographie
F IG . I.2.5 – Calcul de surface
Exemples
Retour au grain Exercices
Documents
JJ 25
I.3 Formulations des problèmes d’optimisation
I.3.1 Formulation générale des problèmes d’optimisation non linéaire 27

I.3.2 Optimiseurs et simulateurs . . . . . . . . . . . . . . . . . . . . . 29
I.3.3 Optimisations locale et globale . . . . . . . . . . . . . . . . . . 31
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
26
section N suivant I
I.3.1 Formulation générale des problèmes d’optimisation non linéaire
La formulation générale d’un problème d’optimisation est la suivante :

 minn f (x), (I.3.1)
x∈R







 sous les contraintes
(P C)







 g(x) ≤ 0, (I.3.2)

h(x) = 0, (I.3.3)
où x sont les variables d’optimisation. La ou les solutions de (P C) sont généralement symbolisées

par x∗ . Notons que nous nous intéressons ici à l’optimisation continueuisque les variables sont prises
dans Rn . f désigne la(les) fonction(s) coût(s). g (équation I.3.2) désigne ce que nous apelleront les
contraintes d’inégalité et h (équation I.3.3) les contraintes d’égalité. f , g et h constituent les critères
d’optimisation. Dans le cadre de ce cours, f , g et h seront typiquement non-linéaires.
L’objet de ce cours est la présentation de techniques permettant de résoudre le problème (PC).
Sommaire
Pour cela, nous nous intéresserons à des sous-problèmes sans contraintes, ou alors avec un seul des Concepts
deux types de contraintes. Nous noterons ainsi ces familles de problèmes : Notions
Bibliographie
(PC) problème général, avec contraintes d’inégalité et d’égalité,
(PCE) problème avec contraintes d’égalité, Exemples
(PCI) problème avec contraintes d’inégalité, Exercices
(P) problème sans contraintes. Documents
27 II
section N suivant I
Il va de soi que la plupart des problèmes réels ou industriels ne sont pas initialement sous une des Formulation
formes proposées. C’est pourquoi un des premiers travaux consiste en général à mettre le problème générale des
initial sous une forme standard. Par exemple, un problème donné sous la forme problèmes
d’optimisation
maxn g(x),
x∈R non linéaire
se mettra sous la forme standard (P) en posant f (x) = −g(x). La mise sous forme standard nécessite
en général un peu plus de travail, comme nous pouvons le voir dans les exemples moindres carrés,
positionnement d’antennes, ou équilibre d’une corde.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 28
I.3.2 Optimiseurs et simulateurs
Cours :
Les problèmes d’optimisation peuvent parfois être résolus analytiquement mais, le plus souvent,
on approche leur(s) solution(s) avec des méthodes numériques itératives programmées dans des
logiciels que nous appelerons optimiseurs.
Après t calculs des critères d’optimisation, l’optimiseur calcule le prochain itéré des variables
d’optimisation,
f (x1 ) f (xt )
   
xt+1 = Optimiseur x1 , g(x1 )  , . . . , xt , g(xt )  . (I.3.4)

1
h(x ) t
h(x )
Les critères d’optimisation f , g et h sont le plus souvent calculés à partir des sorties d’un logiciel,
le simulateur. Par exemple, le simulateur est un logiciel de calculs par éléments finis, volumes finis,
éléments frontières, simulations de Monte Carlo . . .. Notons y les sorties du simulateur. Alors, f (x) Sommaire
est en fait la notation contractée de f (x, y(x)) (idem avec g et h). Les itérations entre optimiseur et Concepts
Notions
simulateur peuvent être représentées graphiquement par
Bibliographie
Exemples
Exercices
Documents
29 II
x
Optimiseurs et
? simulateurs
Optimiseur Simulateur
6
f (x) , g(x) , h(x)
Exemple :
x , dimensions d’une structure soumise à un chargement.
y , déplacements verticaux de la structure sous le chargement. Résultats d’une exécution du
simulateur.
f , volume de la structure avant chargement, donc ici f dépend de x mais pas de y.
g , limitation sur le déplacement vertical maximal, g(x) ≡ max(y(x)) − y maxi .
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 30
I.3.3 Optimisations locale et globale
Trouver la ou les solutions, x∗ , du problème (PC) (ou de ses versions simplifiées (P),(PCI),(PCE))
est, dans l’absolu, un problème d’optimisation globale.
Ce problème peut être arbitrairement compliqué, typiquement quand il y a des solutions isolées :
Pour éviter les complications liées à la multi-modalité de la fonction et permettre l’élaboration

d’algorithmes plus rapides (requérant moins d’appels au simulateur), on diminue les ambitions en
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
31 II
s’intéressant au problème de l’optimisation locale : Optimisations

locale et
Trouver xl = arg

min n f (x), (I.3.5)
globale

x∈V(xl )⊂R







(P CL)




g(x) ≤ 0, (I.3.6)





h(x) = 0, (I.3.7)
où V(xl ) est un voisinage de xl .
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 32
J section précédente chapitre N
I.4 Généralités sur les optimiseurs
I.4.1 Pourquoi, en pratique, l’optimisation est souvent difficile ? . . . 34

I.4.2 Mise en garde au sujet des représentations graphiques . . . . 36
I.4.3 Les grands mécanismes des optimiseurs . . . . . . . . . . . . 38
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
33
section N suivant I
I.4.1 Pourquoi, en pratique, l’optimisation est souvent difficile ?
Les difficultés pratiques de l’optimisation sont en général liées aux éléments suivants.
Le coût de calcul du simulateur, qui

peut grandement restreindre le nombre
d’évaluations des critères d’optimisa-
tion. Exemple d’une simulation aéro-
dynamique externe d’un véhicule (pro-
jet ANR/OMD2).
Un grand nombre de variables n.

Exemple d’un avion.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
34 II
section N suivant I
Pourquoi, en
pratique,
La multimodalité, qui génère des op- l’optimisation
tima locaux (cf. optimisation locale vs. est souvent
globale). Exemple d’une fonction liée difficile ?
à la conception de stratifiés composites
(de [1]).
Le mauvais conditionnement numé-

rique.
Un bruit affectant les critères d’optimi-

sation. Ce bruit peut provenir d’un si-
mulateur dont les convergences numé- Sommaire
riques sont partielles ou de critères qui Concepts
utilisent des mesures entachées d’er- Notions
Bibliographie
reurs.
Exemples
Exercices
Documents
JJ 35
I.4.2 Mise en garde au sujet des représentations graphiques
Le support écrit nous contraint parfois à dessiner les fonctions que l’on minimise en une ou deux
dimensions. Par exemple, dessinons la fonction en deux dimensions
f (x) = sin (x1 ) cos (x2 ) + 0.1x1 dans [−4, 4]2
Editer le script du graphe dans Scilab

(linux)
Editer le script du graphe dans Scilab
(windows)
(En cas de problème, ou-
vrir puis exécuter le fichier
./scilab/plot_3d_cours.sce
avec Scilab) Sommaire
Concepts
Notions
Bibliographie
La solution peut être ici directement lue sur le graphe de la fonction (x∗ = [−4, ±π]) et dans ce
cas l’utilisation d’un algorithme itératif d’optimisation n’a pas d’intérêt. Il ne s’agit là que d’une Exemples
Exercices
représentation à des fins pédagogiques. Dans les vrais problèmes d’optimisation, l’évaluation de Documents
36 II
la fonction coût est numériquement coûteuse ou le nombre de variables d’optimisation est grand Mise en garde
(problème en haute dimension) ce qui rend de telles représentations impossibles. au sujet des re-
De manière plus réaliste, un algorithme d’optimisation ne connait que quelques évaluations de présentations
points pendant l’exécution, ce qui sur la fonction précédente pourrait donner : graphiques
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 37
I.4.3 Les grands mécanismes des optimiseurs
Cours :
Les optimiseurs globaux quantifient et manipulent deux propriétés définies en tout point de l’es-
pace de recherche (en tout x), une connaissance des critères d’optimisation (f , g et h) et une
l’incertitude sur les critères d’optimisation. Les optimiseurs locaux s’affranchissent du traitement
explicite de l’incertitude sur les critères en ne considérant que des voisinages de points explorés,
donc supposés suffisament bien connus.
Les optimiseurs déterministes construisent des fonctions qui approchent connaissance et incerti-
tude de critères. Ces fonctions sont utilisées pour décider des prochains itérés de l’optimiseur.
Par exemple les méthodes newtoniennes appliquées au problème (P) réalisent une approximation
de Taylor à l’ordre 2 autour du point courant,
1
f (x) ≈ f (xt ) + ∇f (xt )(x − xt ) + (x − xt )T ∇2 f (xt )(x − xt ) (I.4.1) Sommaire
2
Concepts
TODO Rodolphe, lien avec newton en exo Notions
Bibliographie
Exemples
Exercices
Documents
38
J précédent suivant I
Chapitre II
Notions fondamentales d’optimisation convexe
II.1 Formes quadratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

II.2 Rappels de calcul différentiel . . . . . . . . . . . . . . . . . . . . . . . 46
II.3 Notions sur la convexité . . . . . . . . . . . . . . . . . . . . . . . . . . 52
II.4 Résultats d’existence et d’unicité . . . . . . . . . . . . . . . . . . . . . 60
II.5 Conditions nécessaires d’optimalité en l’absence de contraintes . . . 64
Sommaire
Exemples du chapitre II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Concepts
Exercices du chapitre II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Notions
Bibliographie
Exemples
Exercices
Documents
39
II.1 Formes quadratiques
II.1.1 Définition d’une forme quadratique . . . . . . . . . . . . . . . . 41

II.1.2 Propriétés des formes quadratiques définies positives . . . . . 43
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
40
section N suivant I
II.1.1 Définition d’une forme quadratique
Cours :
exemple en mécanique
L’exemple précédent nous donne une idée, à partir d’un problème particulier, de la forme que peut
prendre la fonction f . Une telle fonction s’appelle une forme quadratique. Nous allons maintenant
étudier leurs propriétés.
Définition II.1.1. Soit A une matrice symétrique n × n et b ∈ Rn . On appelle forme quadratique la
fonction f : Rn → R définie par
1
f (x) = x> Ax − b> x.
2
Lorsque la matrice A possède certaines propriétés, la fonction f peut prendre un nom particulier.
La propriété à laquelle nous allons nous intéresser est la positivité :
Définition II.1.2. Soit A une matrice symétrique n × n et b ∈ Rn . On dit que A est semi-définie
Sommaire
positive et on note A ≥ 0, quand
Concepts
x> Ax ≥ 0, ∀x ∈ Rn . Notions
Bibliographie
On dit que A est définie positive et on note A > 0, quand
x> Ax > 0, ∀x ∈ Rn , x 6= 0. Exemples

Exercices
Cette définition peut être reliée aux valeurs propres de la matrice A : Documents
41 II
section N suivant I
Propriété II.1.3. Soit A une matrice symétrique n × n. On note {λi }i=1...n ses valeurs propres Définition
(réelles). On a les équivalences suivantes : d’une forme
quadratique
A ≥ 0 ⇐⇒ λi ≥ 0, i = 1 . . . n,
A > 0 ⇐⇒ λi > 0, i = 1 . . . n.
Lorsque la matrice A est définie positive (resp. semi-définie positive), on dira que f (x) est une
forme quadratique définie positive (resp. semi-définie positive). Dans le cas où A est définie positive
la fonction f possède un certain nombre de propriétés. Nous nous intéressons dans un premier temps
aux surfaces f (x) = c où c ∈ R.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 42
II.1.2 Propriétés des formes quadratiques définies positives
Exemples :
Exemple II.1
Propriété II.1.4. Soit A une matrice symétrique n × n, définie positive et b ∈ Rn . Considérons la

forme quadratique
1
f (x) = x> Ax − b> x.
2
On considère la famille de surfaces définie par
γc = {x ∈ Rn , f (c) = c},
pour c ∈ R, et on définit le vecteur x̂ solution de
Ax̂ = b.
Sommaire
Alors γc est définie de la façon suivante : Concepts
– Si c < f (x̂) alors γc = ∅. Notions
– Si c = f (x̂) alors γc = {x̂}. Bibliographie
– Si c > f (x̂) alors γc est un ellipsoïde centré en x̂.
Exemples
Exercices
Documents
43 II
Démonstration : La matrice A étant diagonalisable, il existe une matrice P (la matrice des Propriétés des
vecteurs propres) orthogonale telle que formes
quadratiques
P > AP = D,
définies
où D = diag (λ1 , . . . , λn ) avec λi > 0. On fait le changement de variable y = x − x̂ : cela donne positives
1
f (x̂ + y) = f (x̂) + (Ax̂ − b)> y + y > Ay,
2
et puisque Ax̂ = b, on a
1
f (x) = f (x̂) + (x − x̂)> A(x − x̂).
2
On fait maintenant le changement de variable (x − x̂) = P z, ce qui donne
1
f (x) = f (x̂) + z > P > AP z,
2
1 >
= f (x̂) + z Dz,
2
n
1X
= f (x̂) + λi zi2 .
2 Sommaire
i=1
Concepts
La surface γc est donc définie par Notions
Bibliographie
n
( )
1 X
γc = z ∈ Rn , λi zi2 = c − f (x̂) . Exemples
2
i=1 Exercices
Documents
JJ 44 II
Si c − f (x̂) < 0 il est clair qu’il n’y a pas de solution à l’équation Propriétés des
n formes
1X
λi zi2 = c − f (x̂), quadratiques
2 définies
i=1
positives
puisque le second membre est toujours positif ! Si c = f (x̂) la seule solution est z = 0, c’est à dire
x = x̂. Si c > f (x̂) l’équation définit bien un ellipsoïde, puisque les λi sont positifs. 2
Nous avons en fait démontré un résultat très intéressant qui caractérise la valeur minimale prise
par f (x) quand x parcourt Rn :
Théorème II.1.5. Soit A une matrice symétrique n × n définie positive et b ∈ Rn , et soit f la forme
quadratique associée, définie par
1
f (x) = x> Ax − b> x.
2
Soit x̂ le vecteur (unique) vérifiant Ax̂ = b, alors x̂ réalise le minimum de f , c’est à dire
f (x̂) ≤ f (x), ∀ x ∈ Rn .
Ce résultat est une conséquence directe de la propriété II.1.4. Sommaire

Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 45
II.2 Rappels de calcul différentiel
II.2.1 Définition de la différentiabilité . . . . . . . . . . . . . . . . . . . 47

II.2.2 Calcul de la dérivée première . . . . . . . . . . . . . . . . . . . 49
II.2.3 Dérivée seconde . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
46
section N suivant I
II.2.1 Définition de la différentiabilité
Dans Rn on note x le vecteur colonne

 
x1
x =  ...  ,
 
xn
et la notation k.k désignera, sauf indication du contraire, la norme euclidienne
n
!1
X 2
kxk = x2k .
k=1
Avant de donner la définition de la différentiabilité, il est important de rappeller celle de la continuité :

Définition II.2.1. Soit f : Rn → Rm , on dit que f est continue au point a ∈ Rn si pour tout réel
> 0 il existe η > 0 tel que
kx − ak < η ⇒ kf (x) − f (a)k < .

Sommaire
Voici maintenant la définition de la différentiabilité : Concepts
Notions
Définition II.2.2. Soit f : Rn → Rm représentée dans la base canonique de Rm par le vecteur Bibliographie
 
f1 (x)
.. Exemples
f (x) =  , (II.2.1)
 
. Exercices
fm (x) Documents
47 II
section N suivant I
continue en a ∈ Rn . On dit que f est différentiable en a s’il existe une application linéaire, notée Définition de la
f 0 (a), telle que pour tout h ∈ Rn on ait différentiabilité
f (a + h) = f (a) + f 0 (a)h + khk (h), (II.2.2)
où (.) est une fonction continue en 0 vérifiant limh→0 (h) = 0. On appelle f 0 (a) dérivée de f au
point a.
La notation f 0 (a)h doit être prise au sens “f 0 (a) appliquée à h”. Cette notation devient assez
naturelle lorsque l’on représente f 0 (a) par sa matrice dans les bases canoniques de Rn et Rm , comme
le montre plus bas la proposition II.2.2.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 48
II.2.2 Calcul de la dérivée première
Exemples : Exercices :
Exemple II.3 Exercice II.2
Exemple II.4
On peut d’ores et déja donner un résultat ”pratique” permettant de calculer directement la dérivée
à partir du développement (II.2.2) :
Proposition II.2.1. Soit f : Rn → Rm différentiable en a, alors
f (a + th) − f (a)
lim = f 0 (a)h.
t→0 t
Démonstration : On a f (a + th) = f (a) + tf 0 (a)h + |t| khk (th), d’où
f (a + th) − f (a)
f 0 (a)h = ± khk (th). Sommaire
t Concepts
Notions
Il suffit de noter que limt→0 (th) = 0 pour conclure. 2 Bibliographie
Cette méthode d’estimation du gradient est souvent appelée différences finies. La quantité f 0 (a)h
est la dérivée directionnelle de f au point a dans la direction h. La proposition suivante fait le lien Exemples
Exercices
entre la matrice de f 0 (a) et les dérivées partielles de f au point a : Documents
49 II
Proposition II.2.2. Soit f : Rn → Rm différentiable en a, alors on peut représenter f 0 (a) par sa Calcul de la
matrice dans les bases canoniques de Rn et de Rm et on a dérivée
∂fi première
[f 0 (a)]ij = (a)
∂xj
Démonstration : On note {e1 , . . . , en } la base canonique de Rn . Par définition de la matrice,

la j ème colonne de f 0 (a) est obtenue en appliquant f 0 (a) au j ème vecteur de la base canonique de
Rn . On obtient donc le vecteur
f (a + tej ) − f (a)
f 0 (a)ej = lim ,
t→0 t
grâce à la proposition II.2.1. La définition de f donnée par (II.2.1) permet d’écrire que
fi (a + tej ) − fi (a)
[f 0 (a)ej ]i = lim ,
t→0 t
fi (a1 , . . . , aj + t, . . . , an ) − fi (a1 , . . . , an )
= lim ,
t→0 t
∂fi
= (a).
∂xj
2
Sommaire
On appelle souvent f 0 (a)
la matrice jacobienne de f au point a. Lorsque m = 1 on adopte une Concepts
notation et un nom particuliers : le gradient est le vecteur noté ∇f (a) et défini par Notions
Bibliographie
f 0 (a) = ∇f (a)> ,
et on a Exemples
f (a + h) = f (a) + ∇f (a)> h + khk (h). Exercices
Documents
JJ 50
II.2.3 Dérivée seconde
Exemples : Exercices :
Exercice II.3
On se place maintenant dans le cas m = 1, soit f : Rn → R.
Définition II.2.3. L’application f : Rn → R est dite deux fois différentiable s’il existe une matrice
symétrique ∇2 f (a) telle que
f (a + h) = f (a) + ∇f (a)> h + h> ∇2 f (a)h + khk2 (h).
On appelle ∇2 f (a) matrice hessienne de f au point a. Comme l’énonce le théorème suivant (non
démontré), cette matrice s’obtient à partir des dérivées secondes de f :
Théorème II.2.4. Soit f : Rn → R une fonction deux fois différentiable en un point a. Si on note
g(x) = ∇f (x) alors la matrice hessienne est définie par ∇2 f (a) = g 0 (a), soit
Sommaire
∂2f Concepts
[∇2 f (a)]ij = . Notions
∂xi ∂xj
Bibliographie
Exemples
Exercices
Documents
51
II.3 Notions sur la convexité
II.3.1 Définition de la convexité . . . . . . . . . . . . . . . . . . . . . . 53

II.3.2 Fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . . 55
II.3.3 Caractérisation de la convexité en termes du hessien . . . . . 57
II.3.4 Caractérisation de la convexité en termes du gradient . . . . . 59
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
52
section N suivant I
II.3.1 Définition de la convexité
Exemples :
Exemple II.6
La convexité est à la base une propriété géométrique, assez intuitive d’ailleurs, qui permet de
caractériser certains objets. On voit assez bien ce qu’est un objet convexe dans un espace à deux
ou trois dimensions. Nous allons maintenant montrer comment cette propriété peut aussi s’appliquer
aux fonctions de Rn dans R.
objet convexe objet non convexe
x x y
Sommaire
y Concepts
Notions
Bibliographie
Définition II.3.1. Un ensemble K ⊂ Rn est dit convexe si pour tout couple (x, y) ∈ K 2 et ∀ λ ∈
Exemples
[0, 1] on a
Exercices
λx + (1 − λ)y ∈ K. Documents
53 II
section N suivant I
Cette définition peut s’interpréter en disant que le segment reliant x et y doit être dans K. Elle Définition de la
se généralise de la façon suivante : on dira qu’un vecteur y est une combinaison convexe des points convexité
{x1 , . . . , xp } si on a
Xp
y= λ i xi ,
i=1
Pp
avec λi ≥ 0 et i=1 λi = 1.
On peut citer quelques cas particuliers : Rn tout entier est un ensemble convexe, de même qu’un
singleton {a}.
Propriété II.3.2. Soit une famille {Ki }i=1...p d’ensembles convexes et S = pi=1 Ki . Alors S est
T
convexe.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 54
II.3.2 Fonctions convexes
fonction convexe fonction non-convexe
x y x y
Définition II.3.3. On dit qu’une fonction f : K → R, définie sur un ensemble convexe K, est
convexe si elle vérifie
∀(x, y) ∈ K 2 , ∀λ ∈ [0, 1], f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y).

Sommaire
On dira que f est strictement convexe si Concepts
Notions
∀(x, y) ∈ K 2 , x 6= y, ∀λ ∈]0, 1[, f (λx + (1 − λ)y) < λf (x) + (1 − λ)f (y). Bibliographie
Lorsque n = 1 cette définition s’interprète bien géométriquement : le graphe de la fonction est Exemples
toujours en dessous du segment reliant les points (x, f (x)) et (y, f (y)). Exercices
Documents
55 II
Corollaire II.3.4. On définit pour (x, y) ∈ K 2 , où K est un ensemble convexe, la fonction ϕ : Fonctions
[0, 1] → R par convexes
ϕ(t) = f (tx + (1 − t)y).
Alors on a l’équivalence
ϕ(t) convexe sur [0, 1], ∀(x, y) ∈ K 2 ⇔ f convexe sur K.
Démonstration : Si ϕ(t) est convexe sur [0, 1] on a en particulier
ϕ(λ) ≤ λϕ(1) + (1 − λ)ϕ(0), ∀λ ∈ [0, 1],
ce qui donne exactement
f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y).
La réciproque est admise. 2
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 56
II.3.3 Caractérisation de la convexité en termes du hessien
Exemples :
Exemple II.7
Dans le cas où f : K ⊂ R → R on a le résultat suivant :

Propriété II.3.5. Si f : R → R est 2 fois continûment dérivable sur K convexe alors f est convexe
si et seulement si f 00 (x) ≥ 0,∀x ∈ K et strictement convexe si et seulement si f 00 (x) > 0,∀x ∈ K
(sauf éventuellement en des points isolés).
Ce résultat se généralise pour n > 1 : le résultat suivant fait le lien entre le hessien et la propriété
de convexité :
Théorème II.3.6. Soit f : K ⊂ Rn → R une fonction deux fois différentiable, alors f est convexe si
et seulement si ∇2 f (x) ≥ 0, ∀x ∈ K, et strictement convexe si et seulement si ∇2 f (x) > 0, ∀x ∈
K.
Démonstration : La démonstration fait appel à un résultat obtenu dans l’exercice II.1 : si on Sommaire
définit ϕ(t) = f (x + ty) alors on a Concepts
Notions
ϕ00 (t) = y > ∇2 f (x + ty)y, Bibliographie
et on sait grâce a la propriété II.3.5 que f convexe si ϕ00 (t) ≥ 0, ∀t. On aura donc f convexe si et
Exemples
seulement si Exercices
y > ∇2 f (x + ty)y ≥ 0, ∀(x, y) ∈ K 2 , Documents
57 II
d’où le résultat. 2 Caractérisation

Le corrolaire suivant est immédiat : de la convexité
en termes du
Propriété II.3.7. Soit f une forme quadratique définie par hessien
1
f (x) = x> Ax − b> x,
2
alors f est convexe si et seulement si A ≥ 0, et strictement convexe si et seulement si A > 0.
Cela provient du fait que ∇2 f (x) = A (voir l’exemple II.5).
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 58
II.3.4 Caractérisation de la convexité en termes du gradient
Dans le cas où la fonction f n’est supposée qu’une fois différentiable, on a le résultat suivant :
Théorème II.3.8. Soit f : K ⊂ Rn → R une fonction une fois différentiable, alors f est convexe si
et seulement si
f (y) ≥ f (x) + ∇f (x)> (y − x), ∀(x, y) ∈ K 2 .

La fonction f est strictement convexe si et seulement si
f (y) > f (x) + ∇f (x)> (y − x), ∀(x, y) ∈ K 2 , x 6= y.
On voit bien l’interprétation géométrique de ce dernier resultat quand n = 1 : le graphe d’une

fonction convexe f se trouve toujours au-dessus de la tangente en un point donné.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
59
II.4 Résultats d’existence et d’unicité
II.4.1 Théoremes généraux d’existence . . . . . . . . . . . . . . . . . 61

II.4.2 Unicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
60
section N suivant I
II.4.1 Théoremes généraux d’existence
Considérons notre problème d’optimisation I.3.1 introduit au début du cours, que l’on écrira pour
l’occasion un peu différemment, en mettant les contraintes sous la forme x ∈ K ⊂ Rn :
min f (x). (II.4.1)

x∈K
Nous allons donner deux résultats très généraux d’existence d’une solution au problème (II.4.1).
Auparavant nous avons besoin de la définition d’un ensemble compact :
Définition II.4.1. Un ensemble K ⊂ Rn est dit compact si, de toute suite {xk }, où xk ∈ K, ∀k, on
peut extraire une sous-suite convergente.
Nous donnons le théorème suivant sans démonstration :
Théorème II.4.2. Un ensemble K ⊂ Rn est compact si et seulement si il est fermé et borné.
Dans R, les intervalles fermés du type [a, b] (ou des reunions de tels intervalles) sont compacts.
La notion de fermeture signifie qu’une suite {xk }, où xk ∈ K, ∀k, doit converger vers une limite
x ∈ K. Pour illustrer sur un exemple qu’un intervalle ouvert dans R ne peut pas être compact, on Sommaire
peut considérer l’exemple suivant. Concepts
Soit K =]0, 1] et la suite xk = 1/k, on a bien xk ∈ K mais limk→∞ = 0 6∈ K. Notions
Bibliographie
Voici maintenant deux résultats d’existence, dont les démonstrations peuvent ètre consultées dans
les documents. Exemples
Exercices
Documents
61 II
section N suivant I
Théorème II.4.3. Si f : K ∈ Rn → R est continue et si de plus K est un ensemble compact, alors Théoremes
le problème (II.4.1) admet une solution optimale x̂ ∈ K, qui vérifie donc généraux
d’existence
f (x̂) ≤ f (x), ∀x ∈ K.
Le second résultat est moins général car il considère le cas particulier K = Rn :
Théorème II.4.4. Soit f : Rn → R une fonction continue sur Rn . Si
lim f (x) = ∞,
kxk→∞
alors (II.4.1) admet une solution optimale x̂.
Démonstration : Soit x0 ∈ Rn . Puisque limkxk→∞ f (x) = ∞ il existe M > 0 tel que

kxk > M ⇒ f (x) > f (x0 ), donc
∃M > 0, f (x) ≤ f (x0 ) ⇒ kxk ≤ M.
Puisque x̂ est caractérisé par f (x̂) ≤ f (x), ∀x ∈ Rn , on a donc forcément kx̂k ≤ M . Donc x̂ est
solution du problème
Sommaire
min f (x), Concepts
kxk≤M
Notions
et le théorème précédent s’applique, la boule {x ∈ Rn , kxk ≤ M } étant compacte. 2 Bibliographie
Exemples
Exercices
Documents
JJ 62
II.4.2 Unicité
L’unicité résulte en général de propriétés de convexité (de f et de K).
Théorème II.4.5. Soit f : K ∈ Rn → R strictement convexe sur K convexe. Le minimum de f sur

K, s’il existe, est unique.
Démonstration : Soit donc x̂ ∈ K tel que f (x̂) ≤ f (x), ∀x ∈ K. Supposons qu’il existe
ŷ 6= x̂ tel que f (ŷ) ≤ f (x), ∀x ∈ K. Formons pour λ ∈]0, 1[ le vecteur
u = λŷ + (1 − λ)x̂.
D’après la stricte convexité de f et puisque nécessairement f (ŷ) = f (x̂) on a
f (u) < λf (ŷ) + (1 − λ)f (x̂) = f (x̂),
ce qui contredit le fait que x̂ soit un minimum. On a donc x̂ = ŷ. 2
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
63
II.5 Conditions nécessaires d’optimalité en l’absence de contraintes
II.5.1 Conditions nécessaires . . . . . . . . . . . . . . . . . . . . . . . 65

II.5.2 Conditions nécessaires et suffisantes . . . . . . . . . . . . . . 66
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
64
section N suivant I
II.5.1 Conditions nécessaires
On va maintenant regarder de plus près le cas où K = Rn , c’est à dire le problème sans

contraintes (P ). Dans le cas où f est différentiable, on a le résultat suivant :
Théorème II.5.1. Soit f : Rn → R différentiable et x̂ vérifiant
f (x̂) ≤ f (x), ∀x ∈ Rn ,
alors on a nécessairement
∇f (x̂) = 0.
Démonstration : Pour tout t ∈ R∗ et pour tout h ∈ Rn on a
f (x̂) ≤ f (x̂ + th).
On a donc
f (x̂) − f (x̂ + th)
limt→0+ = ∇f (x̂)> h ≤ 0,
t
et Sommaire
f (x̂) − f (x̂ + th) Concepts
limt→0− = ∇f (x̂)> h ≥ 0, Notions
t
Bibliographie
donc ∇f (x̂)> h = 0, ∀h ∈ Rn , donc ∇f (x̂) = 0 (prendre par exemple h = ∇f (x̂)). 2
Exemples
Exercices
Documents
65
II.5.2 Conditions nécessaires et suffisantes
La condition de gradient nul devient suffisante dans le cas où f est convexe :
Théorème II.5.2. Soit f : Rn → R convexe et différentiable. Si x̂ vérifie
∇f (x̂) = 0,
alors on a f (x̂) ≤ f (x), ∀x ∈ Rn .
Démonstration : Soient x ∈ Rn et λ ∈ [0, 1]. Puisque f est convexe on a
f (λx̂ + (1 − λ)x) ≤ λf (x) + (1 − λ)f (x̂).
On retranche f (x̂) de chaque côté de l’inégalité, on note que
λx + (1 − λ)x̂ = x̂ + λ(x − x̂),
puis in divise par λ, ce qui donne l’inégalité

f (x̂ + λ(x − x̂)) − f (x̂) Sommaire
≤ f (x) − f (x̂). Concepts
λ Notions
Et si on fait tendre λ vers 0 on obtient Bibliographie
∇f (x̂)> (x − x̂) ≤ f (x) − f (x̂), Exemples

Exercices
donc 0 ≤ f (x) − f (x̂). 2 Documents
66 II
Lorsque la fonction n’est pas convexe, on ne peut donner qu’une condition nécessaire et suffi- Conditions
sante d’optimalité locale. On désignera par minimum local (que l’on oppose au minimum global) un nécessaires et
vecteur vérifiant les conditions suivantes : suffisantes
Définition II.5.3. On appellera x∗ minimum local de f , s’il existe δ > 0 tel que
f (x∗ ) ≤ f (x), ∀x, kx − x∗ k ≤ δ.
Dans le cas où f est deux fois différentiable on peut alors donner le résultat suivant :
Théorème II.5.4. Soit f : Rn → R deux fois différentiable. Si
∇f (x∗ ) = 0,

∇2 f (x∗ ) > 0,
alors x∗ est un minimum local de f .
Démonstration : On a
t2 > 2
f (x∗ + th) = f (x∗ ) + t∇f (x∗ )> h + h ∇ f (x∗ )h + t2 khk2 ε(th),
2
t2 > 2
= f (x∗ ) + h ∇ f (x∗ )h + t2 khk2 ε(h). Sommaire
2
Concepts
On a donc pour t > 0 Notions
Bibliographie
f (x∗ + th) − f (x∗ ) 1
2
= h> ∇2 f (x∗ )h + khk2 ε(th).
t 2
Exemples
Donc si t est suffisamment petit on aura bien f (x∗ + th) − f (x∗ ) > 0 puisque ∇2 f (x∗ ) > 0. 2 Exercices
Documents
JJ 67
Exemples du chapitre II
II.1 Courbes de niveau d’une forme quadratique dans R2 . . . . . 69

II.2 Gradient d’une fonction quadratique . . . . . . . . . . . . . . . 71
II.3 Dérivée d’une fonction affine . . . . . . . . . . . . . . . . . . . . 72
II.4 Calcul numérique du gradient . . . . . . . . . . . . . . . . . . . 73
II.5 Matrice hessienne d’une fonction quadratique . . . . . . . . . . 74
II.6 Combinaison convexe de points dans le plan . . . . . . . . . . 75
II.7 Convexité d’une fonction quadratique . . . . . . . . . . . . . . . 76
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
68
section N suivant I
Exemple II.1 Courbes de niveau d’une forme quadratique dans R2
On considère la fonction f (x) = 12 x> Ax − b> x où A est une matrice symétrique 2 × 2 définie
positive. On note P la matrice des vecteurs propres et λ1 > λ2 > 0 les deux valeurs propres. Notons
x̂ la solution du système linéaire Ax̂ = b. On a montré que les courbes iso-valeurs sont définies par
l’équation
1
(λ1 z12 + λ2 z22 ) = c − f (x̂),
2
où on a effectué le changement de variable z = P (x − x̂). Si on a c − f (x̂), l’équation ci-dessus
définit une ellipse dans le repère (z1 , z2 ), dont l’équation “canonique” est donnée par
z1 2 z2 2
+ = 1,
a b
avec s s
2(c − f (x̂)) 2(c − f (x̂))
a= , b= .
λ1 λ2
On sait que l’on peut décrire cette ellipse par la courbe paramétrique z(t), t ∈ [0, 2π] avec
Sommaire
a cos t
z(t) = , Concepts
b sin t Notions
Bibliographie
donc l’équation paramétrique de la courbe x(t) dans le repère original est
Exemples

a cos t
x(t) = x̂ + P . Exercices
b sin t Documents
69 II
section N suivant I
Exemple II.1
10.16
Courbes de
8.10
niveau d’une
forme
6.03 quadratique
Lancer la simulation +
dans R2
3.97
1.90
-0.16
-4.31 -2.48 -0.65 1.17 3.00 4.83 6.65 8.48 10.31
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 70
Exemple II.2 Gradient d’une fonction quadratique
On considère la fonction f (x) = 12 x> Ax − b> x où A est une matrice carrée symétrique n × n.
On a
1 > 1
f (x + th) = x Ax + t2 h> Ah + tx> Ah + b> (x + th),
2 2
1
= f (x) + t(x A − b> )h + t2 h> Ah,
>
2
on a donc
f (x + th) − f (x) 1
= (Ax − b)> h + th> Ah.
t 2
Puisque limt→0 21 th> Ah = 0, on a donc ∇f (x) = Ax − b.
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
71
Exemple II.3 Dérivée d’une fonction affine
On considère la fonction f (x) = Cx + d où C est une matrice m × n. On a f (x + h) =

Cx + Ch + d = f (x) + Ch. Donc f 0 (x) = C, ∀ x ∈ Rn . On notera qu’ici f est différentiable pour
tout x ∈ Rn , ce qui n’est pas forcément le cas quand f est quelconque.
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
72
Exemple II.4 Calcul numérique du gradient
Voici un exemple de fonction Scilab calculant le gradient d’une fonction nommée "nomfonc" de
n
R dans R.
0 function Cg=calgrad(nomfonc,x,epsi)
1 // nomfonc: fonction de Rn dans R
2 // x: point de Rn ou le gradient est calcule
3 // epsi : parametre du calcul discret des derivees
4 ndim=length(x);
5 val0=nomfonc(x);
6 for i=1:ndim
7 y=x;
8 y(i)=y(i)+epsi;
9 Cg(i)= (nomfonc(y)-val0)/epsi;
10 end
11 endfunction
Sommaire
Concepts
Retour au grain Notions
Bibliographie
Exemples
Exercices
Documents
73
Exemple II.5 Matrice hessienne d’une fonction quadratique
n × n. L’exemple précédent nous a donné ∇f (x) = Ax − b. Puisque la matrice hessienne est la

dérivée du gradient on a donc ∇2 f (x) = A.
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
74
Exemple II.6 Combinaison convexe de points dans le plan
1.57 Ο
.
. .
1.03 . ..... .... . . . . . ..
..... ... ........ . .. ..
Ο .. .. . ................................................................................. .... .
. .. .. . . ........................ ... . .
. . ...... ..........................................................................Ο ............ ...... .. . Ο
. . . . ..................................................................................................................................... .
. . . . . . . .. .
. .. ................................................................................................................................... ...........
. ............................................................................................................................................................................... ..... .
0.49 . .. .................................................................................................................... . . .
. . . . . . .
. .. ........................................... . . . . . . .............................................................. . .
. . .
. ...................................................................... ...................... . .
.
. ............................................................... ..................................................................... .
......... ...... . . . . . Ο
. ..... ................................................................................................... .. .
Lancer la simulation . ... ................... ........................................... ..
. .. .... . . ..... . .. ... . . . .
. . . . . .. .. . . . . . ..
-0.05 . . . . . . . .. .. .
. .
. . . ..... .
.
. .
.
-0.59
Ο
-1.13
-1.87 -1.10 -0.34 0.43 1.19 1.96
Considérons un ensemble de points du plan {x1 , . . . , xp }. La simulation qui est proposée ici permet
de générer aléatoirement un très grand nombre de points de la forme
p
X
yk = λi xi ,
Sommaire
i=1
Concepts
en tirant aléatoirement les coefficients {λi }i=1...p suivant une loiP
uniforme sur [0, 1], renormalisés en Notions
les divisant par leur somme, de façon à ce que l’on ait toujours pi=1 λi = 1. Le polygone “limite” Bibliographie
contenant tous les points générés s’appelle l’enveloppe convexe des points {x1 , . . . , xp }.
Exemples
Documents
75
Exemple II.7 Convexité d’une fonction quadratique
On considère la fonction f (x) = 21 x> Ax − b> x où A est une matrice carrée symétrique. Puisque
∇2 f (x) = A (voir l’exemple précédent), f est convexe si et seulement si A ≥ 0, strictement convexe
lorsque A > 0
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
76
Exercices du chapitre II
II.1 Calcul d’une dérivée composée . . . . . . . . . . . . . . . . . . 78

II.2 Calcul du gradient d’une fonction quadratique . . . . . . . . . . 79
II.3 Calcul d’une dérivée seconde composée . . . . . . . . . . . . 80
II.4 Calcul du hessien d’une fonction quadratique . . . . . . . . . . 81
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
77
section N suivant I
Exercice II.1 Calcul d’une dérivée composée
Soit f : Rn → R définie par et x : R → Rn . On définit la fonction réelle g(t) = f (x(t)).

Calculer g 0 (t).
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
78
Exercice II.2 Calcul du gradient d’une fonction quadratique
On considère la fonction f (x) = 21 x> Ax − b> x où A est une matrice n × n. Montrer que l’on a
1
∇f (x) = (A + A> )x − b.
2
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
79
Exercice II.3 Calcul d’une dérivée seconde composée
Soit f : Rn → R définie par et x : R → Rn . On définit la fonction réelle g(t) = f (x(t)).

Calculer g 00 (t) dans le cas où x(t) = (u + tv) où u et v sont deux vecteurs de Rn , puis pour x(t)
quelconque.
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
80
Exercice II.4 Calcul du hessien d’une fonction quadratique
On considère la fonction f (x) = 21 x> Ax − b> x où A est une matrice n × n. Montrer que l’on a
1
∇2 f (x) = (A + A> ).
2
Retour au grain
Aide 1
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
81
Chapitre III
Les méthodes de gradient
III.1 Les méthodes de descente . . . . . . . . . . . . . . . . . . . . . . . . 83

III.2 Les méthodes de gradient . . . . . . . . . . . . . . . . . . . . . . . . . 86
Exemples du chapitre III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
82
III.1 Les méthodes de descente
III.1.1 Principe des méthodes de descente . . . . . . . . . . . . . . . 84
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
83
section N
III.1.1 Principe des méthodes de descente

Définition III.1.1. Soit f : Rn → R. On dira qu’un vecteur d est une direction de descente en x s’il
existe t̄ > 0 tel que
f (x + td) < f (x), t ∈]0, t̄].
Le principe d’une méthode de descente consiste à faire les itérations suivantes
xk+1 = xk + tk dk , tk > 0, (III.1.1)
tout en assurant la propriété
f (xk+1 ) < f (xk ).
Le vecteur dk est la direction de descente en xk . Le scalaire tk est appelé le pas de la méthode à
l’itération k. On peut caractériser les directions de descente en xk à l’aide du gradient :
Proposition III.1.1. Soit d ∈ Rn vérifiant
∇f (x)> d < 0,
alors d est une direction de descente en x.
Démonstration : on a pour t > 0 Sommaire

Concepts
f (x + td) = f (x) + t∇f (x)> d + tε(t), Notions
Bibliographie
donc si on écrit
f (x + td) − f (x)
= ∇f (x)> d + ε(t), Exemples
t Exercices
on voit bien que pour t suffisamment petit on aura f (x + td) − f (x) < 0. 2 Documents
84 II
section N
Dans la méthode (III.1.1) le choix de tk est lié à la fonction Principe des

méthodes de
ϕ(t) = f (xk + tdk ),
descente
en particulier, une façon de choisir tk peut être de résoudre le problème d’optimisation (à une seule
variable)
min ϕ(t).
t>0
Le pas t̂k obtenu ainsi s’appelle le pas optimal. La fonction ϕ(t) = f (xk + tdk ) étant différentiable,
on a alors nécessairement
ϕ0 (t̂k ) = ∇f (xk + t̂k dk )> dk = 0.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 85
III.2 Les méthodes de gradient
III.2.1 Principe des méthodes de gradient . . . . . . . . . . . . . . . . 87

III.2.2 La méthode du gradient à pas optimal . . . . . . . . . . . . . . 89
III.2.3 Calcul du pas optimal dans le cas quadratique . . . . . . . . . 90
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
86
section N suivant I
III.2.1 Principe des méthodes de gradient
Exemples :
Exemple III.1
On cherche à déterminer la direction de descente qui fait décroitre ϕ(t) = f (x + td) le plus vite
possible (au moins localement). Pour cela on va essayer de minimiser la dérivée de ϕ(t) en 0. On a
ϕ0 (0) = ∇f (x)> d,
et on cherche d solution du problème
min
n
ϕ0 (0).
d∈R ,kdk=1
La solution est bien sûr

∇f (x)
d=− ,
k∇f (x)k
en vertu de l’inégalité de Schwartz. Sommaire
Il y a ensuite de nombreuses façon d’utiliser cette direction de descente. On peut par exemple Concepts
utiliser un pas fixé a priori tk = ρ > 0, ∀k. Notions
Bibliographie
On obtient alors la méthode du gradient simple :
Exemples
dk = −∇f (xk ), Exercices
xk+1 = xk + ρdk . Documents
87 II
section N suivant I
Sous certaines hypothèses de régularité (f deux fois différentiable) cette méthode converge si ρ Principe des
est choisi assez petit. méthodes de
gradient
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 88
III.2.2 La méthode du gradient à pas optimal
La méthode du gradient à pas optimal consiste à faire les itérations suivantes

dk = −∇f (xk ),
(III.2.1)
xk+1 = xk + tk dk ,
où tk est choisi de manière à ce que
f (xk + tk dk ) ≤ f (xk + tdk ), ∀t > 0. (III.2.2)
Cette méthode possède une propriété interessante :

Proposition III.2.1. Soit f : Rn → R une fonction différentiable. Les directions de descente dk
générées par la méthode (III.2.1)-(III.2.2) vérifient
d>
k+1 dk = 0.
Démonstration : Si on introduit la fonction ϕ(t) = f (xk + tdk ), on a
ϕ0 (t) = ∇f (xk + tdk )> dk , Sommaire

Concepts
Notions
et puisque ϕ est dérivable on a nécessairement ϕ0 (tk ) = 0 donc
Bibliographie
∇f (xk + tk dk )> dk = ∇f (xk+1 )> dk = −d>

k+1 dk = 0.
Exemples
2 Exercices
Documents
89
III.2.3 Calcul du pas optimal dans le cas quadratique
Exemples : Exemples :
Exemple III.2 Exemple III.3
On a f (x) = 12 x> Ax − b> x avec A > 0 et on note ϕ(t) = f (xk + tdk ). Le pas optimal tk est
caractérisé par
ϕ0 (tk ) = 0,
on a donc
∇f (xk + tk dk )> dk = (A(xk + tk dk ) − b)> dk = 0,
soit
(∇f (xk ) + tk Adk )> dk = 0,
on obtient donc
∇f (xk )> dk
tk = − ,
d>k Adk
qui est bien positif car dk est une direction de descente et d>
k Adk > 0 (car A > 0). Sommaire
Concepts
La méthode du gradient à pas optimal peut donc s’écrire (dans le cas quadratique)
Notions
 Bibliographie
 dk = b −
 Axk ,
d> d
tk = d>kAdk , (III.2.3) Exemples
 k k
xk+1 = xk + tk dk . Exercices

Documents
90
Exemples du chapitre III
III.1 Méthode du gradient simple dans le cas quadratique . . . . . . 92

III.2 Méthode du gradient à pas optimal dans le cas quadratique . 93
III.3 Méthode du gradient à pas optimal pour l’exemple des antennes 94
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
91
section N suivant I
Exemple III.1 Méthode du gradient simple dans le cas quadratique
Dans le cas où f (x) = 21 x> Ax − b> x la méthode du gradient simple peut s’écrire

dk = b − Axk ,
(III.2.4)
xk+1 = xk + ρdk ,
où ρ > 0 est fixé a priori. Il existe bien sûr des conditions sur ρ pour que la méthode converge. Nous
illustrons ici le fonctionnement de la méthode dans le cas n = 2 sur une petite simulation.
11
3
Ο
ΟΟ
ΟΟΟΟ
+ ΟΟ
Lancer la simulation Ο
Ο
-1 Ο
-5
Sommaire
-9 Concepts
-13.2 -7.5 -1.8 3.8 9.5 15.2
Notions
Bibliographie
Exemples
Documents
92
Exemple III.2 Méthode du gradient à pas optimal dans le cas quadratique

Dans le cas où f (x) = 21 x> Ax − b> x la méthode du gradient à pas optimal peut s’écrire Ο Ο

 dk = b −
 Axk ,
d>
k dk
tk = d> Ad , (III.2.5)
 k k
xk+1 = xk + tk dk ,

Nous illustrons ici le fonctionnement de la méthode dans le cas n = 2 sur une petite simulation.
Ο Ο
6.13
5.11 Ο Ο
4.09 Ο Ο
Ο Ο
Lancer la simulation ΟΟ
ΟΟΟ
Ο
Ο
3.06 +Ο
Ο
2.04
Sommaire
Concepts
1.02
-1.74 -0.30 1.15 2.60 4.05 5.50 Notions
Bibliographie
Exemples
Documents
93
Exemple III.3 Méthode du gradient à pas optimal pour l’exemple des antennes
TODO Eric : application de la méthode du gradient à pas optimal pour résoudre le problème du
positionnement optimal des antennes (présenté ici).
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
94
Chapitre IV
La méthode du gradient conjugué
IV.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
IV.2 La méthode du gradient conjugué . . . . . . . . . . . . . . . . . . . . . 102
IV.3 Interprétation de la méthode du gradient conjugué . . . . . . . . . . . 108
Exemples du chapitre IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
95
IV.1 Introduction
IV.1.1 Directions conjuguées . . . . . . . . . . . . . . . . . . . . . . . 97

IV.1.2 Lemme fondamental . . . . . . . . . . . . . . . . . . . . . . . . 99
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
96
section N suivant I
IV.1.1 Directions conjuguées
Définition IV.1.1. Soit A une matrice symétrique n × n, définie positive. On dit que deux vecteurs x
et y de Rn sont A−conjugués (ou conjugués par rapport à A) s’il vérifient
x> Ay = 0. (IV.1.1)
La matrice A étant définie positive, la forme bilinéaire a(x, y) = x> Ay définit un produit sca-
laire et la relation (IV.1.1) traduit l’orthogonalité des vecteurs x et y pour ce produit scalaire. La
démonstration du théorème suivant est laissée en exercice.
Théorème IV.1.2. Si {d0 , d1 , . . . , dk } sont des directions A−conjuguées deux à deux, soit
d>
i Adk = 0, ∀ i, j, i < j ≤ k,
alors elles sont linéairement indépendantes.

Considérons maintenant dans R2 une méthode de descente appliquée à la minimisation d’une
forme quadratique définie positive f (x) = 21 x> Ax − b> x :
x1 = x0 + ρ0 d0 ,
Sommaire
x2 = x1 + ρ1 d1 , Concepts
Notions
avec d0 et d1 deux directions A−conjuguées et ρ0 et ρ1 déterminés de façon optimale. On a donc les Bibliographie
relations suivantes :
Exemples
∇f (x1 )> d0 = (Ax1 − b)> d0 = 0,
Exercices
∇f (x2 )> d1 = (Ax2 − b)> d1 = 0, Documents
97 II
section N suivant I
car ρ0 et ρ1 sont optimaux. Montrons que l’on a de plus Directions

conjuguées
∇f (x2 )> d0 = 0.
On a
∇f (x2 )> d0 = (Ax2 − b)> d0 = (A(x1 + ρ1 d1 ) − b)> d0 ,

= (Ax1 − b)> d0 + ρ1 d>
1 Ad0 ,
= 0.
Puisque ∇f (x2 )> d0 = ∇f (x2 )> d1 = 0 et d0 , d1 linéairement indépendants, on a ∇f (x2 ) = 0,

x2 réalise donc le minimum de f sur R2 . La relation de conjugaison permet donc à la méthode de
descente de converger en deux itérations (dans le cas où n = 2).
Définition IV.1.3. Soit {d0 , d1 , . . . , dn } une famille de vecteur A−conjugués. On appelle alors mé-
thode de directions conjuguées la méthode

x0 donné
xk+1 = xk + ρk dk , ρk optimal
On va maintenant montrer la propriété vérifiée pour n = 2, à savoir xn = x̂ où x̂ réalise le Sommaire

Concepts
minimum de f (x) = 12 x> Ax − b> x, est valable pour tout n. Notions
Bibliographie
Exemples
Exercices
Documents
JJ 98
IV.1.2 Lemme fondamental
On se donne a priori une famille {d0 , d1 , . . . , dn } de directions conjuguées et on note
Ek = Vect(d0 , d1 , . . . , dk−1 ),
le sous-espace vectoriel engendré par les vecteurs d0 , d1 , . . . , dk−1 . Par construction, l’algorithme de
directions conjugué
x0 donné,
(IV.1.2)
xk+1 = xk + ρk dk , ρk optimal,
construit itérativement un vecteur xk vérifiant
xk ∈ x0 + Ek .
Voici l’énoncé du lemme fondamental :

Lemme IV.1.4. Le vecteur xk défini par l’algorithme (IV.1.2) réalise le minimum de f (x) = 21 x> Ax−
b> x sur le sous espace x0 + Ek , c’est à dire xk ∈ x0 + Ek et
f (xk ) ≤ f (x), ∀ x ∈ x0 + Ek . Sommaire

Concepts
Pour la démonstration de ce lemme nous aurons besoin du théorème suivant : Notions
Bibliographie
Théorème IV.1.5. Une condition nécessaire et suffisante pour que xk ∈ Ek + x0 réalise le minimum
de f (x) = 12 x> Ax − b> x sur le sous espace x0 + Ek est
Exemples
> Exercices
∇f (xk ) di = 0, ∀ i = 0, . . . , k − 1. Documents
99 II
Démonstration : Condition nécéssaire : supposons que f (xk ) ≤ f (x), ∀ x ∈ x0 + Ek . On Lemme

a donc pour tout t ∈ R, fondamental
f (xk ) ≤ f (xk + td), ∀ d ∈ Ek .
On a donc soit
(f (xk + td) − f (xk ))/t ≥ 0, si t > 0,
soit
(f (xk + td) − f (xk ))/t ≤ 0, si t < 0.
Si l’on fait tendre t vers zéro, on en conclut que
∇f (xk )> d = 0, ∀ d ∈ Ek ,
donc en particulier ∇f (xk )> di = 0, ∀ i = 0, . . . , k−1. On admettra que la condition est suffisante.2
2
Démonstration du lemme fondamental : Pour k = 1 on a
x1 = x0 + ρ0 d0 ,
avec ρ0 optimal, c’est à dire ∇f (x1 )> d0 = 0. Puisque d0 ∈ E1 la propriété est donc vérifiée pour
k = 1. Supposons maintenant que la propriété est vérifiée à l’ordre k :
Sommaire
∇f (xk )> di = 0, ∀ i = 0, . . . , k − 1. Concepts
Notions
D’une part ρk est optimal donc ∇f (xk+1 )> dk = 0. D’autre part on a pour 0 ≤ i < k Bibliographie
∇f (xk+1 )> di = (A(xk + ρk dk ) − b)> di ,
Exemples
= (Axk − b)> di + ρk d>
k Adi Exercices
= 0, Documents
JJ 100 II
car ρk est optimal et d>

k Adi = 0 (conjugaison). On a donc Lemme
fondamental
∇f (xk+1 )> di , ∀ i = 0, . . . , k,
ce qui démontre le lemme fondamental.2
Un corollaire direct est donc que la méthode de directions conjuguées converge en n itérations
au plus, puisque En−1 = Rn .
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 101
IV.2 La méthode du gradient conjugué
IV.2.1 Algorithme de la méthode du gradient conjugué . . . . . . . . 103

IV.2.2 La méthode du gradient conjugué dans le cas général . . . . . 106
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
102
section N suivant I
IV.2.1 Algorithme de la méthode du gradient conjugué

L’idée de la méthode est de construire itérativement des directions d0 , . . . , dk muutellement
conjuguées. A chaque étape k la direction dk est obtenue comme combinaison linéaire du gradient
en xk et de la direction précédente dk−1 , les coefficients étant choisis de telle manière que dk soit
conjuguée avec toutes les directions précédentes. Si l’on note gk = ∇f (xk ), l’algorithme prend la
forme suivante
On se donne x0 et on pose d0 = −g0 .
xk+1 = xk + ρk dk , avec (IV.2.1)
g > dk
ρk = − k , (IV.2.2)
dk >Adk
dk+1 = −gk+1 + βk dk , avec (IV.2.3)
g > Adk
βk = k+1 . (IV.2.4)
dk >Adk
Notons d’une part que la formule (IV.2.2) définit bien le pas optimal : en effet on a bien
∇f (xk+1 )> dk = gk> dk + ρk d>
k Adk = 0.
Sommaire
On va maintenant montrer que l’algorithme ci-dessus définit bien une méthode de directions conju- Concepts
guées. Notions
Bibliographie
Théorème IV.2.1. A une itération k quelconque de l’algorithme où l’optimum n’est pas encore
atteint, c’est à dire gk 6= 0, on a :
Exemples
gk> gk Exercices
ρk = , (IV.2.5) Documents
dk >Adk
103 II
section N suivant I
> (g
gk+1 k+1 − gk )
βk = (IV.2.6) Algorithme de
gk> gk la méthode du
> g
gk+1 gradient
k+1
, = , (IV.2.7) conjugué
gk> gk
et les directions d0 , . . . , dk+1 sont mutuellement conjuguées.
Démonstration : On raisonne par récurrence sur k en supposant que d0 , . . . , dk sont mu-

tuellement conjuguées.
- Montrons d’abord l’équivalence de IV.2.2 et IV.2.5. Comme d0 , . . . , dk sont mutuellement conju-

guées xk réalise le minimum de f sur x0 + Ek , on a gk> dk−1 = 0 d’où
gk> dk = gk> (−gk + βk dk−1 ) = −gk> gk .
- Pour montrer (IV.2.6) on note que
gk+1 − gk = A(xk+1 − xk ) = ρk Adk , (IV.2.8)

Sommaire
on a alors Concepts
> 1 >
gk+1 Adk = g (gk+1 − gk ), Notions
ρk k+1 Bibliographie
et en utilisant (IV.2.5) il vient bien
> (g Exemples
gk+1 k+1 − gk ) Exercices
βk = ,
gk> gk Documents
JJ 104 II
section N suivant I
> g = 0 car g = d − β
ce qui démontre (IV.2.6). On a de plus gk+1 k k k k−1 dk−1 appartient à Ek+1 et Algorithme de
que gk+1 est orthogonal à ce sous-espace (les directions d0 , . . . , dk sont conjuguées, par hypothèse la méthode du
de récurrence), ceci démontre (IV.2.7). gradient
conjugué
- Montrons maintenant que d>
k+1 Adi = 0, pour i = 0, . . . , k. On a d’une part
d> >
k+1 Adk = (−gk+1 + βk dk ) Adk = 0,
par définition de βk . D’autre part, on a pour i < k
d> >
k+1 Adi = −gk+1 Adi + βk dk >Adi ,
avec dk >Adi = 0 en vertu de l’hypothèse de récurrence. On a ensuite, en utilisant la formule (IV.2.8]
> 1 >
gk+1 Adi = g (gi+1 − gi ),
ρi k+1
et si l’on note que
gi+1 − gi = −di+1 + (βi + 1)di − βi−1 di−1 ,
on a bien
> Sommaire
gk+1 (gi+1 − gi ) = 0,
Concepts
> d
car gk+1 > > Notions
i+1 = gk+1 di = gk+1 di−1 = 0, en vertu du fait que gk+1 est orthogonal à Ek+1 et que
Bibliographie
>
i < k. On a donc bien dk+1 Adi = 0, ce qui achève la démonstration. 2
Exemples
Exercices
Documents
JJ 105
IV.2.2 La méthode du gradient conjugué dans le cas général
Exemples :
Exemple IV.1
Exemple IV.2
La méthode de Fletcher et Reeves est une extension directe de la méthode du Gradient conjugué
pour les fonction quelconques. Appliquée à une fonction quadratique, elle se comporte comme cette
dernière :
On se donne x0 et on pose d0 = −∇f (x0 ).
xk+1 = xk + ρk dk , avec ρk optimal (IV.2.9)

dk+1 = −∇f (xk+1 ) + βk dk , avec (IV.2.10)
2
k∇f (xk+1 )k
βk = . (IV.2.11)
k∇f (xk )k2
Cette méthode est intéressante car elle ne nécéssite pas de stocker une matrice (contrairement aux Sommaire
Concepts
méthodes qui seront vues dans les chapitres suivants). Sa vitesse de convergence est très supérieure à Notions
celle de la méthode du gradient (ce point sera clarifié pour le cas quadratique dans le grain suivant). Bibliographie
La variante dite de Polak-Ribière consiste à définir βk par la formule (IV.2.6). On peut démontrer
Exemples
la convergence de la méthode de Fletcher-Reeves pour une classe assez large de fonctions f , ce Exercices
qu’on ne peut pas faire pour la variante de Polak-Ribière. Par contre on peut montrer que cette Documents
106 II
dernière converge plus rapidement (quand elle converge effectivement !), c’est donc la méthode qui La méthode du
est utilisée en général. gradient
conjugué dans
L’efficacité de la méthode du gradient conjugué repose essentiellement sur deux points :
le cas général
– La recherche linéaire (détermination du pas optimal) doit être exacte,
– Les relations de conjugaison doivent être précises.
La recherche du pas optimal doit être réalisée à l’aide d’un algorithme spécifique (c’est l’objet du
prochain chapitre) puisque f est quelconque. Par contre la notion de conjugaison n’a pas de sens
dans le cas non-quadratique (sauf près de l’optimum, mais on ne le connaît pas. Il faut donc tester
au cours des itérations si l’hypothèse d’approximation quadratique est vérifiée. On peut surveiller les
indicateurs suivants
– |∇f (xk+1 )> ∇f (xk )| doit être petit
– On doit avoir
∇f (xk+1 )> dk+1
≤ −α,
k∇f (xk+1 )kkdk+1 k
avec 0 < α ≤ 0 pas trop petit, c’est à dire que dk+1 doit être une direction de descente
«raisonnable».
Dans le cas où ces conditions ne sont pas vérifiées, on rompt la conjugaison et on redémarre
l’algorithme avec dk+1 = −∇f (xk+1 ). On peut aussi décider de faire ce redémarrage arbitrairement
Sommaire
toutes les p itérations (p fixé de l’ordre de n par exemple). Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 107
IV.3 Interprétation de la méthode du gradient conjugué
IV.3.1 Interprétation de la méthode du gradient conjugué . . . . . . . 109

IV.3.2 Convergence de la méthode du gradient conjugué . . . . . . . 112
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
108
section N suivant I
IV.3.1 Interprétation de la méthode du gradient conjugué
Définition IV.3.1. On appelle kième sous-espace de Krylov associé à la matrice A et au vecteur g0

le sous espace
Kk = Vect(g0 , Ag0 , . . . , Ak−1 g0 ).
Par construction, dans la méthode du gradient conjugué appliqué au cas quadratique, on a Ek =
Kk , comme le montre le résultat suivant :
Proposition IV.3.1. Dans la méthode du gradient conjugué on a
Ek = Vect(d0 , d1 , . . . , dk−1 ) = Vect(g0 , Ag0 , . . . , Ak−1 g0 ).
Démonstration : Cette propriété est vérifiée à l’ordre k = 1 puisque d0 = −g0 . Supposons

qu’elle soit vérifiée à l’ordre k. On a alors la formule (IV.2.6) qui nous permet d’écrire
dk+1 = A(xk + ρk dk ) − b + βk dk ,
= gk + ρk Adk + βk dk ,
= dk − βk−1 dk−1 + ρk Adk + βk dk , Sommaire
Concepts
ce qui permet de conclure que dk+1 ∈ Kk+1 . La propriété est donc vérifiée pour tout k > 0. 2 Notions
Bibliographie
Comme dans le cas de l’algorithme du gradient à pas optimal, nous choisissons maintenant de
mesurer la distance séparant xk du vecteur x̂ = A−1 b à l’aide de la fonction définie par Exemples
Exercices
E(x) = kx − x̂k2A = (x − x̂)> A(x − x̂). Documents
109 II
section N suivant I
Minimiser E(x) est équivalent à minimiser f (x) = 21 x> Ax − b> x comme le montre la proposition Interprétation
suivante (à démontrer en exercice) de la méthode
Proposition IV.3.2. Soit f (x) = 12 x> Ax − b> x une forme quadratique définie positive et x̂ = du gradient
A−1 b. On a conjugué
E(x) = (x − x̂)> A(x − x̂) = f (x) + c,
où c est une constante.
On va maintenant illustrer d’un autre point de vue la convergence particulière de l’algorithme du

gradient conjugué. Tout vecteur x∈ x0 + Ek s’écrit
k−1
X
x = x0 + γ j Aj g 0 ,
j=0
et comme g0 = Ax0 − b = A(x0 − x̂) on a donc

k−1
X
x − x̂ = x0 − x̂ + γj Aj+1 (x0 − x̂) = p(A)(x0 − x̂),
j=0
où le polynôme Sommaire
k−1
X Concepts
p(z) = 1 + γj z j+1 Notions
Bibliographie
j=0
est de degré k et satisfait p(0) = 1. Puisque le vecteur xk obtenu à l’étape k de l’algorithme du

Exemples
gradient conjugué vérifie Exercices
f (xk ) ≤ f (x), ∀ x ∈ Ek + x0 , Documents
JJ 110 II
section N suivant I
on a, en vertu du résultat démontré dans la proposition précédente, Interprétation

de la méthode
E(xk ) = kxk − x̂k2A ≤ kp(A)(x0 − x̂)k2A ,
du gradient
pour tout polynome p ∈ Pk vérifiant p(0) = 1. conjugué
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 111
IV.3.2 Convergence de la méthode du gradient conjugué
Le résultat suivant va nous permettre de retrouver d’une autre manière la propriété de conver-
gence finie de l’algorithme du GC :
Proposition IV.3.3. Soit A une matrice définie positive et xk le vecteur obtenu à l’étape k de
l’algorithme du GC. Alors on a
E(xk ) ≤ E(x0 ) min max p(z)2 .

p∈Pk ,p(0)=1 z∈σ(A)
Démonstration : Puisque la matrice A est définie positive il existe une matrice orthogonale
U telle que A = U DU > avec D =diag(λ1 , . . . , λn ), où σ(A) = {λi }i=1...n sont les valeurs propres
de A. Si on définit A1/2 = U D1/2 U > on a
2
kxk2A = A1/2 x ,

donc 2
Sommaire
x̂)k2A = A p(A)(x0 − x̂) ≤ kp(A)k2 kx0 − x̂k2A ,
1/2
kp(A)(x0 −

Concepts
Notions
où on a utilisé la propriété que p(A) et A1/2 commutent (ces deux matrices ont les mêmes vecteurs Bibliographie
propres). Puisque l’on a aussi Aj = U Dj U > les valeurs propres de p(A) sont données par les
nombres p(λi ) pour i = 1 . . . n, et donc Exemples
2 2 Exercices
kp(A)k = max p(λi ) . Documents
i=1...n
112 II
On a donc bien Convergence

E(xk ) ≤ E(x0 ) min max p(z)2 . de la méthode
p∈Pk ,p(0)=1 z∈σ(A)
2 du gradient
conjugué
On a le corollaire suivant, qui permet d’exhiber le polynôme optimal p(z) pour k = n :
Théorème IV.3.2. Soit A une matrice définie positive. L’algorithme du GC converge en n itéra-
tions au plus. Plus précisément, si la matrice A possède k ≤ n valeurs propres distinctes, alors
L’algorithme du GC converge en k itérations au plus.
Démonstration : Dans les deux cas possibles, notons

λi − z
p̄(z) = Πki=1 .
λi
On a bien p̄(z) de degré k, p̄(0) = 1 et par construction p̄(λi ) = 0 pour i = 1 . . . k. En vertu du
résultat montré dans la proposition IV.3.3, on a donc
E(xk ) = 0,
Sommaire
soit xk = x̂. 2 Concepts
Notions
La méthode du gradient conjugué étant en général utilisée comme une méthode itérative, il est Bibliographie
intéressant de la comparer à la méthode du gradient à pas optimal. Le résultat suivant sera admis (la
démonstration repose sur la détermination d’un polynôme particulier p(z) solution d’un problème de Exemples
moindre carrés). Exercices
Documents
JJ 113 II
Théorème IV.3.3. Soit A une matrice définie positive et xk le vecteur obtenu à l’étape k de l’algo- Convergence
rithme du GC. Alors on a !2k de la méthode
p
χ(A) − 1 du gradient
E(xk ) ≤ 4E(x0 ) p ,
χ(A) + 1 conjugué
où on a noté χ(A) = λn /λ1 le conditionnement de A pour la norme euclidienne.
Pour l’algorithme du gradient à pas optimal on avait

2k
χ(A) − 1
E(xk ) ≤ E(x0 ) ,
χ(A) + 1
on voit donc que pour une même matrice A, la méthode du gradient conjugué convergera plus rapide-
ment. Cependant cette estimation peut être très pessimiste car dans le cas où les valeurs propres sont
groupées autour de valeurs distinctes, on peut être très proche du cas ou certaines valeurs propres
sont multiples (et ou le nombre théorique d’itérations est inférieur à n) tout en ayant un mauvais
conditionnement.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 114
Exemples du chapitre IV
IV.1 Une implémentation du gradient conjugué . . . . . . . . . . . . 116

IV.2 Application du gradient conjugué au placement d’antennes . . 118
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
115
section N suivant I
Exemple IV.1 Une implémentation du gradient conjugué
Nous donnons ici une implémentation du gradient généralisé de type Polak-Ribière. Les grandes
étapes de l’algorithme sont :
– faire un premier pas de descente suivant la direction opposée au gradient ( c’est à dire un
gradient simple : on n’a pas au premier pas de "direction précédente" avec laquelle conjuguer
la nouvelle direction)
– tant que le critère d’arrêt n’est pas atteint
– calculer une nouvelle direction de descente au point P0 suivant la méthode de Polak-Ribière
– minimiser dans cette direction
– tester le critère d’arrêt
– réinitialiser le point P0
Ceci donne le code Scilab :
0 g1=-calgrad(fonc,P0,1e-3); // direction de descente

1 P0=Secdor(fonc,P0,g1,eps_secdor); // recherche monodimensionnelle
// par section doree
3 while arret==0;
g2=-calgrad(fonc,P0,eps_grad); // direction de descente Sommaire
bet=g2’*(g2-g1)/(g2’*g2); Concepts
Notions
6 d=g1+bet*g2;
Bibliographie
P=Secdor(fonc,P0,d,eps_secdor); // recherche monodimensionnelle
if norm(P-P0)<eps_arret // test d’arret
Exemples
9 arret=1; Exercices
else Documents
116 II
section N suivant I
P0=P; Exemple IV.1

12 g1=g2; Une
end implémentation
end du gradient
conjugué
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 117
Exemple IV.2 Application du gradient conjugué au placement d’antennes
L’algorithme de gradient conjugué de Polak Ribière est maintenant appliqué au problème de

placement optimal d’antennes.
Video de la convergence du Gradient conjugué (linux)

Video de la convergence du Gradient conjugué (windows)
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
118
Chapitre V
Méthodes de recherche linéaire
V.1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

V.2 Caractérisation de l’intervalle de sécurité . . . . . . . . . . . . . . . . 123
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
119
V.1 introduction
V.1.1 But de la recherche linéaire . . . . . . . . . . . . . . . . . . . . 121

V.1.2 Intervalle de sécurité . . . . . . . . . . . . . . . . . . . . . . . . 122
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
120
section N suivant I
V.1.1 But de la recherche linéaire
On a vu que dans le cas non-quadratique les méthodes de descente :
xk+1 = xk + tk dk , tk > 0,
nécéssitent la recherche d’une valeur de tk > 0, optimale ou non, vérfiant
f (xk + tk dk ) ≤ f (xk ).
On définit comme précedemment la fonction ϕ(t) = f (xk + tdk ). Rappellons que si f est différen-
tiable, le pas optimal t̂ peut être caractérisé par
0
ϕ (t̂) = 0,
ϕ(t̂) ≤ ϕ(t), pour 0 ≤ t ≤ t̂,
autrement dit, t̂ est un minimum local de ϕ qui assure de plus la décroissance de f . En fait, dans
la plupart des algorithmes d’optimisation modernes, on ne fait jamais de recherche linéaire exacte,
car trouver t̂ signifie qu’il va falloir calculer un grand nombre de fois la fonction ϕ, et cela peut être
dissuasif du point de vue du temps de calcul. En pratique, on recherche plutot une valeur de t qui Sommaire
Concepts
assure une décroissance suffisante de f . Cela conduit à la notion d’intervalle de sécurité. Notions
Bibliographie
Exemples
Exercices
Documents
121
V.1.2 Intervalle de sécurité

Définition V.1.1. On dit que [a, b] est un intervalle de sécurité s’il permet de classer les valeurs de t
de la façon suivante :
– Si t < a alors t est considéré trop petit,
– Si b ≥ t ≥ a alors t est satisfaisant,
– Si t > b alors t est considéré trop grand.
Le problème est de traduire de façon numérique sur ϕ les trois conditions précédentes, ainsi
que de trouver un algorithme permettant de déterminer a et b. L’idée est de partir d’un intervalle
suffisament grand pour contenir [a, b], et d’appliquer un bonne stratégie pour itérativement réduire
cet intervalle.
Algorithme de base
Initialement, on part de [α, β] contenant I = [a, b], par exemple en prenant α = 0 et β tel que
ϕ(β) > ϕ(0) (une telle valeur de β existe avec un minimum d’hypothèses, par exemple f coercive).
On fait ensuite les itérations suivantes :
1. On choisit t dans l’intervalle [α, β].
2. Si t est trop petit on prend α = t et on retourne en 1. Sommaire
Concepts
3. Si t est trop grand on prend β = t et on retourne en 1. Notions
4. Si t convient on s’arrète. Bibliographie
Il faut maintenant préciser quelles sont les relations sur ϕ qui vont nous permettre de caractériser
Exemples
les valeurs de t convenables, ainsi que les techniques utilisées pour réduire l’intervalle (point nř1 Exercices
ci-dessus). Documents
122
V.2 Caractérisation de l’intervalle de sécurité
V.2.1 Méthode de la section dorée . . . . . . . . . . . . . . . . . . . . 124

V.2.2 La règle d’Armijo . . . . . . . . . . . . . . . . . . . . . . . . . . 126
V.2.3 La règle de Goldstein . . . . . . . . . . . . . . . . . . . . . . . . 128
V.2.4 La règle de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . 130
V.2.5 Réduction de l’intervalle . . . . . . . . . . . . . . . . . . . . . . 132
V.2.6 Réduction de l’intervalle par interpolation cubique . . . . . . . 133
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
123
section N suivant I
V.2.1 Méthode de la section dorée
Cette méthode, utilisée pour la recherche monodimensionnelle, est relativement simple. Elle est
de type "dichotomie". Elle supose le minimum initialement encadré dans un intervale I0 , et la fonc-
tion uni-modale sur cette intervalle. Elle consiste ensuite à réduire itérativement l’intervalle, noté Ik
à l’étape k, dans un rapport γ < 1 constant (assurant alors une convergence linéaire) , en reduisant si
possible à une le nombre d’évaluations de la fonction coût à chaque étape.
Pour cela, on est amené à diviser l’intervalle Ik en trois. On note Iik = [xk0 , xk3 ] et xk1 et xk2 les
points divisant l’intervalle en trois
xk0 < xk1 < xk2 < xk3
On note fik = f (xki )

Si la fonction est uni-modale sur Ik , c’est à dire admet un minimum unique, est décroissante
avant ce minimum, croissante ensuite, les cas de figure pouvant se présenter sont les suivants :
f0k < f1 k < f2j < f3k : le minimum est nécessairement dans l’intervalle [xk0 , xk1 ]
f0k > f1 k < f2j < f3k : le minimum est nécessairement dans l’intervalle [xk0 , xk2 ]
f0k > f1 k > f2j < f3k : le minimum est nécessairement dans l’intervalle [xk1 , xk3 ]
f0k > f1 k > f2j > f3k : le minimum est nécessairement dans l’intervalle [xk2 , xk3 ]
Sommaire
Concepts
L
Si on note Lk la longueur de l’intervalle Ik , on voudrait que Lk+1 k
< γ < 1 Ceci assure que la Notions
convergence sera linéaire . Bibliographie
Pour obtenir l’égalité si on enlève x0k ou x3k , il faut (voir figure) que :
x1 = x0 + (1 − γ)(x3 − x0 ) et Exemples
x2 = x3 − (1 − γ)(x3 − x0 ) Exercices
Documents
124 II
section N suivant I
Méthode de la
section dorée
F IG . V.2.1 – Section dorée
D’autre part, lorsque x0k ou x3k sont supprimés à l’étape suivante, on désire n’avoir qu’un seul
point à rajouter pour minimiser le nombre d’évaluations de la fonction coût. Il faut donc que le point
restant à l’intérieur de l’intervalle le divise dans le mêm rapport à l’étape suivante :
(1 − γ)Lk = γ(γLk )
γ est √donc la solution positive de γ 2 − γ + 1 = 0
γ = 5−1 2 Sommaire
Exemple de procédure : Concepts
Etape 1 : recherche d’un encadrement du minimum Notions
Etape2 : section dorée pour converger vers ce minimum. Bibliographie
Exemples
Exercices
Documents
JJ 125
V.2.2 La règle d’Armijo
Dans la règle d’Armijo on prend α = 0, un réel 0 < m < 1. La règle est la suivante :
ϕ(t)
m1 ϕ0 (0)
a b t
Sommaire
Concepts
ϕ0 (0) Notions
Bibliographie
Règle d’Armijo
– Si ϕ(t) ≤ ϕ(0) + mϕ0 (0)t, alors t convient.
Exemples
– Si ϕ(t) > ϕ(0) + mϕ0 (0)t, alors t est trop grand. Exercices
Documents
126 II
On peut noter que l’on a La règle

d’Armijo
ϕ(0) = f (xk ),
ϕ0 (0) = ∇f (xk )> dk .
Puisque α = 0, t n’est jamais considéré trop petit, c’est pourquoi la règle d’Armijo est peu utilisée
seule.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 127
V.2.3 La règle de Goldstein
En ajoutant une deuxième inégalité à la règle d’Armijo on obtient la règle de Goldstein, où m1

et m2 sont deux constantes vérifiant 0 < m1 < m2 :
ϕ(t)
m1 ϕ0 (0)
Sommaire
a b t
Concepts
Notions
Bibliographie
ϕ0 (0) m2 ϕ0 (0)
Règle de Goldstein
Exemples
– Si ϕ(t) < ϕ(0) + m2 ϕ0 (0)t, alors t est trop petit. Exercices
– Si ϕ(t) > ϕ(0) + m1 ϕ0 (0)t, alors t est trop grand. Documents
128 II
– si ϕ(0) + m1 ϕ0 (0)t ≥ ϕ(t) ≥ ϕ(0) + m2 ϕ0 (0)t, alors t convient La règle de

Le choix de m2 doit être tel que dans le cas quadratique, le pas optimal appartienne à l’intervalle de Goldstein
sécurité (c’est bien la moindre des choses). Dans le cas quadratique on a
1
ϕ(t) = at2 + ϕ0 (0)t + ϕ(0), a > 0,
2
et le pas optimal t̂ vérifie ϕ0 (t̂) = 0, soit t̂ = −ϕ0 (0)/a. On a donc (exercice)
ϕ0 (0)
ϕ(t̂) = ϕ(0) + t̂.
2
Donc t̂ sera considéré comme satisfaisant si m2 ≥ 12 . Des valeurs typiques utilisées dans la pratique
sont m1 = 0.1 et m2 = 0.7
Théorème V.2.1. Soit f : Rn → R coercive, c’est à dire f continue et
limkxk→∞ f (x) = +∞.
Soit l’algorithme de gradient
xk+1 = uk − ρk gk ,
où gk = ∇f (xk ) où à chaque itération le pas ρk satisfait à la règle de Goldstein
Sommaire
ϕ(0) + m2 ϕ0 (0)ρk ≤ ϕ(ρk ) ≤ ϕ(0) + m1 ϕ0 (0)ρk , Concepts
Notions
où ϕ(ρ) = f (xk − ρgk ) et 0 < m1 < m2 < 1. Alors la suite xk est bornée, la suite f (xk ) est Bibliographie
décroissante et convergente, et le vecteur gk vérifie
Exemples
lim kgk k = 0.
k→∞ Exercices
Documents
JJ 129
V.2.4 La règle de Wolfe
La règle de Wolfe fait appel au calcul de ϕ0 (t), elle est donc en théorie plus coûteuse que la règle
de Goldstein. Cependant dans de nombreuses applications, le calcul du gradient ∇f (x) représente
un faible coût additionnel en comparaison du coût d’évaluation de f (x) (par exemple en contrôle
optimal), c’est pourquoi cette règle est très utilisée. Le calcul des dérivées de ϕ permet de plus
d’utiliser une méthode d’interpolation cubique dans la phase de réduction de l’intervalle, comme
nous le verrons plus loin.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
130 II
La règle de
Wolfe
ϕ(t)
m1 ϕ0 (0)
a b t
ϕ0 (0) m2 ϕ0 (0)
Règle de Wolfe
Sommaire
– Si ϕ(t) > ϕ(0) + m1 ϕ0 (0)t, alors t est trop grand.
Concepts
– Si ϕ(t) ≤ ϕ(0) + m1 ϕ0 (0)t et ϕ0 (t) < m2 ϕ0 (0), alors t est trop petit. Notions
– Si ϕ(t) ≤ ϕ(0) + m1 ϕ0 (0)t et ϕ0 (t) ≥ m2 ϕ0 (0), alors t convient. Bibliographie
Dans cette règle, on s’assure que t n’est pas trop petit en assurant que ϕ0 (t) a suffisamment augmenté.
Exemples
Exercices
Documents
JJ 131
V.2.5 Réduction de l’intervalle

Le premier problème à résoudre est celui de la détermination d’un intervalle de départ [α, β]. On
peut commencer par choisir α = 0, et utiliser une valeur initiale de t censée être une bonne valeur de
départ (ce point sera clarifié plus loin).
Recherche d’un intervalle de départ
1. Si t est satisfaisant alors on s’arrête
2. Si t est trop grand, alors on prend β = t et on s’arrête
3. Si t est trop petit, on fait t ← ct, c > 1, et on retourne en 1.
Cet algorithme donne un intervalle initial [α, β] qu’il va falloir ensuite réduire, sauf si t est
admissible, auquel cas la recherche linéaire est terminée, ce peut être le cas si la valeur initiale de t
est bien choisie.
Réduction de l’intervalle
On suppose maintenant que l’on dispose d’un intervalle [α, β] mais que l’on n’a pas encore de t
satisfaisant. Une manière simple de faire est de procéder par exemple par dichotomie, en choisissant
α+β Sommaire
t= ,
2 Concepts
Notions
puis en conservant soit [α, t] ou [t, β] suivant que t est trop grand ou trop petit. Le problème est que
Bibliographie
cette stratégie ne réduit pas assez rapidement l’intervalle. Cependant elle n’utilise aucune informa-
tions sur ϕ (dérivées ou autres). On préfère en général procéder en construisant une approximation
Exemples
polynomiale p(t) de ϕ et en choisissant t réalisant le minimum (s’il existe) de p(t) sur [α, β]. Lorsque
Exercices
l’on utilise la règle de Wolfe, on peut utiliser une approximation cubique. Documents
132
V.2.6 Réduction de l’intervalle par interpolation cubique
Comme nous l’avons évoqué, un choix judicieux de t peut être fait en faisant une approximation
cubique de ϕ(t) sur l’intervalle [α, β] et à prendre t réalisant le minimum de cette cubique : on
considère le polynôme p(t) vérifiant
p(t0 ) = ϕ(t0 ) = f0 ,
p(t1 ) = ϕ(t1 ) = f1 ,
p0 (t0 ) = ϕ0 (t0 ) = g0 ,
p0 (t1 ) = ϕ0 (t1 ) = g1
où t0 et t1 sont quelconques (on peut bien sûr prendre t0 = α et t1 = β). On passe en variables
réduites sur [0, 1] ce qui conduit à définir le polynôme q(s) par
q(s) = p(t0 + st1 ), s ∈ [0, 1], τ = t1 − t0 ,
qui vérifie donc
q(0) = f0 , Sommaire
q(1) = f1 , Concepts
Notions
q 0 (0) = τ g0 , Bibliographie
q 0 (1) = τ g1 .
Exemples
Si on cherche q de la forme Exercices
q(s) = as3 + bs2 + cs + d, Documents
133 II
alors les calculs donnent Réduction de

l’intervalle par
a = τ (g0 + g1 ) + 2(f0 − f1 ), b = 3(f1 − f0 ) − τ (2g0 + g1 ), c = τ g0 , d = f0 .
interpolation
– Si b2 − 3ac < 0 alors q(s) n’admet pas de minimum, et cela ne permet pas de choisir α. cubique
– Si b2 − 3ac ≥ 0 il y a un minimum donné par
√
−b + b2 − 3ac
ŝ = ,
3a
si ŝ ∈ [0, 1] cela permet de donner à t la valeur
t = t0 + ŝτ,
sinon, cela ne permet pas de choisir t, et on peut en dernier recours faire appel à la dichotomie.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 134
Chapitre VI
Méthodes de Quasi-Newton
VI.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

VI.2 Les méthodes de quasi-Newton . . . . . . . . . . . . . . . . . . . . . . 141
VI.3 Méthodes spécifiques pour les problèmes de moindres carrés . . . . 156
Exemples du chapitre VI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
135
VI.1 Introduction
VI.1.1 La méthode de Newton . . . . . . . . . . . . . . . . . . . . . . . 137

VI.1.2 Méthodes à métrique variable . . . . . . . . . . . . . . . . . . . 139
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
136
section N suivant I
VI.1.1 La méthode de Newton
La méthode de Newton permet de construire un algorithme permettant de résoudre le système

d’équations non-linéaires
g(x) = 0,
où g : Rn → Rn est diférentiable : on se donne x0 ∈ Rn et on fait les itérations
xk+1 = xk − g 0 (xk )−1 g(xk ), (VI.1.1)
où g 0 (x) est la dérivée (ou jacobienne) de g au point x. L’application de cette méthode au problème
d’optimisation
minn f (x), (VI.1.2)
x∈R
consiste à l’utiliser pour résoudre le système d’optimalité du problème (VI.1.2), c’est à dire que l’on
pose g(x) = ∇f (x) dans (VI.1.1) : on obtient les itérations
xk+1 = xk − ∇2 f (xk )−1 ∇f (xk ). (VI.1.3)
La méthode de Newton est intéressante car sa convergence est quadratique au voisinage de la solu- Sommaire
tion, c’est à dire que l’on a Concepts
Notions
Bibliographie
kxk+1 − x̂k ≤ γ kxk − x̂k2 , γ > 0,
mais la convergence n’est assurée que si x0 est suffisamment proche de x̂, ce qui en limite l’intérêt. Exemples
Exercices
Documents
137 II
section N suivant I
Pour résoudre le problème de convergence locale de la méthode de Newton, on peut penser à lui La méthode de
ajouter une phase de recherche linéaire, dans la direction Newton
dk = −∇2 f (xk )−1 ∇f (xk ).
Cela est possible uniquement si dk est une direction de descente en xk , soit
∇f (xk )> dk = −∇f (xk )> ∇2 f (xk )−1 ∇f (xk ) < 0,
ce qui sera le cas si ∇2 f (xk ) est une matrice définie positive, ce qui n’est pas garanti (on sait tout au
plus que ∇2 f (x̂) > 0).
Le principe des méthodes que nous allons voir maintenant consiste à remplacer le Hessien
∇2 f (xk ) par une approximation Hk (si possible définie positive), construite au cours des itérations.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 138
VI.1.2 Méthodes à métrique variable

Le principe des méthodes dites «à métrique variable» consiste à faire les itérations suivantes

dk = −Bk gk ,
(VI.1.4)
xk+1 = xk + ρk dk ,
où on a noté gk = ∇f (xk ) et Bk est une matrice définie positive. La méthode ci-dessus coïncide
avec la méthode du gradient si Bk = I. On peut envisager de prendre Bk = B > 0, ∀k et cela
conduit à la remarque suivante.
Remarque VI.1.1. Lorsque l’on cherche à résoudre le problème
minn f (x),
x∈R
On peut poser x = Cy où C est une matrice inversible (changement de variable). Notons alors
f˜(y) = f (Cy). On a
∇f˜(y) = C > ∇f (Cy).
Un pas de la méthode du gradient appliquée à la minimisation de f˜(y) est donné par
yk+1 = yk − ρk C > ∇f (Cyk ), Sommaire
Concepts
soit en revenant à la variable originale et en posant xk = Cyk
Notions
xk+1 = xk − ρk CC > ∇f (xk ). Bibliographie
On obtient bien une méthode du type (VI.1.4) avec B = CC > > 0. Dans le cas où f est une
Exemples
forme quadratique, on voit assez facilement comment l’introduction de B permet d’accélérer la Exercices
convergence de la méthode. Documents
139 II
Théorème VI.1.2. Soit f (x) = une forme quadratique définie positive et B une matrice définie Méthodes à
positive. L’algorithme du gradient préconditionné métrique

x0 = donné, variable
xk+1 = xk − ρk Bgk , ρk optimal
converge linéairement au sens où
kxk+1 − x̂kA ≤ γ kxk − x̂kA ,
avec
χ(BA) − 1
γ= .
χ(BA) + 1
Dans cette méthode, on voit bien comment influe la matrice B sur la vitesse de convergence : plus
le conditionnement de BA sera faible, plus l’accélération sera grande. On ne peut bien sûr pas poser
B = A−1 , puisque cela sous-entendrait que l’on a déjà résolu le problème ! Cependant, l’idée est tout
de même assez bonne, en ce sens qu’elle indique que B soit être une approximation de A−1 si l’on
veut effectivement accélérer la méthode. Enfin, et pour terminer cette introduction avant d’étudier de
plus près les méthodes de quasi-Newton pour f quelconque, on peut d’ores et déjà dire qu’un critère
de bon fonctionnement de la méthode (VI.1.4) serait que l’on ait au moins Sommaire
Concepts
lim Bk = A−1 , Notions
k→∞
Bibliographie
dans le cas quadratique.
Exemples
Exercices
Documents
JJ 140
VI.2 Les méthodes de quasi-Newton
VI.2.1 Relation de quasi-Newton . . . . . . . . . . . . . . . . . . . . . 142

VI.2.2 Formules de mise à jour de l’approximation du hessien . . . . 144
VI.2.3 Formule de Broyden . . . . . . . . . . . . . . . . . . . . . . . . 145
VI.2.4 Formule de Davidon, Fletcher et Powell . . . . . . . . . . . . . 148
VI.2.5 Algorithme de Davidon-Fletcher-Powel . . . . . . . . . . . . . . 150
VI.2.6 Algorithme de Broyden, Fletcher, Goldfarb et Shanno . . . . . 154
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
141
section N suivant I
VI.2.1 Relation de quasi-Newton
Exemples :
Exemple VI.1
Une méthode de quasi-Newton est une méthode du type :

dk = −Bk gk ,
(VI.2.1)
ou
dk = −Hk−1 gk ,

(VI.2.2)
où Bk (respectivement Hk ) est une matrice destinée à approcher l’inverse du hessien de f (res-
pectivement le hessien de f ) en xk . Il se pose donc un problème : quelle stratégie adopter pour faire
cette approximation. On peut par exemple poser B0 = I, mais comment ensuite mettre à jour l’ap-
proximation Bk au cours des itérations ? L’idée est la suivante : on sait que au point xk , le gradient
et le hessien de f vérifient la relation
Sommaire
2
gk+1 = gk + ∇ f (xk )(xk+1 − xk ) + (xk+1 − xk ). Concepts
Notions
Si on suppose que l’approximation quadratique est bonne, on peut alors négliger le reste et considérer Bibliographie
que l’on a
gk+1 − gk ≈ ∇2 f (xk )(xk+1 − xk ), Exemples
Exercices
cela conduit à la notion de relation de quasi-Newton : Documents
142 II
section N suivant I
Définition VI.2.1. On dit que les matrice Bk+1 et Hk+1 vérifient une relation de quasi-Newton si on Relation de
a quasi-Newton
Hk+1 (xk+1 − xk ) = ∇f (xk+1 ) − ∇f (xk ),
ou
xk+1 − xk = Bk+1 ∇f (xk+1 ) − ∇f (xk ).
Il reste un problème à résoudre : comment mettre à jour Bk tout en assurant Bk > 0 ? C’est ce
que nous allons voir maintenant.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 143
VI.2.2 Formules de mise à jour de l’approximation du hessien
Le principe de la mise à jour consiste, à une itération donnée de l’algorithme

dk = −Bk gk ,
(VI.2.3)
à appliquer une formule du type

Bk+1 = Bk + ∆k , (VI.2.4)
avec ∆k symétrique, assurant la relation de quasi-Newton
xk+1 − xk = Bk+1 (gk+1 − gk ),
ainsi que Bk+1 > 0, sous l’hypothèse que Bk > 0.

La formule (VI.2.4) permet d’utiliser les nouvelles informations obtenues lors de l’étape k de
l’algorithme, c’est à dire essentiellement le gradient gk+1 = ∇f (xk+1 ) au point xk+1 , obtenu par
recherche linéaire (exacte ou approchée) dans la direction dk . Il existe différentes formules du type
(VI.2.4). Suivant que ∆k est de rang 1 ou 2, on parlera de correction de rang 1 ou de rang 2.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
144
VI.2.3 Formule de Broyden
On peut chercher à déterminer une formule de correction de rang 1 de la façon suivante. On écrit
Bk+1 sous la forme
Bk+1 = Bk + vv > ,
et on cherche v tel que la relation de quasi-Newton
Bk+1 yk = sk ,
où on a posé yk = gk+1 − gk et sk = xk+1 − xk . On a donc
Bk yk + vv > yk = sk ,
et en prenant le produit scalaire des deux membres de l’égalité précédente avec yk on obtient
(yk> v)2 = (sk − Bk yk )> yk
Si on utilise maintenant l’égalité
vv > yk (vv > yk )>

vv > = , Sommaire
(v > yk )2
Concepts
Notions
alors on peut écrire, en remplacant v > yk par sk − Bk yk et (v > yk )2 par yk> (sk − Bk yk ), la formule
Bibliographie
de correction
(sk − Bk yk )(sk − Bk yk )>
Bk+1 = Bk + , (VI.2.5) Exemples
(sk − Bk yk )> yk
Exercices
connue sous le nom de formule de Broyden. La validité de cette formule provient du résultat suivant : Documents
145 II
Théorème VI.2.2. Soit f une forme quadratique définie positive. Considérons la méthode itérative Formule de
qui, partant d’un point x0 arbitraire engendre sucessivement les points Broyden
xk+1 = xk + sk ,
où les sk sont des vecteurs linéairement indépendants. Alors la suite de matrices générée par B0 ,
une matrice symétrique quelconque et la formule
(sk − Bk yk )(sk − Bk yk )>

Bk+1 = Bk + ,
(sk − Bk yk )> yk
où yk = ∇f (xk+1 ) − ∇f (xk ), converge en au plus n étapes vers A−1 , l’inverse du hessien de f .
Démonstration : Puisque le hessien de f est constant et égal à A on a
yi = ∇f (xi+1 ) − f (xi ) = A(xi+1 − xi ), ∀i.
On a vu que Bk+1 est construit de façon à ce que l’on ait
Bk+1 yk = sk , Sommaire
Concepts
montrons que l’on a aussi Notions
Bibliographie
Bk+1 yi = si , i = 0 . . . k − 1.
On raisonne par récurrence en supposant que cette propriété est vraie pour Bk , à savoir Exemples
Exercices
Bk yi = si , i = 0 . . . k − 2. Documents
JJ 146 II
Soit donc i ≤ k − 2 quelconque. On a Formule de

(sk − Bk yk )(s> −
k yi Bk yk> yi ) Broyden
Bk+1 yi = Bk yi + . (VI.2.6)
(sk − Bk yk )> yk
Par l’hypothèse de récurrence on a Bk yi = si donc
yk> Bk yi = yk> si ,
mais comme Asj = yj , ∀j, on obtient
yk> si = s> >
k Asi = sk yi ,
donc dans (VI.2.6) le numérateur est nul et on a Bk+1 yi = Bk yi = si . On a donc

Bk+1 yi = si , i = 0 . . . k.
Au bout de n itérations on a donc
Bn yi = si , i = 0 . . . n − 1,
et puisque l’on a yi = Asi cette dernière formule d’écrit
Bn Asi = si , i = 0 . . . n − 1.
Comme les si constituent une base de Rn on a Bn A = I ou encore
Sommaire
Bn = A−1 , Concepts
ce qui montre le résultat. 2 Notions
Bibliographie
Le problème de la formule de Broyden est qu’il n’y a aucune garantie que les matrices Bk soientt
défines positives même si la fonction f est quadratique et si par exemple B0 = I. On peut cependant
Exemples
noter l’intérêt de la propriété Bn = A−1 , qui sera aussi vérifiée par les méthodes de mise à jour que Exercices
nous allons voir maintenant. Documents
JJ 147
VI.2.4 Formule de Davidon, Fletcher et Powell

La formule de mise à jour de Davidon, Fletcher et Powell est une formule de correction de rang
2 donnée par
sk s> Bk yk y > Bk
Bk+1 = Bk + > k − > k (VI.2.7)
sk yk yk Bk yk
Le résultat suivant montre que sous certaines conditions, la formule (VI.2.7) conserve la définie-
positivité des matrices Bk .
Théorème VI.2.3. On considère la méthode définie par
dk = −Bk gk ,
xk+1 = xk + ρk dk , ρk optimal
Où B0 > 0 est donnée ainsi que x0 . Alors les matrices Bk sont définies positives, ∀k > 0.
Démonstration : Soit x un vecteur de Rn . On a

(s>
k x)
2 (yk> Bk x)2
x> Bk+1 x = x> Bk x + − ,
s>
k yk yk> Bk yk
Sommaire
yk> Bk yk x> Bk x − (yk> Bk x)2 (s>
k x)
2
Concepts
= + Notions
yk> Bk yk s>
k yk Bibliographie
Si on définit le produit scalaire hx , yi = x> Bk y alors on a
Exemples
hyk , yk i hx , xi − hyk , xi2 (s> x)2
x> Bk+1 x = + k> . (VI.2.8) Exercices
hyk , yk i sk yk Documents
148 II
Le premier terme du second membre est positif ou nul d’après l’inégalité de Cauchy-Schwartz. Quant Formule de
au deuxième terme on peut faire l’analyse suivante : puisque le pas est optimal, on a la relation Davidon,
> Fletcher et
gk+1 dk = 0,
Powell
et donc
s> > >
k yk = +ρk (gk+1 − gk ) dk = ρk gk Bk gk > 0,
on a donc x> Bk+1 x ≥ 0. Les deux termes dans (VI.2.8) étant positifs, cette quantité ne peut s’an-
nuler que si les deux termes sont simultanément nuls. Le premier terme ne peut s’annuler que si
x = λyk pour un scalaire λ 6= 0. Dans ce cas le deuxième terme est non nul car s> >
k x = λsk yk . On
a donc bien Bk+1 > 0. 2
Remarque VI.2.4. La propriété s>k yk > 0 est vérifiée également par des méthodes de recherche li-
néaire approchées comme par exemple la règle de Wolfe de Powell : en effet dans ce cas on détermine
un point xk+1 tel que
ϕ0 (ρk ) = ∇f (xk+1 )> dk ≥ m2 ∇f (xk )> dk , 0 < m2 < 1,
d’où
> xk+1 − xk xk+1 − xk
gk+1 > gk> , Sommaire
ρk ρk Concepts
et donc (gk+1 − gk )> (xk+1 − xk ) > 0. Notions
Bibliographie
Exemples
Exercices
Documents
JJ 149
VI.2.5 Algorithme de Davidon-Fletcher-Powel

On peut donc formuler maintenant la méthode utilisant la formule de correction (VI.2.7) :
Algorithme de Davidon-Fletcher-Powel
1. Choisir x0 et B0 définie positive quelconque (par exemple B0 = I)
2. A l’itération k, calculer la direction de déplacement
dk = −Bk ∇f (xk ),
déterminer le pas optimal ρk et poser
xk+1 = xk + ρk dk .
3. Poser sk = ρk dk et yk = ∇f (xk+1 ) − ∇f (xk ) puis calculer
sk s>
k Bk yk yk> Bk
Bk+1 = Bk + − .
s>
k yk yk> Bk yk
4. Faire k ← k + 1. Retourner en 1 sauf si le critère d’arrêt est vérifié.
Comme critère d’arrêt on retiendra par exemple kgk+1 k < . Sommaire
Cet algorithme a un comportement remarquable dans le cas où f est une forme quadratique : Concepts
Notions
Théorème VI.2.5. Appliqué à une forme quadratique f , l’algorithme DFP engendre des directions Bibliographie
s0 , . . . , sk vérifiant
s>
i Asj = 0, 0 ≤ i < j ≤ k + 1, (VI.2.9) Exemples
Exercices
Bk+1 Asi = si , 0 ≤ i ≤ k. (VI.2.10) Documents
150 II
Démonstration : En utilisant la formule (VI.2.7) on a pour tout k Algorithme de

Bk+1 Ask = Bk+1 yk , Davidon-
Fletcher-Powel
= sk ,
par construction. Donc (VI.2.10) est en particulier vérifiée pour k = 0, soit
B1 As0 = s0 .
On a aussi
s> >
0 As1 = −ρ1 s0 AB1 g1 ,
= −ρ1 s>
0 AB1 g1 ,
= −ρ1 s>
0 g1 ,
= 0,
puisque B1 As0 = s0 et que x1 est obtenu par un pas optimal dans la direction s0 . Donc (VI.2.10)
est vérifiée pour k = 0.
Supposons maintenant que (VI.2.9) et (VI.2.10) sont vérifiées à l’ordre k − 1. On peut écrire
d’une part pour i = 0 . . . k − 1.
Sommaire
gk+1 − gi+1 = yi+1 + yi + . . . yk , Concepts
= A(si+1 + si + . . . sk ) Notions
Bibliographie
car f est une forme quadratique de hessien A. D’autre part, puisque xi+1 est obtenu par un pas
optimal dans la direction si on a s>
i gi+1 = 0 et donc Exemples
Exercices
s> >
i (gk+1 − gi+1 ) = si A(si+1 + si + . . . sk ), i = 0 . . . k − 1, Documents
JJ 151 II
donc en vertu de l’hypothèse de recurrence (conjugaison des si ) on a Algorithme de

s>
i gk+1 = 0, i = 0 . . . k − 1, (VI.2.11) Davidon-
Fletcher-Powel
Cette relation reste aussi valable pour i = k puisque l’on a s>
k gk+1 = 0 (pas optimal). La deuxième
hypothèse de récurrence permet donc d’écrire, en remplacant si par Bk+1 Asi dans (VI.2.11)
s>
i ABk+1 gk+1 = 0, i = 0 . . . k
et donc, puisque Hk+1 gk+1 = −sk+1 /ρk+1 ,

s>
i Ask+1 = 0, i = 0 . . . k,
ce qui démontre donc la propriété (VI.2.9) au rang k.

Montrons maintenant que
Bk+1 Asi = si , i = 0 . . . k − 1.
Cette relation est vraie pour i = k comme on l’a déjà montré plus haut. On a
sk s>
k Asi Bk yk yk> Bk Asi
Bk+1 Asi = Bk Asi + − .
s>k yk yk> Bk yk
Le deuxième terme du second membre est nul car s> k Asi = 0. Si on note que par l’hypothèse de Sommaire
récurrence on a Bk Asi = si pour i = 0 . . . k − 1 et yk> = s>
k A le numérateur du troisième terme est Concepts
donné par Notions
Bk yk yk> Bk Asi = Bk yk s> k Asi = 0. Bibliographie
Par conséquent on a bien

Bk+1 Asi = si , i = 0 . . . k − 1, Exemples
Exercices
ce qui démontre la propriété (VI.2.10) au rang k. 2 Documents
JJ 152 II
La méthode DF P se comporte donc, dans le cas quadratique, comme une méthode de directions Algorithme de
conjuguées. Dans ce cas l’algorithme converge en au plus n itérations. On peut aussi remarquer que Davidon-
l’on a pour k = n − 1 la relation Fletcher-Powel
Bn Asi = si , i = 0, . . . n − 1,
et comme les si sont linéairement indépendants (car mutuellement conjugués) on en déduit que
Bn = A−1 .
Remarque VI.2.6. On peut montrer que dans le cas général (non quadratique), sous les mêmes
réserves que pour la méthode de Fletcher-Reeves (réinitialisation périodique dk = −gk ), cet algo-
rithme permet de converger vers un minimum local x̂ de f , et que l’on a
lim Bk = ∇2 f (x̂)−1 ,
k→∞
ce qui montre que près de l’optimum x̂, si la recherche linéaire est exacte, la méthode se comporte
asymptotiquement comme la méthode de Newton. Cette remarque permet de justifier le choix d’une
estimation du pas de déplacement donnée par
ρk = 1, Sommaire
Concepts
Notions
dans les méthodes de recherche linéaire approchée. Bibliographie
Exemples
Exercices
Documents
JJ 153
VI.2.6 Algorithme de Broyden, Fletcher, Goldfarb et Shanno
La formule de mise à jour de Broyden, Fletcher, Goldfarb et Shanno est une formule de correction
de rang 2 qui s’obtient à partir de la formule DFP en intervertissant les rôles de sk et yk . La formule
obtenu permet de mettre à jour une approximation Hk du hessien possédant les mêmes propriétés, à
savoir Hk+1 > 0 si Hk > 0 et vérifiant la relation de quasi-Newton
yk = Hk sk .
La formule est donc la suivante :

yk yk> Hk sk s> Hk
Hk+1 = Hk + >
− > k (VI.2.12)
yk sk sk Hk sk
L’algorithme associé est le suivant :
Algorithme de Broyden, Fletcher, Goldfarb et Shanno

1. Choisir x0 et H0 définie positive quelconque (par exemple H0 = I)
2. A l’itération k, calculer la direction de déplacement Sommaire
Concepts
dk = −Hk−1 ∇f (xk ), Notions
Bibliographie
déterminer le pas optimal ρk et poser
Exemples
xk+1 = xk + ρk dk . Exercices
Documents
154 II
3. Poser sk = ρk dk et yk = ∇f (xk+1 ) − ∇f (xk ) puis calculer Algorithme de

Broyden,
yk yk> Hk sk s> Hk
Hk+1 = Hk + >
− > k Fletcher,
yk sk sk Hk sk Goldfarb et
Shanno
4. Faire k ← k + 1. Retourner en 2 sauf si le critère d’arrêt est vérifié.
Notons que la direction dk est obtenue par résolution d’un système linéaire. En pratique la mise
à jour de Hk est faite directement sur le facteur de Cholesky Ck où Hk = Ck Ck> ce qui ramène le
calcul de dk au même coût que pour la formule de DFP. De plus, cette technique permet de contrôler
précisément la définie positivité de Hk , qui peut se dégrader à cause des erreurs d’arrondi.
Remarque VI.2.7. La méthode BFGS possède les mêmes propriétés que la méthode DFP : dans
le cas quadratique les directions engendrées sont conjuguées et on a Hn = A. Cette méthode est
reconnue comme étant beaucoup moins sensible que la méthode DF P aux imprécisions dans la
recherche linéaire, du point de vue de la vitesse de convergence. Elle est donc tout à fait adaptée
quand la recherche linéaire est faite de façon économique, avec par exemple la règle de Goldstein
ou la règle de Wolfe et Powell. Elle est par exemple utilisée dans la fonction fminu de Matlab.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 155
VI.3 Méthodes spécifiques pour les problèmes de moindres car-

rés
VI.3.1 La méthode de Gauss-Newton . . . . . . . . . . . . . . . . . . 157

VI.3.2 la méthode de Levenberg-Marquardt . . . . . . . . . . . . . . . 159
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
156
section N suivant I
VI.3.1 La méthode de Gauss-Newton

Dans les problèmes de moindres carrés non linéaires, la fonction à minimiser prend en général la
forme
m
1X
f (x) = fi (x)2 ,
2
i=1
comme on peut le voir sur l’exemple vu au premier chapitre. Quand on veut appliquer la méthode de
Newton à la minimisation de f (x), on doit calculer le Hessien de f , qui dans ce cas précis prend une
forme particulière : on a d’une part
m
X
∇f (x) = ∇fi (x)fi (x),
i=1
et le hessien de f est donné par

m
X m
X
∇2 f (x) = ∇fi (x)∇fi (x)> + fi (x)∇2 fi (x).
i=1 i=1
Si l’on se place près de l’optimum, où on supposera que les fi (x) sont petis, le deuxième terme peut Sommaire
alors être négligé. La matrice obtenue Concepts
m Notions
Bibliographie
X
H(x) = ∇fi (x)∇fi (x)> ,
i=1
Exemples
possède une propriété intéressante : elle est semi-définie positive. De plus dans la plupart des cas Exercices
m est très supérieur à n et la matrice est la plupart du temps définie positive (nous reviendrons sur Documents
157 II
section N suivant I
ce point). La méthode originale que l’on obtient à partir de la méthode de Newton en remplacant La méthode de
∇2 f (x) par H(x) est la méthode de Gauss-Newton : Gauss-Newton

 x0 donné,
Pm >
Hk = i=1 ∇fi (xk )∇fi (xk ) ,
−1
xk+1 = xk − Hk ∇f (xk ).

Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 158
VI.3.2 la méthode de Levenberg-Marquardt
Exemples :
Exemple VI.2
Pour assurer la convergence globale de la méthode de Gauss-Newton, on peut combiner l’algo-

rithme précédent avec une recherche linéaire, et dans ce cas on peut alors faire les itérations
dk = −Hk−1 ∇f (xk )

cependant, il n’y a aucune garantie que Hk reste défine positive, et en général on fait appel à une
méthode modifiée, qui est la méthode de Levenberg-Marquardt : l’idée consiste à remplacer, dans
la méthode précédente, la matrice Hk par la matrice Hk + λI où λ est un réel positif. Si λ est très
grand, on retombe alors sur la méthode du gradient.
Méthode de Levenberg-Marquardt
 Sommaire
 x0 donné,
Pm Concepts
>

Notions
Hk = i=1 ∇fi (xk )∇fi (xk ) ,

Bibliographie

 dk = −(Hk + λI)−1 ∇f (xk )

Exemples
Exercices
Documents
159
Exemples du chapitre VI
VI.1 Quasi-Newton et positionnement d’antennes . . . . . . . . . . 161

VI.2 Levenberg-Marquardt et régression non linéaire . . . . . . . . 162
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
160
section N suivant I
Exemple VI.1 Quasi-Newton et positionnement d’antennes
TODO Eric : application d’une méthode de quasi-Newton pour résoudre le problème du posi-
tionnement optimal des antennes (présenté ici).
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
161
Exemple VI.2 Levenberg-Marquardt et régression non linéaire
TODO Eric ou Rodolphe : application d’une méthode de LVM à la régression non linéaire (pré-
senté ici).
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
162
Chapitre VII
Conditions d’optimalité en optimisation avec
contraintes
VII.1 Les conditions de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . 164

VII.2 Les conditions de Kuhn et Tucker . . . . . . . . . . . . . . . . . . . . . 176
VII.3 Exemples de problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . 183 Sommaire
VII.4 Conditions suffisantes d’optimalité . . . . . . . . . . . . . . . . . . . . 190 Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
163
VII.1 Les conditions de Lagrange
VII.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

VII.1.2 Problème avec contraintes d’égalité . . . . . . . . . . . . . . . 166
VII.1.3 Contraintes d’égalité linéaires . . . . . . . . . . . . . . . . . . . 167
VII.1.4 Contraintes d’égalité non-linéaires . . . . . . . . . . . . . . . . 170
VII.1.5 Le théorème de Lagrange . . . . . . . . . . . . . . . . . . . . . 174
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
164
section N suivant I
VII.1.1 Introduction
On s’intéresse maintenant à des problèmes d’optimisation de la forme


 minn f (x), (VII.1.1)
x∈R







(P C)







 g(x) ≤ 0, (VII.1.2)

h(x) = 0, (VII.1.3)
où les fonctions f , g et h sont différentiables au moins une fois, et f est typiquement non-linéaire.
Cependant nous étudierons le cas où g et h sont linéaires avec un intérêt tout particulier. Dans ce cha-
pitre nous allons nous efforcer d’obtenir les conditions d’optimalité associées au problème (PC). Les
chapitres suivants mettront ensuite l’accent sur les méthodes numériques permettant de le résoudre.
Nous nous intéresserons précisément dans ce chapitre aux problèmes
(PCE) problème avec contraintes d’égalité,
Sommaire
(PCI) problème avec contraintes d’inégalité,
Concepts
et les résultats s’étendront facilement aux problème général (PC). Notions
Bibliographie
Exemples
Exercices
Documents
165
VII.1.2 Problème avec contraintes d’égalité
On va tout d’abord s’intéresser au problème suivant, dit problème d’optimisation avec contraintes
d’égalité seulement :


 minn f (x), (VII.1.4)


 x∈ R


(P CE) sous les contraintes






h(x) = 0. (VII.1.5)

La raison majeure justifiant que l’on s’intéresse en premier au problème (PCE) est que (PC) est un
problème du type (PCI) dont on ne sait pas quelles sont les contraintes actives (nous reviendrons
sur cette terminologie plus tard). Nous allons dans un premier temps nous intéresser au cas où les
contraintes sont linéaires.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
166
VII.1.3 Contraintes d’égalité linéaires
Un problème d’optimisation avec contraintes d’égalité linéaires prend la forme

(
minn f (x), (VII.1.6)
x∈R
Ax − b = 0. (VII.1.7)
où A est une matrice p × n avec p < n et b ∈ Rp . On notera
S = {x ∈ Rn , Ax − b = 0}.
Nous allons maintenant définir le concept de direction admissible dans S.

Définition VII.1.1. On dit que d ∈ Rn est une direction admissible en x ∈ S s’il existe α > 0 tel
que
x + td ∈ S, ∀t ∈ [−α, α]
Dans notre cas, on a A(x + td) − b = tAd puisque x ∈ S, et donc les directions admissibles d
sont caractérisées par
Ad = 0. (VII.1.8) Sommaire
Rappellons maintenant un résultat bien utile d’algèbre linéaire : Concepts
Notions
Théorème VII.1.2. Soit A une matrice p × n. On a la relation suivante Bibliographie
(Ker A)⊥ = (Im A> ) Exemples

Exercices
On peut donc énoncer les conditions nécessaires d’optimalité pour le problème (VII.1.6) : Documents
167 II
Théorème VII.1.3. Soit x̂ ∈ S solution du problème (VII.1.6), vérifiant donc Contraintes

d’égalité
f (x̂) ≤ f (x), ∀ x ∈ S
linéaires
Alors il existe nécessairement un vecteur λ ∈ Rp vérifiant
∇f (x̂) + A> λ = 0.
Si de plus A est de rang p alors λ est unique.
Démonstration : Soit d une direction admissible, vérifiant donc d ∈ Ker A. Pour tout t ∈ R
on a
f (x̂) ≤ f (x̂ + td),
soit
f (x̂ + td) − f (x̂)
≥ 0, t > 0,
t
f (x̂ + td) − f (x̂)
≤ 0, t < 0.
t
Si on prend la limite de ces deux expressions quand t tend vers 0 en en déduit que Sommaire
Concepts
Notions
∇f (x̂)> d = 0, ∀d ∈ Ker A Bibliographie
soit ∇f (x̂) ∈ (Ker A)⊥ , donc ∇f (x̂) ∈ Im A> . Il existe donc un vecteur λ tel que
Exemples
> Exercices
∇f (x̂) = −A λ,
Documents
JJ 168 II
ce qui démontre le résultat. Pour l’unicité, supposons qu’il existe deux vecteurs λ1 et λ2 vérifiant Contraintes
d’égalité
∇f (x̂) = −A> λ1 = −A> λ2 .
linéaires
On a donc
A> (λ1 − λ2 ) = 0,
et donc λ1 − λ2 = 0 si A est de rang p. 2
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 169
VII.1.4 Contraintes d’égalité non-linéaires

Nous étudions maintenant le problème
minn f (x), (VII.1.9)
(
x∈R
h(x) = 0. (VII.1.10)
n p
où h : R → R est différentiable. On note comme précédemment
S = {x ∈ Rn , h(x) = 0}.
Le concept de direction admissible dans S ne peut pas se définir comme pour les contraintes linéaires,
car pour x̂ ∈ S il peut ne pas exister α > 0 et d ∈ Rn tels que x̂ + td ∈ S. On doit donc définir le
concept de courbe admissible.
Considérons une courbe x(t) définie pour t ≥ 0 vérifiant

x(t) ∈ S, ∀t ∈ [−α, α], α > 0
x(0) = x̂.
Puisque x(t) ∈ S on a hi (x(t)) = 0 pour 1 ≤ i ≤ p et on peut écrire que
Sommaire
d Concepts
hi (x(t)) = ∇hi (x(t))> ẋ(t) = 0, 1 ≤ i ≤ p.
dt Notions
Bibliographie
Si on note y = ẋ(0) le vecteur tangent à la courbe x(t) en t = 0, on a donc
∇hi (x̂)> y = 0, 1 ≤ i ≤ p. (VII.1.11) Exemples
Exercices
Cela conduit à la définition suivante : Documents
170 II
Définition VII.1.4. On dit que y ∈ Rn est une direction admissible en x̂ ∈ S s’il existe α > 0 et Contraintes
une courbe x(t) vérifiant  d’égalité
 x(t) ∈ S, ∀t ∈ [−α, α], non-linéaires
x(0) = x̂,
ẋ(0) = y.

On notera alors y ∈ T (x̂).

L’ensemble T (x̂) définit le plan tangent à S en x̂. L’analyse faite précédemment montre que l’on
a l’implication
y ∈ T (x̂) ⇒ ∇hi (x̂)> y = 0, 1 ≤ i ≤ p,
qui sera insuffisante pour montrer la condition nécéssaire d’optimalité. Nous allons donc maintenant
nous attacher à montrer sous quelles conditions la relation (VII.1.11) est une condition suffisante
d’appartenance à T (x̂).
Définition VII.1.5. On dit que x̂ est un point régulier pour la contrainte h(x) = 0 si
– h(x̂) = 0,
– Les vecteurs ∇hi (x̂) sont linéairement indépendants.
Si on note ∇h(x̂) la matrice n × p
∇h(x̂) = [∇h1 (x̂) . . . ∇hp (x̂)] , Sommaire

Concepts
la condition d’indépendance linéaire des ∇hi (x̂) peut s’écrire Notions
Bibliographie
Rang ∇h(x̂) = p.
Exemples
et on a donc ∇h(x̂)> ẋ(0) = 0 pour toute courbe admissible x(t). Exercices
On a la proposition suivante : Documents
JJ 171 II
Proposition VII.1.1. Si x̂ est un point régulier pour la contrainte h(x) = 0, alors Contraintes
>
∇h(x̂) y = 0 ⇒ y ∈ T (x̂). d’égalité
non-linéaires
Démonstration : Soit y ∈ Rn vérifiant ∇h(x̂)> y = 0. On considère la courbe x(t) donnée
par
x(t) = x̂ + ty + ∇h(x̂)u(t).
p
La fonction u(t) ∈ R , pour l’instant inconnue, va être déterminée de telle façon que h(x(t)) = 0.
On va pour cela poser le problème de la détermination de u(t) sous la forme d’une équation implicite.
On définit la fonction F : R × Rp → Rp par
F (t, u) = h(x̂ + ty + ∇h(x̂)u).
Le problème de la détermination de u(t) se ramène donc à la résolution de l’équation
F (t, u) = 0,
au voisinage du point (0, 0). On a d’une part F (0, 0) = h(x̂) = 0 et
∂
F (t, u) = ∇h(x̂)> ∇h(x̂ + ty + ∇h(x̂)u),
∂u
soit Sommaire
∂ Concepts
F (0, 0) = ∇h(x̂)> ∇h(x̂). Notions
∂u
Bibliographie
∂
La matrice ∂u F (0, 0) est inversible puisque par hypothèse ∇h(x̂) est de rang p. On peut alors appli-
quer le théorème des fonctions implicites : il existe un voisinage du point (0, 0) et une fonction u(t)
Exemples
tels que Exercices
F (t, u) = 0 ⇔ u = u(t). Documents
JJ 172 II
Notons que l’on a donc nécéssairement u(0) = 0 puisque F (0, 0) = 0. Contraintes

On a donc maintenant d’égalité
ẋ(t) = y + ∇h(x̂)u̇(t) non-linéaires
soit en t = 0
ẋ(0) = y + ∇h(x̂)u̇(0).
Montrons que u̇(0) = 0. Pour cela on écrit que l’on a
d
h(x(t)) = ∇h(x(t))> (y + ∇h(x̂)u̇(t)) = 0,
dt
puisque h(x(t)) = 0, et donc en t = 0 la relation précédente prend la forme

d
= ∇h(x̂)> y + ∇h(x̂)> ∇h(x̂)u̇(0) = 0.

h(x(t))
dt t=0
Le premier terme du second membre est nul par hypothèse, et donc u̇(0) = 0 puisque ∇h(x̂)> ∇h(x̂)
est inversible. Donc
ẋ(0) = y,
soit y ∈ T (x̂), ce qui démontre le résultat annoncé. 2 Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 173
VII.1.5 Le théorème de Lagrange
Théorème VII.1.6. Soit x̂ ∈ S = {x ∈ Rn , h(x) = 0} un point régulier solution du problème

(VII.1.9), vérifiant donc
f (x̂) ≤ f (x), ∀ x ∈ S
Alors il existe nécessairement un vecteur λ ∈ Rp unique vérifiant
∇f (x̂) + ∇h(x̂)λ = 0,
soit encore
p
X
∇f (x̂) + λi ∇hi (x̂) = 0.
i=1
Les composantes du vecteur λ sont appelées multiplicateurs de Lagrange.
Démonstration : Considérons une courbe x(t) définie pour t ∈ [−α, α] vérifiant

x(t) ∈ S, ∀t ∈ [−α, α], α > 0
x(0) = x̂. Sommaire
Concepts
On a Notions
f (x(0)) ≤ f (x(t)), ∀t ∈ [−α, α], Bibliographie
donc nécessairement Exemples

d
= ∇f (x̂)> ẋ(0) = 0,

f (x(t)) Exercices
dt t=0 Documents
174 II
ce qui signifie que ∇f (x̂) se trouve dans l’orthogonal de T (x̂) le plan tangent à S en x̂. Si l’on utilise Le théorème
l’équivalence de Lagrange
T (x̂) = Ker ∇h(x̂)> ⇔ T (x̂)⊥ = Im ∇h(x̂),
il existe donc un vecteur λ ∈ Rp tel que
∇f (x̂) = −∇h(x̂)λ.
L’unicité résulte du fait que ∇h(x̂) est de rang p et se montre comme dans le cas linéaire. 2
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 175
VII.2 Les conditions de Kuhn et Tucker
VII.2.1 Problème avec contraintes d’inégalité . . . . . . . . . . . . . . 177

VII.2.2 Interprétation géométrique des conditions de Kuhn et Tucker . 181
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
176
section N suivant I
VII.2.1 Problème avec contraintes d’inégalité

On s’intéresse maintenant au problème suivant, dit problème d’optimisation avec contraintes
d’inégalité seulement :


 minn f (x), (VII.2.1)


 x∈ R


(P CI) sous les contraintes






g(x) ≤ 0, (VII.2.2)

où g : Rn → Rm , est différentiable (il n’y a ici aucune condition sur m). On notera K l’ensemble
des points admissibles, c’est à dire
K = {x ∈ Rn , g(x) ≤ 0}.
Au point solution de (P CI) il va de soi que les contraintes effectivement actives vérifieront
gi (x̂) = 0. Cependant, puisque l’on ne sait pas a priori quelles sont ces contraintes, le passage de
(P CI) a un problème du type (P CE) n’est pas direct.
Sommaire
Définition VII.2.1. On appelle contraintes saturées en x̂ l’ensemble des indices i tel que gi (x̂) = 0, Concepts
et on note Notions
Bibliographie
I(x̂) = {i | gi (x̂) = 0}.
On note alors S(x̂) l’ensemble Exemples
n Exercices
S(x̂) = {x ∈ R , gi (x) = 0, i ∈ I(x̂)}. Documents
177 II
section N suivant I
Le concept de direction admissible se définit comme suit : Problème avec

n
Définition VII.2.2. On dit que y ∈ R est une direction admissible en x̂ ∈ K s’il existe α > 0 et contraintes
une courbe x(t) vérifiant d’inégalité

 x(t) ∈ K, ∀t ∈ [−α, α],
x(0) = x̂,
ẋ(0) = y.

On notera alors y ∈ C(x̂).

Lemme VII.2.3. Soit y ∈ Rn une direction admissible en x̂ ∈ K, alors on a nécessairement
∇gi (x̂)> y ≤ 0, i ∈ I(x̂).
Démonstration : Considérons une courbe x(t) définie pour t ∈ [−α, α] vérifiant


 x(t) ∈ K, ∀t ∈ [−α, α], α > 0
x(0) = x̂,
ẋ(0) = y.

Comme gi (x̂) < 0 pour i 6∈ I(x̂), on aura toujours gi (x(t)) < 0 pour t suffisamment petit. Par contre,
pour i ∈ I(x̂) on doit avoir gi (x(t)) ≤ 0 pour t suffisamment petit. Si on utilise le développement Sommaire
de Taylor de gi (x(t)) en t = 0 on doit donc avoir Concepts
Notions
gi (x̂) + t∇gi (x̂)> y + t(t) ≤ 0. Bibliographie
Puisque gi (x̂) = 0 il faut donc nécessairement que l’on ait Exemples

Exercices
∇gi (x̂)> y ≤ 0. Documents
JJ 178 II
section N suivant I
2 Comme dans le cas des contraintes d’égalité, on doit définir la notion de point régulier, qui est Problème avec
nécessaire pour que la condition précédente soit suffisante : contraintes
Définition VII.2.4. On dit que x̂ est un point régulier pour la contrainte g(x) ≤ 0 si d’inégalité
– g(x̂) ≤ 0,
– Les vecteurs {∇hi (x̂)}i∈I(x̂) sont linéairement indépendants.
Sous l’hypothèse de régularité de x̂ on aura, comme dans le cas des contraintes d’égalité
∇gi (x̂)> y ≤ 0, i ∈ I(x̂) ⇒ y ∈ C(x̂).
La proposition suivante permet d’effectuer le premier pas vers les conditions de Kuhn et Tucker.
Proposition VII.2.1. Soit x̂ la solution du problème (P CI). Il existe η > 0 tel que
∀x ∈ B(x̂, η), gi (x) < 0, i 6∈ I(x̂),
où on a noté B(x̂, η) la boule de centre x̂ et de rayon η. Alors x̂ est la solution du problème
(
min f (x), (VII.2.3)
x∈B(x̂,η)
gi (x) = 0, i ∈ I(x̂). (VII.2.4)
Ce résultat est uniquement dû à la continuité de g, et montre que l’on est localement ramené à un Sommaire
problème avec contraintes d’égalité. On peut donc maintenant énoncer le résulat principal : Concepts
Notions
Théorème VII.2.5. Soit x̂ ∈ K un point régulier solution du problème (P CI). Alors il existe un Bibliographie
unique vecteur λ ∈ Rm tel que
m
X Exemples
∇f (x̂) + λi ∇gi (x̂) = 0, (VII.2.5) Exercices
i=1 Documents
JJ 179 II
section N suivant I
λi ≥ 0, i = 1 . . . m, (VII.2.6) Problème avec

λi gi (x̂) = 0, i = 1 . . . m (VII.2.7) contraintes
d’inégalité
Démonstration : Les relation (VII.2.5) (VII.2.7) sont une conséquence directe du théorème
de Lagrange, car il suffit de prendre λi = 0 pour i 6∈ I(x̂). On peut ensuite montrer (VII.2.6) par
l’absurde : supposons qu’il existe k ∈ I(x̂) tel que λk < 0. On définit la surface
Sk = {x | gi (x) = 0, i ∈ I(x̂), i 6= k}.
On définit y ∈ Rn tel que
∇gi (x̂)> y = 0, i ∈ I(x̂), i 6= k,

∇gk (x̂)> y = −1.
Alors y est une direction admissible en x̂ puisque
∇gi (x̂)> y ≤ 0, i ∈ I(x̂),
et que x̂ est un point régulier. Il existe donc une courbe x(t) ∈ Sk et vérifiant de plus x(t) ∈ K, pour
t ∈ [α, α], telle que ẋ(0) = y. On a donc
Sommaire
d
= ∇f (x̂)> y,

f (x(t)) (VII.2.8) Concepts
dt t=0 Notions
Bibliographie
X
= − λi ∇gi (x̂)> y, (VII.2.9)
= −λk ∇gk (x̂)> y = λk < 0, (VII.2.10) Exemples
Exercices
ce qui est impossible car f est minimum en x̂. 2 Documents
JJ 180
VII.2.2 Interprétation géométrique des conditions de Kuhn et Tucker
On considère un cas où I(x̂) = {1, 2}. Au point x̂, l’ensemble des directions admissibles C(x̂)
forme un cône qui est l’intersections des demi-espaces d’équation
∇gi (x̂)> y ≤ 0, i = 1, 2.
Pour que x̂ soit un optimum local, il faut que le vecteur −∇f (x̂) forme un angle obtus avec les
∇g2 (x̂)
−∇f (x̂)
∇g1 (x̂)
x̂
g2 (x) = 0
C(x̂)
Sommaire
K
Concepts
Notions
Bibliographie
g1 (x) = 0
Exemples
Exercices
F IG . VII.2.1 – Illustration des conditions de Kuhn et Tucker sur un exemple à deux dimensions. Documents
181 II
directions admissibles. On vérifie aussi que −∇f (x̂) est combinaison linéaire (à coefficients positifs) Interprétation
des vecteurs ∇gi (x̂), i = 1, 2. géométrique
des conditions
de Kuhn et
Tucker
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 182
VII.3 Exemples de problèmes
VII.3.1 Distance d’un point à un plan . . . . . . . . . . . . . . . . . . . 184

VII.3.2 Pseudo-inverse de Moore et Penrose . . . . . . . . . . . . . . . 185
VII.3.3 Exemple de programme quadratique . . . . . . . . . . . . . . . 187
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
183
section N suivant I
VII.3.1 Distance d’un point à un plan

On cherche à calculer la distance d’un point x0 ∈ Rn au plan défini par l’équation Ax = b, où
A ∈ Mpn avec Rang A = p. Se problème se pose sous la forme
1
minn kx0 − xk2
x∈R 2
Ax = b.
On pose donc f (x) = 1
2 kx0 − xk2 . On a
∇f (x) = −(x0 − x),
et donc le système d’optimalité est donné par
(x̂ − x0 ) + A> λ̂ = 0, (VII.3.1)
Ax̂ = b. (VII.3.2)
En multipliant l’équation (VII.3.1) par A on peut exprimer λ̂ par
λ̂ = (AA> )−1 (Ax0 − d),
et on obtient en substituant λ̂ dans (VII.3.2) Sommaire
> > −1 > > −1 Concepts
x̂ = (I − A (AA ) A)x0 + A (AA ) d.
Notions
Un problème voisin est celui de la projection d’une direction d sur le plan Ax = 0. Le résultat Bibliographie
précédent donne donc
dˆ = P d, Exemples
Exercices
avec P = I − A> (AA> )−1 . Documents
184
VII.3.2 Pseudo-inverse de Moore et Penrose
On cherche à résoudre le système

Ax = b,
avec A ∈ Mpn , p < n et A de rang p. Il s’agit donc d’un système sous-déterminé. La pseudo-inverse
de Moore-Penrose est par définition la matrice A† telle que le vecteur
x̂ = A† b,
est la solution de norme minimale du système
Ax = b.
Le problème d’optimisation à résoudre est donc :

1
minn kxk2
x∈R 2
Ax = b,
et le système d’optimalité est donné par Sommaire

Concepts
x̂ + A> λ̂ = 0, (VII.3.3) Notions
Ax̂ = b. (VII.3.4) Bibliographie
Il suffit de substituer x̂ dans la deuxième équation et puisque AAt op est de rang p on obtient Exemples
Exercices
x̂ = A> (AA> )−1 b, Documents
185 II
et donc la pseudo-inverse est donnée par Pseudo-

inverse de
A† = A> (AA> )−1 .
Moore et
Penrose
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 186
VII.3.3 Exemple de programme quadratique

On cherche à résoudre le problème
1
min kx − x0 k2
x∈R 2
2
x1 ≥ 0,
x2 ≥ 0,
x1 + x2 ≤ 1,
où x0 = (1, 21 ). Il s’agit d’un problème avec contraintes d’inégalité se mettant sous la forme g(x) ≤ 0
avec  
−x1
g(x) =  −x2 .
x1 + x2 − 1
Sur le dessin, on peut s’assurer que très probablement seule la contrainte numéro 3 est active. On
peut s’en persuader par le calcul de la façon suivante : on peut tenter de résoudre le système
∇f (x) + λ3 ∇g3 (x) = 0, Sommaire
Concepts
g3 (x) = 0, Notions
soit ici Bibliographie

1
x − x0 + λ3 = 0, Exemples
1 Exercices
x1 + x2 = 1, Documents
187 II
x2 Exemple de
programme
quadratique
x0
K
x̂
g1 (x) = 0 x1
g2 (x) = 0 g3 (x) = 0
F IG . VII.3.2 – Exemple de programme quadratique
ou bien encore Sommaire

Concepts
Notions
x1 + λ3 = 1, Bibliographie
1
x2 + λ 3 = ,
2 Exemples
x1 + x2 = 1, Exercices
Documents
JJ 188 II
dont la solution est donnée par Exemple de

3 1 1
x1 = , x2 = , λ3 = . programme
4 4 4
quadratique
On a bien λ3 ≥ 0 ce qui justifie a posteriori le choix de saturer la contrainte numéro 3.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 189
VII.4 Conditions suffisantes d’optimalité
VII.4.1 Définition du lagrangien . . . . . . . . . . . . . . . . . . . . . . . 191

VII.4.2 Condition nécéssaire du second ordre . . . . . . . . . . . . . . 192
VII.4.3 Condition nécéssaire du second ordre . . . . . . . . . . . . . . 195
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
190
section N suivant I
VII.4.1 Définition du lagrangien
Considérons le problème (P CE) avec contraintes d’égalité

minx∈Rn f (x),
h(x) = 0,
où h : Rn → Rp .
Définition VII.4.1. On appelle lagrangien associé au problème (P CE) la fonction L : Rn × Rp →

R définie par
Xp
L(x, λ) = f (x) + λi hi (x).
i=1
Les conditions de Lagrange peuvent se reformuler à l’aide du lagrangien : soit x̂ solution de

(P CE). Alors il existe λ̂ tel que
∇x L(x̂, λ̂) = 0,
où on a noté ∇x le gradient partiel par rapport à la variable x. Dans la suite nous ferons l’hypothèse
que h et f sont deux fois continûment différentiables. Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
191
VII.4.2 Condition nécéssaire du second ordre
Théorème VII.4.2. Soit x̂ un point régulier solution de (P CE). Alors il existe λ̂ tel que
∇x L(x̂, λ̂) = 0,
et de plus pour tout y ∈ T (x̂), y 6= 0, on a
y > ∇2xx L(x̂, λ̂)y ≥ 0.
Démonstration : Soit y ∈ T (x̂). On sait qu’il existe une courbe x(t) définie pour t ∈ [−α, α]
vérifiant 
 x(t) ∈ S, ∀t ∈ [−α, α], α > 0
x(0) = x̂,
ẋ(0) = y.

Puisque x̂ est optimal on a

f (x(0)) ≤ f (x(t)), ∀t,
et puisque la fonction f est deux fois différentiable, on a nécessairement
Sommaire
Concepts
d2

Notions

f (x(t)) ≥ 0.
dt2
t=0 Bibliographie
On a ici d’une part

Exemples
d
f (x(t)) = ∇f (x(t))> ẋ(t), Exercices
dt Documents
192 II
et donc Condition
d2 nécéssaire du
f (x(t)) = ẋ(t)> ∇2 f (x(t))ẋ(t) + ∇f (x(t))> ẍ(t), (VII.4.1) second ordre
dt2
d2

= y > ∇2 f (x̂)y + ∇f (x̂)> ẍ(0) ≥ 0

2
f (x(t)) (VII.4.2)
dt t=0
D’autre part on a hi (x(t)) = 0 donc
d2

= y > ∇2 hi (x̂)y + ∇hi (x̂)> ẍ(0) = 0, i = 1, . . . , p.

2
h(x(t))
dt t=0
On peut multiplier chacune de ces égalités par λ̂i et en faire la somme, ce qui donne
p p
! !
X X
y> λ̂i ∇2 hi (x̂) y + λ̂i ∇hi (x̂)> ) ẍ(0) = 0.
i=1 i=1
En additionnant cette dernière égalité à (VII.4.2) on obtient

p
! p
!>
X X
> 2 2
y ∇ f (x̂) + λ̂i ∇ hi (x̂) y + ∇f (x̂) + λ̂i ∇hi (x̂) ẍ(0) ≥ 0,
Sommaire
i=1 i=1
Concepts
et puisque le deuxième terme est nul (condition de Lagrange) on obtient bien l’inégalité annonçée. 2 Notions
Bibliographie
Le résultat suivant est une généralisation du thèorème précédent dont la démonstration sera admise.
Théorème VII.4.3. Soit x̂ ∈ Rn et λ̂ ∈ Rp vérifiant les conditions Exemples
Exercices
h(x̂) = 0, Documents
JJ 193 II
p
Condition
X
∇f (x̂) + λ̂i ∇hi (x̂) = 0,
i=1 nécéssaire du
y > ∇2xx L(x̂, λ̂)y ≥ 0 , ∀y ∈ T (x̂), y 6= 0, second ordre
alors x̂ est un minimum local du problème (P CE).
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 194
VII.4.3 Condition nécéssaire du second ordre
Théorème VII.4.4. Soit x̂ ∈ Rn et λ̂ ∈ Rp vérifiant les conditions
g(x̂) ≤ 0,
p
X
∇f (x̂) + λ̂i ∇gi (x̂) = 0,
i=1
λ̂i ≥ 0, i = 1 . . . m,
λ̂i gi (x̂) = 0, i = 1 . . . m,
> 2
y ∇xx L(x̂, λ̂)y ≥ 0 , ∀y ∈ T + (x̂), y 6= 0,
où on a noté T + (x̂) le plan tangent en x̂ à la surface
S + = {x ∈ Rn , gi (x̂) = 0, i ∈ I(x̂) et λi > 0}.
Alors x̂ est un minimum local du problème (P CE).
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
195
Chapitre VIII
Méthodes primales
VIII.1 Contraintes d’égalité linéaires . . . . . . . . . . . . . . . . . . . . . . . 197

VIII.2 Contraintes d’inégalité linéaires . . . . . . . . . . . . . . . . . . . . . . 204
VIII.3 Méthodes de pénalisation . . . . . . . . . . . . . . . . . . . . . . . . . 208
VIII.4 Méthodes par résolution des équations de Kuhn et Tucker . . . . . . . 216
Sommaire
Exemples du chapitre VIII . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
196
VIII.1 Contraintes d’égalité linéaires
VIII.1.1 La méthode du gradient projeté . . . . . . . . . . . . . . . . . . 198

VIII.1.2 La méthode de Newton projetée . . . . . . . . . . . . . . . . . . 201
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
197
section N suivant I
VIII.1.1 La méthode du gradient projeté
On s’intéresse à un problème avec contraintes d’égalité lineaires

(
minn f (x), (VIII.1.1)
x∈R
Ax − b = 0, (VIII.1.2)
et nous ferons l’hypothèse que A ∈ Mpn est de rang maximal. Une idée assez naturelle consiste à
appliquer une méthode de descente qui prenne en compte la contrainte Ax − b = 0. Supposons que
nous disposons d’un point x0 ∈ K = {x ∈ Rn , Ax − b = 0}. On sait qu’une direction admissible
doit vérifier
Ad = 0. (VIII.1.3)
On peut chercher la meilleure direction de descente respectant (VIII.1.3) en résolvant le problème
>

 min ∇f (x) d,
 (VIII.1.4)
Ad = 0, (VIII.1.5)

kdk = 1. (VIII.1.6)

Sommaire
Proposition VIII.1.1. Le vecteur d solution du problème (VIII.1.4),(VIII.1.5),(VIII.1.6) est donné Concepts
par d = y/ kyk où y est la projection orthogonale de −∇f (x) sur Ker A. Notions
Bibliographie
Démonstration : On peut écrire que

Exemples
−∇f (x) = y + z, Exercices
Documents
198 II
section N suivant I
où y ∈ Ker A et z ∈ ( Ker A)⊥ , ces deux sous-espaces étant complémentaires dans Rn . On a donc La méthode du
gradient
−∇f (x)> d = −y > d.
projeté
Comme d est un vecteur unitaire quelconque y > d sera maximal pour
y
d= ,
kyk
d’où le résultat. On remarquera que si y 6= 0, le vecteur d est bien une direction de descente car on a
∇f (x)> = −y > (y + z) = −y > y < 0.
2
Pour former la matrice de projection sur Ker A on utilise en général la factorisation QR de la
matrice A> , qui s’exprime sous la forme

R
A> = Q ,
0
où R ∈ Mpp est triangulaire supérieure et Q ∈ Mnn est orthogonale, et se décompose en Q =

[U V ] où les colonnes de U ∈ Mn,p forment une base orthogonale de Im A> et les colonnes de Sommaire
Concepts
V ∈ Mn,n−p une base orthogonale de ( Im A> )⊥ = Ker A. Dans ce cas la matrice de la projection Notions
orthogonale sur Ker A s’écrit Bibliographie
P = I − U U > = V V >.
Exemples
Remarque VIII.1.1. Dans l’algorithme que nous allons étudier, la matrice de projection peut être Exercices
calculée une fois pour toutes puisque A est donnée. Cependant, pour les problèmes avec contraintes Documents
JJ 199 II
section N suivant I
d’inégalité lineéaires, on sera amené à considérer une succession de problèmes avec contraintes La méthode du
d’égalité, et la matrice A pourra évoluer à chaque itération, par ajout ou supression d’une ligne. gradient
Le choix de la factorisation QR est tout indiqué car il existe des techniques de mise à jour par- projeté
ticulièrement économiques, ce qui n’est pas le cas quand on exprime la matrice P sous la forme
classique
P = I − A> [AA> ]−1 A.
La méthode du gradient projeté consiste tout simplement à mettre en oeuvre une méthode de
descente utilisant à chaque pas la direction dk = −V V > ∇f (xk ). Les itérations sont poursuivies
jusqu’à ce que dk = 0. Cela signifie alors que ∇f (x) ∈ Im A> et donc qu’il existe λ tel que
∇f (xk ) = −A>λ.
On peut utiliser la factorisation de A> pour obtenir λ par résolution du système linéaire
Rλ = −U > ∇f (x).
Algorithme du gradient projeté

1. Poser k = 0 et choisir x0 admissible.

2. Calculer la projection dk = −V V > ∇f (xk ), Sommaire

3. Si dk = 0 Concepts
Notions

– Calculer λ = −R−1 U > ∇f (xk )
Bibliographie

– Arrêter les itérations.

4. Déterminer ρk > 0 réalisant le minimum de f (xk + ρdk ). Exemples

5. Poser xk+1 = xk + ρk dk , faire k ← k + 1 et retourner en 2. Exercices
Documents
JJ 200
VIII.1.2 La méthode de Newton projetée
La méthode du gradient projeté souffrant des mêmes problèmes que la méthode du gradient
(vitesse de convergence très sensible au conditionnement), on lui préfère souvent les méthodes de
quasi-Newton adaptées au cas des contraintes linéaires. Il est plus facile de comprendre comment
fonctionnent ces méthodes en faisant l’analyse suivante
Supposons que l’on dispose d’un point x0 admissible. L’idée est de poser x = x0 + V z et de
considérer une nouvelle fonction f˜ définie par
f˜(z) = f (x0 + V z),
où les colonnes de V forment une base orthogonale de Ker A (on a vu comment obtenir une telle
matrice). Alors par construction le problème (VIII.1.2) est équivalent au problème sans contraintes
minp f˜(z), (VIII.1.7)

z∈R
puisque
A(x0 + V z) − b = Ax0 − b + AV z = 0.
Sommaire
On peut donc appliquer n’importe quelle méthode de descente à la résolution de (VIII.1.7). Notons Concepts
que l’on a Notions
∇f˜(z) = V > ∇f (x0 + V z), Bibliographie
donc la méthode du gradient appliquée à la minimisation de f˜(z) s’écrit

Exemples
> Exercices
zk+1 = zk − ρk V ∇f (x0 + V zk ), Documents
201 II
et si on pose xk = x0 + V zk , les itérations précédentes s’écrivent La méthode de

>
xk+1 = xk − ρk V V ∇f (xk ), Newton
projetée
ce qui redonne exactement la méthode du gradient projeté. On peut de la même manière écrire la
méthode de Newton appliquée à la résolution de (VIII.1.7) : le hessien de f˜ s’écrit
∇2 f˜(z) = V > ∇2 f (x0 + V z)V,
si si on note Gk = ∇2 f˜(zk ) la direction de Newton en zk s’écrit
pk = −G−1 ˜
k ∇f (zk ).
Si la matrice Gk est définie positive alors pk sera une direction de descente pour f˜ et le vecteur V pk
sera une direction de descente pour f puisque
∇f (xk )> V pk = ∇f˜(zk )> pk < 0.
Remarque VIII.1.2. On sait que dans le cas général un optimum local du problème (P CE) est
caractérisé par
y > ∇2xx L(x̂, λ̂)y ≥ 0, ∀y ∈ T (x̂), y 6= 0.
Or dans le cas des contraintes linéaires on a
Sommaire
∇2xx L(x, λ) 2
= ∇ f (x), (VIII.1.8) Concepts
Notions
et le sous espace T (x̂) n’est autre que Ker A. Et donc si l’on dispose d’une matrice V dont les Bibliographie
colonnes forment une base orthogonale de Ker A, tout vecteur y ∈ T (x̂) s’exprime sous la forme
y = V z et la condition (VIII.1.8) s’écrit Exemples
Exercices
zV > ∇2 f (x̂)V z > 0, ∀ z. Documents
JJ 202 II
On est donc assuré que le hessien projeté est défini positif à l’optimum, ce qui justifie l’utilisation La méthode de
des méthodes de quasi-Newton. Newton
On peut donc envisager une méthode de quasi-Newton ou la mise à jour opère non pas sur le projetée
hessien de f mais sur le hessien projeté. Voici l’algorithme correspondant pour la méthode BFGS :
Algorithme de la méthode BFGS projetée

1. Poser k = 0, choisir x0 admissible et poser H0 = I.
2. Poser gk = V > ∇f (xk ).

3. Si gk = 0

– Calculer λ = −R−1 U > ∇f (xk )

– Arrêter les itérations.
4. Calculer la direction pk = −Hk−1 gk .

5. Déterminer ρk > 0 réalisant le minimum de f (xk + ρV pk ).

6. Poser xk+1 = xk + ρk V pk .
7. Calculer gk+1 = V > ∇f (xk+1 ) et yk = gk+1 − gk .

Sommaire
8. Mise à jour du hessien projeté

Concepts
yk yk> gk gk>

Notions
Hk+1 = Hk + + Bibliographie

ρk yk> pk p>
k gk
9. faire k ← k + 1 et retourner en 2.

Exemples
Exercices
Documents
JJ 203
VIII.2 Contraintes d’inégalité linéaires
VIII.2.1 Méthode de directions réalisables . . . . . . . . . . . . . . . . . 205
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
204
section N
VIII.2.1 Méthode de directions réalisables
On s’intéresse maintenant à un problème avec contraintes d’inégalités lineaires

(
minn f (x), (VIII.2.1)
x∈R
Ax − b ≤ 0. (VIII.2.2)
On peut essayer de voir comment adapter la stratégie de l’algorithme du gradient projeté. Supposons
que nous disposons d’un point initial admissible x0 ∈ K = {x ∈ Rn , Ax − b ≤ 0}. Notons I0
l’ensemble des indices des contraintes saturées, soit
I0 = {i | Ai x0 − bi = 0}.
On peut chercher une direction de descente d qui permette, au moins pour un petit déplacement, de
rester dans K. Si on note A0 ∈ Mpn la matrice composée des lignes i ∈ I0 on doit donc avoir
AI0 d = 0. (VIII.2.3)

R
Après calcul de la factorisation (U V ) de A>I0 , une direction admissible d peut être obtenue
0 Sommaire
par d = −V V > ∇f (x0 ). Concepts
Notions
Il y a ensuite deux cas à envisager : Bibliographie
1. Si d 6= 0, il faut déterminer le déplacement maximal autorisé par les contraintes non saturées,
c’est à dire ρmax tel que Exemples
Exercices
ρmax = {ρ |ρ ≥ 0, Ai (x0 + ρd) − bi ≤ 0, i 6∈ I0 }. Documents
205 II
section N
Ensuite, on cherche le pas optimal ρopt dans direction d. Ce pas pouvant faire sortir du domaine Méthode de
admissible, on prendra donc toujours directions
réalisables
ρ = min(ρopt , ρmax ),
en notant bien que lorsque ρ = ρmax , cela signifie qu’une nouvelle contrainte sera saturée.
2. Si d = 0 cela signifie que ∇f (x) ∈ Im A>
I0 et donc qu’il existe λ tel que
∇f (x) = −A>
I0 λ,
et qui s’obtient par résolution du système linéaire
Rλ = −U > ∇f (x),
et il faut ensuite considérer deux cas

(a) Si λ ≥ 0, alors x satisfait les condition de Kuhn et Tucker. Le point x est donc un
optimum local du problème.
(b) Sinon, on supprime dans I0 une des contraintes pour lesquelles λi < 0 (par exemple la
plus négative). On obtient alors une nouvelle matrice A1 qui permet de déterminer une
nouvelle direction de descente en x0 . On peut ensuite poursuivre les itérations. Sommaire
Concepts
On peut donc résumer l’algorithme de la façon suivante : Notions
Bibliographie
Algorithme du gradient projeté (contraintes d’inégalité) Exemples

Exercices
Documents
JJ 206 II
section N

1. Poser k = 0 et choisir x0 .
Méthode de

2. Déterminer Ik = {i | Ai xk − bi = 0}. directions

3. Former la matrice AIk = {Ai }i∈Ik . réalisables

Rk
A>

4. Calculer ou mettre à jour la factorisation Ik = [Uk Vk ]

0
5. Calculer la projection dk = −Vk Vk> ∇f (xk )

6. Si dk = 0

– Calculer λ = −(Rk )−1 Uk> ∇f (xk )
– Si λ ≥ 0 alors on s’arrète

– Sinon, choisir j tel que λj ≤ λi , ∀i, faire Ik = Ik − {j} et retourner en 3.

7. Calculer ρmax = {ρ |ρ ≥ 0, Ai (xk + ρdk )a − bi ≤ 0, i 6∈ Ik }.

8. Déterminer ρk réalisant le minimum de f (xk + ρdk ) sur [0, ρmax ].
9. Poser xk+1 = xk + ρk dk , faire k ← k + 1 et retourner en 2.

Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 207
VIII.3 Méthodes de pénalisation
VIII.3.1 Méthode de pénalisation externe . . . . . . . . . . . . . . . . . 209

VIII.3.2 Méthode de pénalisation interne . . . . . . . . . . . . . . . . . 213
VIII.3.3 Estimation des multiplicateurs . . . . . . . . . . . . . . . . . . . 214
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
208
section N suivant I
VIII.3.1 Méthode de pénalisation externe
Exemples :
Exemple VIII.1
On considère un problème avec contraintes d’inégalité non-linéaires :



 minn f (x), (VIII.3.1)


 x∈R


(P CI) sous les contraintes






g(x) ≤ 0, (VIII.3.2)

Le but des méthodes de pénalisation est de résoudre (P CI) de façon approchée de la façon suivante :
on définit la fonction ϕ(x) par
Xm
ϕ(x) = (gi+ (x))2 ,
i=1
Sommaire
où [.]+ est la fonction partie positive définie par Concepts
Notions
y + = max(0, y). Bibliographie
Si on note K = {x ∈ Rn , g(x) ≤ 0}, la fonction ϕ vérifie par construction

Exemples
ϕ(x) = 0, pour x ∈ K, Exercices
ϕ(x) > 0, pour x 6∈ K. Documents
209 II
section N suivant I
On introduit alors le problème P Méthode de


minn f (x), (VIII.3.3) pénalisation

(P ) x∈R externe
 f (x) = f (x) + 1 ϕ(x), (VIII.3.4)
dont on notera x la solution, vérifiant
f (x ) ≤ f (x) ∀x ∈ RN .
Le nom de pénalité extérieure provient du fait que x est toujours à l’extérieur (au sens large) de K
comme le montre le résultat suivant :
Proposition VIII.3.1. S’il existe au moins une contrainte saturée à l’optimum x̂ du problème
(P CI) alors le vecteur solution du problème pénalisé (P ) verifie nécessairement
∃ i0 , gi0 (x ) ≥ 0.
Démonstration : Montrons la contraposée : si gi (x ) < 0, ∀i on a par définition x ∈ K.

Puisque
f (x ) ≤ f (x), ∀ x ∈ Rn , Sommaire
Concepts
donc en particulier pour x = x̂, on a Notions
f (x ) ≤ f (x̂), Bibliographie
mais commme x ∈ K et x̂ ∈ K on a
Exemples
ϕ(x ) = ϕ(x̂) = 0, Exercices
Documents
JJ 210 II
section N suivant I
et donc Méthode de
f (x ) ≤ f (x̂). pénalisation
D’où x = x̂. On a donc gi (x̂) < 0, ∀i et aucune contrainte n’est saturée en x̂. 2 En général, on a externe
toujours x 6∈ K comme le montre l’exemple de la pénalisation mais sous des hypothèses assez peu
restrictives, x tend vers une solution du problème (P CI) quand tend vers 0.
Théorème VIII.3.1. Soit ϕ : Rn → R une fonction de pénalisation extérieure vérifiant :

– ϕ(x) ≥ 0,
– ϕ(x) = 0 ⇔ x ∈ K,
– ϕ continue.
On suppose d’autre part que f est continue, que K est fermé et que l’une des deux conditions
suivantes est vérifieé :
– f (x) → +∞ quand kxk → ∞,
– K est borné et ϕ(x) → +∞ quand kxk → ∞.
– ϕ continue.
Alors, quand k tend vers 0, la suite xk admet au moins un point d’accumulation qui est alors une
solution optimale du problème (P CI).
Lorsqu’on met en oeuvre cette méthode de façon pratique, on ne peut pas prendre tout de suite
k très petit, à cause des problèmes de conditionnement que cela peut causer. On commence donc Sommaire
Concepts
avec une valeur du type 0 = 1, et chaque solution xk est prise comme vecteur initial pour résoudre
Notions
le problème avec k+1 = k /100 (par exemple). On peut bien sûr utiliser n’importe quelle méthode Bibliographie
pour résoudre le problème minx fk (x) (BFGS, gradient conjugué, ...).
Exemples
Exercices
Algorithme de la méthode de pénalisation
Documents
JJ 211 II
section N suivant I

1. Choisir x0 , 1 = 1 et poser k = 1
Méthode de

2. Trouver xk solution du problème minn fk (x) en partant de xk−1 . pénalisation
x∈R
externe

3. Poser k+1 = k /100

4. faire k ← k + 1 et retourner en 2
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 212
VIII.3.2 Méthode de pénalisation interne
Dans le cas des méthodes internes, en général, x n’est jamais dans K (sauf cas particulier) : cela
peut poser des problèmes si par exemple la fonction f n’est pas définie hors de K. Les méthodes
internes permettent d’éviter cet inconvénient. Leur principe est le même que pour les méthodes ex-
ternes : on considère une fonction
f (x) = f (x) + ψ(x),
mais ici la fonction ψ(x) est défine pour x ∈ K et est du type

m
X 1
ψ(x) = .
gi (x)2
i=1
Puisque l’on a ψ(x) → ∞ quand on s’approche de la frontière de K, on qualifie souvent ψ de

fonction barrière. Les propriété de convergence sont les même que pour les méthodes externes, mais
il faut ici disposer d’un x0 ∈ K, ce qui peut être difficile dans certains cas.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
213
VIII.3.3 Estimation des multiplicateurs

Les méthodes de pénalisation ne sont en général jamais utilisées pour obtenir la solution du
problème avec contraintes, car cela nécessitérait d’utiliser des paramètres de pénalisation beaucoup
trop petits. En revanche, elles permettent de calculer des estimations correctes des multiplicateurs.
Pour les méthodes externes, le point xk est solution du problème min fk (x) où
m
1X +
f (x) = f (x) + [gi (x)]2 ,

i=1
et vérifie donc les conditions d’optimalité

m
2X +
∇f (xk ) + gi (xk )∇gi (xk ) = 0.

i=1
Sous les hypothèses du théorème VIII.3.1 xk → x̂ et donc pour les contraintes non saturées, puisque
gi (x̂) < 0, il existe k0 tel que
k > k0 ⇒ gi (xk ) < 0, i 6∈ I(x̂).
Si on suppose que x̂ est régulier, les conditions de Kuhn et Tucker sont vérifiées et on a Sommaire
X Concepts
∇f (x̂) + λi ∇gi (x̂) = 0. Notions
i∈I Bibliographie
Si on note maintenant que pour k > k0 ,
2X + Exemples
∇f (xk ) + gi (xk )∇gi (xk ) = 0, Exercices
Documents
i∈I
214 II
alors par continuité de ∇f et ∇g on en déduit que pour i ∈ I Estimation des

2 + multiplicateurs
lim g (xk ) = λi .
k→∞ i
On peut bien sûr faire le même type de raisonnement pour la méthode de pénalité interne.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 215
VIII.4 Méthodes par résolution des équations de Kuhn et Tucker
VIII.4.1 Cas des contraintes d’égalité . . . . . . . . . . . . . . . . . . . 217

VIII.4.2 Méthode de Wilson . . . . . . . . . . . . . . . . . . . . . . . . . 219
VIII.4.3 Cas des contraintes d’inégalité . . . . . . . . . . . . . . . . . . 220
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
216
section N suivant I
VIII.4.1 Cas des contraintes d’égalité

On cherche à résoudre le problème :
minn f (x),
x∈R (VIII.4.1)
hi (x) = 0, i = 1 . . . p
On sait que la recherche d’un point de Kuhn et Tucker revient à résoudre le système à n+p inconnues
et n + p inconnues
∇x L(x, λ) = 0,
(VIII.4.2)
h(x) = 0,
où on a noté L(x, λ) = f (x) + pi=1 λi hi (x) le lagrangien associé à (VIII.4.1). La méthode de
P
Newton consiste, à partir d’un point (xk , λk ), à linéariser (VIII.4.2) au voisinage de ce point, et à
définir (xk+1 , λk+1 ) comme la solution du système obtenu. On peut écrire les équations suivantes :
∇x L(xk , λk ) + ∇2x L(xk , λk )(xk+1 − xk ) + ∇h(xk )(λk+1 − λk ) = 0,

h(xk ) + ∇h(xk )> (xk+1 − xk ) = 0,
où ∇x L(xk , λk ) = ∇f (xk ) + ∇h(xk )λk . Si on pose Sommaire

Concepts
∂h
Jk = ∇h(xk )> = (xk ), Notions
∂x Bibliographie
et Hk = ∇2x L(xk , λk ), on obtient le système
Exemples
Hk Jk>

xk+1 − xk −∇f (xk ) Exercices
= . (VIII.4.3)
Jk 0 λk+1 −h(xk ) Documents
217 II
section N suivant I
Une méthode basée sur la résolution itérative de (VIII.4.3) présentera les inconvénients habituels de la Cas des
méthode de Newton : la convergence est locale. De plus, les équations de Kuhn et Tucker sont aussi contraintes
vérifiées pour les maximums. Si on veut remédier à ces inconvénients il faut diposer d’une bonne d’égalité
estimation initiale de (x̂, λ̂), qui peut par exemple être fournie par une méthode de pénalisation.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 218
VIII.4.2 Méthode de Wilson
Dans la méthode précédente, pour éviter les points stationnaires qui ne sont pas des minimum,
on peut faire l’analyse suivante : si on note sk = xk+1 − xk on observe que le système (VIII.4.3)
s’écrit
Hk yk + Jk> λk+1 = −∇f (xk ).
Le vecteur yk est la solution du problème d’optimisation quadratique suivant :
miny 21 y > Hk y + ∇f (xk )> y,

(VIII.4.4)
Jk y + h(xk ) = 0,
et λk+1 est le multiplicateur associé. Au lieu de résoudre le système (VIII.4.3) on peut donc résoudre
le problème (VIII.4.4), ce qui permet d’éviter les points stationnaires qui ne sont pas des minima.
La résolution de ce problème peut se faire avec toute méthode adaptée aux problèmes quadratiques.
Cette extension de la méthode de Newton est due à Wilson.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
219
VIII.4.3 Cas des contraintes d’inégalité
La méthode de Wilson vue au grain précédent se généralise très facilement au cas des contraintes
d’inégalité. Si le problème original est de la forme :
minn f (x),
x∈R (VIII.4.5)
gi (x) ≤ 0, i = 1 . . . m,
les contraintes linéarisées prennent la forme
∇g(xk )> y + g(xk ) ≤ 0.
On peut alors utiliser une méthode consistant à résoudre itérativement le problème quadratique
miny 21 y > Hk y + ∇f (xk )> y,

(VIII.4.6)
Jk y + g(xk ) ≤ 0,
Remarque VIII.4.1. Comme on l’a déjà dit la méthode de Wilson (pour les contraintes d’égalité et
d’inégalité) ne converge que localement. La globalisation de cette méthode peut se faire en utilisant
Sommaire
une approximation de quasi-Newton pour la matrice Hk = ∇2x L(xk , λk ) et en faisant une recherche Concepts
linéaire dans la direction sk pour définir xk+1 = xk +ρk sk . Lors de la recherche linéaire, on cherche Notions
alors à minimiser une fonction de mérite du type Bibliographie
p
Exemples
X
θ(x) = f (x) + c |hi (x)|,
Exercices
k=1 Documents
220 II
dans le cas des contraintes d’égalité, ou Cas des

m
X contraintes
σ(x) = f (x) + c gi+ (x), d’inégalité
k=1
dans le cas des contraintes d’inégalité (dans ce dernier cas c doit être un majorant des multiplica-
teurs optimaux). Les fonctions σ(x) et θ(x) sont des fonctions de pénalisation exacte : cette termi-
nologie traduit le fait que contrairement aux fonctions de pénalisation différentiables que l’on a vu
précédemment, le minimum de θ ou σ peut coïncider avec x̂ pour des valeurs finies de c.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 221
Exemples du chapitre VIII
VIII.1 Un problème pénalisé . . . . . . . . . . . . . . . . . . . . . . . . 223

VIII.2 Equilibre d’une chaine . . . . . . . . . . . . . . . . . . . . . . . 224
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
222
section N suivant I
Exemple VIII.1 Un problème pénalisé
On considère le problème
min 21 x2 ,

x ≥ 1.
La fonction pénalisée s’écrit
1 1
f (x) = x2 + ([1 − x]+ )2 .
2
Pour x 6∈ K on a
2
∇f (x) = x − (1 − x).

Si on fait l’hypothèse a priori que x 6∈ K alors on a
2
x − (1 − x ) = 0,

et donc x = (1 + /2)−1 . On a bien x 6∈ K et
lim x = 1. Sommaire
→0
Concepts
Notions
Bibliographie
Retour au grain
Exemples
Exercices
Documents
223
Exemple VIII.2 Equilibre d’une chaine
TODO Eric : un exemple pour ce chapitre, comme l’exemple de la chaine ?
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
224
Chapitre IX
Méthodes utilisant la notion de dualité
IX.1 Elements sur la dualité . . . . . . . . . . . . . . . . . . . . . . . . . . . 226

IX.2 Methodes duales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
Exemples du chapitre IX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
225
IX.1 Elements sur la dualité
IX.1.1 Le problème dual . . . . . . . . . . . . . . . . . . . . . . . . . . 227

IX.1.2 Point-col du lagrangien . . . . . . . . . . . . . . . . . . . . . . . 230
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
226
section N suivant I
IX.1.1 Le problème dual
On s’intéresse ici aux problèmes avec contrainte d’inégalité du type
minn f (x),
x∈R (IX.1.1)
g(x) ≤ 0,
et on note comme d’habitude K = {x ∈ Rn , g(x) ≤ 0}. Le problème (IX.1.1) est appellé problème
primal par opposition au problème dual que l’on va maintenant définir.
Soit ϕ(x) une fonction indicatrice de K :
ϕ(x) = 0, si x ∈ K, (IX.1.2)
ϕ(x) = +∞, sinon. (IX.1.3)
Alors le problème primal est équivalent à
minn f (x) + ϕ(x).

x∈R
On peut construire la fonction ϕ de la façon suivante : Sommaire

Concepts
m
X Notions
ϕ(x) = max λ> g(x) = max λi gi (x). Bibliographie
λ≥0 λ≥0
i=1
Exemples
On peut vérifier que la fonction ainsi définie a bien les caractéristiques données par (IX.1.2)-(IX.1.3) : Exercices
si x ∈ K on a gi (x) ≤ 0 et donc λ> g(x) ≤ 0, le max est donc atteint pour λ = 0. Si x 6∈ K il existe Documents
227 II
section N suivant I
j tel que gj (x) > 0, et donc λ> g(x) peut être rendu arbitrairement grand en faisant tendre λj vers Le problème
+∞. dual
Le problème primal est donc équivalent au problème

>
minn f (x) + max λ g(x) ,
x∈R λ≥0
et si on utilise le lagrangien L(x, λ) = f (x) + λ> g(x), on peut alors noter que le problème primal
s’écrit
minn max L(x, λ). (IX.1.4)
x∈R λ≥0
Définition IX.1.1. On appelle problème dual du problème (IX.1.1) le problème
max minn L(x, λ), (IX.1.5)

λ≥0 x∈R
et appelle w(λ) = minx∈Rn L(x, λ) la fonction duale.
Proposition IX.1.1. La fonction duale w(λ) est concave.
Démonstration : Soient λ1 ≥ 0, λ2 ≥ 0, θ ∈ [0, 1] et λ = θλ1 + (1 − θ)λ2 . Il existe x1 ,x2 Sommaire

Concepts
et x tels que Notions
Bibliographie
w(λ1 ) = L(x1 , λ1 ),
w(λ2 ) = L(x2 , λ2 ), Exemples
w(λ) = L(x, λ). Exercices
Documents
JJ 228 II
section N suivant I
On a donc par définition de la fonction duale : Le problème

dual
w(λ1 ) ≤ L(x, λ1 ),
w(λ2 ) ≤ L(x, λ2 ).
Si on multiplie la première inéquation par θ et la deuxième par (1 − θ) il vient
θw(λ1 ) + (1 − θ)w(λ2 ) ≤ f (x) + [θλ1 + (1 − θ)λ2 ]> g(x) = w(λ).
2 Ce qui est remarquable dans cette propriété est que le résultat ne suppose absolument rien sur la
convexité des fonctions f et gi .
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 229
IX.1.2 Point-col du lagrangien

On montre facilement la proposition suivante :
Proposition IX.1.2. On a

max minn L(x, λ) ≤ minn max L(x, λ) .
λ≥0 x∈R x∈R λ≥0
Démonstration : On a L(x, λ) ≤ maxλ≥0 L(x, λ) et donc par définition de w(λ)

w(λ) ≤ minn max L(x, λ).
x∈R λ≥0
On a donc
max w(λ) ≤ minn max L(x, λ),
λ≥0 x∈R λ≥0
ce qui montre le résultat. 2 Si l’on note que par construction

minn max L(x, λ) = f (x̂),
x∈R λ≥0
où x̂ est la solution du problème primal, on a donc Sommaire

Concepts
max w(λ) ≤ f (x̂). Notions
λ≥0
Bibliographie
Alors s’il existe bien un maximum de la fonction duale atteint pour λ = λ̄, la valeur w(λ̄) est un
minorant de f (x̂) et il existe un point x(λ̄) tel que Exemples
Exercices
w(λ̄) = L(x(λ̄), λ̄) ≤ f (x̂). Documents
230 II
Le théorème suivant précise dans quelles conditions on a x(λ̄) = x̂ : Point-col du

Théorème IX.1.2. S’il existe un couple (x̂, λ̂) tel que lagrangien
L(x̂, λ) ≤ L(x̂, λ̂) ≤ L(x, λ̂), ∀x ∈ Rn , ∀λ ∈ Rm ,
alors x̂ est une solution du problème primal et λ̂ est le multiplicateur de Kuhn et Tucker associé.
Un point vérifiant cette propriété est appelé un point-col du lagrangien. On a dans ce cas
L(x̂, λ̂) = max w(λ) = min f (x).
λ≥0 x∈K
Lorsque ce point existe, on peut donc résoudre le problème dual à la place du problème primal :
l’intérêt principal est la concavité de la fonction duale ainsi que la simplicité des contraintes. On
voit aussi que même lorsqu’il n’existe pas de point col, le maximum de la fonction duale fournit un
minorant de f (x̂), ce qui peut être utile dans certaines circonstances. On appelle alors la différence
f (x̂) − w(λ̂) le saut de dualité.
Théorème IX.1.3. Si f est strictement convexe, si les gi sont convexes et si K est d’intérieur non-
vide, l’existence de x̂ est équivalente à l’existence de λ̂ et on a
w(λ̂) = L(x̂, λ̂) = f (x̂).
Il existe cependant des cas où il existe un point-col et les conditions précédentes ne sont pas
vérifiées. Quand il n’y a pas de point-col, on peut faire alors appel à des techniques où on utilise un Sommaire
lagrangien augmenté du type Concepts
m Notions
X Bibliographie
L(x, λ, r) = f (x) + λ> g(x) + r (gi+ (x))2 ,
i=1
Exemples
pour définit la fonction duale. Ce type d’approche permet de généraliser les méthodes duales pour
Exercices
les cas typiquement non-convexes. Documents
JJ 231
IX.2 Methodes duales
IX.2.1 Méthode d’Uzawa . . . . . . . . . . . . . . . . . . . . . . . . . . 233

IX.2.2 Méthode d’Arrow et Hurwicz . . . . . . . . . . . . . . . . . . . . 235
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
232
section N suivant I
IX.2.1 Méthode d’Uzawa
Le principe de la méthode d’Uzawa est d’utiliser la méthode du gradient pour maximiser la

fonction duale, tout en tenant compte de la contrainte λ ≥ 0 : cela donne la méthode
λk+1 = [λk + ρk ∇w(λk )]+ .
L’utilisation de cette méthode suppose que la fonction duale est différentiable (au moins a l’opti-
mum). Ce sera le cas si le minimum en x de L(x, λ̂) est unique. Dans ce cas si on note x(λ) le
vecteur tel que
w(λ) = L(x(λ), λ),
on peut écrire que
dx(λ)
∇w(λ) = ∇x L(x(λ), λ) + ∇λ L(x(λ), λ),
dλ
= g(x(λ)),
puisque x(λ) est par définition le minimum en x de L(x, λ). L’algorithme de la méthode est donc le
suivant : Sommaire
Concepts
Notions
Algorithme d’Uzawa Bibliographie
Exemples
Exercices
Documents
233 II
section N suivant I

1. Poser k = 0 et λ0 = 0.
Méthode
2. Déterminer xk solution du problème minn f (x) + λ>
k g(x)

d’Uzawa

x∈R

3. Si maxi gi (xk ) < alors on s’arrête.
4. Sinon, calculer λk+1 = [λk + ρk g(xk )]+

5. Faire k ← k + 1 et retourner en 2.

Au point 4 on peut choisir ρk fixe ou bien faire une recherche linéaire. Lorsque la fonction duale
est mal conditionnée, on peut aussi utiliser une méthode de quasi-Newton. Dans le test d’arrêt choisi
la valeur de > 0 devra être choisie prudemment : en effet, s’il n’existe pas de point-col on ne peut
avoir xk ∈ K et donc si est trop petit l’algorithme ne s’arrêtera pas.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 234
IX.2.2 Méthode d’Arrow et Hurwicz
Cette méthode est très voisine de la méthode d’Uzawa. Au lieu de déterminer xk comme le
minimum de L(x, λk ) on se contente d’un pas dans la direction −∇x L(x, λk ) : on définit xk+1 par
xk+1 = xk − αk ∇x L(xk , λk ),
et λk+1 par
λk+1 = [λk + ρk g(xk )]+ .
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
235
Exemples du chapitre IX
IX.1 Equilibre d’une chaîne . . . . . . . . . . . . . . . . . . . . . . . 237
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
236
section N
Exemple IX.1 Equilibre d’une chaîne
TODO Eric : un exemple de dualité, par exemple l’équilibre de la chaine ?
Retour au grain
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
237
J précédent
Chapitre X
Méthodes d’optimisation globale
X.1 Généralités sur l’optimisation globale . . . . . . . . . . . . . . . . . . . 239

X.2 La méthode DIRECT . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
X.3 La méthode EGO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
X.4 La méthode CMA-ES . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
238
X.1 Généralités sur l’optimisation globale
X.1.1 Introduction à l’optimisation globale . . . . . . . . . . . . . . . . 240
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
239
section N
X.1.1 Introduction à l’optimisation globale
TODO Rodolphe
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
240
X.2 La méthode DIRECT
X.2.1 Introduction à DIRECT . . . . . . . . . . . . . . . . . . . . . . . 242
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
241
section N
X.2.1 Introduction à DIRECT
TODO Rodolphe
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
242
X.3 La méthode EGO
X.3.1 Introduction à EGO . . . . . . . . . . . . . . . . . . . . . . . . . 244
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
243
section N
X.3.1 Introduction à EGO
TODO Rodolphe
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
244
X.4 La méthode CMA-ES
X.4.1 Introduction à CMA-ES . . . . . . . . . . . . . . . . . . . . . . . 246
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
245
section N
X.4.1 Introduction à CMA-ES
TODO Rodolphe
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
246
Index des concepts
Le gras indique un grain où le concept est dé- CMA-ES (intro) . . . . . . . . . . . . . . . . . . . . . . . . . . 245

fini ; l’italique indique un renvoi à un exercice ou un Condition nécéssaire du second ordre . . . . . . 191
exemple, le gras italique à un document, et le romain Condition nécéssaire du second ordre - contraintes
à un grain où le concept est mentionné. d’inégalité. . . . . . . . . . . . . . . . . . . . . . .194
Conditions nécessaires (sans contraintes) . . . . 65
A Conditions nécessaires et suffisantes (sans contraintes)
A quoi sert l’optimisation ? . . . . . . . . . . . . . . . . . 12 66
A quoi sert l’optimisation ? . . . . . . . . . . . . . . . . 18 conjugaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Algorithme BFGS . . . . . . . . . . . . . . . . . . . . . . . . 153 Convexité (relation avec le gradient) . . . . . . . . . 59
Algorithme DFP . . . . . . . . . . . . . . . . . . . . . 147, 149 Convexité (relation avec le hessien) . . . . . . . . . 57
Convexité des ensembles . . . . . . . . . . . . . . . . . . . 53 Sommaire
Convexité des fonctions . . . . . . . . . . . . . . . . . . . . 55 Concepts
B Courbe admissible . . . . . . . . . . . . . . . . . . . . . . . . 169 Notions
Broyden (formule de) . . . . . . . . . . . . . . . . . . . . . 144 Bibliographie
D
C Difficultés pratiques . . . . . . . . . . . . . . . . . . . . . . . 34
Exemples
Exercices
Calcul du pas optimal (cas quadratique) . . . . . 90 différentiabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Documents
247 II
DIRECT (intro) . . . . . . . . . . . . . . . . . . . . . . . . . . 241 H
Direction admissible . . . . . . . . . . . . . . . . . . . . . . 166 Historique du cours . . . . . . . . . . . . . . . . . . . . . . . . . 9
Distance d’un point à un plan . . . . . . . . . . . . . . 183
Dérivée directionnelle . . . . . . . . . . . . . . . . . . . . . 49
I
interpolation cubique . . . . . . . . . . . . . . . . . . . . . 132
E Intervalle de sécurité . . . . . . . . . . . . . . . . . . . . . . 121
EGO (intro) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
Estimation des multiplicateurs . . . . . . . . . . . . . 213
exemple en mécanique . . . . . . . . . . . . . . . . . 15, 41 K
existence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Kuhn et Tucker - interprétation géométrique 180
F L
Forme quadratique (définition) . . . . . . . . . . . . . . 41 La méthode de Newton projetée . . . . . . . . . . . 200
forme quadratique définie positive (propriétés)43 Lagrangien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
Formulation générale . . . . . . . . . . . . 12, 27, 29, 38 Les grands mécanismes des optimiseurs . . . . . 38
Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . . 158
Linéarisation du lagrangien . . . . . . . . . . . . . . . . 216
G
Gauss-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 Sommaire
Globalité (intro) . . . . . . . . . . . . . . . . . . . . . . . . . . 239 M Concepts
Matrice Hessienne . . . . . . . . . . . . . . . . . . . . . . . . . 51 Notions
Gradient conjugué : algorithme . . . . . . . . . . . . 103
Bibliographie
Gradient conjugé : étude de convergence. . . .112 Mise à jour de l’approximation du hessien . . 143
Gradient conjugé, Interprétation, sous espace de moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Méthode d’Arrow et Hurwicz. . . . . . . . . . . . . .234 Exemples
Krylov . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Exercices
Gradient projeté . . . . . . . . . . . . . . . . . . . . . . . . . . 197 Méthode d’Uzawa . . . . . . . . . . . . . . . . . . . . . . . . 232 Documents
JJ 248 II
Méthode de directions réalisables . . . . . . . . . . 204 Problème avec contraintes d’égalité . . . . . . . . 165
Méthode de Fletcher-Reeves et variante de Polak- problème dual . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
Ribière . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Problème standard (avec contraintes) . . . . . . . 164
Méthode de la section dorée . . . . . . . . . . . . . . . 123 Programme quadratique (exemple) . . . . . . . . . 186
méthode de Newton . . . . . . . . . . . . . . . . . . . . . . 136 Propriété de minimisation . . . . . . . . . . . . . . . . . . 99
Méthode de Wilson . . . . . . . . . . . . . . . . . . . . . . . 218 Préconditionnement . . . . . . . . . . . . . . . . . . . . . . 138
Méthode de Wilson (contraintes d’inégalité) 219 Pseudo-inverse . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
Méthode du gradient simple . . . . . . . . . . . . . . . . 87 Pénalisation externe . . . . . . . . . . . . . . . . . . . . . . 208
Méthode du gradient à pas optimal . . . . . . . . . . 89 Pénalisation interne . . . . . . . . . . . . . . . . . . . . . . . 212
N R
navigation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Recherche linéaire . . . . . . . . . . . . . . . . . . . . . . . . 120
Relation de quasi-Newton . . . . . . . . . . . . . . . . . 141
Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
O Règle d’Armijo . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Optimisation et dessins de fonctions . . . . . . . . . 36 Règle de Goldstein . . . . . . . . . . . . . . . . . . . . . . . 127
Optimisation locale vs. globale . . . . . . . . . . . . . 31 Règle de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . 129
Optimiseurs et simulateurs . . . . . . . . . . . . . . . . . 29 Réduction de l’intervalle, principe . . . . . . . . . 131
Sommaire
P T Concepts
Notions
Parcours dans le cours . . . . . . . . . . . . . . . . . . . . . 10 Théorème de Lagrange . . . . . . . . . . . . . . . . . . . 173 Bibliographie
Point-col . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
Positionnement optimal d’antennes . . . . . . . . . . 18
Principe des méthodes de descente . . . . . . . . . . 84 U
Exemples
Exercices
Problème avec contraintes d’inégalité . . . . . . 176 Unicité (lien avec la convexité) . . . . . . . . . . . . . 63 Documents
JJ 249
Index des notions
Symbols F
x∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Fonction coût . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Formulation générale . . . . . . . . . . . . . . . . . . . . . . 27
C
continuité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 G
Contraintes d’inégalité . . . . . . . . . . . . . . . . . . . . . 27 gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Contraintes d’égalité . . . . . . . . . . . . . . . . . . . . . . . 27
Critères d’optimisation . . . . . . . . . . . . . . . . . . . . . 27
I
Itération d’optimiseur . . . . . . . . . . . . . . . . . . . . . . 29
D Sommaire
Différences finies . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Concepts
Dérivée directionnelle . . . . . . . . . . . . . . . . . . . . . 49 J Notions
jacobienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Bibliographie
E Exemples
enveloppe convexe . . . . . . . . . . . . . . . . . . . . . . . . 75 O Exercices
Optimiseur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Documents
250 II
P
p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
S
Simulateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
V
Variable d’optimisations . . . . . . . . . . . . . . . . . . . 27
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
JJ 251
Bibliographie
[1] L. Grosset. Optimization of Composite Structures by Estimation of Distribution Algorithms. PhD

thesis, Univ. of Florida and Ecole Nationale Supérieure des Mines de Saint-Etienne, September
2004.
Sommaire
Concepts
Notions
Bibliographie
Exemples
Exercices
Documents
252
Aide 1, Exercice II.4
Utiliser l’expression de ∇f (x) donnée à l’exercice précédent.
Retour à l’exercice N

Optimisation Locale Globale

Transféré par

Droits d'auteur :

Formats disponibles

Optimisation Locale Globale

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Optimisation Locale Globale

Transféré par

Droits d'auteur :

Formats disponibles

Optimisation locale et globale

Rodolphe Le Riche1,3 , Stéphane Mottelet2 , Eric Touboul1

I Préambule et généralités sur l’optimisation 5

II Notions fondamentales d’optimisation convexe 39

IV La méthode du gradient conjugué 95

V Méthodes de recherche linéaire 119

VI Méthodes de Quasi-Newton 135

IX Méthodes utilisant la notion de dualité 225

X Méthodes d’optimisation globale 238

I.1.1 Navigation par hyperliens . . . . . . . . . . . . . . . . . . . . . . 7

I.1.1 Navigation par hyperliens

– Gregory Six (Ecole des Mines de Saint-Etienne) pour son aide

I.1.3 Historique du cours

– 2001 : cours de Stéphane Mottelet, “Optimisation Non Linéaire”, Université de Technologie

I.1.4 Parcours possibles dans le cours

Initiation à l’optimisation : section formulations → section généralités → notions fondamen-

I.2.1 A quoi sert l’optimisation ? . . . . . . . . . . . . . . . . . . . . . 12

I.2.1 A quoi sert l’optimisation ?

I.2.2 Un exemple en régression non-linéaire

On propose de faire cette identification en minimisant la fonction Un exemple en

I.2.3 Un exemple de modélisation en mécanique

u(x) ≥ v(x), x ∈]0, 1[. (I.2.2)

I.2.4 Le positionnement d’antennes : un exemple de conception optimale

F IG . I.2.1 – Intersection disque/département

Dans ce problème en dimension 2, on peut facilement représenter les isovaleurs de la fonction

F IG . I.2.2 – Lignes de niveau de la fonction coût

I.1 Calcul de la surface d’un polygone . . . . . . . . . . . . . . . . 23

Exemple I.1 Calcul de la surface d’un polygone

Calcul numérique de la surface S(x,y)

Calcul de la surface d’un polygone

F IG . I.2.4 – Calcul de surface

Exemple pour un triangle et un point P extérieur :

Calcul numérique approché de la surface S

I.3 Formulations des problèmes d’optimisation

I.3.1 Formulation générale des problèmes d’optimisation non linéaire 27

I.3.1 Formulation générale des problèmes d’optimisation non linéaire

La formulation générale d’un problème d’optimisation est la suivante :

où x sont les variables d’optimisation. La ou les solutions de (P C) sont généralement symbolisées

I.3.2 Optimiseurs et simulateurs

xt+1 = Optimiseur x1 , g(x1 )  , . . . , xt , g(xt )  . (I.3.4)

I.3.3 Optimisations locale et globale

Pour éviter les complications liées à la multi-modalité de la fonction et permettre l’élaboration

s’intéressant au problème de l’optimisation locale : Optimisations

où V(xl ) est un voisinage de xl .

I.4 Généralités sur les optimiseurs

I.4.1 Pourquoi, en pratique, l’optimisation est souvent difficile ? . . . 34

I.4.1 Pourquoi, en pratique, l’optimisation est souvent difficile ?

Le coût de calcul du simulateur, qui

Un grand nombre de variables n.

Le mauvais conditionnement numé-

Un bruit affectant les critères d’optimi-

I.4.2 Mise en garde au sujet des représentations graphiques

f (x) = sin (x1 ) cos (x2 ) + 0.1x1 dans [−4, 4]2

Editer le script du graphe dans Scilab

I.4.3 Les grands mécanismes des optimiseurs

II.1 Formes quadratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

II.1 Formes quadratiques

II.1.1 Définition d’une forme quadratique . . . . . . . . . . . . . . . . 41

II.1.1 Définition d’une forme quadratique

x> Ax > 0, ∀x ∈ Rn , x 6= 0. Exemples

kx − ak < η ⇒ kf (x) − f (a)k < .

Démonstration : On a f (a + th) = f (a) + tf 0 (a)h + |t| khk (th), d’où

f (a + h) = f (a) + ∇f (a)> h + h> ∇2 f (a)h + khk2 (h).