Livre

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 111

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/350710278

Introduction à la théorie du contrôle

Book · April 2019

CITATIONS READS

0 3,672

1 author:

Fatima Zahra Mokkedem


Abou Bakr Belkaid University of Tlemcen
9 PUBLICATIONS 114 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Approximate controllability for systems with state dependent delay View project

All content following this page was uploaded by Fatima Zahra Mokkedem on 30 September 2021.

The user has requested enhancement of the downloaded file.


République Algérienne Démocratique et Populaire

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

Université Abou Bekr Belkaid Tlemcen

Faculté des Sciences


Département de Mathématiques

Notes de cours

Introduction à la théorie du contrôle

Contrôlabilité des systèmes linéaires ; Contrôle optimal ; Principe du maximum


de Pontryagin ; Équations d’Hamilton-Jacobi-Bellman.

Dr. MOKKEDEM Fatima Zahra

2018/2019
II

Laboratoire Systèmes Dynamiques et Applications


Université de Tlemcen
Faculté de Technologie
Département de Génie Mécanique
B.P. 230 - 13000 Chetouane - Tlemcen - Algérie.

[email protected]

c MOKKEDEM F.Z.
Préface

Ce polycopié, intitulé “introduction à la théorie du contrôle”, résume les déf-


initions et les théorèmes fondamentaux de la théorie du contrôle en dimension
finie. Le contenu de ce polycopié est réduit et simplifié de sorte qu’il soit lisible
par les débutants dans cette théorie, comme les étudiants de licence et master en
Mathématiques. Une connaîssance préalable de calcul multi-variationnel et des
équations différentielles ordinaires est recommandée pour la compréhension de
ce manuscrit.
Après avoir introduire la théorie du contrôle et donner quelques exemples
de son application, nous abordons dans le premier chapitre les trois notions
de contrôlabilité, d’observabilité et de stabilisation des systèmes linéaires. Les
objectifs de ce chapitre sont :
– Définir et distinguer les trois notions ci-dessus.
– Déterminer les différents ensembles, fonctions et matrices de contrôlabilité
et d’observabilité.
– Appliquer les différents critères de contrôlabilité et d’observabilité.
– Définir le contrôle en feedback et l’utiliser pour stabiliser un système linéaire.
Une fois ces notions sont clarifiées, nous passons dans le deuxième chapitre
vers le contrôle optimal des systèmes linéaires. Un contrôle est dit optimal s’il
vérifie un (ou plusieurs) critère(s). Par exemple, un contrôle qui minimise le
temps nécessaire pour atteindre une cible est dit contrôle temps-minimal. Les
critères à vérifier peuvent avoir une forme simple (quadratique) ou comliquée
(convexe quelconque). Par suite la discussion de l’existence, de l’unicité et de
la forme du contrôle optimal se change selon les conditions imposées. Les outils
fondamentaux dans ce chapitre sont le principe du maximum de Pontryagin et
IV Préface

le Hamiltonien. Les objectifs de ce chapitre sont :


– Définir le contrôle optimal, le contrôle extrémal et le Hamiltonien.
– Déterminer le principe du maximum de Pontryagin.
– Déterminer le système d’optimalité en utilisant le Hamiltonien.
– Distinguer les cas sans et avec contraintes sur le contrôle.
– Distinguer le problème de contrôle optimal en horizon fini et en horizon
infini.
Dans le dernier chapitre, nous généralisons les concepts précédents vers les
systèmes non linéaires. Vu la complicité des systèmes non linéaires, le principe
du maximum ne guarantie plus l’existence des contrôles optimaux. Par suite
nous passons vers la programmation dynamique où nous introduisons les fonc-
tions valeurs et les équations d’Hamilton-Jacobi-Bellman. Nous avons ici comme
objectifs :
– Appliquer les résultats du chapitre précédent sur les systèmes non linéaires.
– Introduire la méthode de pénalisation dans le cas de contraintes sur l’état.
– Déterminer la fonction valeur et l’équation de Hamilton-Jacobi-Bellman.
– Résoudre l’équation de Hamilton-Jacobi-Bellman et obtenir le contrôle op-
timal en feedback.
À la fin de chaque chapitre, nous donnons différents exercices avec corrigés
pour illustrer l’application des résultats théoriques.
Finalement, nous notons que ce manuscrit insiste plus sur les idées que sur les
démonstrations mathématiques. Donc la plupart des résultats sont donnés sans
preuves. Des références détaillées sont toujours indiquées pour voir les démon-
strations complètes et enrichir la connaîssance du lecteur.

c MOKKEDEM F.Z.
Table des matières

Préface III

Introduction et motivation 1

1 Contrôlabilité, observabilité et stabilisation des systèmes linéaires 7


1.1 Contrôlabilité des systèmes linéaires
autonomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Observabilité des systèmes linéaires
autonomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Stabilisation des systèmes linéaires
autonomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Remarques sur la contrôlabilité des systèmes linéaires non au-
tonomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.5 Remarques sur la contrôlabilité des systèmes non linéaires . . . . 22
1.6 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2 Contrôle optimal des systèmes linéaires 34


2.1 Contrôle temps-minimal . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.1 Existence d’un contrôle temps-minimal . . . . . . . . . . . 35
2.1.2 Contrôle extrémal et principe du maximum . . . . . . . . 37
2.1.3 Unicité du contrôle temps-minimal . . . . . . . . . . . . . 39
2.1.4 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . 41
2.2 Problèmes linéaires quadratiques standards . . . . . . . . . . . . . 51
2.2.1 Existence et unicité du contrôle optimal . . . . . . . . . . 51
2.2.2 Principe du maximum et Hamiltonien . . . . . . . . . . . . 55
0 Table des matières

2.2.3 Remarques sur les conditions de transversalité . . . . . . . 58


2.2.4 Contrôle optimal en boucles fermées . . . . . . . . . . . . 58
2.2.5 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . 60
2.3 Coût intégrale convexe quelconque . . . . . . . . . . . . . . . . . 63
2.3.1 Existence d’un contrôle optimal . . . . . . . . . . . . . . . 63
2.3.2 Principe du maximum, Hamiltonien et unicité du contrôle
optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.3.3 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . 67

3 Contrôle optimal des systèmes non linéaires 76


3.1 Existence d’un contrôle optimal . . . . . . . . . . . . . . . . . . . 77
3.2 Principe du maximum et Hamiltonien . . . . . . . . . . . . . . . . 79
3.2.1 Cas sans contraintes sur l’état sans contraintes sur le contrôle 79
3.2.2 Cas sans contraintes sur l’état avec contraintes sur le contrôle 80
3.2.3 Plus de remarques sur les conditions de transversalité . . . 81
3.2.4 Remarques sur le cas avec contraintes sur l’état . . . . . . 82
3.2.5 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . 83
3.3 Programmation dynamique . . . . . . . . . . . . . . . . . . . . . . 90
3.3.1 Fonction valeur de Bellman . . . . . . . . . . . . . . . . . 90
3.3.2 Équations d’Hamilton-Jacobi-Bellman . . . . . . . . . . . 93
3.3.3 Le contrôle optimal en feedback . . . . . . . . . . . . . . . 95
3.3.4 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . 96

Bibliographie 103

c MOKKEDEM F.Z.
Introduction et motivation

Danc ce manuscrit, on s’intéresse aux équations différentielles ordinaires (EDO)


définies sur des espaces de dimensions finies comme Rn . Ces EDO peuvent
représenter l’évolution d’un phénomène au cours du temps. Dans le but de
dominer cette évolution, on ajoute un nouveau terme à l’équation que l’on appelle
contrôle. Si on peut trouver un contrôle qui conduit la solution associée dans un
temps bien précis vers un état final bien défini alors cette équation (évolution)
est exactement contrôlable en ce temps. En particulier, si ce contrôle force la
solution à s’annuler en temps donné, alors l’équation est contrôlable à zéro en
ce temps. On remarque que les notions de contrôlabilité se changent selon les
objectifs voulus. Par exemple, si on veut trouver un contrôle qui rend la solution
insensible aux petites perturbations alors c’est un problème de stabilisation. En
général, un contrôle (dit aussi entrée) qui produit la meilleure solution (sortie)
vérifiant un (ou plusieurs) critère(s) donné(s) est un contrôle optimal.

La théorie qui traite tout les aspects ci-dessus s’appelle théorie du contrôle
oubien théorie de l’optimisation dynamique. Ces origines remontent au début du
vingtième siècle et depuis lors elle a continué à se développer et à s’adapter aux
besoins des mathématiciens, physiciens, mécaniciens, chimistes, biologistes, etc.
Les applications de cette théorie sont très nombreuses et variées. On cite ici un
exemple pour motiver le lecteur :
Le système masse-ressort où la position de la masse à l’instant t, notée y(t),
suit l’équation différentielle linéaire suivante :

 mÿ(t) + ky(t)
 = 0, t ≥ 0,
(1)
 y(0) = y0 et ẏ(0) = v0 .

2 Introduction et motivation

Ici m est la masse dont sa position initiale est y0 et sa vitesse initiale est v0 , ÿ(·)
est l’accélération de la masse et k est un coefficient de raideur du ressort. Si on
veut contrôler le mouvement de la masse attachée au ressort, on peut appliquer
une force extrérieure au système (1), notée u(·) et dite contrôle, d’où

 mÿ(t) + ky(t)
 = u(t), t ≥ 0,
(2)
 y(0) = y0 et ẏ(0) = v0 .

Une des questions posées est : est-ce que pour tout moment final T donné on
peut trouver un contrôle qui conduit la solution vers une position finale y(T ) = y1
et une vitesse finale ẏ(T ) = v1 bien définies à l’avance ? Ceci est un problème de
contrôlabilité.

Si la réponse est positive, on peut aussi chercher le bon contrôle qui le fait
en plus petit temps possible. Ceci est un problème de temps-minimal (temps-
optimal).

Si le temps final T est fixé, on peut par exemple chercher le contrôle de


norme minimale pour lequel la solution du système (2) atteint la cible (y1 , v1 ).
Ceci revient à minimiser la quantité
Z T
J(u) = ku(t)k2 dt
0

sous la condition (contrainte sur l’état final) (y(T ), ẏ(T )) = (y1 , v1 ).

On peut plutôt chercher le contrôle pour lequel le système (2) atteint la cible
(y1 , v1 ) en minimisant l’énergie fournie :

1Z T 
E(T ) = mkẏ(t)k2 + kky(t)k2 dt.
2 0

En regroupant les deux critères ci-dessus et en maximisant la distance par-


courue ky(T ) − y0 k, le problème de contrôle optimal devient : trouver le contrôle
u qui minimise le critère (coût) :

1Z T 
J(u) = −ky(T ) − y0 k + mkẏ(t)k2 + kky(t)k2 + ku(t)k2 dt.
2 0

c MOKKEDEM F.Z.
Introduction et motivation 3

Comme toute force extérieure est physiquement limitée, alors on peut ajouter
la condition (contrainte sur le contrôle) :

∃a > 0 tel que ku(t)k ≤ a ∀t ∈ [0, T ].

En général, les contrôles qui vérifient tous les critères imposés (contrôles op-
timaux) sont indépendants de la trajectoire y(·) solution du système (2). On dit
qu’ils sont en boucles ouvertes. Cependant, si le contrôle optimal prend la forme
u(t) = M y(t), alors il est en boucles fermées ou en feedback. Avec telle forme le
système (2) devient :

 mÿ(t) + (k
 − M ) y(t) = 0, t ≥ 0,
(3)
 y(0) = y0 et ẏ(0) = v0 .

Si le système non contrôlé (2) est instable, alors il est très important de trouver
le bon contrôle en feedback u pour lequel le système contrôlé (3) soit stable. C’est
un problème de stabilisation.
On remarque qu’en variant nos objectifs ainsi que les contraintes imposées,
les problèmes du contrôle ainsi que leurs résolutions aussi varient. De plus, si le
système (1) et non linéaire, par exemple si :

 mÿ(t) + k1 (y(t) − d) + k2 (y(t) − d)3
 = 0, t ≥ 0,
 y(0) = y0 et ẏ(0) = v0 ,

où k1 et k2 sont deux coefficients de raideur et d est la longueur du ressort


au repos, alors toutes les discussions deviennent plus au moins plus compliquées.
Tous ces détails (et beaucoup d’autres) rendent la théorie du contrôle un domaine
très attirant pour la recherche.
En restant dans le but de motiver le lecteur, on ajoute les exemples suivants
des systèmes qui modélisent différents phénomènes et qui pour une raison ou une
autre nécessitent d’être contrôlés :
Un circuit RLC : Soient R une résistence électrique, L une bobine (induc-
tance) et C un condensateur (capacité). Donc le comportement de ces trois

c MOKKEDEM F.Z.
4 Introduction et motivation

composantes est décrit par le système suivant :

∂i q(t)
L (t) + Ri(t) + = 0, t≥0
∂t C
Rt
où i(·) est l’intensité du courant et q(t) = 0 i(s)ds est la charge du con-
densateur. On veut appliquer une force à cette équation pour contrôler son
évolution.
Un réservoir est lié à deux vannes : une d’alimentation et une d’évaluation.
Le niveau de l’eau dans le réservoir y(t) est modélisé par :

 ẏ(t)
 = −ay(t) + bu(t), t ≥ 0,
 y(0) = 0,

ici a et b sont deux coefficients relatifs aux grandeurs physiques du réservoir


et u(t) est le débit de l’eau depuis la vanne d’alimentation. En supposant
que u(·) est borné, on veut atteindre un niveau d’eau yT bien précis en
minimisant le temps nécessaire.
Une pêcherie où la population de poisson (mesurée par sa masse en tonnes)
y(t) évolue selon l’équation suivante :

r 2

 ẏ(t)

 = ry(t) − y (t) − u(t), t ≥ 0,
K

 y(0)

= y0 ,

avec r le taux de naissance, K la capacité d’obsorption de l’environnement


et u(·) le taux de pêche. On peut supposer (par simplicité) que u(t) = Ey(t)
avec E une constante dans [0, r] représentant une moyenne entre l’effort de
pêche et les conditions de pêche.
On cherche le contrôle optimal qui maximise le coût :
Z T
J(u) = e−γt ln(u(t))dt
0

et garantie y(T ) > 0. Ici γ est le taux de réduction dû au stockage etc.


Une population d’abeilles constituée au temps t de x(t) reines et y(t)

c MOKKEDEM F.Z.
Introduction et motivation 5

travailleuses est modélisée par :



 ẋ(t)
 = a(1 − u(t))y(t), t ∈ [0, T ],
 ẏ(t) = bu(t)y(t) − cy(t), t ∈ [0, T ],

où a, b et c sont des réels strictement positifs tels que b > c et u(t) est un
contrôle représentant l’effort des abeilles pour fournir des reines à la ruche
avec u(t) ∈ [0, 1]. Trouver le contrôle optimal pour maximiser à l’instant T
le nombre des reines.
Une économie est faite par une personne qui dispose d’un revenu x(t) et
d’un taux d’intérêt a sur l’argent mise à la banque. Donc la somme totale
y(t) de l’argent de cette personne est modélisée par :

 ẏ(t)
 = x(t) + ay(t) − u(t), t ≥ 0,
 y(0) = y0 ,

où u représente les dépenses supposées bornées. En supposant que T est


suffisemment grand, on veut minimiser le coût :
Z T
−y(T ) + (u(t) − y(t)) dt.
0

D’autres exemples sont présentés et étudiés dans les exercices corrigés don-
nés à la fin de chaque section comme le système proies-prédateurs, le pendule
inversé, le mouvement d’une voiture, le contrôle d’un avion, etc. Beaucoup plus
d’exemples peuvent être trouvés dans les références suivantes [4, 9, 10, 14] et
[15]. On note ici que ce n’est pas toujours évident de résoudre les problèmes de
contrôlabilité et de contrôle optimal analytiquement. C’est pourquoi plusieurs
méthodes numériques ont été développées au cours des dernières années. Pour
les détails sur l’aspect numérique voir [2, 3, 5, 10] et [14].

En particulier dans ce cours on résume l’essentiel de la théorie du contrôle


en dimension finie. Dans le premier chapitre on définit la contrôlabilité, l’observ-
abilité et la stabilisation. On explique le lien entre ses trois notions et on les
étudie quand le système contrôlé est linéaire. Évidemment, si le système contrôlé

c MOKKEDEM F.Z.
6 Introduction et motivation

est non linéaire, alors la discussion de ces notions devient très compliquée. Dans
ce manuscrit on se limite à la linéarisation des systèmes autour de leurs points
d’équilibre et par suite l’étude revient au cadre linéaire et les résultats deviennent
locaux.
Dans le deuxième chapitre, on introduit l’aspect du contrôle optimal. On
considère les systèmes linéaires et on passe du problème de temps-minimisation
vers les coûts quelconques en passant par ceux de type quadratique. Dans chaque
cas, on donne le lien entre les contrôles optimaux et ceux extrémaux, on traduit
l’extrémalité par un principe du maximum puis on le reformule en utilisant le
Hamiltonien. Au cours du chapitre, on change les contraintes imposées sur le
temps final, l’état final et le contrôle et on remarque comment le principe du
maximum et le Hamiltonien s’adaptent avec ces changements.
Dans le dernier chapitre, on considère les systèmes non linéaires et on observe
comment les relations données dans le chapitre précédent sont influées par la
non linéarité du système. En particulier, le principe du maximum devient une
conséquence et pas une cause d’optimalité, ce qui nous tourne vers une autre
technique, dite la programmation dynamique, où le problème de contrôle optimal
devient un problème de résolution d’une équation aux dérivées partielles.
L’objectif de ce cours est de définir, distinguer et appliquer les notions présen-
tées ci-dessus. Plus de notions, détails, démonstrations, résultats et exercices se
trouvent dans les références bibliographiques citées à la fin. Plusieurs autres
références peuvent être trouvées dans la littérature.

c MOKKEDEM F.Z.
Chapitre 1

Contrôlabilité, observabilité et
stabilisation des systèmes
linéaires

La principale préoccupation de ce chapitre est la contrôlabilité des systèmes


linéaires de dimension finie, c’est à dire des systèmes définis sur un espace d’état
de dimension finie (Rn ou Cn ) et donnés par des équations linéaires.
La contrôlabilité est la propriété de pouvoir trouver au moins un contrôle (dit
entrée) tel que la solution du système contrôlé peut atteindre n’importe quel état
final en temps fini prédéfini.
Cette propriété peut être directement vérifiée par des outils algébriques ou-
bien démontrée en utilisant la notion de l’observabilité. Cette dernière est la
propriété de pouvoir déterminer la condition initiale du système en observant sa
sortie. Un système linéaire est contrôlable si et seulement si son système adjoint
est observable.
Quand un système linéaire est contrôlable on peut passer plus loin et chercher
un contrôle qui permet au système étudié de vérifier d’autres propriétés comme la
stabilité. On sait que si un système est stable alors toutes petites perturbations de
son état initiale n’influent pas son évolution, c’est une propriété très importante
en application.
L’objectif de ce chapitre est de présenter en détails les trois notions précé-
8 1. Contrôlabilité, observabilité et stabilisation des systèmes linéaires

dentes dans le cas des systèmes linéaires autonomes, c’est à dire des systèmes
linéaires décrits par des matrices constantes. Quand ces matrices dépendent du
temps t, les systèmes sont dits non autonomes. Quelques remarques sur la con-
trôlabilité des systèmes linéaires non autonomes sont aussi données dans la suite.
Comme le cas des systèmes non linéaires est plus compliqué que celui des
systèmes linéaires, on se limite dans ce chapitre à linéariser ces systèmes autour
de ces points d’équilibre et étudier localement leurs contrôlabilité.
À la fin de ce chapitre on donne quelques exercices avec solutions.
Pour plus de détails sur tout le contenu de ce chapitre, voir [1, 2, 6, 9] et [14].

1.1 Contrôlabilité des systèmes linéaires


autonomes

Dans cette section on considère la classe des équations différentielles linéaires


autonomes suivantes :

 ẋ(t)
 = Ax(t) + Bu(t), ∀t ∈ [0, T ],
(1.1)
 x(0) = x0 ,

avec x(·) ∈ Rn est l’état, u(·) ∈ L2 (0, T ; Rm ) est le contrôle et A : Rn → Rn et


B : Rm → Rn sont des matrices linéaires et bornées. Ici n et m sont deux entiers
naturels tels que généralement m ≤ n.
La solution unique de l’équation (1.1) est donnée par la formule de Duhamel
par :
Z t
tA
x(t) = e x0 + e(t−ν)A Bu(ν)dν pour tout t ∈ [0, T ].
0

Puisque la solution x(·) du système (1.1) dépend de la condition initiale x0 et du


contrôle u, on la note x(·, x0 , u) au lieu de x(·).
Pour toute condition initiale x0 ∈ Rn et tout état final x1 ∈ Rn , on dit
que x0 est contrôlable vers x1 s’il existe un temps fini t1 ∈ (0, T ] et un contrôle
u ∈ L2 (0, t1 ; Rm ) tel que x(t1 , x0 , u) = x1 dans (1.1). Inversement on dit que x1
est atteignable depuis x0 à l’instant t1 ∈ (0, T ].

c MOKKEDEM F.Z.
1.1 Contrôlabilité des systèmes linéaires
autonomes 9
D’après la définition de la contrôlabilité, on voit qu’elle est basée sur l’ensem-
ble des états finaux qu’on puisse atteindre à partir de x0 à l’instant t1 ∈ (0, T ]
en prenant différents contrôles u(·) dans L2 (0, t1 ; Rm ).

Définition 1.1. ([14], Définition II.2.1) Soit le système linéaire (1.1) et soit
t1 ∈ (0, T ] un temps final donné. On appelle l’ensemble accessible (ou l’ensemble
atteignable) et on note A(t1 ) l’ensemble de tous les états finaux x(t1 , x0 , u) ∈
Rn atteignables depuis x0 ∈ Rn à l’instant t1 en fonction des contrôles u(·) ∈
L2 (0, t1 ; Rm ). Donc, pour tout t1 ∈ (0, T ] et tout x0 ∈ Rn ,

n o
A(t1 ) := x(t1 , x0 , u) | u ∈ L2 (0, t1 ; Rm ) .

Précisément, le système linéaire (1.1) est dit contrôlable à un instant t1 ∈


(0, T ] si tout état x1 de Rn appartient à l’ensemble accessible A(t1 ).

Proposition 1.1. ([14], Définition II.2.2) Le système linéaire (1.1) est dit con-
trôlable à un instant t1 ∈ (0, T ] si et seulement si tout les points de Rn sont
accessibles à l’instant t1 , c’est à dire :

A(t1 ) = Rn . (1.2)

On dit que le système (1.1) est contrôlable (en temps arbitraire) s’il est contrôlable
en tout temps t1 .

Grâce à la linéarité du système (1.1) on peut vérifier facilement que la con-


trôlabilité de n’importe quel x0 ∈ Rn vers n’importe quel x1 ∈ Rn est équivalente
à la contrôlabilité de l’origine x0 = 0 vers tout x1 ∈ Rn , voir [6]. Pour cela, on
suppose dans la suite que x0 = 0 et on définit la map de contrôlabilité par la
solution x(·, 0, u) du système (1.1) correspondante à x0 = 0.

Définition 1.2. ([6], Définition 4.1.3) La map de contrôlabilité du système (1.1)


définie sur [0, T ] est la fonctionnelle linéaire bornée C : L2 (0, T ; Rm ) → Rn définie
pour tout t ∈ [0, T ] par :
Z t
C(t)u = e(t−ν)A Bu(ν)dν, u ∈ L2 (0, T ; Rm ).
0

c MOKKEDEM F.Z.
10 1. Contrôlabilité, observabilité et stabilisation des systèmes linéaires

En multipliant cette map de contrôlabilité par sa transposée C T : Rn →


L2 (0, T ; Rm ), on obtient ce qu’on appelle la gramienne de contrôlabilité.

Définition 1.3. ([6], Définition 4.1.3) La gramienne de contrôlabilité du système


(1.1) définie sur [0, T ] est la fonctionnelle linéaire bornée L : Rn → Rn définie
pour tout t ∈ [0, T ] par :
Z t
T
L(t) = CC T (t) = e(t−ν)A BB T e(t−ν)A dν,
0

où AT est la matrice transposée de A et B T est la matrice transposée de B.

En utilisant ces deux opérateurs, on peut montrer que la condition de con-


trôlabilité (1.2) est équivalente aux propriétés suivantes :

Théorème 1.1. ([6], Définition 4.1.3 et Théorème 4.1.7 et [1], Théorème I.I.2.1)
Le système (1.1) est contrôlable en temps fini t1 ∈ (0, T ] si et seulement si une
des conditions suivantes est vérifiée :
– La map de contrôlabilité C(t1 ) est surjective, ce qui revient à dire :

Im (C(t1 )) = Rn .

– Le noyeau de la transposée de la map de contrôlabilité C(t1 ) est nul, c’est


à dire :
Ker C(t1 )T = {0}.

– La gramienne de contrôlabilité L(t1 ) est définie positive, c’est à dire :

L(t1 ) > 0.

– La condition suivante est vérifiée :

T
B T eνA x = 0 ∀ν ∈ [0, t1 ] =⇒ x = 0.

Notons ici qu’une étude analogue à la précédente reste vraie si le système


linéaire (1.1) est non autonome (voir Section 1.4) ou s’il est défini sur des espaces
de dimension infinie (voir [6], Chapitre 4).

c MOKKEDEM F.Z.
1.1 Contrôlabilité des systèmes linéaires
autonomes 11
En restant dans le cadre des systèmes linéaires autonomes, on peut simplifier
l’étude de la contrôlabilité en transformant les propriétés précédentes à une pro-
priété algébrique facile à vérifier. Pour cela, on utilise la matrice de contrôlabilité.

Définition 1.4. ([2], Définition 6.2.1) La matrice de contrôlabilité du système


(1.1) est la matrice n × nm définie par :

h i
C(A, B) = B, AB, A2 B, · · · , An−1 B .

Théorème 1.2. ([14], Théorème II.2.2) Le système linéaire autonome (1.1) est
contrôlable en temps t1 ∈ (0, T ] si et seulement si la matrice de contrôlabilité
C(A, B) est de rang maximal, d’où :

rang C(A, B) = n.

Cette condition a été démontrée par R.E. Kalman en 1930. Donc elle est
nommée d’après lui par la condition de Kalman. Non seulement cette condition
est facile à vérifier mais elle est aussi indépendante du temps de contrôlabilité t1 .
Ceci nous ramène à conclure qu’en dimension finie, la contrôlabilité des systèmes
linéaires autonomes est indépendante de la condition initiale x0 et du temps final
t1 , voir aussi ([14], Remarque II.2.3).

Exemple 1.1. Soit une masse m attachée à un ressort. Le système masse-ressort


est le suivant :
my 00 (t) + ry(t) = u(t), t ∈ [0, T ]

où y(t) est la position de la masse m à l’instant t et r est un coefficient de raideur.


Ici u est une force extérieure appliquée à m pour la faire bouger vers une position
finale x1 précise.
Pour réécrire le système masse-ressort sous la forme du système (1.1) on pose
   q   
r
y(t) 0 m 0
x(t) = 
 q ,

A=

q

 et B =  q

.

m 0 r 1
r
y (t) − m
0 mr

On a alors n = 2 et m = 1. Pour vérifier la condition de Kalman on a besoin de

c MOKKEDEM F.Z.
12 1. Contrôlabilité, observabilité et stabilisation des systèmes linéaires

trouver la matrice de contrôlabilité C(A, B) = [B, AB]. Un calcul simple nous


donne  
1
0 m
C(A, B) = 
 q


1
mr
0

qui est une matrice de rang égale à 2. Donc le système masse-ressort est con-
trôlable.

Dans la suite de cette section, on s’intéresse au cas où le contrôle u(t) ∈ Ω


avec Ω un sous espace non vide de Rm . Dans ce cas on dit qu’on a des conditions
(des contraintes) sur le contrôle u et que Ω est l’espace des contraintes. On va
voir dans la suite que dans le cas des contraintes sur le contrôle, la condition
de Kalman devient insuffisante pour assurer la contrôlabilité du système linéaire
(1.1). Pour simplifier la discussion on suppose que x0 ∈ Rn est non nulle et que
l’état final x1 est égale à l’origine. En fait, si x1 6= 0, on peut définir le système
linéaire avec condition finale suivant :

 ẏ(t)
 = Ay(t), ∀t ∈ [0, T ],

1) = x1 ,
 y(t

et on note y(t) sa solution unique définie sur [0, T ]. Par suite ψ(t) = x(t) − y(t)
est la solution du système

 ψ̇(t)
 = Aψ(t) + Bu(t), ∀t ∈ [0, T ],
 ψ(0) = ψ0 = x0 − y(0).

On voit maintenant que x(t1 , x0 , u) = x1 est équivalent à ψ(t1 , ψ0 , u) = 0. Fi-


nalement, on a une équivalence entre la notion de contrôlabilité et celle de con-
trôlabilité vers le zéro des systèmes linéaires de dimension finie.

Définition 1.5. Le système (1.1) est dit contrôlable à zéro en temps t1 ∈ (0, T ]
si l’origine x1 = 0 est atteignable depuis tout point initial x0 ∈ Rn en temps
t1 . Autrement dit, le système (1.1) est contrôlable à zéro en temps t1 ∈ (0, T ] si
pour tout point initial x0 ∈ Rn , il existe un contrôle u ∈ L2 (0, t1 ; Rm ) tel que la
solution x(·, x0 , u) de (1.1) satisfait x(t1 , x0 , u) = 0.

c MOKKEDEM F.Z.
1.1 Contrôlabilité des systèmes linéaires
autonomes 13
La contrôlabilité à zéro n’est pas seulement plus facile à vérifier dans le cas
de contraintes sur le contrôle, mais elle est aussi de très grande importance en
applications. Prenons par exemple un système d’équations modélisant le nombre
de cellules malades dans un corps humain. Il est clairement très important de
réduire ce nombre de cellules malades vers le zéro en un temps fini.
Rappelons que dans le cas précédent (cas sans contraintes sur le contrôle)
on a fixé la condition initiale x0 = 0 et on a montré que le système (1.1) est
contrôlable si et seulement si tout les points x1 ∈ Rn sont atteignables depuis
le zéro. Maintenant (cas avec contraintes sur le contrôle) on fixe le point final
x1 = 0 et on montre que le système (1.1) est contrôlable à zéro si et seulement
si tout les points x0 ∈ Rn sont commandables.

Définition 1.6. ([2], Définition 4.2.2) On appelle ensemble contrôlable (ou com-
mandable) à l’instant t1 ∈ (0, T ] et on note M(t1 ) l’ensemble de toutes les con-
ditions initiales x0 ∈ Rn telles que pour certain contrôle u ∈ L2 (0, t1 ; Rm ), la
solution associée à x0 et u atteint la cible (ici c’est l’origine) à l’instant t1 :

n o
M(t1 ) = x0 ∈ Rn | ∃u ∈ L2 (0, t1 ; Rm ), x(t1 , x0 , u) = 0 .

Par suite, on a le résultat suivant qui est l’analogue de la proposition 1.1.

Proposition 1.2. Le système linéaire (1.1) est contrôlable à zéro à l’instant


t1 ∈ (0, T ] si et seulement si tous les points de Rn sont commandables, c’est à
dire :
M(t1 ) = Rn .

On dit que le système (1.1) est contrôlable à zéro (en temps arbitraire) s’il est
contrôlable à zéro en tout temps t1 .

Comme déjà mentionné, la condition de Kalman n’est pas suffisante pour


garantir la contrôlabilité à zéro du système linéaire (1.1) avec contraintes sur u.

Théorème 1.3. ([9], Corollaire II.3) Soit le système linéaire (1.1). Supposons
que le contrôle u(t) ∈ Ω avec Ω un sous espace non vide de Rm contenant 0
dans son intérieur. Si la condition de Kalman est vérifiée et si de plus toutes

c MOKKEDEM F.Z.
14 1. Contrôlabilité, observabilité et stabilisation des systèmes linéaires

les valeurs propres de la matrice A sont de parties réelles strictement négatives,


alors le système (1.1) est contrôlabe à zéro en un temps fini t1 qui peut être assez
grand.

Notons ici que si toutes les valeurs propres de la matrice A sont de parties
réelles strictement négatives alors la matrice A est dite stable. Cette condition
peut être un peu “relaxée” dans le cas particulier où Ω est compact.

Théorème 1.4. ([2], Théorème 6.2.5) Soit le système linéaire (1.1). Supposons
que le contrôle u(t) ∈ Ω avec Ω un sous espace non vide et compact de Rm
contenant 0 dans son intérieur. Si la condition de Kalman est vérifiée et si de
plus toutes les valeurs propres de la matrice A sont de parties réelles négatives
ou nulles, alors le système (1.1) est contrôlabe à zéro en un temps fini t1 qui peut
être assez grand.

1.2 Observabilité des systèmes linéaires


autonomes
Dans cette section on discute la notion duale de la contrôlabilité, qui est
appelée l’observabilité. Pour cela, on a besoin de compléter le système (1.1) par
une équation de sortie, d’où

 ẋ(t)
 = Ax(t) + Bu(t), ∀t ∈ [0, T ], x(0) = x0 ,
(1.3)
 z(t) = Cx(t),

avec z(t) ∈ Rp est la sortie et C : Rn → Rp est une matrice linéaire bornée.


La solution du système (1.3) est donnée par :
Z t
z(t) = z(t, x0 , u) = CetA x0 + C e(t−ν)A Bu(ν)dν, t ∈ [0, T ].
0

La notion d’observabilité montre le fait qu’on puisse déterminer la condition


initiale x0 ∈ Rn grâce à une observation de la sortie z(t) ∈ Rp .

Définition 1.7. ([2], Définition 6.3.2) Le système (1.3) est dit observable à l’in-
stant t1 ∈ (0, T ] si l’état initial x(0) = x0 peut être déterminé à partir de la

c MOKKEDEM F.Z.
1.2 Observabilité des systèmes linéaires
autonomes 15
sortie z(·) dans l’intervalle [0, t1 ] (un intervalle qu’on puisse supposer arbitraire-
ment petit).
Le système (1.3) est dit observable (en temps quelconque) s’il est observable
à tout instant t1 .

En tenant compte de la forme de la sortie z(t), on voit que l’observation de


z(·) nécessite la connaîssance de l’entrée u(t). Suite à la linéarité du système
(1.3), on peut supposer (sans perte de généralité) que u(t) = 0, voir [1]. Puis on
définit la map d’observabilité par la solution du système (1.3) associée à u(t) = 0.

Définition 1.8. ([1], Définition I.I.2.2) La map d’observabilité du système (1.3)


définie sur [0, T ] est la fonctionnelle linéaire bornée O : Rn → L2 (0, T ; Rp ) définie
pour tout t ∈ [0, T ] par :

O(t)x0 = z(t, x0 , 0) = CetA x0 .

En multipliant cette map d’observabilité par sa transposée OT : L2 (0, T ; Rp ) →


Rn , on obtient ce qu’on appelle la gramienne d’observabilité.

Définition 1.9. ([6], Définition 4.1.12) La gramienne d’observabilité du système


(1.3) définie sur [0, T ] est la fonctionnelle linéaire bornée W : Rn → Rn définie
pour tout t ∈ [0, T ] par :
Z t
T
W(t) = OT O(t) = eνA C T CeνA dν,
0

où AT est la matrice transposée de A et C T est la matrice transposée de C.

En utilisant ces deux opérateurs, on peut montrer que la notion d’observabil-


ité est équivalente aux propriétés suivantes :

Théorème 1.5. ([1], Définition I.I.2.2) Le système (1.1) est observable en temps
fini t1 ∈ (0, T ] si et seulement si une des conditions suivantes est vérifiée :
– La map d’observabilité O(t1 ) est injective, ce qui revient à dire :

Ker O(t1 ) = {0}.

c MOKKEDEM F.Z.
16 1. Contrôlabilité, observabilité et stabilisation des systèmes linéaires

– La gramienne d’observabilité W(t1 ) est définie positive, c’est à dire :

W(t1 ) > 0.

– La condition suivante est vérifiée :

CeνA x = 0 ∀ν ∈ [0, t1 ] =⇒ x = 0.

Comme dans la contrôlabilité, une étude analogue à la précédente reste vraie


si le système linéaire (1.3) est non autonome (voir [8]) ou s’il est défini sur
des espaces de dimension infinie (voir [6], Chapitre 4). De plus, une condition
analogue à celle de Kalman peut être donnée pour vérifier l’observabilité du
système linéaire (1.3).

Définition 1.10. [2] La matrice d’observabilité du système (1.3) est la matrice


pn × n définie par :
 
 C 
 

 CA 

 
O(A, C) = CA2 .
 

 
 .. 

 . 

 
CAn−1

Théorème 1.6. ([2], Théorème 6.3.3) Le système linéaire (1.3) est observable
en temps t1 ∈ (0, T ] si et seulement si la matrice O(A, C) est de rang maximal,
c’est à dire :
rang O(A, C) = n.

On peut même utiliser les matrices transposées de A et de C au lieu de A et


C elles mêmes. Précisément :

Théorème 1.7. ([1], Théorème I.I.2.3) Le système linéaire (1.3) est observable
en temps t1 ∈ (0, T ] si et seulement si

h i
rang C T , AT C T , · · · , (An−1 )T C T = n.

c MOKKEDEM F.Z.
1.2 Observabilité des systèmes linéaires
autonomes 17
Encore une fois on voit que l’observabilité des systèmes linéaires autonomes
ne dépend ni du temps final t1 ni de condition initiale x0 .
Finalement, on termine cette section par un résultat montrant la dualité entre
la contrôlabilité d’un système linéaire et l’observabilité de son système dual. On
appelle système dual (ou système adjoint) du système (1.3) le système donné par
les matrices transposées de A, de B et de C par (voir [8]) :

˙
 ξ(t)
 = AT ξ(t) + C T v(t), ∀t ∈ [0, T ], ξ(T ) = ξT ,
(1.4)
 η(t) = B T ξ(t),

où ξ(·) = ξ(·, ξT , v) ∈ Rn est l’état du système dual avec v ∈ L2 (0, T ; Rm ) est le


contrôle et η ∈ Rp est la sortie. Remarquons que le système dual est donné par
une condition finale. La condition initiale peut être observée comme suit :

Théorème 1.8. [6] Le système linéaire (1.4) est observable en temps t1 ∈ (0, T ]
si et seulement s’il existe une constante a > 0 telle que
Z t1
a k ξ(0) k2 ≤ k B T ξ(t) k2 dt, ∀ξT ∈ Rn .
0

Cette condition est équivalente à dire que

si B T ξ(t) = 0 pour tout t ∈ [0, t1 ] alors ξ = 0.

Cette dernière propriété est équivalente à la contrôlabilité du système (1.1)


(voir Théorème 1.1). Ce dernier résultat montre la dualité entre la contrôlabilité
d’un système linéaire et l’observabilité de son système adjoint :

Théorème 1.9. (([1], Section I.I.2.3) ou bien ([6], Lemme 4.1.13))


– Le système (1.3) est observable sur [0, t1 ] si et seulement si son système
adjoint (1.4) est contrôlable sur [0, t1 ].
– Le système (1.4) est observable sur [0, t1 ] si et seulement si son système
adjoint (1.3) est contrôlable sur [0, t1 ].

c MOKKEDEM F.Z.
18 1. Contrôlabilité, observabilité et stabilisation des systèmes linéaires

1.3 Stabilisation des systèmes linéaires


autonomes
La contrôlabilité est une notion très forte dans la théorie du contrôle. Des
fois des notions moins fortes sont suffisantes en applications, comme par exemple
la stabilité. Soit le système non contrôlé (qui peut être linéaire ou non linéaire)
suivant : 
 ẋ(t)
 = f (t, x(t)), ∀t ≥ 0,
(1.5)
 x(0) = x0 .

On appelle un point d’équilibre du système (1.5) (s’il existe) tout point x∗ ∈


Rn tel que
f (t, x∗ ) = 0 pour tout t ≥ 0.

Le système (1.5) est dit stable si un petit décalage loin du point d’équilibre à
l’instant s > 0 conduit à une convergence de la solution vers le point d’équilibre
à tout moment t ≥ s.

Définition 1.11. ([2], Définition 4.2.3)


– Le système (1.5) est dit stable au sens de Lyapounov si pour tout s > 0 et
tout  > 0, il existe un α > 0 tel que

k x(s) − x∗ k≤ α =⇒k x(t) − x∗ k≤  pour tout t ≥ s

où x∗ est un point d’équilibre du système (1.5).


– Le système (1.5) est dit asymptotiquement stable au sens de Lyapounov s’il
est stable au sens de Lyapounov et pour tout s > 0, il existe un β > 0 tel
que
k x(s) − x∗ k≤ β =⇒ lim k x(t) − x∗ k= 0,
t→+∞

où x∗ est un point d’équilibre du système (1.5).

Revenons maintenant au cas linéaire autonome dont f (t, x(t)) = Ax(t) avec
A : Rn → Rn une matrice constante bornée. Remarquons que dans ce cas x∗ = 0
est un point d’équilibre.

c MOKKEDEM F.Z.
1.3 Stabilisation des systèmes linéaires
autonomes 19
Théorème 1.10. ([2], Théorème 6.3.1) Les deux propriétés suivantes sont équiv-
alentes :

– Le système linéaire 
 ẋ(t)
 = Ax(t), ∀t ≥ 0,
(1.6)
 x(0) = x0 ,

est asymptotiquement stable au sens de Lyapounov.


– La matrice A est stable, c’est à dire les parties réelles de toutes les valeurs
propres de A sont strictement négatives.

Cependant la matrice A n’est pas toujours stable. Donc on espère la modifier


en ajoutant un terme BF tel que la nouvelle matrice perturbée A + BF soit
stable. Ceci s’appelle la stabilisation du système (1.6).

Définition 1.12. ([2], Définition 6.3.1) Le système (1.6) est dit stabilisable par
feedback s’il existe une matrice feedback F donnant un contrôle feedback u = F x
qu’en l’ajoutant au système (1.6) on obtient

 ẋ(t)
 = (A + BF )x(t), ∀t ≥ 0,
 x(0) = x0 ,

avec A + BF une matrice stable.

Rappelons que dans les théorèmes 1.3 et 1.4 il fallait ajouter d’autres condi-
tions à celle de la stabilité de la matrice A pour avoir la contrôlabilité du système
(1.1). Le résultat suivant montre que la contrôlabilité du système (1.1) garantit
sa stabilisation. Donc la contrôlabilité des systèmes linéaires autonomes implique
leurs stabilisation mais la réciproque est fausse.

Théorème 1.11. ([1], Corollaire I.I.2.1) Si le système (1.1) est contrôlable, alors
il est stabilisable.

c MOKKEDEM F.Z.
20 1. Contrôlabilité, observabilité et stabilisation des systèmes linéaires

1.4 Remarques sur la contrôlabilité des systèmes


linéaires non autonomes
Dans cette section on considère le cas général où les matrices A(·) et B(·)
dépendent du temps t. Dans ce cas le système linéaire (1.1) devient :

 ẋ(t)
 = A(t)x(t) + B(t)u(t), ∀t ∈ [t0 , T ],
(1.7)
0 ) = x0 .
 x(t

Le système (1.7) est appelé système linéaire non autonome.


La solution unique du système (1.7) est donnée, d’après la formule de la
variation de la constante, comme suit :
Z t
−1
x(t) = S(t)S(t0 ) x0 + S(t)S(ν)−1 B(ν)u(ν)dν, ∀t ∈ [t0 , T ],
t0

où S(·)−1 est la matrice inverse de S(·) : Rn → Rn qui est une matrice bornée,
nommée la résolvante, donnée par la solution de l’équation linéaire :

 Ṡ(t)
 = A(t)S(t), ∀t ∈ [t0 , T ],

0) = In ,
 S(t

où In est la matrice identité d’ordre n. Notons

φ(t, t0 ) = S(t)S(t0 )−1

alors φ(t, t) = In et la solution x(·) du système (1.7) prend la forme :


Z t
x(t) = φ(t, t0 )x0 + φ(t, ν)B(ν)u(ν)dν, ∀t ∈ [t0 , T ].
t0

Remarquons que si la matrice A est constante alors φ(t, t0 ) = e(t−t0 )A pour tout
t ∈ [t0 , T ]. Si t0 = 0 alors on reprend les résultats des sections précédentes.
De la même façon que dans la section 1.1 et en tenant compte qu’ici t0 6= 0,
on peut définir la map et la gramienne de contrôlabilité comme suit :

c MOKKEDEM F.Z.
1.4 Remarques sur la contrôlabilité des systèmes linéaires non autonomes 21

Définition 1.13. ([8], Définition I.1.2.2)


– La map de contrôlabilité du système (1.7) définie sur [t0 , T ] est la fonction-
nelle linéaire bornée C : L2 (0, T ; Rm ) → Rn définie pour tout t ∈ [t0 , T ]
par :
Z t
C(t, t0 )u = φ(t, ν)B(ν)u(ν)dν, u ∈ L2 (0, T ; Rm ).
t0

– La gramienne de contrôlabilité du système (1.7) définie sur [t0 , T ] est la


fonctionnelle linéaire bornée L : Rn → Rn définie pour tout t ∈ [t0 , T ]
par :
Z t
T
L(t, t0 ) = CC (t, t0 ) = φ(t0 , ν)B(ν)B(ν)T φ(t0 , ν)T dν,
t0

où B T est la matrice transposée de B et φ(t0 , ν)T est la matrice transposée


de φ(t0 , ν).

En remplaçant C(t) par C(t, t0 ) et L(t) par L(t, t0 ), le théorème 1.1 reste vrai
(voir [6] et [8]). De plus, la matrice de contrôlabilité C(t, t0 ) qui est symétrique et
positive (voir [14], Remarque II.2.10) peut nous donner une condition nécessaire
et suffisante de la contrôlabilité du système (1.7).

Théorème 1.12. ([14], Théorème II.2.5) Le système linéaire non autonome (1.7)
est contrôlable en temps fini t1 ∈ (t0 , T ] si et seulement si la matrice de contrôla-
bilité C(t, t0 ) est inversible.

Remarquons que si t1 6= t2 , alors C(t1 , t0 ) est inversible n’est pas équivalent à


C(t2 , t0 ) inversible. Donc la contrôlabilité des systèmes linéaires non autonomes
qui est indépendante de la condition initiale x0 est dépendante du temps final t1
(voir [14], Remarques II.2.9 et II.2.12).
De plus, la condition de Kalman est généralisée dans le cas non autonome
comme suit :

Théorème 1.13. ([14], Théorème II.2.6) Soit le système linéaire non autonome
(1.7). Supposons que A(·) et B(·) sont des applications analytiques de classe C ∞
sur l’intervalle [t0 , T ]. Soient

dψi
ψ0 (t) = B(t) et ψi+1 (t) = A(t)ψi (t) − (t), i ∈ N.
dt
c MOKKEDEM F.Z.
22 1. Contrôlabilité, observabilité et stabilisation des systèmes linéaires

Alors le système (1.7) est contrôlable en temps t1 ∈ (t0 , T ] si et seulement si pour


tout t ∈ [t0 , t1 ]
V ect {ψi (t)x | x ∈ Rn , i ∈ N} = Rn

avec V ect{ψi } est l’espace vectoriel engendré par ψi .

Dans le cas où A et B sont constantes, le théorème précédent devient équiv-


alent à la condition de Kalman (voir [14], Remarque II.2.13).
Finalement, en suivant les mêmes étapes précédentes et en utilisant φ(t, t0 )
au lieu de e(t−t0 )A , on peut montrer des résultats analogues à ceux donnés dans
les sections 1.2 et 1.3 sur l’observabilité et la stabilisation des systèmes linéaires
non autonomes.

1.5 Remarques sur la contrôlabilité des systèmes


non linéaires
Contrairement aux systèmes linéaires, les systèmes non linéaires sont plus
compliqués et l’étude globale de leurs contrôlabilité est plus difficile. Cependant,
on peut toujours commencer par linéariser le système considéré autour de son
(ses) point(s) d’équilibre (s’il(s) existe(nt)) puis étudier la contrôlabilité de(s)
nouveau(x) système(s) qui est (sont) linéaire(s). De cette façon la contrôlabilité
des systèmes non linéaires est localement étudiée.
Soit le système non linéaire suivant :

 ẋ(t)
 = g(x(t), u(t)), ∀t ∈ [t0 , T ],
(1.8)
0 ) = x0 ,
 x(t

avec x(t) ∈ Rn est l’état, u ∈ L2 ([0, T ]; Rm ) est le contrôle et g : Rn × Rm → Rn


est une application de classe C 1 .
Supposons que pour toute condition initiale x0 ∈ Rn et tout contrôle u(t) ∈
L2 ([0, T ]; Rm ) mesurable, il existe une solution unique de (1.8) définie sur tout
[t0 , T ] par
Z t
x(t, x0 , u) = x0 + g(x(ν), u(ν))dν.
t0

c MOKKEDEM F.Z.
1.5 Remarques sur la contrôlabilité des systèmes non linéaires 23

Supposons aussi que le système (1.8) admet un point d’équilibre noté (x∗ , u∗ ),
c’est à dire : g(x∗ , u∗ ) = 0. Pour linéariser le système (1.8) autour de ce point
d’équilibre il suffit de prendre

∂g ∗ ∗ ∂g ∗ ∗
A= (x , u ) et B = (x , u ).
∂x ∂u

Par suite le système (1.8) est localement contrôlable en temps t1 ∈ (t0 , T ] si et


seulement si le système linéaire associé :

 ẋ(t)
 = Ax(t) + Bu(t), ∀t ∈ [t0 , T ],

0) = 0,
 x(t

est contrôlable en temps t1 ∈ (t0 , T ] (voir [14], Proposition V.5.13). Pour plus de
détails sur la contrôlabilité et la stabilisation locales des systèmes non linéaires
autonomes voir ([9], Chapitre 6). De même, on peut prendre le système non
linéaire non autonome :

 ẋ(t)
 = h(t, x(t), u(t)), ∀t ∈ [t0 , T ],
(1.9)
0) = x0 ,
 x(t

avec h : [t0 , T ] × Rn × Rm → Rn une application de classe C 1 . Supposons que


(x∗ , u∗ ) est un point d’équilibre de (1.9), c’est à dire :

h(t, x∗ , u∗ ) = 0 pour tout t ∈ [t0 , T ].

Alors il suffit de prendre

∂h ∂h
A(t) = (t, x∗ , u∗ ) et B(t) = (t, x∗ , u∗ ).
∂x ∂u

Par suite, le système (1.9) est localement contrôlable en temps t1 ∈ (t0 , T ] si et


seulement si le système linéaire associé :

 ẋ(t)
 = A(t)x(t) + B(t)u(t), ∀t ∈ [t0 , T ],

0) = 0,
 x(t

c MOKKEDEM F.Z.
24 1. Contrôlabilité, observabilité et stabilisation des systèmes linéaires

est contrôlable en temps t1 .

1.6 Exercices corrigés


Exercice 1.1. ([2], Exercice 6.4) Soit le système :

 ẋ(t)
 = Ax(t) + Bu(t), ∀t ∈ [t0 , T ],

0) = x0 ,
 x(t

où    
 0 −1 1   −1 1 
   
A=
 2 −3 1 
 et B = 
 0 2 .

   
1 −1 −1 1 3

Trouver l’ensemble des conditions initiales M(t0 ) pour lesquelles le système


précédent est contrôlable à zéro.

Solution de l’exercice 1.1

On a n = 3 et m = 2. Donc la matrice de contrôlabilité est donnée par


 
 −1 1 1 1 −1 −3 
2
 
C(A, B) = [B, AB, A B] = 
 0 2 −1 −1 3 1 .
 
1 3 −2 −4 4 6

Il est facile de vérifier que rang C(A, B) = 3. Donc la condition de Kalman est
vérifiée. Par suite le système précédent est contrôlable, ce qui est équivalent à
dire qu’il est contrôlable à zéro. Ceci est vérifié quelque soit la condition initiale
x0 ∈ Rn . Donc l’ensemble commandable M(t0 ) = R3 .

Exercice 1.2. ([2], Exercice 6.2) Vérifier si le système suivant est contrôlable :
   
0 1   1 
ẋ(t) =  x +   u(t).

0 0 0

c MOKKEDEM F.Z.
1.6 Exercices corrigés 25

Solution de l’exercice 1.2

On a n = 2 et m = 1. La matrice de contrôlabilité est donnée par :


 
1 0 
C(A, B) = [B, AB] =  .

0 0

Cette matrice est de rang égale à 1 < n. Donc la condition de Kalman n’est pas
vérifiée. Par suite ce système n’est pas contrôlable.

Exercice 1.3. ([13], Exercice 7.1) Donner une condition pour que le système
suivant :    
a11 1   b1 
ẋ(t) =  x +   u(t)

a21 0 b2

soit contrôlable.

Solution de l’exercice 1.3

On a n = 2 et m = 1. La matrice de contrôlabilité est donnée par


 
b1 a11 b1 + b2 
C(A, B) = [B, AB] = 
 .
b2 a21 b1

Pour que le rang de cette matrice soit maximal, il faut avoir

det C(A, B) = a21 b21 − a11 b1 b2 − b22 6= 0.

Exercice 1.4. Sous certaines conditions de vol, le mouvement d’un avion linéarisé
autour d’un point d’équilibre est donné par :
      

 1  
−10 0 −10 0 x
 1  
20 2.8  
      
 x˙2   0 −0.7 9 0   x2   0 −3.13  ua 



 =
 


+
 
 

 x˙3 


 0 −1 −0.7 0 
 x3  
  0 0 
 ug
      
x˙4 1 0 0 0 x4 0 0

où ua est le contrôle d’aileron et ug le contrôle de gouverne.

c MOKKEDEM F.Z.
26 1. Contrôlabilité, observabilité et stabilisation des systèmes linéaires

– Est-ce qu’on peut contrôler l’avion en éliminant le contrôle de gouverne


ug ?
– Si les deux contrôles sont effectués, l’avion est-il contrôlable ?

Solution de l’exercice 1.4

Si on élimine le contrôle ug , on obtient le système suivant :


      

 1  
−10 0 −10 0   x1   20 
      
 x˙2   0 −0.7 9   x2   0
0     
= +  ua
   
 
 x˙3 
 
 0

−1 −0.7 0   x3   0
   

      
x˙4 1 0 0 0 x4 0

avec n = 4 et m = 1. Un calcul direct indique que dans ce cas le rang de la matrice


de contrôlabilité est égale à 2 < 4. Donc le système n’est pas contrôlable.
Si on garde les deux contrôles ua et ub , le système devient contrôlable puisque
le rang de C(A, B) sera égale à 4.

Exercice 1.5. Soit un pendule inversé dont la masse est vers le haut et la tige
vers le bas. Dans le but de stabiliser le pendule autour de son équilibre instable,
on contrôle l’accélération du point inférieur de la tige. Supposons que ce point
inférieur de la tige se déplace le long d’une droite qui a pour abscisse X(t), alors
le mouvement du pendule est donné par

mlθ̈(t) = mg sin(θ(t)) − um cos(θ(t)), ∀t ≥ 0

où l est la longueur du pendule, m la masse fixée en position (X(t)+sin(θ(t)); l cos(θ(t))


avec θ(t) l’angle que fait le pendule avec la verticale.

1. Réécrire l’équation précédente sous la forme d’un système du premier ordre.

2. Linéariser le système obtenu autour du point d’équilibre (θ, θ̇, u) = (0, 0, 0).
Le système linéarisé est-il contrôlable ?

3. Soit le contrôle feedback u = F y où y = (θ̇; θ). Montrer qu’on peut choisir


F = (F1 ; F2 ) tel que le système linéarisé soit stable en x = 0. (Penser par
exemple à F = (2l; g + l)).

c MOKKEDEM F.Z.
1.6 Exercices corrigés 27

4. Supposons qu’on ne peut pas observer la vitesse θ̇. Dans ce cas on suppose
que le contrôle u ne dépend que de θ. Montrer que si F1 = 0 et F2 > g
alors la solution du système linéarisé continue à osciller autour de son point
d’équilibre.

Solution de l’exercice 1.5

1. Soit x = (x1 , x2 )T = (θ̇; θ)T . Donc


 
g −u
l
sin(x2 ) + l
cos(x2 ) 
ẋ =  = h(x, u).


x1

2. Pour obtenir un système linéaire de la forme

ż(t) = Az(t) + Bu(t)

il suffit de prendre  
g
∂h 0 l
A= (0, 0) =  
∂x
 
1 0

et  
−1
∂h l
B= (0, 0) =  .
 
∂u 0

Par suite la matrice de contrôlabilité est donnée par


 
−1
l
0 
C(A, B) = [B, AB] =  .

−1
0 l

Clairement rang C(A, B) = 2 d’où le système linéarisé est contrôlable. Par


suite le système de contrôle non-linéaire est localement contrôlable.

3. En posant F = (F1 ; F2 ) puis en remplaçant u par F y dans l’équation


linéarisée, on obtient
 
−F1 g F2
l l
− l
ż(t) =   z(t), ∀t ≥ 0.
 
1 0

c MOKKEDEM F.Z.
28 1. Contrôlabilité, observabilité et stabilisation des systèmes linéaires

Pour que ce nouveau système soit stable il faut et il suffit que toutes les
valeurs propres de la matrice
 
−F1 g F2
l l
− l
A + BF = 



1 0

soient de parties réelles strictement négatives. On a λ ∈ C est une valeur


propre de A + BF si et seulement si λ est une solution de

F1 F2 − g
λ2 + λ+ = 0. (1.10)
l l

On peut choisir par exemple F1 = 2l et F2 = l + g. Dans ce cas l’équation


(1.10) prend la forme

λ2 + 2λ + 1 = (λ + 1)2

qui admet λ = −1 < 0 comme solution. Par conséquent, le système linéarisé


est stabilisable et tout point de R2 peut être conduit à l’origine.

4. Si F1 = 0, alors l’équation (1.10) prend la forme

g − F2
λ2 = .
l

Si F2 < g, on a une valeur propre positive, par suite le système (le point
d’équilibre) est instable.
Si F2 > g, les deux valeurs propres deviennent imaginaires pures. Par
exemple, si F2 = g + l, les valeurs propres sont ±i. Dans ce cas aussi
le système est instable. Par conséquent, la solution du système linéarisé
continue à osciller dans un voisinage du point d’équilibre. On peut même
l’observer à partir du système linéarisé qui pour F1 = 0 et F2 = g + l prend
la forme :  
 0 −1 
ż(t) =   z(t)
1 0

c MOKKEDEM F.Z.
1.6 Exercices corrigés 29

qui est équivalente à 


 z˙1 (t)
 = −z2 (t),
 z˙
2 (t) = z1 (t).

Un calcul direct montre que les solutions sont données par :


 
cos(t) − sin(t) 
z(t) =   z(0).

sin(t) cos(t)

Avec les cosinus et les sinus, la solution du système linéarisé peut au mieux
osciller autour de son point d’équilibre.

Exercice 1.6. Soit le système :






 ẋ1 = x1 − x2 + x3 + u1 + u2 ,


 ẋ2 = x1 ,



ẋ3 = −2x1 + x2 − 2x3 − u1 ,

défini pour tout t ∈ [0, T ], T > 0. Ici l’état x(t) ∈ R3 et le contrôle u(t) ∈ R2 .

1. Étudier la contrôlabilité du système précédent dans le cas où u1 = 0 puis


dans le cas où u2 = 0. Quel est le contrôle qu’on puisse supprimer en cas
de problème ?

2. On suppose que le mauvaix choix est fait et on pose de nouvelles coordon-


nées y ∈ R3 avec y1 = x1 , y2 = x2 et y3 = x1 + x3 . Écrire le système
précédent dans les nouvelles coordonnées et vérifier que le sous-système
associé aux variables (y1 ; y2 ) est contrôlable.

Solution de l’exercice 1.6

1. On commence par réécrire le système donné sous la forme usuelle comme


suit :
ẋ(t) = Ax(t) + B1 u1 (t) + B2 u2 (t)

c MOKKEDEM F.Z.
30 1. Contrôlabilité, observabilité et stabilisation des systèmes linéaires

avec
     
 1 −1 1   1   1 
     
A= 
 1 0 ,
0  B1 = 
 0 
 et B2 = 
 .
0 
     
−2 1 −2 −1 0

Si on néglige le contrôle u2 , alors la matrice de contrôlabilité sera donnée


par  
 1 0 −1 
h i
C(A, B1 ) = B1 , AB1 , A2 B1 = 
 
 0 1 0 .
 
−1 0 1

Puisque la première et la troisième ligne de la matrice C(A, B1 ) sont


linéairement dépendantes alors rang C(A, B1 ) < 3. Donc si u2 = 0, alors
le système n’est pas contrôlable.
Maintenant on suppose que u1 = 0 et on détermine la matrice de contrôla-
bilité par
 
 1 1 −2 
h i
C(A, B2 ) = B2 , AB2 , A2 B2 = 
 
 0 1 1 .
 
0 −2 3

Cette matrice est de rang maximal. Donc le système est contrôlable. On


conclut qu’en cas de problème, il vaut mieux d’éliminer le contrôle u1 et de
garder u2 6= 0.

2. Soit le changement de variables :

y 1 = x1 , y2 = x2 et y3 = x1 + x3 .

Dans ces nouvelles coordonnées, avec u1 6= 0 et u2 = 0, le système contrôlé


prend la forme : 



 ẏ1 = y 1 − y 2 + y 3 + u1 ,


 ẏ2 = y1 ,



ẏ3 = −y3 ,

c MOKKEDEM F.Z.
1.6 Exercices corrigés 31

Pour étudier le sous système associé à (y1 ; y2 ) seulement, on réécrit les


équations précédentes sous la forme bloc suivante :
   
à C̃   B̃ 
ẏ = 
 y +   u,
0 −1 0

avec      
1 −1  1  1 
à =  , C̃ =  et B̃ =  .
  

1 0 0 0

Le sous-système dans R2 associé à (y1 ; y2 ) est contrôlable parce que la


matrice de contrôlabilité est de rang 2. En effet
 
h 1 1 
i
C(Ã, B̃) = B̃, ÃB̃ = 
 .
0 1

Exercice 1.7. ([15], Exercice 3.3.2) Le système suivant est-il contrôlable ?



 ẋ1
 = −x2 (t) + cos(t)u(t),
 x˙

= x1 (t) + sin(t)u(t),
2

Solution de l’exercice 1.7

Pour réécrire le système précédent sous la forme usuelle il suffit de prendre :


   
0 −1  cos(t) 
A= et B(t) =  .
 

1 0 sin(t)

Donc (comme vu dans la section 1.4)


 
1 es−t0 
φ(t0 , s) = e(t0 −s)A = 
 .
et0 −s 1

D’où la gramienne de contrôlabilité est donnée par


Z t
L(t, t0 ) = φ(t0 , ν)B(ν)B(ν)T (φ(t0 , ν))T dν, ∀t ≥ t0 .
t0

c MOKKEDEM F.Z.
32 1. Contrôlabilité, observabilité et stabilisation des systèmes linéaires

Rt
Un calcul direct montre que L(t, t0 ) = t0 M (ν)dν avec
 
ν−t0 2 ν−t0 t0 −ν 2
(cos(ν) + e sin(ν)) e (e cos(ν) + sin(ν)) 
M (ν) =  .

2 2
eν−t0 (et0 −ν cos(ν) + sin(ν)) (et0 −ν cos(ν) + sin(ν))

Puisque le determinant de M (ν) est nul, alors celui de L(t, t0 ) est aussi nul. Ceci
est indépendamment de t0 et t. Par suite la matrice L(t, t0 ) n’est jamais inversible
ce qui montre que le système donné n’est jamais contrôlable.
Pour plus d’exercices sur les systèmes linéaires de dimension finie voir par
exemple ([2], Chapitre 6), ([9], Chapitre 2), ([13], Chapitre 7) et ([15], Chapitre 3)
et pour les systèmes linéaires de dimension infinie voir par exemple ([6], Chapitre
4).

c MOKKEDEM F.Z.
1.6 Exercices corrigés 33

c MOKKEDEM F.Z.
Chapitre 2

Contrôle optimal des systèmes


linéaires

En général, dans la modélisation des différents phénomènes réels, les systèmes


non linéaires sont plus significatifs que les systèmes linéaires. Cependant, ils sont
plus difficiles à manipuler. Pour cette raison, on passe dans plusieurs cas à la
linéarisation autour d’un point d’équilibre. Par cette approche on obtient un
système linéaire plus facile à étudier et des résultats locaux valables au voisinage
de ce point d’équilibre, d’où l’importance des systèmes linéaires.
Dans ce chapitre, on discute l’existence et l’unicité des contrôles optimaux
pour les systèmes linéaires. On commence d’abord par le problème de temps-
optimalité. Puis on tourne vers le problème de contrôle optimal pour une fonc-
tion coût linéaire quadratique. Enfin, on considère les coûts intégrales convexes
quelconques. Les résultats de ce chapitre sont basés sur le principe du maximum
de Pontryagin (PMP). Il existe de nombreuses variétés du PMP selon les con-
traintes posées (sur le temps et/ou l’état final, les points de départ, les contrôles
ou même sur la trajectoire de la solution). Ici, pour simplifier les discussions,
on suppose que la condition initiale et le temps final sont fixés et on n’impose
aucune contrainte sur la trajectoire de la solution.
Pour plus de détails sur le contenu de ce chapitre on réfère à [2, 14, 15] et
pour des résultats plus variés le lecteur est orienté vers [3, 4] et [9].
2.1 Contrôle temps-minimal 35

2.1 Contrôle temps-minimal

Dans cette section on discute la notion du temps-minimal (dit aussi temps


optimal) pour les systèmes linéaires. On commence par définir le temps minimal
et le contrôle temps-minimal (dit optimal) et donner les conditions fondamentales
pour qu’ils existent. Puis on donne une caractérisation des contrôles optimaux.
Précisément, on montre qu’un contrôle optimal est extrémal et par suite il vérifie
une condition de maximisation dite principe du Pontryagin. Ensuite on donne
une condition suffisante pour assurer l’unicité du contrôle minimal. À la fin on
présente quelques exercices corrigés pour illustrer l’application du contenu de
cette section.

2.1.1 Existence d’un contrôle temps-minimal

Soit le système linéaire autonome :



 ẋ(t)
 = Ax(t) + Bu(t), ∀t ≥ t0 ,
(2.1)
0 ) = x0
 x(t

et soient les conditions suivantes :

(C1 ) Les matrices A : Rn → Rn et B : Rm → Rn sont constantes et à coefficients


réels finis.

(C2 ) Le contrôle u : [t0 , +∞) → Ω est mesurable et localement borné avec Ω un


sous ensemble de Rm non vide, compact et contient zéro dans son intérieur.

Comme déjà vu dans le chapitre précédent, quand on pose des contraintes


/ Rm tout entier), il devient plus facile
sur le contrôle u (remarquons que u(t) ∈
de discuter la contrôlabilité à zéro que de discuter la contrôlabilité exacte. Donc,
dans la suite, notre but est d’atteindre l’origine en temps minimal (le plus petit
possible).
Il faut d’abord s’assurer que l’origine est atteignable depuis toute condition
initiale, c’est à dire que pour toute condition initiale x0 ∈ Rn , il existe un temps
τ > t0 et un contrôle u(t) ∈ Ω pour t ∈ [t0 , τ ] tel que x(τ, x0 , u) = 0.

c MOKKEDEM F.Z.
36 2. Contrôle optimal des systèmes linéaires

Supposons alors que le système (2.1) est contrôlable à zéro. Remarquons,


d’après la définition précédente, que le temps final τ n’est pas forcément unique !
On cherche alors le plus petit temps supérieur à t0 , noté t∗ , tel qu’il existe un
contrôle u(t) ∈ Ω pour t ∈ [t0 , t∗ ] tel que x(t∗ , x0 , u) = 0 et

t∗ = inf {τ > t0 | x(τ, x0 , u) = 0, u(t) ∈ Ω, t ∈ [t0 , τ ]}


= inf {τ > t0 | 0 ∈ A(τ )} (2.2)

où A(τ ) est l’ensemble accessible depuis x0 à l’instant τ . Ce temps dit minimal


ou optimal existe et est unique :

Théorème 2.1. ([2], Théorème 7.1.1) Soit le système linéaire autonome (2.1).
Supposons que les conditions (C1 ) et (C2 ) sont vérifiées. Si le système (2.1) est
contrôlable à zéro en temps fini(s) τ > t0 , alors il existe un temps-minimal
t∗ ∈ [t0 , τ ] et au moins un contrôle optimal u∗ (t) ∈ Ω pour t ∈ [t0 , t∗ ] tel que
x(t∗ , x0 , u∗ ) = 0.

La preuve de ce théorème est basée sur le fait que si Ω est compact, alors
pour tout t > t0 , l’ensemble accessible A(t) est aussi compact et est convexe.
De plus, A(t) varie continûment par rapport au temps (voir [2] et [14]). Donc
l’ensemble {τ > t0 | 0 ∈ A(τ )} est fermé. Par conséquent, son infimum existe.
Puisqu’en dimension finie, la contrôlabilité à zéro est équivalente à la con-
trôlabilité exacte, alors le théorème précédent peut être modifié comme suit :

Théorème 2.2. ([14], Théorème III.3.7) Soit le système linéaire autonome (2.1).
Supposons que les conditions (C1 ) et (C2 ) sont vérifiées. Si le système (2.1) est
contrôlable vers un point x1 ∈ Rn en temps fini(s) τ > t0 , alors il existe un temps-
minimal t∗ ∈ [t0 , τ ] et au moins un contrôle optimal u∗ (t) ∈ Ω pour t ∈ [t0 , t∗ ]
tel que x(t∗ , x0 , u∗ ) = x1 .

Dans les deux théorèmes précédents, le but est d’atteindre un point cible.
Dans le cas général, le but devient d’atteindre un ensemble cible, noté G(t), tel
que
(C3 ) Pour tout t > t0 , G(t) est compact, non vide et varie continûment par
rappot à t.

c MOKKEDEM F.Z.
2.1 Contrôle temps-minimal 37

Dans ce cas, on a le résultat suivant :

Théorème 2.3. ([9], Théorème II.17) Soit le système linéaire autonome (2.1).
Supposons que les conditions (C1 ), (C2 ) et (C3 ) sont vérifiées. S’il existe un
contrôle u(t) ∈ Ω pour t ∈ [t0 , τ ] ramenant x0 vers G(τ ) pour certain(s) τ > t0 ,
alors il existe un temps-minimal t∗ ∈ [t0 , τ ] et au moins un contrôle optimal
u∗ (t) ∈ Ω pour t ∈ [t0 , t∗ ] tel que x(t∗ , x0 , u∗ ) ∈ G(t∗ ).

On peut même aller plus loin et montrer que les théorèmes précédents restent
vrais dans le cas des systèmes linéaires non autonomes. Pour ceci il suffit de
remplacer la condition (C1 ) par :
(C10 ) Les matrices A(·) et B(·) sont intégrables sur tout intervalle fini.
Pour plus de détails voir ([9], Chapitre 2) et ([14], Chapitre 3).
Finalemnet on note que pour le même temps-minimal t∗ , il peut exister
plusieurs contrôles optimaux u∗ (t) ∈ Ω, t ∈ [t0 , t∗ ], ramenant la trajectoire
x(·, x0 , u∗ ) vers la cible en même temps t∗ . Ceci montre que le contrôle temps-
minimal n’est pas forcément unique !

2.1.2 Contrôle extrémal et principe du maximum


Soit le système linéaire (2.1). D’après la définition du temps-optimal (2.2), t∗
est le premier moment pour lequel la cible x1 (qui peut être nulle, non nulle, un
point ou un ensemble) appartient à l’ensemble accessible A(t∗ ). Comme x1 est
fixé et A(t) varie continûment par rapport au temps, on conclut que l’état final
x1 se trouve sur la frontière de A(t∗ ) et pas dans son intérieur :

c MOKKEDEM F.Z.
38 2. Contrôle optimal des systèmes linéaires

Ce résultat peut être démontré en utilisant la proposition suivante :

Proposition 2.1. ([2], Théorème 7.2.1) Soit le système linéaire (2.1) et soit x1
un état final fixé. Supposons que le système (2.1) est contrôlable vers x1 et que
t∗ est le premier temps pour lequel la solution du (2.1) atteint x1 . Alors x1 peut
être séparé de l’ensemble accessible A(t∗ ) par un hyperplan non nul de Rn .

Clairement si x1 se trouve à l’intérieur de A(t∗ ) alors la proposition précédente


devient fausse. Cette information sur la position du x1 par rapport à A(t∗ ) con-
duit à la notion des contrôles extrémaux :

Définition 2.1. ([14], Définition III.3.1) On appelle contrôle extrémal tout con-
trôle u(t) ∈ Ω défini sur [t0 , T ] tel que la solution du système (2.1) associée à u
atteint la frontière de A(T ) à l’instant T .

Puisque pour le temps minimal t∗ et ses contrôles optimaux correspondants,


notés u∗ , on a
x(t∗ , x0 , u∗ ) = x1 ∈ ∂A(t∗ )

où ∂A(t∗ ) désigne la frontière de A(t∗ ), alors tous les contrôles optimaux sont
extrémaux. La réciproque n’est pas toujours vrai !

Théorème 2.4. ([2], Théorème 7.2.2) Soit le système linéaire (2.1). Supposons
que t∗ > t0 est le premier temps pour lequel la solution du système (2.1) atteint
la cible x1 . Soit u∗ (t) ∈ Ω défini sur [t0 , t∗ ] un contrôle optimal, alors u∗ est
extrémal.

Le résultat suivant donne une caractérisation des contrôles extrémaux appel-


lée principe du maximum :

c MOKKEDEM F.Z.
2.1 Contrôle temps-minimal 39

Théorème 2.5. ([14], Théorème III.3.8) Soit le système linéaire (2.1). Supposons
que les conditions (C1 ) et (C2 ) sont vérifiées. Alors u(t) ∈ Ω défini pour t ∈ [t0 , T ]
est extrémal si et seulement si, pour presque tout s ∈ [t0 , T ],

< p(s), Bu(s) >Rn = max < p(s), Bv >Rn ,


v∈Ω

où p(·) est une solution non nulle du système dual de (2.1) donné par

 ṗ(t)
 = −p(t)AT , ∀t ≥ t0 ,
 p(T )

= pT ,

où pT est un vecteur unitaire normal à l’hyperplan séparant x(T, x0 , u) de A(T ),


extérieur à A(T ) dans sa frontière ∂A(T ).

Le vecteur ligne p(·) ∈ Rn est appelé vecteur adjoint et la condition finale


p(T ) = pT est dite condition de transversalité.
Finalement, on note que tous les résultats précédents sont vrais dans le cas
des systèmes linéaires autonomes (voir [2], Chapitre 7) et non autonomes (voir
[14], Chapitre 3). Ils sont aussi vrais si la cible G(t) n’est pas réduite en un seul
point (voir [9], Chapitre 2).

2.1.3 Unicité du contrôle temps-minimal

D’après les sections précédentes, un contrôle optimal n’est pas unique. De


plus, si un contrôle u∗ (t) ∈ Ω est optimal alors il vérifie le principe du maximum,
mais la réciproque n’est pas vraie. Dans cette section on donne une condition
supplémentaire pour que le principe du maximum soit suffisant aussi bien que
nécessaire pour la temps-optimalité et aussi pour que le contrôle optimal soit
unique.

Définition 2.2. [9] Le système linéaire (2.1) est dit normal si tout deux contrôles
extrémaux u1 (t) ∈ Ω et u2 (t) ∈ Ω définis sur [t0 , T ] tels que

x(T, x0 , u1 ) = x(T, x0 , u2 ) = x1 ∈ ∂A(T )

c MOKKEDEM F.Z.
40 2. Contrôle optimal des systèmes linéaires

coincident presque partout, c’est à dire u1 (t) = u2 (t) pour presque tout t ∈ [t0 , T ].

La définition précédente reste vraie si le système linéaire (2.1) est non au-
tonome (voir [9], pp 76). Dans le cas des systèmes linéaires autonomes, la nor-
malité du système (2.1) peut être vérifiée sous la condition que Ω est compact et
convexe comme suit :

Proposition 2.2. ([2], Définition 7.3.1) Soit le système linéaire autonome (2.1)
et soit u(t) ∈ Ω, t ≥ t0 , avec Ω compact et convexe presque partout. Le système
linéaire (2.1) est normal si est seulement si, pour tout v arête de Ω,

h i
rang Bv, ABv, · · · , An−1 Bv = n.

Une arête est un segment reliant deux sommets de Ω. Comme un cas partic-
ulier, on peut vérifier que si Ω est strictement convexe, alors Ω n’a pas d’arêtes.
Par suite, le système (2.1) est normal (voir [2]).
Le théorème suivant montre que si le système linéaire est normal alors on
a une équivalence entre les notions de contrôle optimal, contrôle extrémal et
principe du maximum. De plus le contrôle optimal est unique.

Théorème 2.6. ([9], Corollaire II.3) Soit le système linéaire (2.1). Supposons
que les conditions (C1 ) et (C2 ) sont vérifiées et que le système (2.1) est normal
pour tout t > t0 . Alors pour tout x1 ∈ Rn , il existe un unique contrôle extrémal
u∗ (t) reliant x0 à x1 en temps t∗ . De plus u∗ (t) est l’unique contrôle optimal et
t∗ est le temps minimal.

Comme auparavant, le théorème précédent reste vrai si le système (2.1) est


non autonome et/ou la cible n’est pas réduite en un point (voir [9], Chapitre 2).
Notons ici que la condition de normalité est suffisante pour garantir l’unicité
du contrôle optimal mais elle n’est pas nécessaire, c’est à dire le contrôle optimal
peut être unique même si le système n’est pas normal (voir [2], Exercice 7.7).

c MOKKEDEM F.Z.
2.1 Contrôle temps-minimal 41

2.1.4 Exercices corrigés

Exercice 2.1. ([2], Exercice 7.4) Soit le système



 ẋ(t)
 = vr + vb (t) sin(α(t)), t ≥ 0,
(2.3)
 ẏ(t) = vb (t) cos(α(t)),


(x(t), y(t)) : La position d’un bateau traversant une rivière à l’instant t.
vr : La vitesse du courant de la rivière qui est dans la direction de l’axe des x.
vb (t) : La vitesse du bateau à l’instant t telle que pour tout t ≥ 0, vb (t) ∈ [0, 1].
α(t) : L’angle entre la direction du courant de la rivière et la direction du bateau
à l’instant t avec α ∈ [0, 2π].
Le but de cet exercice est de conduire le bateau de sa position initiale (x0 , y0 )
vers l’origine (0, 0) en temps minimal en contrôlant sa vitesse et sa direction. On
définit alors le contrôle u(t) par
 
sin(α(t)) 
u(t) = vb (t) 
 , t ≥ 0.
cos(α(t))

1. Réécrire le système précédent sous la forme usuelle

Ẋ = AX(t) + Bu(t) + r, t ≥ 0.

Y’a t-il des contraintes sur le contrôle u ? Si oui, préciser l’ensemble des
contraintes Ω.

2. Supposons que le point (x0 , y0 ) se trouve dans la rive opposée de (0, 0).
Dans ce cas, le point (0, 0) est-il toujours atteignable ?

3. Supposons que vr ∈ [0, 1]. Déterminer l’ensemble commandable M(t1 ) des


points initiaux contrôlables vers l’origine en temps t1 fixé.

4. Supposons maintenant que vr = 0. Est-ce qu’il existe un contrôle opti-


mal qui permet d’atteindre (0, 0) en temps-minimal ? Si oui, est ce que ce
contrôle est unique ?

c MOKKEDEM F.Z.
42 2. Contrôle optimal des systèmes linéaires

5. Pour vr = 0, décrire le principe du maximum qu’un contrôle optimal u∗ (t)


défini sur [0, t∗ ] avec t∗ le temps minimal doit vérifier. Montrer que la
solution du système dual est constante.

Solution de l’exercice 2.1

1. Soit t ≥ 0 et soit X(t) = (x(t), y(t))T . On a alors

Ẋ(t) = u(t) + r, t ≥ 0,

avec
     
0 0  1 0  vr 
A=
  = 0R2 , B=
  = I2 et r = 
 .
0 0 0 1 0

Puisque, pour tout t ≥ 0, vb (t) ∈ [0, 1] alors u(t) ∈ [0, 1]2 . Donc on a la con-
trainte u(t) ∈ Ω avec Ω = [0, 1]2 qui est un sous-ensemble compact de R2 .
2. D’après le système (2.3), pour tout t ≥ 0,
 Z t
 x(t)

 = x0 + vr t + vb (s) sin(α(s))ds,
0
Z t

 y(t)

= y0 + vb (s) cos(α(s))ds.
0

Si pour un temps t1 > 0, il existe un contrôle u(t) ∈ Ω, t ∈ [0, t1 ], tel


que (x(t1 ), y(t1 )) = (0, 0), alors le point de départ (x0 , y0 ) doit vérifier les
relations suivantes :
 Z t
 x0

 = −vr t − vb (s) sin(α(s))ds,
0

Z t (2.4)
 y0

=− vb (s) cos(α(s))ds.
0

Rappelons que vb (t) ∈ [0, 1] pour tout t ≥ 0, donc

−(1 + vr )t1 ≤ x0 ≤ (1 − vr )t1 et − t1 ≤ y0 ≤ t1 .

On remarque que la position initiale du bateau dépend de la vitesse de la


rivière vr . Par exemple, si vr ≥ 1, alors x0 ≤ 0. Ceci se comprend comme

c MOKKEDEM F.Z.
2.1 Contrôle temps-minimal 43

suit : si la vitesse de la rivière dépasse la vitesse du bateau (vr ≥ 1 alors


que vb (t) ∈ [0, 1]), alors le point (0, 0) est atteignable si le point initial
(x0 , y0 ) se trouve en amont de (0, 0) (x0 ≤ 0 = x(t1 )) sinon (0, 0) n’est
jamais atteignable. Ce résultat est logique, voir la figure suivante :

3. Soit vr ∈ [0, 1]. On veut trouver un temps t1 > 0 et un contrôle u(t) ∈ Ω


pour t ∈ [0, t1 ] tel que (x(t1 ), y(t1 )) = (0, 0), d’où les relations (2.4) sont
vérifiées. Trouver un tel contrôle revient à trouver vb (t) et α(t) pour t ∈
[0, t1 ]. Pour simplifier les calculs, on suppose que vb (t) = 1 et α(t) =cste à
déterminer. Dans ce cas, les équations (2.4) donnent

 x0
 = −vr t1 − t1 sin(α),
(2.5)
y = −t1 cos(α),

0

c’est à dire 
 (x0
 + vr t1 )2 = t21 sin(α)2 ,
 y2

= t21 cos(α)2 ,
0

d’où (x0 + vr t1 )2 + y02 = t21 ce qui est équivalent à

(vr2 − 1)t21 + 2x0 vr t1 + x20 + y02 = 0.

C’est un polynôme de degré deux avec ∆ = 4 [(1 − vr2 )y02 + x20 ] ≥ 0. On


peut choisir par exemple
q
x0 v r + (1 − vr2 )y02 + x20
t1 =
1 − vr2

c MOKKEDEM F.Z.
44 2. Contrôle optimal des systèmes linéaires

comme temps final pour atteindre (0, 0). D’autre part, d’après (2.5), on a

y0
 
α = arctan .
x0 + vr t1

Ceci montre que, si vr ∈ [0, 1], alors tout les points (x0 , y0 ) ∈ R2 sont
contrôlables vers l’origine, d’où M(t1 ) = R2 .

4. D’après la question précédente, pour tout vr ∈ [0, 1], le point (0, 0) est
atteignable. En particulier si vr = 0 le résultat reste vrai. Donc, d’après
le cours, s’il existe un contrôle conduisant (x0 , y0 ) vers l’origine en temps
t1 > 0 alors il existe un contrôle qui le fait en temp-minimal t∗ ∈ [0, t1 ].
Par suite on a l’existence d’au moins un contrôle optimal. Pour l’unicité on
ne peut rien confirmer car le système étudié n’est pas normal.

5. Rappelons qu’on a A = 0R2 et pour vr = 0 le verteur r est aussi nul. Donc



 Ẋ(t)
 = Bu(t), t ≥ 0,
(2.6)
 X(0) = (x0 , y0 )T .

Le système dual est donné par

ṗ(t) = −AT p(t) = 0, t ≥ 0,

car la matrice A est nulle. Donc p(t) =cste pour tout t ≥ 0.

Soient t∗ un temps-minimal, u∗ (t) ∈ Ω, t ∈ [0, t∗ ], un contrôle optimal et


X ∗ (t) = X(t, X0 , u∗ ) la solution du système (2.6) associée à u∗ . Donc




 Ẋ ∗ (t) = Bu∗ (t), t ≥ 0,


 X ∗ (0) = (x0 , y0 )T ,


X ∗ (t∗ ) = (0, 0)T ,









p(t) = p(t∗ ) = (p∗1 , p∗2 )T ,

t ≥ 0,

tel que (p∗1 , p∗2 )T est une condition de transversalité. De plus pour tout

c MOKKEDEM F.Z.
2.1 Contrôle temps-minimal 45

ω ∈ Ω et tout s ∈ [0, t∗ ], on a

< p(s), Bu∗ (s) >R2 ≥ < p(s), Bω >R2 .

Plus explicitement, si on note


   

sin(α (t))  sin(β) 
u∗ (t) = vb∗ (t)  et ω = ωb 
 
 
cos(α∗ (t)) cos(β)

avec ωb ∈ [0, 1] et β ∈ [0, 2π] alors

vb∗ (s) (p∗1 sin(α∗ (s)) + p∗2 cos(α∗ (s))) ≥ ω (p∗1 sin(β) + p∗2 cos(β)) .

Exercice 2.2. Soit l’équation différentielle ordinaire :



 ẋ(t)
 = −ax(t), t ∈ [0, T ],
 x(0) = x0 ,


x(t) : La quantité du glucose dans le sang mesurée à l’instant t.
x0 : La quantité initiale du glucose dans le sang.
a : Le taux de diminution du glucose dans le sang (a > 0).
Dans le but d’augmenter la quantité du glucose dans le sang de x0 vers x1 >
x0 prédéfini, on injecte du glucose dans le sang avec une vitesse u(t) telle que
u(t) ∈ [0, m] pour tout t ∈ [0, T ] (m est la vitesse maximale de transfusion). On
a alors l’équation différentielle suivante :

 ẋ(t)
 = −ax(t) + u(t), t ∈ [0, T ],
(2.7)
 x(0) = x0 .

1. Montrer que pour tout t ∈ [0, T ], la solution de l’équation (2.7) est comprise
entre zéro et max{x0 , m
a
}.
Supposons dans la suite de l’exercice que m > ax1 .

2. Trouver un temps t1 ∈ [0, T ] tel que la solution correspondante au contrôle

c MOKKEDEM F.Z.
46 2. Contrôle optimal des systèmes linéaires

constant u(t) = m atteint x1 à l’instant t1 .

3. Est-ce qu’il existe un contrôle optimal ramenant la solution de x0 vers x1


en temps-minimal ? Si oui, écrire le principe du maximum vérifié par ce
contrôle optimal. En déduire le temps et le contrôle optimaux.

Solution de l’exercice 2.2

1. La solution du système (2.7) est la suivante


Z t
−at
x(t) = e x0 + e−a(t−ν) u(ν)dν, ∀t ∈ [0, T ].
0

Puisque pour tout t ∈ [0, T ], u(t) ∈ [0, m] et puisque l’exponentielle est


toujours positive, alors x(t) ≥ e−at x0 ≥ 0. D’autre part
Z t
x(t) = e−at x0 + e−a(t−ν) u(ν)dν
0
m at
 
−at −at
≤ e x0 + e (e − 1)
a 
m m

= + e−at x0 − .
a a

Si x0 − m
a
< 0 alors x(t) ≤ m
a
et si x0 − m
a
≥ 0 alors x(t) ≤ m
a
+ x0 − m
a
= x0 .
Donc
m
  
x(t) ∈ 0, max x0 , , ∀t ∈ [0, T ].
a

2. D’après la formule de la solution, on a pour u(t) = m,

m m
 
x(t, x0 , m) = + e−at x0 − , ∀t ∈ [0, T ].
a a

Supposons qu’il existe un temps t1 ∈ [0, T ] tel que

m m
 
x(t1 , x0 , m) = + e−at1 x0 − = x1 .
a a

Dans ce cas
m − ax1
e−at1 = .
m − ax0

c MOKKEDEM F.Z.
2.1 Contrôle temps-minimal 47

m−ax1
Puisque m > ax1 > ax0 alors m−ax0
∈]0, 1[. Par suite,

−1 m − ax1 1 m − ax0
   
t1 = ln = ln .
a m − ax0 a m − ax1

3. Puisque Ω = [0, m] est compact et puisque, d’après la question précédente,


l’état final x1 est atteignable depuis x0 , alors il existe un contrôle optimal
ramenant la solution de x0 vers x1 en temps-minimal.

4. Soit t∗ ∈ [0, T ] le temps-minimal et soit u∗ (t) ∈ Ω, t ∈ [0, t∗ ], un contrôle


optimal. Soit x∗ (·) = x(·, x0 , u∗ ) la solution correspondante à u∗ , alors




 x˙∗ (t) = −ax∗ (t) + u∗ (t), t ∈ [0, T ],


 x∗ (0) = x0 , x∗ (t∗ ) = x1 ,


ṗ(t) = ap(t), t ∈ [0, T ],










p(T ) = pT ,

tel que pT ∈ R est une condition de transversalité. De plus, pour tout


contrôle v ∈ [0, m] et presque tout s ∈ [0, t∗ ], on a :

p(s)u∗ (s) = max p(s)v.


v∈[0,m]

Donc u∗ (s) = mχ{p(s)>0} . D’après l’équation de p(·) on a p(t) = ea(t−T ) pT


qui est forcément de signe constant sur tout [0, T ]. Donc u∗ (s) est soit
nulle soit égale à m. En fait si u∗ (s) = 0 alors x(t, x0 , 0) = e−at x0 < x0 .
Donc u∗ (s) = 0 n’est pas optimal. Or si u∗ (s) = m alors ce contrôle est
optimal et, d’après la question précédente, le temps minimal est donné par
 
t∗ = 1
a
ln m−ax0
m−ax1
.

Exercice 2.3. Soit le système différentiel suivant



 x000 (t)
 = −6x00 (t) − 12x0 (t) − 8x(t) + u(t), t ∈ [0, T ],
(2.8)
 (x(0), x0 (0), x00 (0))

= (x0 , x1 , x2 ),

avec T > 0 fixé et u ∈ L2 (0, T ; R) un contrôle.

c MOKKEDEM F.Z.
48 2. Contrôle optimal des systèmes linéaires

1. Réécrire le système précédent sous la forme



 Ẋ(t)
 = AX(t) + Bu(t), t ∈ [0, T ],
(2.9)
 X(0) = X0 .

2. Étudier la contrôlabilité du système obtenu.


3. Supposons que T n’est pas fixé et que u ∈ L∞ (0, T ; [−1, 1]). Déterminer les
valeurs propres de A et en déduire si le système précédent est contrôlable
à zéro.
4. Existe t-il un contrôle optimal joignant X0 à l’origine en temps minimal ?
5. Si oui décrire le principe du maximum vérifié par ce contrôle optimal. Que
peut-on conclure ?

Solution de l’exercice 2.3

1. Soit t ∈ [0, T ] et soit X(t) = (x(t), ẋ(t), ẍ(t))T un vecteur de R3 . Donc le


système (2.8) peut être réécrit sous la forme usuelle (2.9) avec
   
 0 1 0   0 
   
A=
 0 0 1 
 et B = 
 0 .

   
−8 −12 −6 1

Notons ici que X(0) = X0 = (x0 , x1 , x2 )T .


2. La matrice de contrôlabilité est donnée par
 
 0 0 1 
2
 
C(A, B) = [B, AB, A B] = 
 0 1 .
−6 
 
1 −6 24

Cette matrice est de rang maximal. Donc, d’après la condition de Kalman,


le système (2.9) est contrôlable.
3. Les valeurs propres de A sont les λ ∈ C tels que det(A − λI3 ) = 0. Donc
les valeurs propres de A sont les λ ∈ C solutions de

λ3 + 6λ2 + 12λ + 8 = (λ + 2)3 = 0,

c MOKKEDEM F.Z.
2.1 Contrôle temps-minimal 49

d’où λ = −2 est la seule valeur propre de A qui est de multiplicité trois et


est réelle négative. D’après tout ce qui précéde, l’ensemble de contraintes
Ω = [−1, 1] contient zéro dans son intérieur, la condition de Kalman est
vérifiée et la seule valeur propre de A est réelle négative. Donc le système
(2.9) est contrôlable à zéro en temps fini.

4. Puisque Ω = [−1, 1] est compact, on conclut grâce à la question précédente


l’existence d’au moins un contrôle temps-minimal.

5. Soit t∗ ∈ [0, T ] le temps-minimal et soit u∗ (t) ∈ [−1, 1], t ∈ [0, t∗ ], un


contrôle optimal. Soit X ∗ (·) = X(·, X0 , u∗ ) la solution correspondante à
u∗ , alors 



 Ẋ ∗ (t) = AX ∗ (t) + Bu∗ (t), t ∈ [0, T ],


 X ∗ (0) = X0 , X ∗ (t∗ ) = (0, 0, 0)T ,


ṗ(t) = −AT p(t), t ∈ [0, T ],










p(T ) = pT ,

où pT ∈ R3 est une condition de transversalité et


 
 0 0 8 
−AT = 
 
 −1 0 .
12 
 
0 −1 6

De plus, pour tout contrôle v ∈ [−1, 1] et presque tout s ∈ [0, t∗ ], on a :

< p(s), Bu∗ (s) >R3 = max < p(s), Bv >R3 .


v∈[−1,1]

Rappelons que B = (0, 0, 1)T , alors u∗ (s) = χ{p3 (s)>0} = signe(p3 (s)) avec
p3 (s) est la troisième composante du vecteur p(s).

Pour plus d’exercices voir par exemple ([2], Chapitre 7), ([9], Chapitre 2) et
([14], Chapitre 3).

c MOKKEDEM F.Z.
50 2. Contrôle optimal des systèmes linéaires

c MOKKEDEM F.Z.
2.2 Problèmes linéaires quadratiques standards 51

2.2 Problèmes linéaires quadratiques standards

Dans cette section, le critère à minimiser n’est plus le temps final nécessaire
pour atteindre une cible prédéfinie, mais plutôt un critère quelconque de forme
quadratique. Le choix de cette forme n’est pas aléatoire, il est issu de plusieurs
phénomènes physiques où on cherche à minimiser le carré des distances ou des
erreurs. Donc la minimisation des coûts quadratiques n’est qu’une généralisation
de la minimisation au sens des moindres carrées.
Dans ce qui suit, on va donner des conditions nécessaires pour l’existence et
l’unicité d’un contrôle optimal qui minimise le coût quadratique donné. Puis,
on va présenter le principe du maximum et vérifier qu’il est bien suffisant aussi
que nécessaire pour l’optimisation. On va aussi introduire le Hamiltonien et les
contrôles en feedback construits à partir des équations de Riccati. À la fin, on
va donner quelques exercices avec solutions pour voir l’application des résultats
obtenus.

2.2.1 Existence et unicité du contrôle optimal

Soit le système différentiel autonome suivant :



 ẋ(t)
 = Ax(t) + Bu(t), ∀t ∈ [t0 , T ],
(2.10)
0) = x0 .
 x(t

On suppose dans la suite que

(C1 ) Les matrices A : Rn → Rn et B : Rm → Rn sont constantes et à coefficients


réels finis.

(C2 ) Le contrôle u : [t0 , T ] → Ω est mesurable et localement borné avec Ω un


sous ensemble de Rm qui est non vide, fermé et convexe.

(C3 ) Le temps final t0 < T < ∞ est fixé mais l’état final x(T ) ∈ Rn est libre (il
n’est pas fixé à l’avance). Par suite, pour tout contrôle u(t) ∈ Ω et toute
condition initiale x0 ∈ Rn , la solution du système (2.10) atteint un point
final quelconque x(T, x0 , u) à l’instant final fixé T .

c MOKKEDEM F.Z.
52 2. Contrôle optimal des systèmes linéaires

On voit clairement que dans cette section on ne s’intéresse plus au problème


de contrôlabilité. Sinon, si le point final x(T, x0 , u) = x1 est fixé, on suppose de
plus que le système (2.10) est contrôlable.
Soit u(t) ∈ Ω un contrôle et x(t) = x(t, x0 , u) la solution correspondante à u.
On définit la fonctionnelle J : L2 (0, T ; Ω) → R par :
Z T
J(u) =< x(T ), M0 x(T ) >Rn + (< x(s), M1 x(s) >Rn + < u(s), M2 u(s) >Rm ) ds.
t0

Puisque pour tout x et y dans Rn , < x, y >Rn = xT y, alors


Z T 
T
J(u) = x(T ) M0 x(T ) + x(s)T M1 x(s) + u(s)T M2 u(s) ds. (2.11)
t0

La fonctionnelle J est appelée fonction coût. En tenant compte à sa forme, J


est de type quadratique. Pour que J soit bien définie on impose les conditions
suivantes :

(C4 ) Les matrices M0 : Rn → Rn et M1 : Rn → Rn sont symétriques et


positives, c’est à dire, pour i = 0, 1, Mi = MiT et toutes les valeurs propres
de Mi sont positives ou nulles.

(C5 ) La matrice M2 : Rm → Rm est symétrique définie positive, c’est à dire


M2 = M2T et toutes les valeurs propres de M2 sont strictement positives.

Proposition 2.3. ([2], Remarque 5.1.3 et Théorème 5.1.1) Sous les conditions
(C4 ) et (C5 ), la fonction coût donnée par (2.11) est bien définie, continue, stricte-
ment convexe et coercive.

Rappelons les définitions des propriétés précédentes. On a

Définition 2.3.
– J est dite continue si et seulement si pour tout deux contrôles u1 et u2 dans
L2 (0, T ; Ω) tels que u1 → u2 alors J(u1 ) → J(u2 ).
– J est dite convexe si et seulement si pour tout deux contrôles u1 et u2 dans
L2 (0, T ; Ω) et tout λ ∈ [0, 1], on a

J(λu1 + (1 − λ)u2 ) ≤ λJ(u1 ) + (1 − λ)J(u2 ).

c MOKKEDEM F.Z.
2.2 Problèmes linéaires quadratiques standards 53

Si l’inégalité précédente est stricte alors J est dite strictement convexe.


– J est dite coercive si et seulement si pour tout contrôle u ∈ L2 (0, T ; Ω) tel
que k u kL2 (0,T ;Ω) → +∞ alors J(u) → +∞.

Avant de passer plus loin on donne des exemples sur le coût quadratique J.

Exemple 2.1.
– Si M0 = 0, M1 = 21 In et M2 = 2c In avec c > 0 une constante donnée, alors

1Z T cZT
J(u) = kx(t)k2Rn dt + ku(t)k2Rm dt.
2 t0 2 t0

Cette forme modélise l’énergie consommée et bien-sûr on a intérêt à la


minimiser.
– Si M0 = In , M1 = 0 et M2 = 2c In avec c > 0 une constante donnée, alors

cZT
J(u) = kx(T )k2Rn + ku(t)k2Rm dt.
2 t0

Cette forme contenant la valeur finale de x(·) est intéressante si x(·) mod-
élise quelque chose qu’on considère comme mauvaise ou pas assez bonne.

Maintenant, en supposant que toutes les conditions (C1 ) − (C5 ) sont satis-
faites, on peut montrer l’existence d’un contrôle unique u∗ ∈ L2 (0, T ; Ω) qui avec
sa solution correspondante x∗ (t) = x(t, x0 , u∗ ) minimise le coût J, c’est à dire :

min J(u) = J(u∗ ).


u∈L2 (0,T ;Ω)

Ce contrôle est dit contrôle optimal (pour le coût J sous la contrainte (2.10)).

Théorème 2.1. ([2], Théorème 5.1.3) Soit le système linéaire (2.10) et soit le
coût quadratique (2.11). Supposons que toutes les conditions (C1 ) − (C5 ) sont
vérifiées. Alors il existe un unique contrôle optimal minimisant le coût J.

Notons que dans la condition (C2 ) on a imposé des contraintes sur le contrôle
u. Dans le cas contraire, il suffit de remplacer (C2 ) par la condition de coercivité
suivante :

c MOKKEDEM F.Z.
54 2. Contrôle optimal des systèmes linéaires

(C20 ) Le contrôle u est dans L2 ([t0 , T ]; Rm ) et il existe une constante k > 0 telle
que pour tout contrôle u ∈ L2 ([t0 , T ]; Rm ) :
Z T Z T
u(s)T M2 u(s)ds ≥ k u(s)T u(s)ds.
t0 t0

Théorème 2.2. ([14], Théorème IV.4.9) Soient le système linéaire (2.10) et le


coût quadratique (2.11). Supposons que les conditions (C1 ), (C20 ), (C3 )−(C5 ) sont
toutes vérifiées. Alors il existe un unique contrôle optimal minimisant le coût J.

Dans certains cas l’observation finale x(T )T M0 x(T ) est donnée sous une
forme plus générale par φ0 (x(T )) où φ0 : Rm → R est une fonction donnée.
Précisément, on a
Z T 
J(u) = φ0 (x(T )) + x(s)T M1 x(s) + u(s)T M2 u(s) ds. (2.12)
t0

Pour garantir l’existence d’un contrôle optimal, on suppose que φ0 satisfait une
des conditions suivantes :
(C6 ) φ0 (·) est continue sur Rn et il existe une constante réelle c telle que
φ0 (x) > c pour tout x ∈ Rn . Ou bien
(C60 ) La fonction φ0 est continue et est convexe sur Rn .

Théorème 2.3. ([9], Théorème III.2) Soit le système linéaire (2.10) et soit le
coût quadratique (2.12). Supposons que toutes les conditions (C1 ) − (C5 ) sont
vérifiées. Si de plus une des conditions (C6 ) ou (C60 ) est satisfaite, alors il existe
au moins un contrôle optimal minimisant le coût J.
Si de plus la fonction φ0 est strictement convexe ou bien elle est convexe et
de classe C 1 , alors ce contrôle optimal est unique.

Notons ici que tous les résultats précédents nécessitent que le temps final T
soit fini. On dit que le problème de minimisation est à horizon fini. Si l’orizon
est infini, exactement si T = +∞, il suffit de remplacer la condition (C3 ) par :
(C30 ) La matrice M0 (respectivement la fonction φ0 ) est nulle et le système
(2.10) est contrôlable en temps (fini) quelconque t1 > t0 .

Théorème 2.4. ([14], Proposition IV.4.5) Soit le système linéaire (2.10) et soit
le coût quadratique (2.11) (ou bien (2.12)). Supposons que toutes les conditions

c MOKKEDEM F.Z.
2.2 Problèmes linéaires quadratiques standards 55

(C1 ), (C2 ) ou bien (C20 ), (C30 ), (C4 ) et (C5 ) sont vérifiées. Alors il existe un unique
contrôle optimal minimisant le coût :
Z +∞  
J(u) = x(s)T M1 x(s) + u(s)T M2 u(s) ds. (2.13)
t0

Finalement on note que tous les résultats précédents restent valables dans le
cas des systèmes linéaires non autonomes. Il suffit juste de remplacer (C1 ) par :
(C10 ) Les matrices A(·) et B(·) sont continues sur [0, T ].
On peut même aller plus loin et supposer que les matrices M0 , M1 et M2
dépendent du temps t. Dans ce cas on suppose que pour tout i = 0, 1, 2, Mi (·)
est continue sur [0, T ] et que les conditions (C4 ) et (C5 ) sont vérifiées pour tout
t ∈ [t0 , T ]. Pour les détails voir ([9], Chapitre 3) et/ou ([14], Chapitre 4).

2.2.2 Principe du maximum et Hamiltonien

Dans ce qui suit, le but est de généraliser le principe du maximum donné


(dans la section précédente) dans le cas de temps-minimal vers le cas des coûts
quadratiques. Pour simplifier la discussion on suppose qu’il n’y a pas de con-
traintes sur le contrôle u. Donc la condition (C20 ) est imposée.
La première étape est de vérifier qu’un contrôle optimal pour un coût quadra-
tique est extrémal pour l’espace atteignable. Pour ceci, on regroupe le système
(2.10) et la dérivée par rapport au temps de la fonction coût dans un seul système
dit système augmenté. Clairement le système augmenté est défini dans Rn+1 . Par
suite, l’ensemble accessible Ã(t) devient un ensemble de Rn+1 contenant tout
les points finaux (J(u), x(T )). Cette approche amène à considérer tout contrôle
optimal pour J comme un contrôle extrémal pour Ã(t) (voir [9], Théorème II.3).

c MOKKEDEM F.Z.
56 2. Contrôle optimal des systèmes linéaires

La deuxième étape est de montrer qu’un contrôle extrémal vérifie une con-
dition de maximisation dite principe du maximum et vice versa. En gardant les
mêmes notations que dans la section précédente, on note ici que le vecteur adjoint
P (·) = (p0 , p(·)) doit être un vecteur de Rn+1 avec p0 une constante et p(·) un
vecteur ligne de Rn . Pour simplifier notre cours on prend p0 = − 21 et on admet
le résultat suivant :

Théorème 2.7. ([9], Théorème III.3) Soit le système linéaire (2.10) et soit le coût
quadratique (2.11) (ou bien (2.12)). Un contrôle u ∈ L2 (0, T ; Rm ) est extrémal
si et seulement si, pour presque tout s ∈ [t0 , T ],

1 1
 
− u(s)T M2 u(s)+ < p(s), Bu(s) >Rn = max − v T M2 v+ < p(s), Bv >Rn ,
2 v∈Rm
2

où p(·) ∈ Rn est une solution non nulle de l’équation adjointe :

ṗ(t) = x(t)T M1 − p(t)AT , t ∈ [t0 , T ],

avec p(T ) vérifie une condition de transversalité. De plus, pour presque tout
t ∈ [t0 , T ], le contrôle extrémal u est donné par :

u(t) = M2−1 B T p(t)T . (2.14)

Dans la dernière étape on utilise le fait que le système augmenté défini par
(2.10) et (2.11) ou bien par (2.10) et (2.12) avec la condition que φ0 est convexe
et de classe C 1 est normal dans Rn+1 [9]. Ce qui permet au principe du maximum
d’être une condition nécessaire et suffisante d’optimalité et confirme l’unicité du
contrôle optimal aussi.

Théorème 2.8. [9] Soit le système linéaire (2.10) et soit le coût quadratique
(2.11) (ou bien (2.12) avec φ0 convexe et de classe C 1 ). Alors sous les conditions
(C1 ), (C20 ), (C3 ) − (C5 ), il existe un unique contrôle optimal pour le coût J.
De plus u∗ ∈ L2 (t0 , T ; Rm ) est optimal pour le coût J si et seulement si u∗ est
extrémal pour Ã(t). Ceci est équivalent à dire qu’il existe un vecteur p(·) ∈ Rn

c MOKKEDEM F.Z.
2.2 Problèmes linéaires quadratiques standards 57

non nul tel que, pour presque tout t ∈ [t0 , T ],






 x˙∗ (t) = Ax∗ (t) + Bu∗ (t), x∗ (t0 ) = x0 ,


∗ T

T
 ṗ(t) = x (t) M1 − p(t)A , p(T ) = pT ,



1 1
 


 − u∗ (s)T M2 u∗ (s)+ < ∗
p(s), Bu (s) >Rn = max − v T M2 v+ < p(s), Bv >Rn ,



 2 v∈Rm
2

 u (t) = M −1 B T p(t)T ,



2
(2.15)
où x (·) = x(·, x0 , u ) ∈ R est la solution du système (2.10) correspondante à u∗ .
∗ ∗ n

Ces relations peuvent être données autrement en utilisant la fonction H : Rn ×


Rn × Rm → R, dite Hamiltonienne, définie pour tout t ∈ [t0 , T ] par le produit
scalaire dans Rn+1 entre P (t) = (p0 , p(t)) = (− 21 , p(t)) est le système augmenté.
Précisément :

∂J
H(x(t), p(t), u(t)) = < p0 , (u) >R + < p(t), Ax(t) + Bu(t) >Rn
∂t
1 T 
= − x (t) M1 x(t) + (uT (t) M2 u(t))
2
 T
+p(t) Ax(t) + Bu(t) .

En utilisant le Hamiltonien, le principe du maximum (2.15) devient équivalent à



∂H ∗
x˙∗ (t) = (x (t), p(t), u∗ (t)) = Ax∗ (t) + Bu∗ (t), x∗ (t0 ) = x0 ,



∂p





∂H ∗

ṗ(t) = − (x (t), p(t), u∗ (t)) = x∗ (t)T M1 − p(t)AT , p(T ) = pT ,


 ∂x
∂H ∗


(x (t), p(t), u∗ (t)) = 0,




∂u

pour presque tout t ∈ [t0 , T ] avec x∗ (·) = x(·, x0 , u∗ ) ∈ Rn la solution du système


(2.10) correspondante à u∗ .

Remarque 2.1. Dans le cas de contraintes sur le contrôle u, tous les résultats
et les relations donnés ci-dessus restent valables sauf (2.14) et par suite sauf
∂H
∂u
(x∗ (t), p(t), u∗ (t)) = 0.

c MOKKEDEM F.Z.
58 2. Contrôle optimal des systèmes linéaires

2.2.3 Remarques sur les conditions de transversalité

Pour les conditions de transversalité on a les informations suivantes ([14]) :


– Puisque x0 est donné alors on n’a pas de condition sur p(0) et vice versa.
– Puisque x(T ) est libre alors on a une condition sur p(T ) et vice versa.
– Si le coût J est donné par (2.11) avec M0 6= 0, alors p(T ) = −x(T )T M0 .
– Si J est donné par (2.12) et si φ0 6= 0 est convexe et de classe C 1 , alors
p(T ) = p0 Oφ0 (x(T )) = − 21 Oφ0 (x(T )) où O représente le gradient.
– Si φ0 dépend aussi du temps alors p(T ) = p0 ∂φ
∂x
0
(T, x(T )) = − 21 ∂φ
∂x
0
(T, x(T )).
– Si x(T ) est libre et φ0 = 0, alors on ne peut rien conclure sur p(T ).
– Si T = +∞ alors on suppose que lim p(t) = 0.
t→+∞

2.2.4 Contrôle optimal en boucles fermées

Restons dans le cas sans contraintes sur u. Donc le système d’optimalité (2.15)
peut être amélioré comme suit :

Théorème 2.9. ([14], Théorème IV.4.11) Soit le système linéaire (2.10) avec
T < ∞ et soit le coût (2.11). Alors sous les conditions (C1 ), (C20 ), (C3 ) − (C5 ), il
existe un unique contrôle optimal u∗ ∈ L2 (t0 , T ; Rm ) pour le coût J donné par :

u∗ (t) = M2−1 B T R(t)x∗ (t), t ∈ [t0 , T ],

avec x∗ (·) la solution unique du système (2.10) correspondante à u∗ , d’où


  
 x˙∗ (t)
 = A + BM2−1 B T R(t) x∗ (t), t ∈ [t0 , T ],
 x∗ (t
0) = x0 ,

et R : [t0 , T ] −→ Mn (R) la solution unique de l’équation matricielle non linéaire


de type Riccati suivante :

 Ṙ(t)
 = M1 − AT R(t) − R(t)A − R(t)BM2−1 B T R(t), t ∈ [t0 , T ],
(2.16)
 R(T ) = −M0 .

c MOKKEDEM F.Z.
2.2 Problèmes linéaires quadratiques standards 59

De plus le minimum du coût J est donné par :

min J(u) = J(u∗ ) = −xT0 R(t0 ) x0 .


u∈L2 (t0 ,T ;Rm )

Pour la matrice R(t0 ) on a la propriété suivante :

Proposition 2.4. ([14], Lemme IV.4.5) La matrice R(t0 ) est symétrique néga-
tive. Si de plus M0 ou bien M1 est définie positive alors R(t0 ) est définie négative.

Dans le cas d’horizon infini, on suppose que φ0 = 0 et on obtient le résultat


suivant :

Théorème 2.10. ([14], Théorème IV.4.13) Soit le système linéaire (2.10) avec
T = +∞ et soit le coût quadratique (2.13). Supposons que toutes les conditions
(C1 ), (C20 ), (C30 ), (C4 ) et (C5 ) sont vérifiées. Supposons de plus que M1 est définie
positive. Alors il existe un unique contrôle optimal u∗ ∈ L2 (t0 , T ; Rm ) pour le
coût J donné par :

u∗ (t) = M2−1 B T R x∗ (t), t ∈ [t0 , +∞],

avec x∗ (·) la solution unique du système


  
 x˙∗ (t)
 = A + BM2−1 B T R x∗ (t), t ∈ [t0 , +∞],
(2.17)
 x∗ (t
0 ) = x0 ,

et R : Rn → Rn la matrice constante solution unique de l’équation :

M1 − AT R − RA − RBM2−1 B T R = 0. (2.18)

Le minimum du coût J est donné par :

min J(u) = J(u∗ ) = −xT0 R x0 .


u∈L2 (t0 ,T ;Rm )

De plus le système (2.17) est globalement asymptotiquement stable.

Parmi les avantages du théorème précédent c’est qu’en résolvant l’équation


de Riccati, on obtient directement la solution optimale x∗ (·) et aussi le contrôle

c MOKKEDEM F.Z.
60 2. Contrôle optimal des systèmes linéaires

optimal u∗ sous une forme explicite, dite en boucles fermées oubien en feedback.
Cette forme est très pratique dans certains problèmes comme celui de stabili-
sation. Notons que tous ces résultats sont obtenus sans résolution du système
adjoint. Ce qui est un autre avantage de l’utilisation des équations de Riccati.
Cependant, dans le cas général, il est très compliqué de résoudre ces équations
analytiquement. Par suite, on doit utiliser les méthodes numériques pour estimer
la solution voulue. Pour plus de détails voir ([14], Chapitre 9).
À la fin, on note que tous les résultats précédents restent vrais si les matrices
A, B, M0 , M1 et M2 dépendent du temps, voir ([9], Chapitre 3) et/ou ([14],
Chapitre 4).

2.2.5 Exercices corrigés


Exercice 2.4. ([2], Exercice 5.3) Soit l’équation différentielle dans R suivante :

 ẋ(t)
 = u(t), t ∈ [0, 1],
 x(0) = x0 .

Trouver le contrôle u∗ ∈ L2 (0, 1; Rm ) qui minimise le coût :


Z 1
2
J(u) = x(1) + u2 (s)ds.
0

Donner la valeur de J(u∗ ).

Solution de l’exercice 2.4

On a : n = 1; A = 0, B = 1, M0 = 1, M1 = 0, M2 = 1 et le temps final T = 1.
Soit p0 = 21 . Par suite, le système d’optimalité est le suivant :




 x˙∗ (t) = u∗ (t), t ∈ [0, 1], x∗ (0) = x0 ,


 ṗ(t) = 0, p(1) = −x∗ (1),


 ∗

u (t) = −p(t), t ∈ [0, 1].

Par conséquent p(t) = cste = −x∗ (1). Donc u∗ (t) = −p(t) = x∗ (1) et x∗ (t) =
−x∗ (1)t+x0 . Ceci implique que x∗ (1) = x0
2
. On déduit que p(t) = − x20 , u∗ (t) = x0
2
,

c MOKKEDEM F.Z.
2.2 Problèmes linéaires quadratiques standards 61

x20
x∗ (t) = x0 (1 + x0
2
) et J(u∗ ) = 2
.

Exercice 2.5. Le système suivant modélise le mouvement d’un véhicule sur une
route droite : 
 ẍ(t)
 = u(t), t ∈ [0, T ],
 x(0) = ẋ(0) = 0.

Ici x(t) est la position du véhicule à l’instant t. Clairement, on contrôle son


accélération. Soit T < ∞ fixé et soit le coût :
Z T
2
J(u) = −x(T ) + u(s)2 ds.
0

Minimiser le coût J revient à maximiser la distance entre x(0) et x(T ) et min-


imiser l’énergie nécessaire pour atteindre la position x(T ).
En supposant que la vitesse finale est nulle, appliquer le principe du max-
imum pour trouver le contrôle optimal u∗ ∈ L2 (0, T ; Rm ) et la position finale
correspondante x∗ (T ).

Solution de l’exercice 2.5

Soit X(t) = (x(t), ẋ(t))T . Donc le système est réécrit sous la forme usuelle avec
   
0 1  0 
A= et B =  .

 
0 0 1

Pour le coût J on a M0 = −I2 , M1 = 0 et M2 = 1. Soit p0 = 12 , donc, en posant


p(t) = (p1 (t), p2 (t))T , le principe du maximum implique

p˙1 (t) = 0 et p˙2 (t) = −p1 (t), ∀t ∈ [0, T ].

En utilisant la condition finale p1 (T ) = x(T ), on obtient

p1 (t) = x(T ) et p2 (t) = −x(T )(T − t).

T3
Par suite u∗ (t) = x(T )(T − t), t ∈ [0, T ] et x∗ (T ) = 3T 3 −6
.

c MOKKEDEM F.Z.
62 2. Contrôle optimal des systèmes linéaires

Exercice 2.6. ([14], Exemple 4.8) Soit le système proies-prédateurs :






 ẋ(t) = x(t) + y(t) + u1 (t), t ∈ [0, +∞],


 ẏ(t) = x(t) − y(t) + u2 (t),



x(0) = y(0) = 1.

Trouver le contrôle u∗ ∈ L∞ (0, +∞; Rm ) qui, d’une part stabilise ce système vers
(0, 0) et d’autre part minimise le coût :
Z +∞  
J(u) = x2 (s) + y 2 (s) + u21 (s) + u22 (s) ds.
0

Solution de l’exercice 2.6

On commence par réécrire le système proies-prédateurs sous la forme usuelle.


Pour ceci, on pose X(t) = (x(t), y(t))T et u(t) = (u1 (t), u2 (t))T . On trouve
 
 1 1 
A=  et B = I2 .
1 −1

Ensuite on réécrit le coût


 J sous
 la forme (2.13). On a alors M1 = M2 = I2 .
α β 
Puis, en posant R =   , l’équation de Riccati (2.18) donne :
β γ





 α2 + β 2 + 2α + 2β = 1,


2
 β + γ 2 + 2β − 2γ = 1,



α + γ + αβ + βγ = 0.

La dernière équation implique (α + γ)(1 +β) = 0. Donc soit α = −γ soit


 −γ β 
β = −1. Supposons que α = −γ, donc R =  . Les valeurs propres de
β γ

cette matrice sont ± α2 + β 2 . Ce qui contredit le fait que R est définie négative.
Soit alors β = −1. Donc les relations précédentes donnent

√ √
α = −1 ± 3 et γ = 1 ± 3.

c MOKKEDEM F.Z.
2.3 Coût intégrale convexe quelconque 63

√ √
On choisit α et γ tels que R soit définie négative. Donc α = −1− 3 et γ = 1− 3.
Finalement
 √   √ 
−1 − 3 −1   −1 − 3 −1  ∗
R= √  et u∗ (t) =  √  X (t)

−1 1− 3 −1 1− 3

avec  √
 

 − 3 0  ∗
 Ẋ ∗ (t)


 =
 √  X (t), t ∈ [0, +∞],
0 − 3



X ∗ (0) = X0 .


Le système optimal est globalement asymptotiquement stable.


Pour plus d’exercices voir ([2], Chapitre 5), ([9], Chapitre 2) et [11].

2.3 Coût intégrale convexe quelconque


Dans cette section on généralise les résultats précédents vers les systèmes
linéaires non autonomes :

 ẋ(t)
 = A(t)x(t) + B(t)u(t), ∀t ∈ [t0 , T ],
(2.19)
0) = x0 ,
 x(t

et les fonctions coûts de la forme générale suivante :


Z T 
J(u) = φ0 (x(T )) + φ1 (t, x(t)) + φ2 (t, u(t)) dt. (2.20)
t0

2.3.1 Existence d’un contrôle optimal


Pour assurer l’existence d’un contrôle optimal pour le coût (2.20), on suppose
que les conditions suivantes sont satisfaites :
(C1 ) Les matrices A : Rn → Rn et B : Rm → Rn sont constantes et à coefficients
réels finis. Ou bien
(C10 ) Les matrices A(·) et B(·) sont réelles et continues sur [0, T ].
(C2 ) Le contrôle u : [t0 , T ] → Ω est mesurable et localement borné avec Ω un
sous ensemble de Rm qui est non vide, compact et convexe. Ou bien

c MOKKEDEM F.Z.
64 2. Contrôle optimal des systèmes linéaires

(C20 ) Le contrôle u est dans L2 ([t0 , T ]; Rm ).


(C3 ) Le temps final t0 < T < ∞ est fixé mais l’état final x(T ) ∈ Rn est libre.
(C6 ) La fonction φ0 (·) est continue sur Rn et il existe une constante réelle c telle
que φ0 (x) > c pour tout x ∈ Rn . Ou bien
(C60 ) La fonction φ0 est continue et est convexe sur Rn .
Cependant, on remplace les conditions (C4 ) et (C5 ) par
(C40 ) Les fonctions φ1 (t, x) et φ2 (t, u) sont continues par rapport à t ∈ [t0 , T ] et
convexes par rapport à la deuxième variable.
(C50 ) Il existe deux constantes b > 0 et p > 1 telles que :

φ1 (t, x) ≥ 0 et φ2 (t, u) ≥ b|u|p , ∀(t, x, u) ∈ R × Rn × Rm .

Sous les hypothèses précédentes, on a l’existence d’au moins un contrôle optimal


minimisant le coût (2.20) :

Théorème 2.11. [9] Soient le système linéaire (2.19) et la fonction coût (2.20).
Supposons que toutes les hypothèses ci-dessus sont satisfaites. Alors il existe au
moins un contrôle optimal u∗ minimisant le coût (2.20).

2.3.2 Principe du maximum, Hamiltonien et unicité du


contrôle optimal
En procédant de la même façon comme dans la section précédente et en
définissant le système augmenté, on conclut que tout contrôle optimal pour le
coût (2.20) est extrémal pour l’ensemble accessible Ã(t) (voir [9], Chapitre 3).
En admettant ici que p0 = −1, on obtient le principe du maximum suivant :

Théorème 2.12. ([9], Théorèmes III.9 et III.13) Soient le système linéaire (2.19)
∂φ1
et le coût (2.20). Supposons que ∂x
(t, x) est continue pour tout t ∈ [t0 , T ] et tout
x ∈ Rn . Alors un contrôle u est extrémal si et seulement s’il existe un vecteur
non nul p(·) ∈ Rn solution de l’équation :

∂φ1
ṗ(t) = (t, x(t)) − p(t)A(t)T , ∀t ∈ [t0 , T ],
∂x
c MOKKEDEM F.Z.
2.3 Coût intégrale convexe quelconque 65

avec x(·) = x(·, x0 , u) est la solution du système (2.19) associée à u et p(T )


satisfait une certaine condition de transversalité. De plus, u(t) vérifie le principe
du maximum suivant pour presque tout t ∈ [t0 , T ] :

−φ2 (t, u(t))+ < p(t), B(t)u(t) >Rn = maxm {−φ2 (t, w)+ < p(t), B(t)w >Rn } .
w∈R

Pour avoir la réciproque, c’est à dire pour qu’un contrôle extrémal soit optimal
il faut remplacer (C6 ) (ou bien (C60 )) par :

(C7 ) La fonction φ0 est convexe et de classe C 1 et la fonction φ2 est strictement


convexe.

La condition (C7 ) assure aussi l’unicité du contrôle optimal :

Théorème 2.13. ([9], Théorèmes III.10 et III.14) Soient le système linéaire


(2.19) et la fonction coût (2.20). Supposons que toutes les conditions ci-dessus
sont satisfaites. Alors il existe un unique contrôle extrémal u∗ solution du sys-
tème : 



 x˙∗ (t) = A(t)x∗ (t) + B(t)u∗ (t), ∀t ∈ [t0 , T ],




 x (t0 ) = x0 ,



∂φ1
ṗ(t) = (t, x∗ (t)) − p(t)A(t)T , ∀t ∈ [t0 , T ],






 ∂x


 p(T ) = −Oφ (x(T )).

0

De plus, u∗ (t) est défini pour presque tout t ∈ [t0 , T ] par le principe du maximum
par

−φ2 (t, u∗ (t))+ < p(t), B(t)u∗ (t) >Rn = max


m
{−φ2 (t, v)+ < p(t), B(t)v >Rn } .
v∈R

Par ailleurs, u∗ est l’unique contrôle optimal minimisant le coût (2.20).

Soit le Hamiltonien H : [t0 , T ] × Rn × Rn × Rm → R défini par le produit


scalaire dans Rn+1 entre P (t) = (p0 , p(t)) = (−1, p(t)) et le système augmenté :

∂J
H(t, x(t), p(t), u(t)) = < p0 , (u) >R + < p(t), ẋ(t) >Rn
∂t
   T
= − φ1 (t, x(t)) + φ2 (t, u(t)) + p(t) A(t)x(t) + B(t)u(t) .

c MOKKEDEM F.Z.
66 2. Contrôle optimal des systèmes linéaires

En utilisant le Hamiltonien, le principe du maximum est équivalent à :



∂H
 x˙∗ (t) = (t, x∗ (t), p(t), u∗ (t)) = A(t)x∗ (t) + B(t)u∗ (t), x∗ (t0 ) = x0 ,


∂p





∂H ∂φ1

ṗ(t) = − (t, x∗ (t), p(t), u∗ (t)) = (t, x∗ (t)) − p(t)A(t)T , p(T ) = pT ,


 ∂x ∂x
∂H


(t, x∗ (t), p(t), u∗ (t)) = 0,




∂u

pour presque tout t ∈ [t0 , T ] avec x∗ (·) = x(·, x0 , u∗ ) ∈ Rn la solution du système


(2.19) correspondante à u∗ . Suite à la remarque 2.1, s’il y’a des contraintes sur
u (condition (C2 )), alors la dernière équation d’optimalité n’est pas vérifiée.
Dans ce qui précède, aucune condition (contrainte) sur l’état final x(T ) n’est
imposée. Mais si on veut atteindre au temps T un certain point x1 ∈ Rn fixé,
alors on doit ajouter l’hypothèse :
(C8 ) Le système (2.19) est contrôlable et φ2 (t, ·) est strictement convexe.
Dans le cas d’horizon infini (T = +∞) on suppose que A et B sont constantes,
d’où : 
 ẋ(t)
 = Ax(t) + Bu(t), ∀t ∈ [t0 , +∞),
(2.21)
0) = 0,
 x(t

et on suppose aussi qu’il n’y a pas de contraintes sur le contrôle et que φ0 = 0.


Soit le coût
Z +∞  
J(u) = φ1 (x(t)) + φ2 (u(t)) dt (2.22)
t0

tel que
(C9 ) φ1 (·) est positive, continue et convexe et φ1 (x) = 0 si et seulement si
x = 0.
(C10 ) φ2 (·) est continue et strictement convexe telle que φ2 (0) = 0 et

∀u, φ2 (u) ≥ bkukp

avec b et p deux constantes positives.

Théorème 2.14. ([9], Théorème III.11) Soient le système linéaire (2.21) et la


fonction coût (2.22). Supposons que (C9 ) et (C10 ) sont satisfaites. Alors il existe
un unique contrôle optimal u∗ ∈ L∞ (t0 , +∞; Rm ) pour le coût (2.22).

c MOKKEDEM F.Z.
2.3 Coût intégrale convexe quelconque 67

Si de plus toutes les valeurs propres de A sont de parties réelles non nulles,
alors le contrôle u∗ ∈ L∞ (t0 , +∞; Rm ) est optimal si et seulement s’il existe
un vecteur ligne non nul p(·) ∈ Rn satisfaisant sur tout l’intervalle [t0 , +∞) les
relations suivantes :

 x˙∗ (t)

 = Ax∗ (t) + Bu∗ (t), x∗ (t0 ) = x0 ,
∂φ1
 ṗ(t) = (t, x∗ (t)) − p(t)AT , lim p(t) = 0.


∂x t→+∞

De plus, u∗ est défini par le principe du maximum par

−φ2 (u∗ (t))+ < p(t), Bu∗ (t) >Rn = max


m
{−φ2 (v)+ < p(t), Bv >Rn } , p.p. t ∈ [t0 , +∞].
v∈R

2.3.3 Exercices corrigés


Exercice 2.7. ([9], Exemple III.1) Soit l’équation différentielle dans R suivante :

 ẋ(t)
 = x(t) + u(t), t ∈ [0, 1],
 x(0) = x0 < 0.

On veut atteindre x(1) = 0 en maximisant le coût J(u) = 1 R1


4 0
u(s)4 ds.

1. Écrire le principe du maximum associé à ce problème.


q
2. Sachant que u∗ (t) = 3
p(t), t ∈ [0, 1], résoudre explicitement le système
d’optimalité et réécrire u∗ (t) en fonction de x0 .

Solution de l’exercice 2.7

1. On a n = m = T = A = B = 1, φ0 = φ1 = 0 et φ2 (u(t)) = 14 u(t)4 . Soit


p0 = −1. Donc le système d’optimalité est le suivant :




 x˙∗ (t) = x∗ (t) + u∗ (t), t ∈ [0, 1],



 x∗ (0) = x0 , x∗ (1) = 0,






 ṗ(t) = −p(t), t ∈ [0, 1],

1 ∗ 4 1 4

  
 ∗
 − u (t) + p(t)u (t) = max − v + p(t)v .


4 m v∈R 4

c MOKKEDEM F.Z.
68 2. Contrôle optimal des systèmes linéaires

2. D’après les équations précédentes on a, pour tout t ∈ [0, 1], p(t) = p(0)e−t
q
ce qui donne u∗ (t) = 3 p(0)e−t . En remplaçant ce résultat dans l’équation
d’état on obtient :

3 1
 −t 
x∗ (t) = et x0 − (p(0)) 3 e 3 − et .
4

En utilisant la condition finale x∗ (1) = 0, on obtient :

1 4x0 4x0 −t
(p(0)) 3 =  −4
 > 0 d’où u∗ (t) =  −4
e 3 > 0, t ∈ [0, 1].
3 e 3 −1 3 e 3 −1

Exercice 2.8. ([11], PM5) Un mobile se déplace selon l’équation différentielle


suivante : 
 ẍ(t) − a2 x(t)
 = u(t), t ∈ [0, T ],
 x(0) = x0 , ẋ(0) = y0 .

Un autre mobile se déplace selon la trajectoire

xm (t) = L + ym t, t ∈ [0, T ].

On veut qu’à l’instant T , les deux mobiles se rencontrent dans la position x(T ) =
xm (T ) = xm tel que ẋ(T ) = ym . On cherche le contrôle optimal qui assure cette
rencontre et minimise le coût :

1Z T
J(u) = (u(s) + a2 x(s))2 ds.
2 0

1. Déterminer le Hamiltonien associé à ce problème. Trouver le vecteur adjoint


p(·) et en déduire le contrôle optimal u∗ en fonction de p(·).

2. Résoudre le système d’optimalité obtenu et en déduire u∗ en feedback


lorsque xm = ym = 0.

3. Remplacer les valeurs optimales dans le Hamiltonien. Que remarquez-vous ?

Solution de l’exercice 2.8

1. Soit X(t) = (x(t), ẋ(t))T = (x1 (t), x2 (t))T et soit p(t) = (p1 (t), p2 (t)). Donc

c MOKKEDEM F.Z.
2.3 Coût intégrale convexe quelconque 69

le Hamiltonien est écrit sous la forme :

∂J
H(X, p, u) = < p(t), Ẋ(t) >Rn − (u)
∂t
1
= p1 (t)x2 (t) + p2 (t)(a2 x1 (t) + u(t)) − (a2 x1 (t) + u(t))2 .
2

Par suite, on a les relations suivantes :

∂H ∗


 x˙∗1 (t) = (X (t), p(t), u∗ (t)) = x2 (t),
∂p




 1
∂H


˙∗ (X ∗ (t), p(t), u∗ (t)) = a2 x∗1 (t) + u∗ (t),

 x2 (t) =





 ∂p 2


 x (0) = x0 , x∗ (0) = y0 , x∗ (T ) = xm , x∗ (T ) = ym ,



 1 2 1 2
∂H ∗
p˙1 (t) = − (X (t), p(t), u∗ (t)) = a2 (−p2 (t) + a2 x∗1 (t) + u∗ (t)),



∂x




 1
∂H ∗


 p˙2 (t) = − (X (t), p(t), u∗ (t)) = −p1 (t),






 ∂x 2
∂H


(x∗ (t), p(t), u∗ (t)) = p2 (t) − u∗ (t) − a2 x∗ (t) = 0.



1
∂u

D’après la dernière équation :

u∗ (t) = p2 (t) − a2 x∗1 (t), t ∈ [0, T ].

2. En remplaçant u∗ par sa valeur dans le système précédent, on trouve :



 p˙1 (t) =0 =⇒ p1 (t) = c1 ,






 p˙2 (t) = −p1 (t) = −c1 =⇒ p2 (t) = −c1 t + c2 ,




t2

 x˙∗2 (t) = p2 (t) =⇒ x∗2 (t) = −c1 + c2 t + y 0 ,
2




t3 t2


 x˙∗1 (t) = x∗2 (t) =⇒ x∗1 (t) = −c1 + c2 + y0 t + x0 ,



6 2

avec c1 et c2 deux constantes réelles. En utilisant les conditions finales on


obtient
T3 T2

− c1 + c2 = xm − y0 T − x0 = V,



6 2

 T2
− c1 + c2 T = ym − y0 = W,



2
c MOKKEDEM F.Z.
70 2. Contrôle optimal des systèmes linéaires

12V −6W T 6V −2W T


d’où c1 = T3
et c2 = T2
. En remplaçant ces constantes par leurs
valeurs et en prenant xm = ym = 0, on obtient :

−4T y0 − 6x0
u∗ (0) = − a2 x 0 .
T2

Donc le contrôle optimal est exprimé en feedback comme suit :

∗ −4(T − t)x∗2 (t) − 6x∗1 (t)


u (t) = − a2 x∗1 (t)
(T − t) 2

−4(T − t)x∗2 (t) − (6 + a2 (T − t)2 )x∗1 (t)


= , t ∈ [0, T ].
(T − t)2

3. En remplaçant le contrôle et la trajectoire optimaux dans le Hamiltonien


on trouve

1
H(x∗ , p, u∗ ) = p1 (t)x∗2 (t) + p2 (t)(a2 x∗1 (t) + u∗ (t)) − (a2 x∗1 (t) + u∗ (t))2
2
1 2
= c1 y0 + c2 = cste. (2.23)
2

Le Hamiltonien est constant car le système considéré est autonome.

Exercice 2.9. ([11], PM1) Soit l’équation différentielle dans R suivante :

ẋ(t) = u(t), t ∈ [0, T ], x(0) = x0 .

On veut qu’à l’instant T fixé amener la solution vers un voisinage de l’origine en


minimisant le critère :

a 2 1Z T 2
J(u) = x (T ) + (u (s) + b2 x2 (s))ds.
2 2 0

Utiliser le Hamiltonien pour trouver en forme feedback le contrôle optimal pour


J. Qu’est-ce qui se passe quand t → T et quand T → ∞ ?

Solution de l’exercice 2.9

Le Hamiltonien est donné par :

1
H(x(t), p(t), u(t)) = p(t)u(t) − (u2 (t) + b2 x2 (t)), t ∈ [0, T ].
2
c MOKKEDEM F.Z.
2.3 Coût intégrale convexe quelconque 71

Par suite le système d’optimalité est le suivant :



∂H ∗
 x˙∗ (t) = (x (t), p(t), u∗ (t)) = u∗ (t),


∂p






 ∗
 ∗
 x (0) = x0 , x (T ) = 0,

∂H ∗ ∗ 2 ∗
 ṗ(t) = − ∂x (x (t), p(t), u (t)) = b x (t),







 ∂H ∗
(x (t), p(t), u∗ (t)) = p(t) − u∗ (t) = 0.




∂u

Donc 



 u∗ (t) = p(t),


x˙∗ (t) = u∗ (t) = p(t),



ṗ(t) = b2 x∗ (t),


d’où x¨∗ (t) = b2 x∗ (t). C’est une équation linéaire du second ordre qui a pour
solution :
x∗ (t) = Aebt + Be−bt , t ∈ [0, T ].

En utilisant les conditions aux limites x∗ (0) = x0 et x∗ (T ) = 0, on trouve

e−bT ebT
A=− x0 et B = x0 .
ebT − e−bT ebT − e−bT

Donc
ebT + e−bT
p(0) = b(A − B) = −b bT x0 = −bx0 coth (bT ).
e − e−bT
On déduit alors la valeur initiale du contrôle optimal :

u∗ (0) = −bx0 coth (bT ),

ainsi que sa valeur en feebdack

u∗ (t) = −b coth (b(T − t))x∗ (t), t ∈ [0, T ].

On remarque que si t → T alors u∗ (t) → ∞, ceci montre que si l’origine n’est pas
atteint avant le temps final T alors le contrôle tend vers l’infini. Or si T → ∞
alors u∗ (t) → −bx∗ (t) qui est une forme linéaire.

c MOKKEDEM F.Z.
72 2. Contrôle optimal des systèmes linéaires

Exercice 2.10. ([11], PM7) Soit le système :






 ẋ(t) = −x(t) + u(t),

1


ẏ(t) = − u2 (t), t ∈ [0, T ],


 2


 x(0) = 0, y(0) = y0 .

Pour un temps final T fixé on veut atteindre l’état final (x(T ), y(T )) = (xT , 0)
en maximisant xT .
1. Trouver le contrôle optimal pour ceci.
2. Remarquer que u∗ (t) = u∗0 et et chercher une solution de x˙∗ (t) = −x∗ (t) +
u∗ (t) sous la forme x∗ (t) = ae−t + bet . En déduire la valeur finale xT .

Solution de l’exercice 2.10

1. Maximiser xT revient à maximiser le coût

J(u) = xT = φ0 (x(T )).

Soit p0 = −1. Donc le Hamiltonien de ce problème est le suivant :

1
H(x(t), p(t), u(t)) = p1 (t)(−x(t) + u(t)) − p2 (t)u2 (t), t ∈ [0, T ].
2

Parsuite le système d’optimalité est donné par :

∂H ∗

 x˙∗ (t) = (x (t), p(t), u∗ (t)) = −x∗ (t) + u∗ (t),





 ∂p1


 ∂H ∗ ∗ 1 ∗2


 y˙∗ (t) = (x (t), p(t), u (t)) = − u (t),
∂p 2




 2

 x∗ (0) = 0, x∗ (T ) = xT , y ∗ (0) = y0 , y ∗ (T ) =


 0,
∂H ∗
p˙1 (t) = − (x (t), p(t), u∗ (t)) = p1 (t),



∂x





 ∂H ∗
(x (t), p(t), u∗ (t)) = 0,

 p˙2 (t) = −







∂y
∂H ∗


(x (t), p(t), u∗ (t)) = p1 (t) − p2 (t)u∗ (t)


 = 0.
∂u

Remarquons ici que puisque x∗ (0), y ∗ (0) et y ∗ (T ) sont tous connus alors

c MOKKEDEM F.Z.
2.3 Coût intégrale convexe quelconque 73

leurs analogues p1 (0), p2 (0) et p2 (T ) sont inconnus. Par contre, puisque


x∗ (T ) = xT est inconnu alors on donne

∂φ0
p1 (T ) = −p0 (x(T )) = 1. (2.24)
∂x

Le système d’optimalité donne

p1 (t)

 u∗ (t) = ,





 p2 (t)

 p2 (t) = c,



 p (t) = p1 (0)et , ∀t ∈ [0, T ].

1

En utilisant la condition (2.24), on obtient p1 (t) = et−T . Par suite u∗ (t) =


et−T
c
. En remplaçant ce résultat dans la deuxième équation de l’état et en
utilisant la condition y(T ) = 0, on trouve

e−2T − 1 2 1 − e−2T
y(t) = y0 + =⇒ c = .
4c2 4y0

Par suite s
4y0
u∗ (t) = ±et−T , t ∈ [0, T ].
1 − e−2T
Le choix du contrôle n’est pas aléatoire, en fait on cherche un contrôle qui
maximise le Hamiltonien, donc un contrôle pour lequel

∂ 2H ∗
(x (t), p(t), u∗ (t)) = −p2 (t) < 0.
∂u2

Donc on doit avoir p2 (t) > 0. Comme p1 (t) = et−T > 0, alors u∗ (t) > 0
d’où s
4y0
u∗ (t) = et−T , t ∈ [0, T ].
1 − e−2T

2. On a s
4y0
u∗ (t) = u∗0 et avec u∗0 = .
e2T−1
On remplace cette valeur dans l’équation x˙∗ (t) = −x∗ (t) + u∗ (t) et on
cherche sa solution sous la forme x∗ (t) = ae−t + bet . On commence par

c MOKKEDEM F.Z.
74 2. Contrôle optimal des systèmes linéaires

dériver x(t) et la remplacer dans l’équation puis on utilise les conditions


aux limites. Après calcul on obtient

u∗0 t
x∗ (t) = x0 e−T + (e − e−t ), t ∈ [0, T ].
2

Donc la valeur finale maximale est donnée par

∗ −T u∗0 T −T −T
q
xT = x (T ) = x0 e + (e − e ) = x0 e + y0 (1 + e−2T ).
2

Pour plus d’exercices voir ([2], Chapitre 2), ([9], Chapitre 3) et [11].

c MOKKEDEM F.Z.
2.3 Coût intégrale convexe quelconque 75

c MOKKEDEM F.Z.
Chapitre 3

Contrôle optimal des systèmes


non linéaires

Ce chapitre discute le problème de contrôle optimal pour les systèmes non


linéaires et les fonctions coûts quelconques.
Comme dans le cas des systèmes linéaires, un contrôle optimal est un contrôle
extrémal. Cepandant, dans le cas des systèmes non linéaires, un contrôle extrémal
vérifie les conditions de maximisation mais l’inverse est faux. Par conséquent
le principe du maximum de Pontryagin donne une condition nécessaire et non
suffisante d’extrémalité et par suite d’optimalité.
Pour avoir une condition suffisante d’optimalité, on utilise la programmation
dynamique, une technique basée sur les équations d’Hamilton-Jacobi-Bellman.
Cette approche qui exprime les contrôles optimaux en boucles fermées introduit
la notion de viscosité (voir [7]). Par suite elle est souvent très difficile à résoudre.
Dans ce chapitre, on présente les résultats fondamentaux sur le principe du
maximum et sur la programmation dynamique. Plus de détails et des versions
plus complètes se trouvent dans [2, 5, 9, 11, 12, 14] et [15].
À la fin, on donne quelques exercices avec solutions pour faciliter la com-
préhension du contenu de ce chapitre. Plus d’exercices se trouvent dans les
références ci-dessus.
3.1 Existence d’un contrôle optimal 77

3.1 Existence d’un contrôle optimal


Dans cette section, on regroupe les hypothèses fondamentales qui assurent
l’existence (et l’unicité) des contrôles optimaux. Soit l’équation non linéaire :

 ẋ(t)
 = h(t, x(t), u(t)), ∀t ∈ [t0 , T ],
(3.1)
0 ) = x0 ,
 x(t

et soit un coût J : Rm → R à minimiser. Pour garantir l’existence et l’unicité


d’une solution du système (3.1), on suppose que :
(H1 ) La fonction h : [t0 , T ] × Rn × Rm → Rn est de classe C 1 .
Or pour assurer que cette solution n’explose pas en temps fini t ∈ [t0 , T ], on
ajoute l’hypothèse :
(H2 ) Il existe une constante positive k telle que pour tout contrôle u ∈
L2 (t0 , T ; Rm ) et tout t ∈ [t0 , T ] on a kx(t, x0 , u)k ≤ k.
D’autre part, pour vérifier l’existence d’un contrôle optimal u∗ ∈ L2 (t0 , T ; Rm )
minimisant le coût J, on suppose que :
(H3 ) La fonction J : Rm → R est convexe, propre, continue et coercive.
Rappelons qu’une fonction J convexe est dite propre si et seulement si son do-
maine Dom J = {u ∈ Rm | J(u) < ∞} est non vide.

Théorème 3.1. ([2], Théorème 2.1.1) Soit le système non linéaire (3.1) et soit
J : Rm → R un coût à minimiser. Supposons que les hypothèses (H1 )−(H3 ) sont
satisfaites. Alors il existe au moins un contrôle optimal minimisant le coût J.

Soit en particulier
Z T
J(u) = φ0 (T, x(T )) + φ1 (t, x(t), u(t)) dt, (3.2)
t0

avec
(H4 ) La fonction φ0 : [t0 , T ] × Rn est une fonction continue.
(H5 ) La fonction φ1 : [t0 , T ] × Rn × Rm est une fonction de classe C 1 .
(H6 ) Pour tout x ∈ Rn et t ∈ [t0 , T ] fixés, l’ensemble

{(φ1 (t, x(t), u(t)), h(t, x(t), u(t))), u ∈ L2 (t0 , T ; Rm )}

c MOKKEDEM F.Z.
78 3. Contrôle optimal des systèmes non linéaires

est convexe dans Rn+1 .

Théorème 3.2. [14] Soit le système non linéaire (3.1) et soit le coût (3.2) à min-
imiser. Supposons que les hypothèses (H1 ), (H2 ) et (H4 ) − (H6 ) sont satisfaites.
Alors il existe au moins un contrôle optimal minimisant le coût J.

En cas de contraintes sur le contrôle u, il suffit de supposer de plus que :


(H7 ) Le contrôle u(t) ∈ Ω est mesurable et localement borné avec Ω un
sous-ensemble non vide, compact et convexe de Rm .
De plus, si l’état final x(T ) est fixé, alors on doit supposer que :
(H8 ) Le système (3.1) est contrôlable pour un certain temps fini t1 ∈ [t0 , T ].
On peut même considérer que x0 ∈ E0 et x(T ) ∈ E1 avec
(H9 ) E0 et E1 sont deux sous-ensembles non vides et compacts de Rn tels
que E1 est atteignable depuis E0 .
En cas de contraintes sur l’état, c’est à dire, si x(·) ∈ G avec

G = {x ∈ Rn | g(x) = 0 et j(x) < 0},

où g : Rn → Rp représente les contraintes en égalités et j : Rn → Rq représente


les contraintes en inégalités, alors il suffit de rajouter la condition suivante :
(H10 ) Les fonctions g et j sont continues et l’ensemble G est borné.
Finalement, le temps final tf ∈ [t0 , T ] peut être fixé comme il peut être libre.
Notons que sous les conditions précédentes on ne peut garantir que l’existence
d’au moins un contrôle optimal pour le coût J (voir [2] et [14]). Pour l’unicité il
faut rajouter d’autres hypothèses comme par exemple :
(H11 ) Le coût J est strictement convexe et l’ensemble de contraintes sur l’état
G est convexe.

Théorème 3.3. ([2], Théorèmes 2.1.2 et 3.1.2) Soit le système non linéaire (3.1)
et soit le coût (3.2) à minimiser. Supposons que les hypothèses (H1 ) − (H3 ) et
(H11 ) sont satisfaites. Alors il existe un unique contrôle optimal minimisant le
coût J.

c MOKKEDEM F.Z.
3.2 Principe du maximum et Hamiltonien 79

3.2 Principe du maximum et Hamiltonien

Comme dans le cas des systèmes linéaires, il suffit de regrouper l’équation


(3.1) et la dérivée par rapport au temps du coût J dans un seul système, dit sys-
tème augmenté, pour conclure qu’un contrôle optimal pour le coût J est extrémal
pour l’ensemble accessible du système augmenté Ã(t).

Théorème 3.1. ([14], Lemme VII.7.7) Soient le système non linéaire (3.1) et le
coût (3.2). Si un contrôle u∗ est optimal pour le coût J alors il est extrémal pour
Ã(t).

Cependant, dans le cas des systèmes non linéaires, un contrôle extrémal vérifie
le principe du maximum mais l’inverse est faux !
Pour simplifier l’énoncé du principe du maximum, on introduit le Hamiltonien
H : [t0 , T ] × Rn × (Rn /{0}) × R × Rm → R par

H(t, x, p, p0 , u) = < p0 , φ1 (t, x, u) >R + < p(t), h(t, x, u) >Rn , (3.3)

où p(·) est un vecteur ligne de Rn solution non nulle de l’équation adjointe de


(3.1) et p0 ≤ 0 est une constante négative.

3.2.1 Cas sans contraintes sur l’état sans contraintes sur


le contrôle

On commence par le cas le plus simple où x0 ∈ Rn est fixé, u ∈ L2 (t0 , T ; Rm )


(pas de contraintes sur le contrôle) et x(T ) = x1 ∈ Rn avec x1 fixé ou libre.
Rappelons que si x1 est fixé alors on doit supposer que le système (3.1) est
contrôlable en temps fini (hypothèse (H8 )).

Théorème 3.2. ([14], Théorème VII.7.17) Soit le système non linéaire (3.1)
et soit T < ∞ fixé. Supposons que u∗ ∈ L2 (t0 , T ; Rm ) est un contrôle optimal
minimisant le coût (3.2) et que x∗ (·) = x(·, x0 , u∗ ) est la solution optimale du sys-
tème (3.1) correspondante à u∗ . Alors il existe une fonction absolument continue

c MOKKEDEM F.Z.
80 3. Contrôle optimal des systèmes non linéaires

p : [t0 , T ] −→ (Rn /{0}) et une constante p0 ≤ 0 telles que pour tout t ∈ [t0 , T ] :

∂H
x˙∗ (t) = (t, x∗ (t), p(t), p0 , u∗ (t)),



∂p





∂H

ṗ(t) = − (t, x∗ (t), p(t), p0 , u∗ (t)),


 ∂x
∂H


(t, x∗ (t), p(t), p0 , u∗ (t)) = 0.




∂u

Si le temps final T est libre et si u∗ (t) est continu en t, alors

∂φ0
H(T, x∗ (T ), p(T ), p0 , u∗ (T )) = −p0 (T, x(T )).
∂t

3.2.2 Cas sans contraintes sur l’état avec contraintes sur


le contrôle
Maintenant, on suppose que x0 ∈ Rn est fixé, x(T ) = x1 ∈ Rn avec x1 fixé ou
libre et u(t) ∈ Ω avec Ω un compact de Rm (hypothèse (H7 )).

Théorème 3.3. ([14], Théorème 7.18) Soit le système non linéaire (3.1) et soit
T < ∞ fixé. Supposons que u∗ ∈ L2 (t0 , T ; Ω) avec Ω un compact de Rm est un
contrôle optimal minimisant le coût (3.2) et que x∗ (·) = x(·, x0 , u∗ ) est la solu-
tion optimale du système (3.1) correspondante à u∗ . Alors il existe une fonction
absolument continue p : [t0 , T ] −→ (Rn /{0}) et une constante p0 ≤ 0 telles que :

∂H


 x˙∗ (t) = (t, x∗ (t), p(t), p0 , u∗ (t)),
∂p





∂H

ṗ(t) = − (t, x∗ (t), p(t), p0 , u∗ (t)), t ∈ [t0 , T ],



 ∂x

 H(t, x∗ (t), p(t), p0 , u∗ (t))


= max H(t, x(t), p(t), p0 , v), p.p. t ∈ [t0 , T ].
v∈Ω

Si le temps final T est libre alors

∂φ0
max H(T, x(T ), p(T ), p0 , w) = −p0 (T, x(T )).
w∈Ω ∂t

Si de plus u∗ (t) est continu en t, l’égalité précédente devient :

∂φ0
H(T, x∗ (T ), p(T ), p0 , u∗ (T )) = −p0 (T, x(T )).
∂t
c MOKKEDEM F.Z.
3.2 Principe du maximum et Hamiltonien 81

Remarque 3.1. ([9], Chapitre 5)


– La différence entre les deux théorèmes précédents se trouve dans la dernière
équation du système d’optimalité. Ceci confirme la Remarque 2.1.
– Si le système non linéaire (3.1) ne dépend pas du temps (ẋ(t) = h(x(t), u(t)))
ainsi que la fonction φ1 alors

H(t, x∗ (t), p(t), p0 , u∗ (t)) = cst, ∀t ∈ [t0 , T ].

– En cas d’horizon infini (T = +∞), on considère les systèmes linéaires au-


tonomes et on pose φ0 = 0. Donc on trouve le même système d’optimalité.
De plus
H(t, x∗ (t), p(t), p0 , u∗ (t)) = 0, ∀t ∈ [t0 , +∞).

– Pour qu’un contrôle satisfaisant le principe du maximum soit optimal, il


faut ajouter plus d’hypothèses, voir ([9], Section 5.2)

3.2.3 Plus de remarques sur les conditions de transver-


salité

– Si x(T ) ∈ E1 avec E1 une sous-variété de Rn telle qu’il existe un espace


tangent de E1 en x(T ) noté Tx(T ) E1 , alors

∂φ0
p(T ) − p0 (T, x(T )) ⊥ Tx(T ) E1 .
∂x

– De même si x0 ∈ E0 avec E0 une sous-variété de Rn telle qu’il existe un


espace tangent de E0 en x0 noté Tx0 E0 , alors

p(0) ⊥ Tx0 E0 .

– Si en particulier φ0 6= 0 et x(T ) ∈ E1 avec

E1 = {x ∈ Rn | g1 (x) = g2 (x) = · · · = gp (x) = 0} (3.4)

où toutes les fonctions gi sont de classe C 1 (indépendantes parce que E1

c MOKKEDEM F.Z.
82 3. Contrôle optimal des systèmes non linéaires

est une variété), alors

Tx(T ) E1 = {y ∈ Rn | Ogi (x)y = 0}.

Par suite il existe des constantes réelles (c1 , · · · , cp ) telles que

p
∂φ0
ci ∇gi (x(T )) + p0
X
p(T ) = (T, x(T )).
i=1 ∂x

– De même si x0 ∈ E1 avec E1 donnée par (3.4), alors il existe des constantes


réelles (k1 , · · · , kp ) telles que

p
X
p(0) = ki ∇gi (x(0)).
i=1

– Si φ0 6= 0 et est de classe C 1 et x(T ) est libre dans Rn alors p(T ) =


p0 ∂φ
∂x
0
(T, x(T )). Si de plus φ0 ne dépend pas de t, alors p(T ) = p0 ∇φ0 (x(T )).
– Si en particulier φ0 = 0 et x(T ) est libre dans Rn alors p(T ) = 0.
– De même, si φ0 = 0 et x0 ∈ Rn est libre alors p(0) = 0.

3.2.4 Remarques sur le cas avec contraintes sur l’état

Dans le cas de contraintes sur l’état, on suppose que sur tout [t0 , T ], x(t) ∈ G
où G, dit ensemble de contraintes, vérifie la condition (H10 ). Ces contraintes
causent une discontinuité du vecteur adjoint. Pour les détails voir par exemple
[3, 4] et [14]. À cause de cette discontinuité, la résolution du système d’optimalité
devient très difficile et compliquée.
Pour éviter cette complication, on peut utiliser la méthode de pénalisation
comme suit : D’adord, on construit une fonction ψ : Rn → R qui est nulle sur G
et strictement positive ailleurs (on peut choisir ψ(x) = d(x, G), la distance entre
RT
x et G). Puis, on ajoute la valeur α t0 ψ(x(t))dt au coût J(u). Ici α > 0 est un
RT
poids que l’on ajoute pour donner plus de valeur au terme α t0 ψ(x(t))dt dans
J(u). Cette approche nous amème à minimiser le coût modifié :
Z T
J1 (u) = J(u) + α ψ(x(t))dt.
t0

c MOKKEDEM F.Z.
3.2 Principe du maximum et Hamiltonien 83

Clairement, si x(t) ∈
/ G et α > 0 est grand, alors le coût J1 (u) devient très grand
aussi. Par suite x(t) n’est pas optimale pour J1 (u). Par contre, si x(t) ∈ G, alors
ψ(x) = 0 et min J1 (u) = min J(u) existe. De cette façon, un contrôle optimal pour
le coût réctifié (où il n’y a pas de contraintes sur l’état) est aussi optimal pour le
coût original (pour lequel x(·) ∈ G). Pour les détails voir ([14], Proposition 7.19).

3.2.5 Exercices corrigés


Exercice 3.1. ([11], PM11) Soit le système suivant :




 x˙1 (t) = −x1 (t) + u(t),


 x˙2 (t) = u(t), t ∈ [0, T ],



x1 (0) = x10 , x2 (0) = x20 .

On veut atteindre au temps final T fixé la position (x1 (T ), x2 (T )) qui vérifie la


contrainte
x1 (T ) + x2 (T ) = 1 (3.5)

et minimise le critère :
1Z T 2
J(u) = u (t)dt.
2 0
1. Écrire le Hamiltonien en prenant p(t) = (p1 (t), p2 (t))T le vecteur adjoint et
p0 = −1.

2. Trouver le contrôle optimal en fonction de p(0).

3. Remplacer le contrôle optimal par sa valeur dans le système d’état et utiliser


la contrainte (3.5) pour écrire p(0) en fonction des conditions initiales.

4. Supposons que x10 e−T + x20 = 1. Trouver p(0) puis u∗ et s’assurer que la
solution à l’instant T vérifie (3.5).

Rappelons que l’équation différentielle ẋ+Ax = B+Cebt a pour solution générale


x(t) = De−At + B
A
+ C
A+b
ebt .

c MOKKEDEM F.Z.
84 3. Contrôle optimal des systèmes non linéaires

Solution de l’exercice 3.1

1. Soit X(t) = (x1 (t), x2 (t))T le vecteur d’état et p(t) = (p1 (t), p2 (t))T le
vecteur adjoint. Donc le Hamiltonien (pour p0 = −1) s’écrit :

1
H(t, x(t), p(t), p0 , u(t)) = p1 (t)(−x1 (t) + u(t)) + p2 (t)u(t) − u2 (t).
2

2. Par suite le système d’optimalité donne :

∂H

 p˙1 (t)

 =− = p1 (t),

∂x1
 ∂H
 p˙2 (t) = − = 0, t ∈ [0, T ].


∂x2

Donc p2 (t) = p2 (0) = cste et p1 (t) = p1 (0)et . Puisqu’on n’a pas de con-
traintes sur le contrôle alors

∂H
(t, x∗ (t), p(t), p0 , u∗ (t)) = 0.
∂u

Donc
u∗ (t) = p1 (t) + p2 (t) = p2 (0) + p1 (0)et , ∀t ∈ [0, T ]. (3.6)

3. En remplaçant u∗ par sa valeur dans le système de contrôle, on obtient



 ẋ2 (t)
 = p2 (0) + p1 (0)et ⇒ x2 (t) = A + p2 (0)t + p1 (0)et ,
 ẋ
1 (t) + x1 (t) = p2 (0) + p1 (0)et ⇒ x1 (t) = B + Cet + De−t .

Or

p2 (0) + p1 (0)et = ẋ1 (t) + x1 (t) = Cet − De−t + B + Cet + De−t = B + 2Cet .

Ce qui donne B = p2 (0) et C = 21 p1 (0). D’où

1

x 1 (t) = p2 (0) + p1 (0)et + De−t


2
= A + p2 (0)t + p1 (0)et .

 x2 (t)

En utilisant les conditions initiales (x1 (0), x2 (0)) = (x10 , x20 ), on trouve

c MOKKEDEM F.Z.
3.2 Principe du maximum et Hamiltonien 85

A = x20 − p1 (0) et D = x10 − p2 (0) − 21 p1 (0). Ce qui donne

1 1
  
 x1 (t) = p2 (0) + p1 (0)et + x10 − p2 (0) − p1 (0) e−t ,


2 2
= x20 − p1 (0) + p2 (0)t + p1 (0)et .

2 (t)
x

Maintenant, on définit l’ensemble de contrainte finale

G = {x ∈ Rn | F (X) = x1 (T ) + x2 (T ) − 1 = 0}

et on utilise le fait que φ0 = 0 pour avoir

∂φ0
p(T ) = α ∇F (X(T )) + p0 (T, X(T )) = ∇F (X(T )).
∂X

Donc p1 (T ) = p2 (T ) et

1 1
  
 p2 (0) + p1 (0)eT + x10 − p2 (0) − p1 (0) e−T + x20 − p1 (0) + p2 (0)T + p1 (0)eT = 1


2 2
T

p
1 (0)e − p2 (0) = 0.

4. Le système précédent s’écrit sous forme matricielle comme suit


        
3 T 1 −T −T −T
2
e − 2
e −1 1+T −e p1 (0)   1 − x10 e − x20 
= .
 
 
eT −1 p2 (0) 0

Si 1 − x10 e−T − x20 = 0 alors ce système admet p1 (0) = p2 (0) = 0 comme


solution. Par suite u∗ (t) = 0 et

 x1 (t)
 = x10 e−t ,

2 (t) = x20 .
x

Ce qui vérifie la contrainte x1 (T ) + x2 (T ) = x10 e−T + x20 = 1.

Exercice 3.2. Reprendre l’exercice 2.8 avec temps final T libre. Supposons que
la vitesse initiale y0 6= 0 et la vitesse finale ym = 0. Trouver le temps optimal T
pour atteindre l’état final (xm , ym ).

c MOKKEDEM F.Z.
86 3. Contrôle optimal des systèmes non linéaires

Solution de l’exercice 3.2

Puisque le temps final T est libre et le contrôle u∗ est continu, alors

∂φ0
H(T, x∗ (T ), p(T ), u∗ (T )) = −p0 (T, X(T )) = 0.
∂t

Or d’après (2.8)

1
H(T, x∗ (T ), p(T ), u∗ (T )) = c1 y0 + c22 = cste.
2

Donc c1 y0 + 21 c22 = 0. En remplaçant c1 et c2 par leurs valeurs on obtient

(W 2 − 3W y0 )T 2 + 6V (y0 − W )T + 9V 2 = 0.

C’est un polynôme de degré deux avec ∆ = 36y0 ym V 2 = 0 (car ym = 0). Donc


on a une seule solution
3V (W − y0 )
T = .
W 2 − 3W y0
En remplaçant V et W par leurs valeurs et en tenant compte que ym = 0 on
trouve
3(xm − x0 )
T = . (3.7)
y0
Ce temps est optimal si et seulement s’il est fini. Sinon, si T → ∞, alors xm → ∞
aussi, ce qui est solution de (3.7) mais pas optimale pour notre problème.

Exercice 3.3. Soit le système non linéaire :






 ẋ(t) = f (x(t)) + g(x(t))u(t),


 ẏ(t) = u(t), t ∈ [0, T ],



x(0) = y(0) = 0,

avec f (x) = x(1 − x)(x − α) pour α ∈ [0, 1] un paramètre donné et g(·) une
fonction positive de classe C 1 telle que g(1) = 0. Soient k1 > 0 et k2 ∈]0, k1 T [
deux constantes. On suppose qu’il existe un contrôle optimal non nul u∗ (t) ∈ Ω
avec
Ω = {u ∈ R | u(t) ∈ [0, k1 ]}

c MOKKEDEM F.Z.
3.2 Principe du maximum et Hamiltonien 87

tel que la solution correspondante atteint la cible

G = {(x, y) ∈ R2 | y(T ) = k2 }

et minimise le coût
1
J(u) = (1 − x(T ))2 .
2
1. En supposant que x(t) modélise une densité de population, que signifie le
coût J et la cible G ?

2. Écrire le Hamiltonien et en déduire les équations correspondantes à l’état


adjoint p(·) = (p1 (·), p2 (·)). Préciser les conditions de transversalité.

3. Montrer que si p0 = 0, alors p1 (t) est nulle pour tout t ∈ [0, T ].

4. Trouver la condition sur le Hamiltonien que le contrôle optimal doit vérifier.


En déduire que si p0 = 0, alors
– Soit u∗ (t) = 0 pour tout t ∈ [0, T ].
– Soit u∗ (t) = k1 pour tout t ∈ [0, T ].
– Soit (p0 , p1 (t), p2 (t)) = (0, 0, 0) pour tout t ∈ [0, T ].
Conclure.

Solution de l’exercice 3.3

1. Si x(t) est une densité de population, alors le coût J désigne qu’à l’instant
T , cette densité doit être la plus proche possible de 1. D’autre part y(T ) =
RT
0 u(t)dt représente la quantité totale du “contrôle”. Donc cette quantité
est limitée par la quantité maximale k2 .
1
2. D’après l’expression du coût J, on a φ0 (x(T ), y(T )) = 2
(1 − x(T ))2 et
φ1 = 0. Donc le Hamiltonien est le suivant :

H(x(t), p(t), p0 , u(t)) = p1 (t) (f (x(t)) + g(x(t))u(t)) + p2 (t)u(t).

Donc
∂H

 p˙1 (t) =− = −p1 (t) (f 0 (x(t)) + g 0 (x(t))u(t)) ,



∂x
∂H
 p˙2 (t) = − = 0, t ∈ [0, T ].



∂y

c MOKKEDEM F.Z.
88 3. Contrôle optimal des systèmes non linéaires

Puisque x(T ) est libre, alors

∂φ0
p1 (T ) = −p0 (x(T ), y(T )) = −p0 (x(T ) − 1).
∂x

Or y(T ) vérifie la contrainte F (y) = y(T ) − k2 = 0. Donc

∂φ0
p2 (T ) = βF 0 (y(T )) − p0 (x(T ), y(T )) = β.
∂y

3. Une résolution du système adjoint précédent donne



 p˙2 (t)
 =0 ⇒ p2 (t) = cste = p2 (T ) = β,
RT
(f 0 (x(t))+g 0 (x(t))u(t))dt
p
1 (t) = p1 (T )e− .

0

Or si p0 = 0 alors p1 (T ) = 0. Par suite p1 (t) devient nulle sur tout l’inter-


valle [0, T ].

4. Puisqu’on a des contraintes sur le contrôle, alors

H(x∗ (t), p(t), p0 , u∗ (t)) = max H(x(t), p(t), p0 , w).


w∈Ω

D’après l’expression du Hamiltonien et comme p1 = 0 et p2 (t) = β, alors

βu∗ (t) = max{βw}.


w∈Ω

En utilisant la définition de Ω on trouve que si β < 0, alors u∗ (t) = 0


ce qui est impossible par hypothèse. Or si β > 0, alors u∗ (t) = k1 ce qui
RT
implique y(T ) = 0 u∗ (t)dt = k1 T > k2 ce qui est aussi faux par hypothèse.
Donc si β = 0, alors p2 (t) = 0 et on a (p0 , p1 (t), p2 (t)) = (0, 0, 0) pour tout
t ∈ [0, T ]. Cependant, le vecteur adjoint p(·) ne peut pas être nul, donc
la condition p0 = 0 n’est pas réalisable. On conclut que (pour maximiser
le Hamiltonien) p0 doit être strictement négatif. On peut le choisir égale à
−1.

Pour plus d’exercices voir ([9], Chapitre 4) et ([14], Chapitre 7).

c MOKKEDEM F.Z.
3.2 Principe du maximum et Hamiltonien 89

c MOKKEDEM F.Z.
90 3. Contrôle optimal des systèmes non linéaires

3.3 Programmation dynamique

Dans cette section, on donne une condition suffisante d’optimalité. Cette


condition est basée sur les fonctions valeurs qui sont exactement la fonction coût
définie sur des sous-intervalles de [0, T ]. Ces fonctions valeurs vérifient une cer-
taine équation aux dérivées partielles dite équation de Hamilton-Jacobi-Bellman.
La résolution de cette équation nous donne des contrôles optimaux en forme feed-
back. Toutes ces notions ainsi que des exercices corrigés sont présentés dans ce
qui suit.

3.3.1 Fonction valeur de Bellman

Soient 0 < T < ∞ et xT ∈ Rn fixés. Considérons l’équation :



 ẋ(t)
 = f (x(t), u(t)), ∀t ∈ [0, T ],
(3.8)
 x(T )

= xT

qui est autonome et qui est définie par un temps “final” et une condition “fi-
nale” fixés. Par contre x(0) est libre. Supposons que
(H) Le contrôle u(t) ∈ Ω est mesurable et localement borné avec Ω un sous-
ensemble non vide et compact de Rm .
Le problème de contrôle optimal revient à minimiser le coût :
Z T
J(u) := J(T, u) = φ0 (x(0)) + φ1 (x(t), u(t))dt, (3.9)
0

où φ0 et φ1 sont continues.
Puisque la solution x(·) dépend de la position finale xT et du contrôle u, on
note x(·) = x(·, xT , u).
L’idée ici est de considérer le problème de contrôle optimal sur un intervalle
[0, s] ⊂ [0, T ] très petit, c’est à dire considérer le système :

 ẋ(t)
 = f (x(t), u(t)), ∀t ∈ [0, s],
(3.10)
 x(s) = xs ,

c MOKKEDEM F.Z.
3.3 Programmation dynamique 91

où xs = x(s, xT , u) et chercher la restriction de u sur [0, s] qui minimise :


Z s
J(u) := J(s, u) = φ0 (x(0)) + φ1 (x(t), u(t))dt. (3.11)
0

On note ce minimum par V (s, xs ).

Définition 3.1. ([14], Définition VIII.8.3) Une fonction V : [0, T ] × Rn → R


est dite fonction valeur de Bellman si
 Z s 
V (s, xs ) = inf φ0 (x(0)) + φ1 (x(t), u(t))dt , (3.12)
u: [0,s]→Ω 0

où x(·) est solution du système (3.10). En particulier, pour tout x0 ∈ Rn ,

V (0, x0 ) = V (0, x(0)) = φ0 (x(0)) = φ0 (x0 ).

Clairement si s = T , alors

V (T, xT ) = V (T, x(T )) = inf {J(T, u) | x(·) est solution de (3.8)} .


u: [0,T ]→Ω

Donc un contrôle optimal pour le coût J et une réalisation de V (T, xT ).

Définition 3.2. ([5], Définition 4.1) Un contrôle u∗ : [0, T ] → Ω est une réali-
sation de V (T, xT ) si pour tout contrôle v : [0, T ] → Ω, on a :
Z T
φ0 (x(0, xT , u∗ )) + φ1 (x(t, xT , u∗ ), u∗ (t))dt
0
Z T
≤ φ0 (x(0, xT , v)) + φ1 (x(t, xT , v), v(t))dt.
0

Pour pouvoir considérer le problème de contrôle optimal sur des sous inter-
valles de [0, T ], il faut s’assurer que, pour tout 0 ≤ r ≤ s ≤ T , une réalisation u∗
entre 0 et s pour la condition finale x(s) = xs est aussi une réalisation entre 0 et
r avec la condition finale x(r) = xr = x(r, xs , u∗ ).

Lemme 3.1. Soient 0 ≤ r ≤ s ≤ T et x(s) = xs . Si u∗ : [0, s] → Ω est une


réalisation de V (s, xs ), alors la restriction de u∗ sur [0, r] est une réalisation de
V (r, x(r, xs , u∗ )).

c MOKKEDEM F.Z.
92 3. Contrôle optimal des systèmes non linéaires

Par conséquent, le contrôle optimal peut être construit sur des intervalles de
plus en plus grands jusqu’à atteindre la largeur [0, T ].

Lemme 3.2. Soient 0 ≤ r ≤ s ≤ T et x(s) = xs . Si u∗ : [0, s] → Ω est une


réalisation de V (s, xs ), alors
Z s
V (s, xs ) = φ1 (x(t, xs , u∗ ), u∗ (t))dt + V (r, x(r, xs , u∗ )).
r

Ce qui nous montre le théorème suivant :

Théorème 3.4. Soient 0 ≤ r ≤ s ≤ T et x(s) = xs . On a


Z s 
V (s, xs ) = inf φ1 (x(t, xs , u), u(t))dt + V (r, x(r, xs , u)) .
u: [r,s]→Ω r

Notons que les résultats précédents sont applicables sur les systèmes avec
condition “initiale” de la forme

 ẋ(s)
 = f (x(t), u(t)), ∀t ∈ [0, T ],
(3.13)
 x(0) = x0 ,

avec contrainte (H) sur le contrôle et un coût donné par :


Z T
J(u) = J(T, u) = φ0 (x(T )) + φ1 (x(t), u(t))dt. (3.14)
0

Donc la fonction valeur de Bellman V : [0, T ] × Rn → R est définie par :


( Z T )
V (s, xs ) = inf φ0 (x(T )) + φ1 (x(t), u(t))dt (3.15)
u: [s,T ]→Ω s

où x(·) est solution du système



 ẋ(t)
 = f (x(t), u(t)), ∀t ∈ [s, T ],
 x(s) = xs = x(s, x0 , u).

Dans ce cas la fonction V vérifie la condition finale V (T, xT ) = φ0 (xT ) et des


résultats analogues aux précédents sont aussi démontrés, voir ([3], Chapitre 9)
et ([5], Chapitre 4).

c MOKKEDEM F.Z.
3.3 Programmation dynamique 93

3.3.2 Équations d’Hamilton-Jacobi-Bellman


Supposons que pour tout s ∈ [0, T ] et tout xs ∈ Rn le système (3.10) défini
sur [0, s] avec condition finale x(s) = xs admet une solution optimale x∗ (·) =
x(·, xs , u∗ ) associée au contrôle optimal u∗ minimisant le coût (3.11). Alors
Z s
V (s, xs ) = V (s, x∗ (s)) = J(s, u∗ ) = φ0 (x∗ (0)) + φ1 (x∗ (t), u∗ (t))dt.
0

Supposons que la fonction valeur V (·, ·) est de classe C 1 sur [0, s] × Rn . Donc en
dérivant par rapport au temps, on obtient

∂V ∂V
(s, xs ) + (s, xs ) f (x∗ (s), u∗ (s)) − φ1 (x∗ (s), u∗ (s)) = 0. (3.16)
∂t ∂x

Rappelons le Hamiltonien :

H(x∗ (s), p(s), p0 , u∗ (s)) = p0 φ1 (x∗ (s), u∗ (s))+ < p(s), f (x∗ (s), u∗ (s)) >Rn .

On sait d’après le principe du maximum que

H (x∗ (s), p(s), p0 , u∗ (s)) = max H (xs , p(s), p0 , v) , p.p. s ∈ [0, T ].


v∈Ω

Par conséquent, en multipliant (3.16) par −p0 , on obtient, pour tout (s, xs ) ∈
]0, T ] × Rn tel que xs = x∗ (s),
!
∂V ∂V
−p0 (s, xs ) + max H xs , −p0 (s, xs ), p0 , v = 0.
∂t v∈Ω ∂x

Cette équation qui est une équation aux dérivées partielles du premier ordre est
appelée équation de Hamilton-Jacobi-Bellman (HJB). En ajoutant la condition
initiale de V (0, ·), il vient :
 !
 ∂V ∂V


 − p0 (s, xs ) + max H xs , −p0 (s, xs ), p0 , v = 0,
∂t v∈Ω ∂x (3.17)


 V (0, ·)

= φ0 (·)

où (s, xs ) ∈ [0, T ] × Rn et V (·, ·) est la fonction valeur définie par (3.12).

c MOKKEDEM F.Z.
94 3. Contrôle optimal des systèmes non linéaires

Exercice 3.4. Montrer que si on considère le système controlé (3.13) avec con-
dition initiale x(0) = x0 et fonction coût (3.14), alors l’équation HJB sera donnée
par :  !
 ∂V ∂V


 − p0 (s, xs ) + max H xs , −p0 (s, xs ), p0 , v = 0,
∂t v∈Ω ∂x


 V (T, ·)

= φ0 (·),

où (s, xs ) ∈ [0, T ] × Rn et V (·, ·) est la fonction valeur définie par (3.15).

Remarque 3.2.
– En générale, la fonction V (·, ·) n’est pas différentiable partout sur [0, T ] ×
Rn .
– La fonction valeur V (·, ·) n’est pas forcément la solution unique de (3.17).

Pour assurer l’unicité de solution vérifiant (3.17) partout, il faut définir un


autre type de solutions qui sont les solutions au sens de viscosité.

Définition 3.3. ([3], Définition 9.4) Soit V : R × Rn → R une fonction con-


tinue. V est dite sous-solution (respectivement sur-solution) de (3.17) au sens de
viscosité si pour tout (s, xs ) ∈ [0, T ]×Rn et toute fonction réelle S : R×Rn → R
de classe C 1 telle que S ≤ V (respectivement S ≥ V ) sur tout [0, T ] × Rn avec
S(s, xs ) = V (s, xs ) alors
!
∂S ∂S
−p0 (s, xs ) + max H xs , −p0 (s, xs ), p0 , v ≤ 0
∂t v∈Ω ∂x

(respectivement
!
∂S ∂S
−p0 (s, xs ) + max H xs , −p0 (s, xs ), p0 , v ≥ 0.)
∂t v∈Ω ∂x

On dit que V est une solution de (3.17) au sens de viscosité si elle est à la fois
sur et sous solution de (3.17).

Remarquons que si la fonction valeur V (·, ·) est de classe C 1 partout sur


[0, T ] × Rn , alors elle est une solution au sens de viscosité de (3.17). Inversement,
une solution au sens de viscosité de (3.17) vérifie (3.17) sur tout les points où
elle est différentiable.

c MOKKEDEM F.Z.
3.3 Programmation dynamique 95

Pour avoir l’existence et l’unicité de solution de viscosité de (3.17), il suffit


d’imposer quelques conditions sur f, φ0 et φ1 comme par exemple :

Théorème 3.5. ([14], Théorème 8.21) Supposons que les fonctions f, φ0 et φ1


sont uniformément bornées et Lipschitziennes par rapport à x ∈ Rn . Alors la
fonction valeur V (·, ·) est bornée et lipschitzienne par rapport à t et x. De plus
elle est la solution de viscosité unique de l’équation
 !
∂V ∂V
(t, y) ∈]0, T ] × Rn ,



 (t, y) + max H y, (t, y), −1, v = 0,
∂t v∈Ω ∂x


 V (0, ·)

= φ0 (·).

3.3.3 Le contrôle optimal en feedback

La résolution de l’équation (HJB) (3.17) exprime les contrôles optimaux sous


forme feedback.

Théorème 3.4. ([5], Théorème 4.3) Soient 0 < T < ∞ et xT ∈ Rn fixés et


soit le système (3.8). Soit V (·, ·) une solution du système (3.17) de classe C 1
sur [0, T ] × Rn . Supposons que pour tout (s, xs ) ∈ R × Rn il existe un contrôle
u∗ (s, xs ) ∈ Ω tel que, pour tout v ∈ Ω, on a :
! !
0 ∂V ∗ ∂V
H xs , −p (s, xs ), p0 , u (s, xs ) ≥ H xs , −p0 (s, xs ), p0 , v(s, xs ) .
∂x ∂x

Alors u∗ est un contrôle en feedback du problème de contrôle (3.8)-(3.9) donné


par U ∗ (s) = u∗ (s, xs ) = u∗ (s, x∗ (s)).

En particulier, si le système (3.8) est linéaire et si le coût (3.9) est quadratique,


alors on retrouve l’équation de Riccati, voir ([2], Section 8.2.2).
Notons ici que, comme l’équation de Riccati, l’équation (HJB) est aussi très
difficile à résoudre analytiquement. C’est pour ça, les mathématiciens continuent
à utiliser et à améliorer les méthodes numériques. Voir par exemple ([3], Section
10) et ([14], Chapitre 9).

c MOKKEDEM F.Z.
96 3. Contrôle optimal des systèmes non linéaires

3.3.4 Exercices corrigés

Exercice 3.5. Soit le système :



 ẋ(t)
 = u(t), t ∈ [0, 1],
 x(0) = x0 .

On veut déterminer la solution optimale pour atteindre la position finale x(1) =


x1 donnée en minimisant le coût

1Z 1 2 
J(u) = x (t) + u2 (t) dt.
2 0

1. Résoudre ce problème en utilisant le principe du maximum de Pontryagin.

2. Supposons maintenant que x1 est quelconque et que le coût est donné par :

˜ 1 2 1Z 1 2 
J(u) = x (1) + x (t) + u2 (t) dt. (3.18)
 2 0

Si  → 0 alors on doit supposer que x(1) = x1 = 0.

(a) Écrire l’équation d’Hamilton-Jacobi-Bellman associée à ce problème


en prenant p0 = −1.

(b) Supposons que V (t, x) = φ(t)x2 . Résoudre l’équation d’Hamilton-


Jacobi-Bellman.
ẋ(t)
(c) Vérifier que si  → 0, alors les quotients x(t)
trouvés dans cette question
et dans la question 1 avec x1 = 0 sont bien les mêmes. Conclure.

Solution de l’exercice 3.5

1. Méthode 1 : Principe du maximum de Pontryagin :


Soit p0 = −1, alors le Hamiltonien est le suivant :

1
H(x(t), p(t), p0 , u(t)) = p(t)u(t) − (x2 (t) + u2 (t)), t ∈ [0, 1]. (3.19)
2
c MOKKEDEM F.Z.
3.3 Programmation dynamique 97

Par suite, pour tout t ∈ [0, 1],



∂H ∗
x˙∗ (t) = (x (t), p(t), p0 , u∗ (t)) = u∗ (t),



∂p





∂H ∗

ṗ(t) = − (x (t), p(t), p0 , u∗ (t)) = x∗ (t),


 ∂x
∂H ∗


(x (t), p(t), p0 , u∗ (t)) = 0 ⇒ u∗ (t) = p(t).




∂u

Ce qui donne 
¨
 x∗(t)
 = x∗ (t), t ∈ [0, 1],
 x∗ (0)

= x0 et x∗ (1) = x1 ,

d’où, la solution optimale est

x0 e−2 − x1 e−1 t x1 e−1 − x0 −t


x∗ (t) = e + −2 e , t ∈ [0, 1]. (3.20)
e−2 − 1 e −1

En intégrant cette solution on trouve p(t) en fonction de p(0). Mais on note


ici que puisque x(0) et x(1) sont donnés alors p(0) et p(1) sont inconnus.

2. Méthode 2 : Principe de la programmation dynamique de Bell-


man :

(a) La fonction valeur V (·, ·) est donnée pour tout (s, xs ) ∈ [0, 1] × R par :

1 2 1Z 1 2
  
V (s, xs ) = inf x (1) + x (t) + u2 (t) dt .
u: [s,1]→Ω  2 s

D’après l’exercice 3.4, l’équation HJB s’écrit comme suit :


 !
0 ∂V ∂V
−p (s, xs ) + max H xs , −p0 (s, xs ), p0 , v = 0,



∂t ∂x

v∈Ω
 1
 V (1, x(1)) = φ0 (x(1)) = x2 (1).




En utilisant (3.19) avec p0 = −1 et p(s) = −p0 ∂V


∂x
(s, xs ), on a :
! !
∂V ∂V
max H xs , −p0 (s, xs ), p0 , v = H xs , −p0 (s, xs ), p0 , u∗ (s)
v∈Ω ∂x ∂x
∂V 1 2 
= (s, xs )u∗ (s) − x (s) + u∗ 2 (s) .
∂x 2
c MOKKEDEM F.Z.
98 3. Contrôle optimal des systèmes non linéaires

Or, d’après le système d’optimalité

∂V ∂V
u∗ (s) = p(s) = −p0 (s, xs ) = (s, xs ), (3.21)
∂x ∂x

d’où
!  !2 
∂V 1  ∂V
max H xs , −p0 (s, xs ), p0 , v = (s, xs ) − x2 (s) .
v∈Ω ∂x 2 ∂x

Finalement, l’équation HJB s’écrit :


  !2 
∂V 1 ∂V
− x2 (s) = 0, (s, xs ) ∈ [0, 1[×Rn ,

(s, xs ) +  (s, xs )



∂t 2 ∂x

1


= x2 (1).

 V (1, x(1))


(3.22)

(b) Supposons que pour tout (t, y) ∈ R × Rn , V (t, y) = g(t)y 2 . Alors

∂V
(s, xs ) = ġ(s)x2s ,
∂t
∂V
(s, xs ) = 2g(s)xs , (3.23)
∂x
1 2 1
x (1) = V (1, x(1)) = g(1)x2 (1) ⇔ g(1) = .
 

En remplaçant ces résultats dans (3.22), on obtient



2 1
 ġ(s) + 2g (s) − = 0,


2
 1
 g(1)

= .


Cette équation qui est une équation de Riccati admet la solution par-
ticulière g0 (s) = 12 . Soit g(s) = 1
2
+ h(s) alors

ḣ(s) + 2h(s) + 2h2 (s) = 0.

1
En posant le changement de variables k(s) = h(s)
, on obtient :

k̇(s) − 2k(s) − 2 = 0

c MOKKEDEM F.Z.
3.3 Programmation dynamique 99

qui admet la solution k(s) = −1 + ae2s . Par conséquent, on a

1 1 1 + ae2s
h(s) = et g(s) = .
−1 + ae2s 2 −1 + ae2s

1
En utilisant la condition finale g(1) = 
on trouve

2 +  −2
a= e .
2−

(c) Finalement, on pose V (s, xs ) = V (s, x(s)) où x(s) est l’état du sys-
tème à l’instant s. D’une part, d’après (3.21) et (3.23), on a :

∂V
ẋ(t) = u∗ (t) = (t, x(t)) = 2x(t)g(t),
∂x

ce qui donne :
ẋ(t)
= 2g(t).
x(t)
Quand  → 0 on a x(1) = x1 = 0 et a = e−2 . Donc

1 1 + e2t−2
g(t) = ,
2 −1 + e2t−2

d’où
ẋ(t) 1 + e2t−2
= , t ∈ [0, 1].
x(t) −1 + e2t−2

D’autre part, en dérivant (3.20) par rapport au temps et en utilisant


la condition finale x1 = 0, on retrouve exactement le même résultat.
Ceci montre l’équivalence entre les résultats des deux méthodes (de
Pontryagin et de Bellman).

Exercice 3.6. Soit l’équation différentielle :

ẋ(t) = ax(t) − u(t), t ∈ [0, T ],

où x(t) est la somme d’argent épargnée à l’instant t par un individu, u(t) représente
ses dépenses. l’individu souhaite réduire ses dépenses et maximiser l’épargne fi-

c MOKKEDEM F.Z.
100 3. Contrôle optimal des systèmes non linéaires

nal. Autrement dit, il cherche à maximiser le critère :


Z T q q
J(u) = e−bt u(t)dt + x(T )
0

sous les conditions u ≥ 0 et b > a2 .

1. Déterminer le Hamiltonien pour p0 = −1 et la fonction valeur V (s, xs ).

2. Déterminer l’équation HJB et la résoudre en supposant la séparation des



variables V (s, xs ) = f (s) xs et la condition f (T ) = 0.

3. En déduire la stratégie d’investissement optimal et la valeur finale du cap-


ital.

Solution de l’exercice 3.6

1. Pour p0 = −1 le Hamiltonien s’écrit :

  q
H(x(t), p(t), p0 , u(t)) = p(t) ax(t) − u(t) + ebt u(t), t ∈ [0, T ]. (3.24)

La fonction valeur :
( Z T q q )
−bt
V (s, xs ) = inf − e u(t)dt − x(T )
u∈Ω s

où xs = x(s) est l’état du système à l’instant s ∈ [0, T ].

2. L’équation HJB :
 !
∂V ∂V
(s, xs ) ∈ [0, T ] × Rn ,



 (s, xs ) + max H xs , (s, x), p0 , v = 0,
∂t v∈Ω ∂x

 q
 V (T, x(T )) = φ0 (x(T )) = − x(T ).

D’après la condition d’optimalité, on a

∂H ∗ 1 1
(x (t), p(t), p0 , u∗ (t)) = 0 ⇒ −p(t) + e−bt q = 0.
∂u 2 u∗ (t)

Remarquons que si p(·) ≤ 0, alors le Hamiltonien est croissant en u. Donc

c MOKKEDEM F.Z.
3.3 Programmation dynamique 101

le maximum est atteint pour u∗ → ∞. Or si p(·) > 0, alors

e−2bt
u∗ (t) = , t ∈ [0, T ]. (3.25)
4p2 (t)

∂V
D’après (3.24) et (3.25), on a pour (s, xs ) ∈ [0, T ] × Rn et p(s) = ∂x
(s, xs ) :
! !
∂V ∂V
max H xs , (s, xs ), p0 , v = H xs , (s, xs ), p0 , u∗ (s)
v∈Ω ∂x ∂x
∂V   q
= (s, x) ax∗ (s) − u∗ (s) + e−bs u∗ (s)
∂x
∂V e−2bs
= ax∗ (s) (s, xs ) + ∂V .
∂x 4 ∂x (s, xs )

Donc, l’équation HJB est donnée par

e−2bs

∂V ∂V
(s, xs ) + ax∗ (s) (s, xs ) ∈ [0, T ] × Rn ,


 (s, xs ) + ∂V = 0,
∂t ∂x

4 ∂x (s, xs )

 q
 V (T, x(T )) = − x(T ).


Supposons que V (s, xs ) = f (s) xs . Donc

∂V √ ∂V 1 1
(s, xs ) = f˙(s) xs et (s, xs ) = f (s) √ .
∂t ∂x 2 xs

En remplaçant ces résultats dans l’équation HJB, il vient :

a e−2bs
q  
x∗ (s) f˙(s) + f (s) + = 0.
2 2f (s)
q
En simplifiant par x∗ (s) et en multipliant par eas , on obtient

d  2 
f (s)eas = −e(a−2b)s .
ds

D’où s
e−2bs
f (s) = ± + ce−as ,
2b − a
avec c une constante. En utilisant la condition f (T ) = 0 on obtient c =

c MOKKEDEM F.Z.
102 3. Contrôle optimal des systèmes non linéaires

e(a−2b)T
a−2b
. D’où
v !
e−2bs − e(a−2b)T −as
u
u
V (s, xs ) = ±t xs .
2b − a

∂V
On n’accepte que le cas positif sinon p(s) = ∂x
(s, xs ) ≤ 0 ce qui contredit
l’hypothèse p(·) > 0. Or, en tenant compte à l’hypothèse de l’équation
HJB, on trouve que x∗ (T ) doit être nulle.

3. D’après (3.25), le contrôle optimal est exprimé en boucles fermées par :

e−2bt
u∗ (t, x∗ (t)) =  2
∂V
4 ∂x
(t, x∗ (t))
(2b − a)
= x∗ (t), t ∈ [0, T ].
1 − e(a−2b)(T −t)

Donc, en utilisant ce contrôle, x∗ (·) est solution de


!
(2b − a)
x˙∗ (t) = a− x∗ (t), t ∈ [0, T ].
1 − e(a−2b)(T −t)

En intégrant cette équation, il vient

x∗ (t) Z t
1
ln ∗ = at − (2b − a) −s)
ds.
x (0) 0 1−e(a−2b)(T

On sait que
Z
1 1  kt

dt = kt − log(a + be ) ,
a + bekt ak
donc après calcul on trouve

1 − e(2b−a)(t−T )
x∗ (t) = x∗ (0)e2(a−2b)t , t ∈ [0, T ].
1 − e−(2b−a)T

Remarquons que la condition finale x∗ (T ) = 0 est satisfaite.

c MOKKEDEM F.Z.
Bibliographie

[1] Bensoussan, A., Da Prato, G., Delfour, M. C., & Mitter, S. K. (2007). Rep-
resentation and control of infinite dimensional systems. Springer Science &
Business Media.

[2] Bergounioux, M. (2001). Optimisation dans Rn et Introduction au Contrôle


Optimal des Systèmes Linéaires-Cours et exercices.

[3] Bonnans, J. F. (2015). Commande optimale.

[4] Bonnans, J. F. (2017). Lecture notes on optimal control-The Pontryagin


approach.

[5] Ciuperca, I. S. (2017). Cours de contrôle optimal.

[6] Curtain, R. F., & Zwart, H. (1995). An introduction to infinite-dimensional


linear systems theory. Springer Science & Business Media.

[7] Evans, L. C. (1998). Partial differential equations. Graduate Studies in


Mathematics vol 19 (American Mathematical Society : Providence, Rhode
Island).

[8] Fossard, A. (1972). Commande des systèmes multidimensionnels.

[9] Lee, E. B., & Markus, L. (1967). Foundations of optimal control theory.
Minnesota Univ Minneapolis Center For Control Sciences.

[10] Lenhart S., & Workman J. T.(2007). Optimal Control Applied to Biological
Models. CRC press.

[11] Llibre M., Corrège M., & Delmas J. (2009). Recueil d’exercices de Com-
mande Optimale.

[12] Pham H. (2007). Équation d’Hamilton-Jacobi-Bellman.


104 Bibliographie

[13] Pradin, B., & Garcia, G. (2010). Modélisation, analyse et commande des
systèmes linéaires. Presses Univ. du Mirail.

[14] Trélat, E. (2005). Contrôle Optimal : Théorie & Applications. Paris : Vuib-
ert.

[15] Trélat, E., & Haberkorn, T. (2017). Cours d’Automatique.

c MOKKEDEM F.Z.

View publication stats

Vous aimerez peut-être aussi