La dérivée fonctionnelle est un outil mathématique du calcul des variations . Elle exprime la variation d'une fonctionnelle résultant d'une variation infinitésimale de la fonction fournie en argument. Cet outil est principalement utilisé pour trouver les extremums d'une fonctionnelle. En physique il est souvent nécessaire de minimiser une fonctionnelle, par exemple en mécanique analytique où la trajectoire suivie par un système doit minimiser l'action (voir principe de moindre action ).
Cependant, la dérivée fonctionnelle n'est qu'une notation reprenant la définition de la différentielle , elle n'apporte pas de nouveaux concepts mathématiques par rapport à la différentiabilité d'une fonctionnelle.
Soit
M
{\displaystyle M}
un
K
{\displaystyle K}
espace vectoriel de fonctions,
K
{\displaystyle K}
étant le corps des scalaires. On appelle fonctionnelle sur
M
{\displaystyle M}
une application de
M
{\displaystyle M}
dans
K
{\displaystyle K}
. Notons
F
{\displaystyle {\mathcal {F}}}
l'ensemble des fonctionnelles sur
M
{\displaystyle M}
.
Soit une fonctionnelle
F
∈
F
{\displaystyle F\in {\mathcal {F}}}
et une fonction
ρ
∈
M
{\displaystyle \rho \in M}
. Pour définir la dérivée fonctionnelle de
F
{\displaystyle F}
par rapport à sa variable
ρ
{\displaystyle \rho }
, nous avons besoin de la différentiabilité (au sens de Fréchet) de
F
{\displaystyle F}
en
ρ
{\displaystyle \rho }
(et donc de munir
M
{\displaystyle M}
et
K
{\displaystyle K}
de structures d'espace vectoriel normé ).
Dans ce cadre, la dérivée fonctionnelle de
F
{\displaystyle F}
par rapport à
ρ
{\displaystyle \rho }
, notée
δ
F
δ
ρ
{\displaystyle {\frac {\delta F}{\delta \rho }}}
se définit comme la fonctionnelle sur
M
{\displaystyle M}
telle que :
∀
ϕ
∈
M
,
δ
F
δ
ρ
[
ϕ
]
=
d
e
f
D
ϕ
F
[
ρ
]
{\displaystyle \forall \phi \in M,{\frac {\delta F}{\delta \rho }}[\phi ]\ {\stackrel {\mathrm {def} }{=}}\ D_{\phi }F[\rho ]}
où
D
ϕ
F
{\displaystyle D_{\phi }F}
représente la dérivée directionnelle de
F
{\displaystyle F}
dans la direction
ϕ
{\displaystyle \phi }
, cette dérivée étant bien définie au point
ρ
{\displaystyle \rho }
car
F
{\displaystyle F}
est supposée différentiable en
ρ
{\displaystyle \rho }
. Ici, l'argument des fonctionnelles est noté entre crochets
[
.
]
{\displaystyle [.]}
pour rappeler que l'argument de
F
{\displaystyle F}
et de
δ
F
δ
ρ
{\displaystyle {\frac {\delta F}{\delta \rho }}}
est une fonction.
On remarque immédiatement que la dérivée fonctionnelle de
F
{\displaystyle F}
par rapport à
ρ
{\displaystyle \rho }
s'identifie à la différentielle de
F
{\displaystyle F}
au point
ρ
{\displaystyle \rho }
:
δ
F
δ
ρ
=
d
F
ρ
{\displaystyle {\frac {\delta F}{\delta \rho }}=dF_{\rho }}
grâce à l'identité
D
ϕ
F
[
ρ
]
=
d
F
ρ
(
ϕ
)
{\displaystyle D_{\phi }F[\rho ]=dF_{\rho }(\phi )}
. Cela montre que
δ
F
δ
ρ
{\displaystyle {\frac {\delta F}{\delta \rho }}}
est une forme linéaire sur
M
{\displaystyle M}
, c'est-à-dire que
δ
F
δ
ρ
{\displaystyle {\frac {\delta F}{\delta \rho }}}
appartient au dual (algébrique) de
M
{\displaystyle M}
. Dans ce cadre, la différentielle de
F
{\displaystyle F}
se note aussi
δ
F
{\displaystyle \delta F}
et est appelée différentielle fonctionnelle de
F
{\displaystyle F}
.
Si
M
{\displaystyle M}
est un ensemble de fonction test , la propriété précédente fait de
δ
F
δ
ρ
{\displaystyle {\frac {\delta F}{\delta \rho }}}
une distribution .
Le fait que
F
{\displaystyle F}
soit stationnaire au point
ρ
{\displaystyle \rho }
s'écrit par définition
δ
F
δ
ρ
=
d
F
ρ
=
0
{\displaystyle {\frac {\delta F}{\delta \rho }}=dF_{\rho }=0}
, donc
δ
F
δ
ρ
=
0
{\displaystyle {\frac {\delta F}{\delta \rho }}=0}
est une condition nécessaire pour que
ρ
{\displaystyle \rho }
soit un extremum local de
F
{\displaystyle F}
.
La dérivée fonctionnelle obéit à des règles similaires à celles du calcul différentiel ordinaire.
Soit deux fonctionnelles
F
,
G
∈
F
{\displaystyle F,G\in {\mathcal {F}}}
et un scalaire
λ
∈
K
{\displaystyle \lambda \in K}
:
Linéarité :
δ
(
F
+
λ
G
)
δ
ρ
=
δ
F
δ
ρ
+
λ
δ
G
δ
ρ
{\displaystyle {\frac {\delta (F+\lambda G)}{\delta \rho }}={\frac {\delta F}{\delta \rho }}+\lambda {\frac {\delta G}{\delta \rho }}}
Règle du produit :
δ
(
F
G
)
δ
ρ
=
G
[
ρ
]
δ
F
δ
ρ
+
F
[
ρ
]
δ
G
δ
ρ
{\displaystyle {\frac {\delta (FG)}{\delta \rho }}=G[\rho ]{\frac {\delta F}{\delta \rho }}+F[\rho ]{\frac {\delta G}{\delta \rho }}}
On a alors par récurrence la conséquence :
δ
(
F
n
)
δ
ρ
=
F
n
−
1
[
ρ
]
δ
F
δ
ρ
+
F
[
ρ
]
δ
F
n
−
1
δ
ρ
=
F
n
−
1
[
ρ
]
δ
F
δ
ρ
+
F
[
ρ
]
×
(
n
−
1
)
F
n
−
2
[
ρ
]
δ
F
δ
ρ
=
n
×
F
n
−
1
[
ρ
]
δ
F
δ
ρ
{\displaystyle {\frac {\delta (F^{n})}{\delta \rho }}=F^{n-1}[\rho ]{\frac {\delta F}{\delta \rho }}+F[\rho ]{\frac {\delta F^{n-1}}{\delta \rho }}=F^{n-1}[\rho ]{\frac {\delta F}{\delta \rho }}+F[\rho ]\times (n-1)F^{n-2}[\rho ]{\frac {\delta F}{\delta \rho }}=n\times F^{n-1}[\rho ]{\frac {\delta F}{\delta \rho }}}
Les multiplications étant définies grâce à la multiplication interne sur
K
{\displaystyle K}
:
F
G
[
ϕ
]
=
d
e
f
F
[
ϕ
]
G
[
ϕ
]
{\displaystyle FG[\phi ]\ {\stackrel {\mathrm {def} }{=}}\ F[\phi ]G[\phi ]}
où
F
[
ϕ
]
,
G
[
ϕ
]
∈
K
{\displaystyle F[\phi ],G[\phi ]\in K}
.
Ces propriétés découlent directement de celles de la dérivée directionnelle , ou encore de la différentielle .
On note
X
{\displaystyle X}
l'ensemble de définition des fonctions de
M
{\displaystyle M}
. Soit
x
,
y
∈
X
{\displaystyle x,y\in X}
,
Les abus de notations suivants sont fréquemment utilisés :
δ
F
δ
ϕ
[
δ
y
]
=
n
o
t
δ
F
[
ϕ
]
δ
ϕ
(
y
)
=
n
o
t
δ
F
δ
ϕ
(
y
)
{\displaystyle {\frac {\delta F}{\delta \phi }}[\delta _{y}]\ {\stackrel {\mathrm {not} }{=}}\ {\frac {\delta F\left[\phi \right]}{\delta \phi (y)}}\ {\stackrel {\mathrm {not} }{=}}\ {\frac {\delta F}{\delta \phi (y)}}}
, avec
δ
y
{\displaystyle \delta _{y}}
, la distribution de Dirac centrée en y considérée comme une fonction de
M
{\displaystyle M}
telle que
∀
x
∈
X
,
δ
y
(
x
)
=
δ
(
y
−
x
)
{\displaystyle \forall x\in X,\delta _{y}(x)=\delta (y-x)}
(ce qui n'est pas mathématiquement rigoureux
δ
y
{\displaystyle \delta _{y}}
n'étant pas réellement une fonction sur
X
{\displaystyle X}
). On a alors :
δ
F
[
ϕ
]
δ
ϕ
(
y
)
=
lim
ε
→
0
F
[
ϕ
+
ε
δ
(
x
−
y
)
]
−
F
[
ϕ
]
ε
{\displaystyle {\frac {\delta F\left[\phi \right]}{\delta \phi (y)}}=\lim _{\varepsilon \to 0}{\frac {F\left[\phi +\varepsilon \delta (x-y)\right]-F\left[\phi \right]}{\varepsilon }}}
En revanche, dans le cas où
F
=
δ
x
{\displaystyle F=\delta _{x}}
,
F
{\displaystyle F}
est rigoureusement une fonctionnelle sur
M
{\displaystyle M}
:
δ
x
:
M
→
K
ϕ
↦
ϕ
(
x
)
{\displaystyle \delta _{x}:{\begin{array}{ccc}M&\to &K\\\phi &\mapsto &\phi (x)\end{array}}}
, et comme
F
[
ϕ
]
=
δ
x
[
ϕ
]
=
ϕ
(
x
)
{\displaystyle F[\phi ]=\delta _{x}[\phi ]=\phi (x)}
, on note alors :
δ
(
δ
x
)
[
ϕ
]
δ
ϕ
(
y
)
=
n
o
t
δ
ϕ
(
x
)
δ
ϕ
(
y
)
{\displaystyle {\frac {\delta (\delta _{x})\left[\phi \right]}{\delta \phi (y)}}=_{not}{\frac {\delta \phi (x)}{\delta \phi (y)}}}
. Ainsi :
δ
ϕ
(
x
)
δ
ϕ
(
y
)
=
lim
ε
→
0
δ
x
[
ϕ
+
ε
δ
(
x
−
y
)
]
−
δ
x
[
ϕ
]
ϵ
=
δ
(
x
−
y
)
{\displaystyle {\frac {\delta \phi (x)}{\delta \phi (y)}}=\lim _{\varepsilon \to 0}{\frac {\delta _{x}\left[\phi +\varepsilon \delta (x-y)\right]-\delta _{x}\left[\phi \right]}{\epsilon }}=\delta (x-y)}
, on obtient alors une formule souvent utilisée en physique :
δ
ϕ
(
x
)
δ
ϕ
(
y
)
=
δ
(
x
−
y
)
{\displaystyle {\frac {\delta \phi (x)}{\delta \phi (y)}}=\delta (x-y)}
Pour donner un sens mathématique à l'expression
δ
ϕ
(
x
)
δ
ρ
(
y
)
{\displaystyle {\frac {\delta \phi (x)}{\delta \rho (y)}}}
aussi fréquemment utilisée on peut aussi voir
ϕ
(
x
)
∈
K
{\displaystyle \phi (x)\in K}
comme une fonctionnelle
ϕ
~
(
x
)
∈
F
{\displaystyle {\tilde {\phi }}(x)\in {\mathcal {F}}}
en identifiant
ϕ
{\displaystyle \phi }
et
ϕ
~
{\displaystyle {\tilde {\phi }}}
. En commettant alors le premier abus de notation on a :
δ
ϕ
(
x
)
δ
ρ
(
y
)
=
δ
ϕ
(
x
)
[
ρ
]
δ
ρ
(
y
)
=
δ
ϕ
(
x
)
δ
ρ
[
δ
y
]
{\displaystyle {\frac {\delta \phi (x)}{\delta \rho (y)}}={\frac {\delta \phi (x)[\rho ]}{\delta \rho (y)}}={\frac {\delta \phi (x)}{\delta \rho }}[\delta _{y}]}
Par exemple si
ϕ
(
x
)
{\displaystyle \phi (x)}
et
ρ
{\displaystyle \rho }
sont reliées par une fonction de Green :
ϕ
(
x
)
[
ρ
]
=
(
G
∗
ρ
)
(
x
)
{\displaystyle \phi (x)[\rho ]=(G*\rho )(x)}
.
ϕ
(
x
)
{\displaystyle \phi (x)}
étant linéaire en
ρ
{\displaystyle \rho }
par propriété du produit de convolution , on a :
δ
ϕ
(
x
)
δ
ρ
(
y
)
=
δ
ϕ
(
x
)
δ
ρ
[
δ
y
]
=
lim
ε
→
0
ϕ
(
x
)
[
ρ
+
ε
δ
y
]
−
ϕ
(
x
)
[
ρ
]
ϵ
=
(
G
∗
δ
y
)
(
x
)
=
G
(
x
−
y
)
{\displaystyle {\frac {\delta \phi (x)}{\delta \rho (y)}}={\frac {\delta \phi (x)}{\delta \rho }}[\delta _{y}]=\lim _{\varepsilon \to 0}{\frac {\phi (x)\left[\rho +\varepsilon \delta _{y}\right]-\phi (x)\left[\rho \right]}{\epsilon }}=(G*\delta _{y})(x)=G(x-y)}
Dans le cadre du deuxième point où
ϕ
(
x
)
=
δ
x
{\displaystyle \phi (x)=\delta _{x}}
, on a
G
=
δ
{\displaystyle G=\delta }
l'élément neutre du produit de convolution et on retrouve la formule précédente :
δ
ϕ
(
x
)
δ
ρ
(
y
)
=
δ
ϕ
(
x
)
[
ρ
]
δ
ρ
(
y
)
=
δ
ρ
(
x
)
δ
ρ
(
y
)
=
G
(
x
−
y
)
=
δ
(
x
−
y
)
{\displaystyle {\frac {\delta \phi (x)}{\delta \rho (y)}}={\frac {\delta \phi (x)[\rho ]}{\delta \rho (y)}}={\frac {\delta \rho (x)}{\delta \rho (y)}}=G(x-y)=\delta (x-y)}
L'action est une fonctionnelle définie en mécanique analytique qui, d'après le principe de moindre action doit être minimale en la trajectoire suivie par le système physique .
Mathématiquement, en reprenant les notations de la partie définition on pose :
I
=
[
t
A
,
t
B
]
⊂
R
{\displaystyle I=[t_{A},t_{B}]\subset \mathbb {R} }
un intervalle de temps
M
=
C
1
(
I
,
R
n
)
{\displaystyle M=C^{1}(I,\mathbb {R} ^{n})}
, l'ensemble des fonctions de classe C1 de
I
{\displaystyle I}
dans
R
n
{\displaystyle \mathbb {R} ^{n}}
qui est dense dans
L
2
(
I
,
R
n
)
{\displaystyle L^{2}(I,\mathbb {R} ^{n})}
(voir espace Lp )
L
:
R
n
×
R
n
×
R
↦
R
{\displaystyle {\mathcal {L}}:\mathbb {R} ^{n}\times \mathbb {R} ^{n}\times \mathbb {R} \mapsto \mathbb {R} }
le Lagrangien du système physique, qui est supposé suffisamment régulier pour que l'action définie ci dessous soit continûment différentiable
On peut alors définir l'action comme la fonctionnelle :
S
:
M
→
R
q
↦
∫
t
A
t
B
L
(
q
(
t
)
,
q
˙
(
t
)
,
t
)
d
t
{\displaystyle S:{\begin{array}{ccc}M&\to &\mathbb {R} \\q&\mapsto &\int _{t_{A}}^{t_{B}}{{\mathcal {L}}(q(t),{\dot {q}}(t),t)dt}\end{array}}}
où
q
:
R
↦
R
n
{\displaystyle q:\mathbb {R} \mapsto \mathbb {R} ^{n}}
représente l'application coordonnée, aussi appelé chemin, qui à un temps donné associe la position du système physique dans l'espace
R
n
{\displaystyle \mathbb {R} ^{n}}
.
Pour déterminer le mouvement du système, d'après le principe de moindre action , il faut chercher à minimiser l'action. Un tel chemin
q
{\displaystyle q}
vérifie donc
δ
S
δ
q
=
0
{\displaystyle {\frac {\delta S}{\delta q}}=0}
.
On calcule de la dérivée fonctionnelle de
S
{\displaystyle S}
par rapport à
q
{\displaystyle q}
pour une variation
Φ
∈
M
{\displaystyle \Phi \in M}
telle que
Φ
(
t
A
)
=
Φ
(
t
B
)
=
0
{\displaystyle \Phi (t_{A})=\Phi (t_{B})=0}
, ce qui revient physiquement à prendre une variation du chemin sans faire varier ses points de départ et d'arrivée. Il faut noter que les fonctions définies comme
Φ
{\displaystyle \Phi }
forment un sous ensemble dense dans
M
.
{\displaystyle M.}
On obtient alors :
δ
S
δ
q
[
Φ
]
=
lim
ϵ
⟶
0
∫
t
A
t
B
L
(
q
(
t
)
+
Φ
(
t
)
,
q
˙
(
t
)
+
Φ
˙
(
t
)
,
t
)
−
L
(
q
(
t
)
,
q
˙
(
t
)
,
t
)
ϵ
d
t
=
∫
t
A
t
B
Φ
(
t
)
⋅
(
∇
q
L
(
q
(
t
)
,
q
˙
(
t
)
,
t
)
−
d
d
t
∇
q
˙
L
(
q
(
t
)
,
q
˙
(
t
)
,
t
)
)
d
t
{\displaystyle {\frac {\delta S}{\delta q}}[\Phi ]=\lim _{\epsilon \longrightarrow 0}\int _{t_{A}}^{t_{B}}{{\frac {{\mathcal {L}}(q(t)+\Phi (t),{\dot {q}}(t)+{\dot {\Phi }}(t),t)-{\mathcal {L}}(q(t),{\dot {q}}(t),t)}{\epsilon }}dt}=\int _{t_{A}}^{t_{B}}\Phi (t)\cdot {\Biggl (}\nabla _{q}{\mathcal {L}}(q(t),{\dot {q}}(t),t)-{\operatorname {d} \! \over \operatorname {d} \!t}\nabla _{\dot {q}}{\mathcal {L}}(q(t),{\dot {q}}(t),t){\Biggr )}dt}
en faisant une intégration par partie du terme de droite, où le terme totalement intégré s'annule grâce à la définition de
Φ
{\displaystyle \Phi }
, et où
⋅
{\displaystyle \cdot }
désigne le produit scalaire canonique sur
R
n
{\displaystyle \mathbb {R} ^{n}}
(voir l'article des équations d'Euler-Lagrange pour plus de détails sur ce calcul).
Si on note la fonction :
E
L
:
I
→
R
t
↦
∇
q
L
(
q
(
t
)
,
q
˙
(
t
)
,
t
)
−
d
d
t
∇
q
˙
L
(
q
(
t
)
,
q
˙
(
t
)
,
t
)
{\displaystyle EL:{\begin{array}{ccc}I&\to &\mathbb {R} \\t&\mapsto &\nabla _{q}{\mathcal {L}}(q(t),{\dot {q}}(t),t)-{\operatorname {d} \! \over \operatorname {d} \!t}\nabla _{\dot {q}}{\mathcal {L}}(q(t),{\dot {q}}(t),t)\end{array}}}
, on obtient :
δ
S
δ
q
[
Φ
]
=
⟨
E
L
|
Φ
⟩
{\displaystyle {\frac {\delta S}{\delta q}}[\Phi ]=\langle EL|\Phi \rangle }
, où
⟨
|
⟩
{\displaystyle \langle |\rangle }
désigne le produit scalaire sur l'espace de Hilbert
L
2
(
I
,
R
n
)
{\displaystyle L^{2}(I,\mathbb {R} ^{n})}
.
Comme la dérivée fonctionnelle
δ
S
δ
q
[
⋅
]
{\displaystyle {\frac {\delta S}{\delta q}}[\cdot ]}
est représentable au sens du théorème de représentation de Riesz par une forme linéaire sur
L
2
(
I
,
R
n
)
{\displaystyle L^{2}(I,\mathbb {R} ^{n})}
et que
E
L
{\displaystyle EL}
est une fonction de
L
2
(
I
,
R
n
)
{\displaystyle L^{2}(I,\mathbb {R} ^{n})}
, on peut identifier :
δ
S
δ
q
=
E
L
{\displaystyle {\frac {\delta S}{\delta q}}=EL}
. Ce raisonnement est analogue à l'identification du gradient dans le cas du calcul de la dérivée directionnelle en dimensions finies par exemple.
Le principe de moindre action fournit alors
E
L
=
0
{\displaystyle EL=0}
dans le dual
L
2
(
I
,
R
n
)
{\displaystyle L^{2}(I,\mathbb {R} ^{n})}
, ce qui se traduit par les équations d'Euler-Lagrange :
∀
t
∈
I
,
∇
q
L
(
q
(
t
)
,
q
˙
(
t
)
,
t
)
=
d
d
t
∇
q
˙
L
(
q
(
t
)
,
q
˙
(
t
)
,
t
)
)
{\displaystyle \forall t\in I,\nabla _{q}{\mathcal {L}}(q(t),{\dot {q}}(t),t)={\operatorname {d} \! \over \operatorname {d} \!t}\nabla _{\dot {q}}{\mathcal {L}}(q(t),{\dot {q}}(t),t))}
Henri Pailloux, « Quelques applications du calcul fonctionnel à la mécanique rationnelle », Annales scientifiques de l'É.N.S. 3e série , vol. 69, 1952 , p. 213-257 (lire en ligne )