La différentiabilité en moyenne quadratique est une propriété de certains modèles statistiques introduite par Lucien Le Cam, détaillée dans un article de 1970[1]. La différentiabilité en moyenne quadratique d'un modèle garantit certains résultats asymptotiques, tels que la normalité asymptotique de l'estimateur du maximum de vraisemblance associé, ou la normalité asymptotique locale.
Soit un modèle statistique dépendant d'un paramètre de dimension , générant une variable aléatoire dans un espace . Notons la vraisemblance d'une observation sous ce modèle avec une valeur du paramètre .
Le modèle est dit différentiable en moyenne quadratique en s'il existe une fonction mesurable telle que, pour tout de dans un voisinage de 0,
Dans la plupart des cas, la fonction correspond à la dérivée de la log-vraisemblance : , souvent appelée fonctionscore du modèle. En effet, lorsque est dérivable par rapport à , correspond généralement à la dérivée de par rapport à , c'est-à-dire à .
Cette définition désigne en réalité la différentiabilité en moyenne quadratique de la racine carrée de la vraisemblance de ce modèle. Pour être rigoureux, il faudrait donc parler d'un modèle dont la racine carrée de la vraisemblance est différentiable en moyenne quadratique. Cependant, l'appellation différentiabilité en moyenne quadratique est plus concise et plus couramment utilisée.
Comme dit précédemment, la différentiabilité en moyenne quadratique d'une loi de probabilité correspond en réalité à la différentiabilité de la racine carrée de la vraisemblance dans l'espace des fonctions (fonctions dont le carré est intégrable) muni de la norme 2[3].
Pour mieux voir cela, considérons une loi de probabilité dépendant d'un paramètre , dont nous noterons la vraisemblance .
La racine carrée de cette vraisemblance peut être vue comme une application qui, à une valeur de paramètre fait correspondre une fonction dont le carré est intégrable (d'intégrale 1 puisque est une densité), c'est-à-dire un élément de :
.
Cette application est différentiable dans en s'il existe un élément de tel que pour tout dans un voisinage de , lorsque h tend vers 0. Cette égalité porte sur des fonctions de , le terme désigne donc ici une fonction dont la norme 2 est négligeable devant . Cette égalité peut donc se réécrire comme
Montrer que peut être dominé par une fonction , intégrable et indépendante de , pour tout dans un voisinage de 0, (par exemple en utilisant la dérivée seconde de la racine carrée de la vraisemblance et l'inégalité de Taylor-Lagrange),
La loi exponentielle, paramétrée par sa moyenne , ou par son intensité , est différentiable en moyenne quadratique en toute valeur du paramètre différent de 0. La fonction score associée est .
Démonstration
Considérons une loi exponentielle d'espérance .
Comme il s'agit d'une loi continue, sa vraisemblance est donnée par sa densité de probabilité: pour .
La fonction score de ce modèle (c'est-à-dire la dérivée de sa log-vraisemblance par rapport à ) est .
On en déduit que .
Afin de montrer que l'inégalité ci-dessus reste vraie lorsqu'on l'intègre sur par rapport à , il faut montrer que
est borné par une fonction intégrable et ne dépendant pas de , pour tout dans un voisinage de 0. Prenons le voisinage défini par .
La dérivée seconde de la racine de la vraisemblance est
.
Il est aisé de borner la valeur absolue de cette dérivée seconde calculée en lorsque . Par exemple,
.
Appelons cette borne
Le théorème de Taylor-Lagrange implique que
,
et donc que .
Comme est intégrable par rapport à sur (il s'agit du produit d'une exponentielle décroissante et d'un polynôme), le théorème de convergence dominé permet de conclure. On a bien
.
La loi exponentielle est donc bien différentiable en moyenne quadratique pour tout .
La loi uniforme sur l'intervalle n'est pas différentiable en moyenne quadratique. En effet, lorsque sont générés de façon iid suivant une loi uniforme sur , l'estimateur du maximum de vraisemblance de est donné par et n'est pas asymptotiquement normal. Or l'estimateur du maximum de vraisemblance associé à un modèle différentiable en moyenne quadratique est nécessairement asymptotiquement normal.
Si des échantillons aléatoires de tailles , , sont générés de manière iid selon une loi de probabilité différentiable en moyenne quadratique, alors l'estimateur du maximum de vraisemblance est asymptotiquement normal avec pour variance asymptotique l'inverse de l'information de Fisher. Plus précisément, lorsque tend vers l'infini,
où est l'estimateur du maximum de vraisemblance, défini comme , désigne l'information de Fisher définie comme et où désigne la convergence en loi.
Une loi de probabilité différentiable en moyenne quadratique donne un modèle statistique localement asymptotiquement normal lorsqu'on génère des données iid selon cette loi.
↑L. LeCam, « On the Assumptions Used to Prove Asymptotic Normality of Maximum Likelihood Estimates », The Annals of Mathematical Statistics, vol. 41, no 3, , p. 802–828 (ISSN0003-4851, DOI10.1214/aoms/1177696960, lire en ligne, consulté le )