Thesemodele Lineaire
Thesemodele Lineaire
Thesemodele Lineaire
explicatives fonctionnelles
Christophe Crambes
Christophe Crambes
Christophe Crambes
REMERCIEMENTS
Je suis très heureux qu’Alois Kneip ait accepté de faire partie de mon jury.
Les deux séjours au cours desquels il m’a accueilli à Mayence puis à Bonn
m’ont énormément apporté aussi bien sur le plan mathématique que sur le
plan humain, et les travaux que nous avons en cours vont nous permettre de
poursuivre notre collaboration au-delà de cette thèse.
notamment les membres du groupe travail STAPH : Philippe Vieu, Yves Ro-
main, Alain Boudou, Sylvie Viguier, et Luboš que j’ai plaisir à voir chaque
fois qu’il revient à Toulouse. Je remercie également Fabrice Gamboa pour la
confiance qu’il m’a accordée pendant mon année de DEA, je garde un très bon
souvenir de son enseignement. Je souhaite également remercier Anne Ruiz-
Gazen, que je connais mieux depuis la 1ère Rencontre des Jeunes Statisticiens
à Aussois. Elle s’est montrée très disponible pour répondre à mes questions et
discuter avec elle m’a permis d’envisager de nouvelles pistes de recherche.
Ces trois années de thèse m’ont également permis de rencontrer des doc-
torants avec qui je passe de très bons moments. Les doctorants arrivés l’an
dernier, Maxime, Laurent, Florent et Amélie, ont apporté leur bonne humeur
pendant la pause quizz de midi. Mes remerciements vont aussi aux doctorants
arrivés en thèse la même année que moi ou l’année suivante, qui vont me laisser
de très bons souvenirs : Delphine (avec qui ça a été un plaisir de partager le
bureau ces deux dernières années), Marielle, Agnès, Solenn, Myriam et Diana.
Je ne saurais oublier les doctorants qui m’ont accueilli à mon arrivée en thèse,
et tous les bons moments qu’on a passé : Renaud, Clément, Cécile, Yan, Élie,
Abdelaâti, Nicolas et Jean-Pierre. Je souhaite aussi remercier Sébastien, à qui
j’ai posé d’innombrables questions sur LATEX, sur R, et je retiens avant tout
sa disponibilité et sa bonne humeur. Enfin, je connais Lionel depuis le DEA
et on partage le même bureau depuis le début de notre thèse, et je tiens à lui
dire quel plaisir j’ai eu de pouvoir faire ma thèse en même temps que lui, pour
tous les bons moments passés pendant ces années.
Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
I.4.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
III.2.3. Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
III.2.5. Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
III.3.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
INTRODUCTION
La statistique fonctionnelle a connu un très important développement ces
dernières années. Cette branche de la statistique vise a étudier des données
qui, de part leur structure et le fait qu’elles soient collectées sur des grilles
très fines, peuvent être assimilées à des courbes ou à des surfaces, par exemple
fonctions du temps ou de l’espace. Le besoin de considérer ce type de données,
maintenant couramment rencontré sous le nom de données fonctionnelles dans
la littérature, est avant tout un besoin pratique. Compte tenu des capacités
actuelles des appareils de mesure et de stockage informatique, les situations
pouvant fournir de telles données sont multiples et issues de domaines variés :
on peut imaginer par exemple des courbes de croissance, de température, des
images observées par satellite, . . . Donner une liste exhaustive des situations
où de telles données sont rencontrées n’est pas envisageable, mais des exemples
précis de données fonctionnelles seront abordés dans cette thèse.
x11 . . . x1p
X = ... .. ,
.
xn1 . . . xnp
Les tout premiers travaux dans lesquels on retrouve cette idée de données
fonctionnelles sont finalement relativement “anciens”. Rao (1958) et Tucker
(1958) envisagent ainsi l’analyse en composantes principales et l’analyse fac-
torielle pour des données fonctionnelles et considèrent même explicitement les
données fonctionnelles comme un type particulier de données. Par la suite,
Ramsay (1982) dégage la notion de données fonctionnelles et soulève la ques-
tion de l’adaptation des méthodes de la statistique multivariée à ce cadre
fonctionnel. À partir de là, les travaux pour explorer la statistique fonction-
nelle commencent à se multiplier, pour finalement aboutir aujourd’hui à des
ouvrages faisant référence en la matière, comme par exemple les monographies
de Ramsay et Silverman (2002 et 2005).
Les travaux réalisés constituent ainsi à l’heure actuelle une littérature très
dense, que ce soit sur un plan théorique ou appliqué. D’un point de vue
théorique, la notion de variable aléatoire fonctionnelle (c’est-à-dire une va-
riable aléatoire à valeurs dans un espace de fonctions) est apparue, ce qui a
nécessité d’expliciter des notions simples pour une telle variable, comme par
12
(1) Yi = r (Xi ) + i , i = 1, . . . , n,
(2) Yi = hα, Xi i + i , i = 1, . . . , n,
où le but est d’estimer α ∈ H inconnu, sur la base des données (Xi , Yi )i=1,...,n .
Les hypothèses faites sur 1 , . . . , n seront détaillées le moment venu. Nous
verrons en effet que ces hypothèses diffèreront suivant les situations envisagées.
D’abord décrit par Ramsay et Dalzell (1991), ce modèle est toujours l’objet
de travaux récents, comme en témoignent par exemple les articles de Cardot,
Ferraty et Sarda (1999, 2003) étudiant le cas d’une variable réponse réelle
et donnant une méthode d’estimation de α à l’aide de ce qu’ils introduisent
comme la régression sur composantes principales fonctionnelle, ou encore à
l’aide de fonctions splines. Des vitesses de convergence sont également obtenues
pour les estimateurs qu’ils construisent. Dans cette thèse, c’est à ce modèle (2)
que l’on va s’intéresser. C’est un modèle très populaire en analyse de données
fonctionnelles, il est important de noter toutefois que d’autres modèles qui lui
sont liés (par exemple des extensions de ce modèle linéaire fonctionnel (2))
sont également sujets d’études récentes. Là encore, il semble impossible de
lister les modèles existants relatifs à (1) et (2). On va cependant donner un
tour d’horizon des modèles les plus fréquemment rencontrés.
• Il est possible de considérer que la variable d’intérêt est elle aussi de nature
fonctionnelle, comme la variable explicative. Cuevas, Febrero et Fraiman
(2002) ou encore Chiou, Müller et Wang (2004) se sont ainsi intéressés
à ce modèle linéaire fonctionnel avec une variable réponse fonctionnelle,
c’est-à-dire lorsque Yi (pour i = 1, . . . , n) appartient aussi à un espace
de Hilbert. Cuevas, Febrero et Fraiman (2002) travaillent dans le cadre
d’un modèle à plan fixe (c’est-à-dire que X1 , . . . , Xn sont non aléatoires),
alors que Chiou, Müller et Wang (2004) considèrent X1 , . . . , Xn aléatoires,
basant leur méthode d’estimation sur les décompositions de Karhunen-
Loève des Xi et Yi , i = 1, . . . , n. L’article plus bibliographique de Müller
(2005) passe en revue diverses méthodes d’estimation pour des modèles
linéaires fonctionnels avec une variable d’intérêt réelle ou fonctionnelle
et une variable explicative multidimensionnelle ou fonctionnelle. Il étend
aussi ces méthodes, considérant notamment des variables explicatives dont
les points de mesure peuvent être irrégulièrement espacés et en faible
14
nombre, situation étudiée dans les articles de Yao, Müller et Wang (2005a,
2005b).
• Une autre extension possible du modèle linéaire fonctionnel est le modèle
linéaire fonctionnel généralisé, qui est la version fonctionnelle du modèle
linéaire généralisé introduit par Wedderburn (1974) puis repris dans un
ouvrage par McCullagh et Nelder (1989). Ce modèle linéaire fonctionnel
généralisé a été notamment étudié par Cardot et Sarda (2005) ainsi que
Müller et Stadtmüller (2005). Dans ce modèle, on suppose que la loi condi-
tionnelle de Yi sachant Xi = x appartient à la famille exponentielle. Par
exemple, cela permet de traiter le cas particulier important de la régression
fonctionnelle binomiale, où on a Yi ∈ {0, 1} pour i = 1, . . . , n (voir Müller
et Stadtmüller, 2005).
• Un autre modèle qui connaı̂t une grande popularité récente pour des rai-
sons pratiques (et qui est en fait un cas particulier du modèle linéaire
fonctionnel généralisé cité ci-dessus) est la version fonctionnelle de la clas-
sification, développé, entre autres, dans les travaux de Berlinet, Biau et
Rouvière (2005). Dans ce modèle de classification, la variable réponse Yi
est cette fois un label associé à la courbe Xi . Le but est de construire
une règle de classification de façon à pouvoir attribuer un label à une
nouvelle observation. Berlinet, Biau et Rouvière (2005) proposent ainsi
une construction de règle de classification basée sur une décomposition
de X1 , . . . , Xn dans une base d’ondelettes. Ils montrent aussi une certaine
forme d’optimalité pour cette règle, prouvant qu’asymptotiquement elle
prédit aussi bien que la meilleure règle possible, la règle de Bayes (voir à
ce sujet Devroye, Györfi et Lugosi, 1996). Müller et Stadtmüller (2005)
ont également abordé ce problème en interprétant le problème de classi-
fication (à deux labels) avec variable explicative fonctionnelle comme un
cas particulier du modèle linéaire fonctionnel généralisé, avec une variable
réponse binaire.
• Enfin, une dernière approche importante consiste à revenir au modèle (1)
et d’estimer directement l’opérateur r de façon nonparamétrique. Cette
approche a été développée par Ferraty et Vieu (2002, 2003) qui donnent
un estimateur à noyau de l’opérateur r et obtiennent là aussi des vitesses
de convergence pour cet estimateur. On reviendra un peu plus loin sur
cette approche. Ces techniques nonparamétriques avec variables fonction-
nelles sont récentes et les principaux travaux peuvent être trouvés dans la
monographie de Ferraty et Vieu (2006).
Comme cela a déjà été souligné, l’étude de ces divers modèles est motivée
au départ par des problèmes pratiques. La variété des domaines dans lesquels
15
Ce rapide tour d’horizon donne une idée de la diversité des approches per-
mettant d’étudier les modèles (1) et (2). Dans cette thèse, on propose d’ap-
porter des contributions à cette étude. Les différentes approches qui seront
17
considérées, toujours reliées au modèle (2), auront ainsi pour but de proposer
une estimation du paramètre fonctionnel α. Parmi les différentes méthodes
possibles, l’une d’entre elles consiste à faire des hypothèses de régularité sur α
(ces hypothèses seront analysées en détail dans la suite pour chaque approche
envisagée). Il est alors fréquent d’estimer α par projection sur un espace de
fonctions régulières dont on connaı̂t une base. Dans cette thèse, on a considéré
pour chaque approche un espace de fonctions splines, même si plusieurs autres
bases (comme par exemple les bases de Fourier, les bases d’ondelettes, . . . )
peuvent aussi être envisagées. Depuis leur introduction (voir notamment de
Boor, 1978, Schumaker, 1981, un peu plus récemment Dierckx, 1993), les
splines connaissent une grande popularité, notamment grâce à une mise en
œuvre pratique relativement simple. Pour situer brièvement le contexte, une
spline polynômiale (univariée) sur l’intervalle [0, 1] (on choisit cet intervalle
pour simplifier) est une fonction polynômiale s de degré q par morceaux (avec
q ∈ N) définie à l’aide de k − 1 points x1 , . . . , xk−1 (avec k ∈ N, k ≥ 2), appelés
nœuds, formant une subdivision de l’intervalle [0, 1],
q k−1
X X r−1
j
s(t) = θj t + δj (t − xj )+ ,
j=0 j=1
uj si u ≥ 0,
uj+ =
0 si u < 0.
18
On montre alors que Sq (x1 , . . . , xk−1 ) est un espace vectoriel de dimension k+q.
En prenant comme nœuds les points de mesure des observations, on parle de
splines de lissage. Ces splines particulières ont notamment été étudiées par
Eubank (1988). Dans le cas où les nœuds sont en d’autres points, on parle de
splines de régression. Ces deux types de fonctions splines seront utilisées dans
la thèse. On va juste préciser quelques notations et propriétés pour ces deux
types de fonctions splines.
sw (tj ) = wj .
En notant B la matrice de taille p × p ayant pour éléments bi (tj ) pour i
et j allant de 1 à p, on montre que sw est donnée par
avec ρ > 0, admet une unique solution qui est une spline naturelle de
degré 2m − 1 avec comme nœuds intérieurs x1 , . . . , xn (spline de lissage).
Pour l’estimation de la moyenne conditionnelle, ce type de problème avec
pénalisation est préconisé par exemple par Eubank (1988), Wahba (1990)
ou encore Green et Silverman (1994). Cela permet de chercher une fonction
f dont on contrôle le lissage au moyen de la pénalisation sur la norme L2
de sa dérivée d’ordre m.
travaux concernant la régression sur quantiles dans le cadre d’une variable ex-
plicative multivariée. Outre le fait que cette alternative à la régression sur la
moyenne permette de donner une meilleure idée de la distribution des données
(car calculer un quantile d’un certain ordre pour une loi de probabilité revient
finalement à inverser la fonction de répartition de cette loi), elle offre également
d’autres avantages, comme par exemple le fait de permettre la construction
d’intervalles de prédiction, ou encore de disposer d’une certaine forme de ro-
bustesse. Concernant ce dernier point, comme souligné par Koenker (2005), la
moyenne conditionnelle possède des propriétés d’optimalité lorsque les erreurs
sont gaussiennes. Si ce n’est pas le cas (notamment lorsqu’on est en présence
de données aberrantes), la performance par exemple de la médiane peut être
supérieure à celle de la moyenne : la médiane présente une certaine forme de
robustesse vis-à-vis des données aberrantes. D’un point de vue appliqué, l’utili-
sation des quantiles est présente dans des domaines aussi variés que l’agronomie
(pour estimer des seuils de rendement), la médecine (voir par exemple l’article
de Lejeune et Sarda, 1988, concernant les courbes de croissance) ou en fiabilité
(toujours concernant l’estimation de seuils). Récemment, des travaux se sont
intéressés à l’estimation de quantiles (non conditionnels) pour des variables
aléatoires multivariées ou à valeurs dans un espace de Banach, introduisant
notamment la notion de boule médiane. Il s’agit par exemple des articles de
Averous et Meste (1997) puis de Cadre (2001). Au niveau de l’estimation de
la médiane conditionnelle pour variable d’intérêt multivariée, Berlinet, Cadre
et Gannoun (2001) ont proposé une méthode d’estimation nonparamétrique
basée sur une estimation à noyau de la fonction de répartition (multivariée)
conditionnelle. Cette situation (variable d’intérêt multivariée ou à valeurs dans
un espace de Banach) ne sera pas envisagée ici, puisqu’on considèrera unique-
ment une variable d’intérêt réelle, seule la variable explicative pouvant prendre
ses valeurs dans un espace de fonctions.
• La première de ces classes utilise le fait déjà souligné que, pour calculer
un quantile d’un certain ordre pour une loi de probabilité, on peut re-
venir à l’inversion de la fonction de répartition (conditionnelle) de cette
loi. Le tout est alors de donner une méthode d’estimation de cette fonc-
tion de répartition. Cette idée est utilisée par exemple dans un article
de Bhattacharya et Gangopadhyay (1990) qui proposent une estimation
à noyau et par la méthode des plus proches voisins de la fonction de
répartition. Les vitesses nonparamétriques usuelles sont également obte-
nues pour les estimateurs construits. Avec cette même idée, Ducharme,
Gannoun, Guertin et Jéquier (1995) donnent un estimateur à noyau de
la fonction de répartition conditionnelle, puis en l’inversant, obtiennent la
normalité asymptotique de l’estimateur des quantiles conditionnels.
• La seconde classe d’estimation de quantiles conditionnels regroupe les
méthodes plus directes, basées sur la recherche de quantiles condition-
nels comme solutions d’un problème de minimisation. Bassett et Koenker
(1978) étudient ainsi un estimateur de la médiane conditionnelle en mi-
nimisant un critère du type moindres valeurs absolues, et prouvent sa
consistance et sa normalité asymptotique. D’un point de vue numérique,
des méthodes algorithmiques de résolution de tels problèmes de minimi-
sation (dont la solution n’est pas explicite) peuvent être trouvées dans
Koenker (2005), comme par exemple l’utilisation de la méthode du sim-
plexe. Plus généralement, ceci peut être étendu à n’importe quel quantile.
On cherche ainsi un estimateur de gα parmi une certaine classe de fonc-
tions rα minimisant une quantité du type
n
1X
(5) lα (Yi − rα (Xi )) ,
n i=1
Z 1
hf, gi = f (t)g(t)dt,
0
x−a
x 7−→ .
b−a
Dans ce contexte, on cherche alors rα dans une certaine classe d’opérateurs qui
minimise
n
1X
(6) lα (Yi − rα (Xi )) .
n i=1
23
On se place ensuite dans le cadre d’un modèle linéaire, c’est-à-dire que l’on
suppose que rα (Xi ) s’écrit hΨα , Xi i pour tout i = 1, . . . , n avec Ψα ∈ L2 ([0, 1]).
L’objectif de cette partie est de proposer un estimateur Ψα à l’aide de splines
de régression, solution d’une version pénalisée du problème de minimisation
(6). Cette approche s’inspire ainsi, dans le cas réel, des travaux de He et
Shi (1994), ou encore de Koenker, Ng et Portnoy (1994) du point de vue
de l’introduction d’une pénalisation. On verra que, dans le cadre fonctionnel,
l’introduction d’une pénalisation est importante pour assurer l’existence d’un
estimateur solution du problème de minimisation (on peut voir aussi les tra-
vaux de Cardot, Ferraty et Sarda, 2003, concernant l’introduction d’une telle
pénalisation dans le cadre de l’estimation de la moyenne conditionnelle). Le
comportement asymptotique de cet estimateur sera ensuite étudié et on don-
nera une borne supérieure pour la vitesse de convergence, relativement à une
norme particulière, la norme induite par l’opérateur de covariance de Xi .
( )
1X
n
2
(m)
2
(7) min Yi − hBτk,q θ, Xi i + ρ
Bτk,q θ
2 .
θ∈Rk+q n i=1 L
L’approche que l’on présente dans cette partie II peut être davantage rap-
prochée des travaux de Cardot, Ferraty et Sarda (2003). En ce qui concerne
notre travail, on a considéré des splines de lissage (c’est-à-dire avec des nœuds
placés aux points de mesure des courbes X1 , . . . , Xn observées). Pour utiliser
ces splines de lissage, on introduit les points de mesure des courbes. On suppose
ainsi que X1 , . . . , Xn sont à valeurs dans L2 ([0, 1]), espace des fonctions définies
de [0, 1] dans R, de carré intégrable, muni de son produit scalaire h., .i et de
25
sa norme k.kL2 usuels. Pour simplifier, on supposera que toutes les courbes
sont observées en des points de discrétisation t1 < . . . < tp , les mêmes pour
toutes les courbes, et équirépartis, c’est-à-dire que tj − tj−1 = 1/p pour tout
j = 2, . . . , p. Le modèle (2) sera alors approximé par un modèle linéaire fonc-
tionnel discret. On associe ensuite à ce modèle un problème de minimisation
de type moindres carrés pénalisés, dont la solution (estimation de α) s’écrit
de façon explicite comme une fonction spline. On établit dans cette partie II
un résultat de convergence sur l’estimation de α. On peut même améliorer les
vitesses obtenues en posant des hypothèses plus fortes sur la régularité des
courbes X1 , . . . , Xn . L’analyse de ces vitesses sera détaillée au cours de cette
partie II.
Ce modèle avec des erreurs dans les variables explicatives a été l’objet de
nombreuses études dans le cadre multivarié (c’est-à-dire lorsque X1 , . . . , Xn
sont des éléments de Rp ). Par exemple, Fuller (1987) donne pour ce modèle
bruité une méthode par maximum de vraisemblance. Des résultats asymp-
totiques sont également donnés par Gleser (1981). Une méthode numérique
26
n
1X
kWi − Xi k2 ,
n i=1
Dans cette partie, le but est d’utiliser les méthodes introduites dans chacune
des parties I, II et III de cette thèse sur un jeu de données réel pour
Ces données ont été fournies par l’ORAMIP (Observatoire Régional de l’Air
en Midi-Pyrénées). Elles ont déjà été l’objet d’une précédente étude à l’aide
d’une méthode d’estimation nonparamétrique à noyau par Aneiros-Perez, Car-
dot, Estevez-Perez et Vieu (2004). Il s’agit de l’estimateur nonparamétrique
préalablement introduit par Ferraty et Vieu (2002). Aneiros-Perez, Cardot,
Estevez-Perez et Vieu (2004) utilisent de plus le même type d’algorithme back-
fitting que celui présenté dans cette thèse pour étudier le cas de plusieurs
variables explicatives.
Sans rentrer pour le moment dans les détails (les données seront présentées
dans la partie IV), ces données consistent en des mesures horaires de pol-
luants (comme par exemple l’ozone, qui sera le polluant auquel on s’intéresse,
ou encore le monoxyde d’azote), ainsi que de variables météorologiques (par
exemple la vitesse du vent). Une première partie du travail consistera en une
étude descriptive de ces données (qui ont nécessité un premier traitement, en
raison de données manquantes). Puis dans un deuxième temps, on présentera
des méthodes de prévision de pics de pollution (par la moyenne conditionnelle,
la médiane conditionnelle, par intervalles de prédiction) en utilisant les esti-
mateurs splines considérés dans cette thèse (l’estimateur spline de quantiles
conditionels présenté dans la partie I, l’estimateur de la moyenne condition-
nelle par splines de lissage présenté dans la partie II, celui de la partie III
tenant compte des erreurs de mesure, ainsi que l’estimateur de la moyenne
conditionnelle par splines de régression de Cardot, Ferraty et Sarda, 2003).
PARTIE I
ESTIMATION SPLINE DE
QUANTILES
CONDITIONNELS POUR
VARIABLE EXPLICATIVE
FONCTIONNELLE
I.1. PRÉSENTATION DE L’ESTIMATEUR
b ρn = 1 A τ A + ρ n G k n ,
C
n
b ρn ). On introduit
donc dépendre de la vitesse de convergence vers zéro de λmin (C
donc une suite (ηn )n∈N telle que l’espace Ωn défini par
n o
(I.1) b ρn ) > cηn ,
Ωn = ω ∈ Ω/λmin (C
soit de probabilité tendant vers 1 lorsque n tend vers l’infini (avec c constante).
Cardot, Ferraty et Sarda (2003) montrent qu’une telle suite (ηn )n∈N existe et
qu’on a même
(I.2) b ρn ) ≥ cηn + oP (k 2 n1−δ )−1/2 ,
λmin (C n
avec δ ∈]0, 1[ et
ρn
ηn = .
kn
Sous ces hypothèses, on donne alors une borne pour la vitesse de convergence
de Ψb α vis-à-vis de la semi-norme induite par l’opérateur de covariance associé
à X (voir le théorème I.1 de Cardot, Crambes et Sarda, 2005, donné dans le
chapitre I.2). Comme on le verra alors, cette vitesse est un
34 I.1. PRÉSENTATION DE L’ESTIMATEUR
1 1 ρ2n 2(m−p)
OP + + + ρ n kn .
kn2p nηn kn ηn
I.4.1. Introduction
Mainly in a formal way, the oldest works in that direction intended to give
a mathematical framework based on the theory of linear operators in Hilbert
spaces (see Deville, 1974, Dauxois and Pousse, 1976). After that and in an other
direction, practical aspects of extensions of descriptive statistical methods like
for example Principal Component Analysis have been considered (see Besse
and Ramsay, 1986). The monographs by Ramsay and Silverman (1997, 2002)
are important contributions in this area.
one deals, for such a problem, with estimating the regression on the mean i.e.
the minimizer among some class of functionals r of
E (Y − r(X))2 .
As when X is a vector of real numbers, the two main approaches are li-
near (see Ramsay and Dalzell, 1991, for the functional linear model) or purely
nonparametric (see Ferraty and Vieu, 2002, which adapt kernel estimation to
the functional setting). It is also known that estimating the regression on the
median or more generally on quantiles has some interest. The problem is then
to estimate the minimizer among gα of
where h., .i is a functional inner product and the parameter of the model Ψα
is a function to be estimated. This is the equivalent of the linear model for
regression quantiles studied by Koenker and Bassett (1978) where the inner
product is the Euclidean one and the parameter is a vector of scalars. We choose
to estimate the function Ψα by a “direct” method : writing our estimator
as a linear combination of B-splines, it minimizes the empirical version of
expectation (I.3) with the addition of a penalty term proportional to the square
norm of a given order derivative of the spline. The penalization term allows
on one side to control the regularity of the estimator and on the other side to
get consistency.
I.4.2. CONSTRUCTION OF THE ESTIMATOR 37
Unlike for the square function, minimization of function lα does not lead to
an explicit expression of the estimator. While computation of the estimator can
be resolved by using traditional algorithms (for instance based on Iteratively
Weighted Least Squares), the convexity of lα allows theoretical developments.
In section 2, we define more precisely the framework of our study and the
spline estimator of the functional parameter Ψα . Section 3 is devoted to the
asymptotic behaviour of our estimator : we study L2 convergence and derive
an upper bound for the rate of convergence. Comments on the model and on
the optimality of the rate of convergence are given in section 4. Finally, the
proofs are gathered in section 5.
In this work, the data consist of an i.i.d. sample of pairs (Xi , Yi )i=1,...,n drawn
from a population distribution (X, Y ). We consider explanatory variables Xi
which are square integrable (random) functions defined on [0, 1], i.e. are ele-
ments of the space L2 ([0, 1]) so that Xi = (Xi (t), t ∈ [0, 1]). The response Yi is
a scalar belonging to R. Assume that H, the range of X, is a closed subspace of
L2 ([0, 1]). For Y having a finite expectation, E(|Y |) < +∞, and for α ∈]0, 1[,
the conditional α-quantile functional gα of Y given X is a functional defined
on H minimizing (I.3).
Our aim is to generalize the linear model introduced by Koenker and Bassett
(1978). In our setting, it consists in assuming that gα is a linear and continuous
functional defined on H and then it follows that gα (X) can be written as in
(I.4). Taking the usual inner product in L2 ([0, 1]), we can write
Z 1
gα (X) = hΨα , Xi = Ψα (t)X(t) dt,
0
When X is multivariate, Bassett and Koenker (1978) study the least absolute
error (LAE) estimator for the conditional median, which can be extended to
38 I.2. QUANTILE REGRESSION WHEN THE COVARIATES ARE FUNCTIONS
any quantile replacing the absolute value by the convex function lα in the
criterion to be minimized (see Koenker and Bassett, 1978). In our case where
we have to estimate a function belonging to an infinite dimensional space,
we are looking at an estimator in the form of an expansion in some basis of
B-splines functions and then minimizing a similar criterion with however the
addition of a penalty term.
Before describing in details the estimation procedure, let us note that esti-
mation of conditional quantiles has received a special attention in the multi-
variate case. As said before, linear modelling has been mainly investigated by
Bassett and Koenker (1978). For nonparametric models, we may distinguish
two different approaches : “indirect” estimators which are based on a prelimi-
nary estimation of the conditional cumulative distribution function (cdf) and
“direct” estimators which are based on the minimizing the empirical version of
criterion (I.3). In the class of “indirect” estimators, Bhattacharya and Gango-
padhyay (1990) study a kernel estimator of the conditional cdf, and estimation
of the quantile is achieved by inverting this estimated cdf. In the class of “di-
rect” estimators, kernel estimators based on local fit have been proposed (see
Tsybakov, 1986, Lejeune and Sarda, 1988 or Fan, Hu and Truong, 1994) ; in
a similar approach, He and Shi (1994) and Koenker, Ng and Portnoy (1994)
propose a spline estimator. Although our setting is quite different, we adapt
in our proofs below some arguments of the work by He and Shi (1994).
k+q
X
(I.5) bα =
Ψ θbl Bl = Bτk,q θ.
b
l=1
Then, the vector θb in (I.5) is chosen as the solution of the following mini-
mization problem
X n
1
τ
2
(I.7) min lα (Yi − hBk,q θ, Xi i) + ρ
(Bk,q θ)
L2 ,
τ (m)
θ∈Rk+q n
i=1
We present in this section the main result on the convergence of our esti-
mator, when n goes to infinity (k = kn → +∞, ρ = ρn → 0). The behaviour
of our estimator is linked to a penalized version of the matrix C b = 1 Aτ A.
n
More precisely, adopting the same notations as in Cardot, Ferraty and Sarda
(2003), the existence and convergence of our estimator depend on the inverse
of the matrix Cb ρn = C b + ρn Gkn . Under the hypotheses of theorem I.1 below,
the smallest eigenvalue of C b ρn , noted λmin (C
b ρn ), tends to zero as the sample
size n tends to infinity. As the rate of convergence of Ψ b α depends on the speed
b
of convergence of λmin (Cρn ) to zero, we introduce a sequence (ηn )n∈N such that
the set Ωn defined by
n o
(I.8) b ρn ) > cηn ,
Ωn = ω/λmin (C
has probability which goes to 1 when n goes to infinity. Cardot, Ferraty and
Sarda (2003) have shown that such a sequence exists in the sense that under
I.4.3. CONVERGENCE RESULT 41
hypotheses of theorem I.1, there exists a strictly positive sequence (ηn )n∈N
tending to zero as n tends to infinity and such that
(I.9) b ρn ) ≥ cηn + oP (k 2 n1−δ )−1/2 ,
λmin (C n
(p0 )
(A.2) The function Ψα is supposed to have a p0 -th derivative Ψα such that
(p0 ) (p0 )
Ψα (t) − Ψα (s) ≤ C1 |t − s|ν , s, t ∈ [0; 1],
where C1 > 0 and ν ∈ [0, 1]. In what follows, we set p = p0 + ν and we suppose
that q ≥ p ≥ m.
We derive in theorem I.1 below an upper bound for the rate of convergence
with respect to some kind of L2 -norm. Indeed, the operator ΓX is strictly
non-negative, so we can associate it a semi-norm noted k.kΓX and defined by
kuk2ΓX = hΓX u, ui. Then, we have the following result.
2
b
1 1 ρ2n 2(m−p)
(ii)
Ψα − Ψα
= OP + + + ρ n kn .
ΓX kn2p nηn kn ηn
(i) Hypotheses (A.1) and (A.3) are quite usual in the functional setting : see for
instance Bosq (2000) or Cardot, Ferraty and Sarda (2003). Hypothesis (A.4)
implies uniqueness of the conditional quantile of order α.
(ii) Some arguments in the proof of theorem I.1 are inspired from the demons-
tration of He and Shi (1994) within the framework of real covariates. Moreover,
some results from Cardot, Ferraty and Sarda (2003) are also useful, mainly to
deal with the penalization term as pointed out above. Note that it is assumed
in the model of He and Shi (1994) that the error term is independent of X :
condition (A.4) allows us to deal with a more general setting, as in Koenker
and Bassett (1978).
2
b
1 kn 2(m−p)
Ψ α − Ψ α
= O P + + ρ n + ρ n kn .
ΓX kn2p nρn
2
b
Ψα − Ψα
= OP n−2p/(4p+1) .
ΓX
order n−2p/(2p+1) . Indeed, suppose that 1/kn2p , 1/(nηn ) and ρ2n /(kn ηn ) are all of
order n−2p/(2p+1) . This would imply that kn ∼ n1/(2p+1) and ηn ∼ n−1/(2p+1) ,
which contradicts the condition ηn ∼ n−β−(1−δ)/2 . Nevertheless, it is possible
to obtain a speed of order n−2p/(2p+1)+κ . This leads to kn ∼ n1/(2p+1)−κ/(2p)
and ηn ∼ n−1/(2p+1)−κ . Then, the condition ηn ∼ n−β−(1−δ)/2 implies κ =
p(1 − δ)/(2p + 1). So finally, we get kn ∼ n(1+δ)/2(2p+1) , ρn ∼ n(−4p−1+δ)/4(2p+1)
and ηn ∼ n(−p−1+pδ)/(2p+1) . The convergence result would be then
2
b
Ψα − Ψα
= OP n−p(1+δ)/(2p+1) .
ΓX
2(m−p)
A final remark is that the last term ρn kn of the speed in theorem I.1 is
not always negligible compared to the other terms. However, it will be the case
if we suppose that m ≤ p/(1 + δ) + (1 − δ)/4(1 + δ).
(iv) This quantile estimator is quite useful in practice, specially for forecasting
purpose (by conditional median or inter-quantiles intervals). From a computa-
tional point of view, several algorithms may be used : we have implemented in
the R language an algorithm based on the Iterated Reweighted Least Square
(IRLS). Note that even for real data cases, the curves are always observed
in some discretization points, the regression splines is easy to implement by
approximating inner products with quadrature rules. The IRLS algorithm (see
Ruppert and Carroll, 1988, Lejeune and Sarda, 1988) allows to build conditio-
nal quantiles spline estimators and gives satisfactory forecast results. This algo-
rithm has been used in particular on the “ORAMIP” (“Observatoire Régional
de l’Air en Midi-Pyrénées”) data to forecast pollution in the city of Toulouse
(France) : the results of this practical study are described in Cardot, Crambes
and Sarda (2004b). We are interested in predicting the ozone concentration
one day ahead, knowing the ozone curve (concentration along time) the day
before. In that special case, conditional quantiles were also useful to predict an
ozone threshold such that the probability to exceed this threshold is a given
risk 1−α. In other words, it comes back to give an estimation of the α-quantile
maximum ozone knowing the ozone curve the day before.
44 I.2. QUANTILE REGRESSION WHEN THE COVARIATES ARE FUNCTIONS
b α −Ψα
The proof of the result is based on the same kind of decomposition of Ψ
as the one used by He and Shi (1994). The main difference comes from the fact
that our design matrix is ill-conditioned, which led us to add the penalization
term treated using some arguments from Cardot, Ferraty and Sarda (2003).
Hypothesis (A.2) implies (see de Boor, 1978) that there exists a spline function
Ψ?α = Bτkn ,q θ ? , called spline approximation of Ψα , such that
C2
(I.10) sup |Ψ?α (t) − Ψα (t)| ≤ .
t∈[0,1] knp
C3
(I.11) max |Ri | ≤ , a.s.
i=1,...,n knp
The operator ΓX,n allows to define the empirical version of the L2 norm by
kuk2ΓX,n = hΓX,n u, ui. At first, we show the result (ii) of theorem I.1 for the
penalized empirical L2 norm. Writing Ψ b α − Ψ α = (Ψ
b α − Ψ?α ) + (Ψ?α − Ψα ), we
get
2
2
b
b (m)
Ψα − Ψ α
+ ρ n
( Ψ α − Ψ α )
2
ΓX,n L
n
X n
X
2 b α − Ψ?α , Xi i2 + 2
≤ hΨ hΨ?α − Ψα , Xi i2
n i=1
n i=1
2
2
b ? (m)
+2ρn
(Ψ α − Ψ α )
2 + 2ρn
(Ψ?α − Ψα )(m)
L2 .
L
Now, using again hypothesis (A.1), we get almost surely and for all i =
1, . . . , n, the inequality hΨ?α − Ψα , Xi i2 ≤ C02 C22 /kn2p . Moreover, lemma 8 of
I.4.5. PROOF OF THE CONVERGENCE RESULT 45
2
2
b
b (m)
(I.12)
Ψα − Ψ α
+ ρ n
( Ψ α − Ψ α )
2
ΓX,n L
n
2X b
2
b ? (m)
≤ hΨα − Ψ?α , Xi i2 + 2ρn
(Ψ α − Ψ α )
2
n i=1 L
2C02 C22
+ 2p + 2C4 ρn kn2(m−p) , a.s.
kn
Our goal is now to compare our estimator Ψ b α with the spline approximation
?
Ψα . For that, we adopt the following transformation θ = Cb −1/2 ?
ρn β + θ . Then,
we define on the set Ωn
h
i
fi (β) = lα Yi − b −1/2
hBτkn ,q
?
C ρn β + θ , X i i
h i(m)
τ −1/2
2
b
+ρn
Bkn ,q Cρn β + θ ?
.
L2
P
We notice that minimizing ni=1 fi (β) comes back to the minimization of the
criterion (I.7). We are interested by the behaviour of the function fi around
zero : fi (0) is the value of our loss criterion when θ = θ ? . Let us also notice
that the inverse of the matrix C b ρn appears in the definition of fi . This inverse
exists on the set Ωn defined by (I.8), and which probability goes to 1 as n goes
to infinity. Lemma I.1 below allows us to get the results (i) and (ii) of theorem
I.1 for the penalized empirical L2 norm.
Lemma I.1. — Under the hypotheses of theorem p I.1, for all > 0, there
exists L (sufficiently large) and (δn )n∈N with δn = 1/(nηn ) + ρ2n /(kn ηn ) such
that, for n large enough
" n n
#
X X
P inf fi (β) > fi (0) > 1 − .
kβk=Lδn
i=1 i=1
46 I.2. QUANTILE REGRESSION WHEN THE COVARIATES ARE FUNCTIONS
We use convexity arguments to prove the result (i). The existence of the solu-
tion of the minimization problem (I.7) is guaranteed since the function to be
minimized is convex, if we keep in mind that
(m)
2
ρθ τ Gk θ = ρ
Bτk,q θ
2 ≥ 0.
L
Using the convexity of fi , the result of lemma I.1 means that for all > 0 there
exists L such that, for n large enough (asP Lδn goes to zero), we can not find
more than one minimum for the function ni=1 fi with probability 1 − .
Now, let be strictly positive ; using lemma I.1 and the convexity of function
fi , there exists L such that, for n large enough
" n n
#
X X
(I.13) P inf fi (β) > fi (0) > 1 − .
kβk≥Lδn
i=1 i=1
On the other hand, using the definition of fi and the minimization criterion
(I.7), we have
1 X b 1/2 b b 1/2 ?
n
f i C ρn θ − C ρn θ
n i=1
" n #
1X
2
(m)
= inf lα Yi − hBτkn ,q θ, Xi i + ρn
Bτkn ,q θ
2 ,
θ∈R k n +q n i=1 L
so we finally get
I.4.5. PROOF OF THE CONVERGENCE RESULT 47
1 X b 1/2 b b 1/2 ? 1 X
n n
f i C ρn θ − C ρn θ ≤ fi (0).
n i=1 n i=1
" #
n
X n
X
(I.14) P inf fi (β) > b 1/2 θb − C
fi C b 1/2 θ ? > 1 − .
ρn ρn
kβk≥Lδn
i=1 i=1
b ρn , we have
Now, using the definition of C
" #
n
1X b
2
b ? (m)
P hΨα − Ψ?α , Xi i2 + ρn
(Ψ α − Ψ α )
2 ≤ L2 δn2
n i=1 L
h
i
b 1/2 b ?
= 1 − P
C ρn (θ − θ )
> Lδn
" #
X n Xn
≥ P inf fi (β) > fi Cb 1/2 θb − C
b 1/2 θ ? .
ρn ρn
kβk≥Lδn
i=1 i=1
n
2
1X b ? 2
b ? (m)
2
1 ρ2n
h Ψ α − Ψ α , Xi i + ρ n
( Ψ α − Ψ α )
= O P δ n = O P + .
n i=1 L2 nηn kn ηn
This last result, combined with inequality (I.13) finally gives us the equivalent
of result (ii) for the penalized empirical L2 norm. Point (ii) (with the norm
k.kΓX ) then follows from lemma I.2 below, and achieves the proof of theorem
I.1 (ii).
Lemma I.2. — Let f and g be two functions supposed to be m times diffe-
rentiable and such that
with un going to zero when n goes to infinity. Under hypotheses (A.1) and
(A.3) and if moreover kgkL2 and kg (m) kL2 are supposed to be bounded, we have
kf − gk2ΓX = OP (un ).
C kβk
τ b −1/2 5
max hBkn ,q Cρn β, Xi i ≤ √ , a.s.
i=1,...,n kn ηn
Lemma I.4. — For all > 0 and for any sequence (Ln ) such that Ln ≤
p
nkn ηn δn2 , we have
" #
Xn
lim P sup (fi (Ln δn β) − fi (0) − E [fi (Ln δn β) − fi (0)|Tn ]) > δn2 n = 0.
n→+∞ kβk=1
i=1
Lemma I.5. — For all > 0, there exists L = L (sufficiently large) such
that
" n
#
X
P inf E [fi (Lδn β) − fi (0)|Tn ] > δn2 n > 1 − .
kβk=1
i=1
These three lemmas allow us to prove lemma I.1. Indeed, let L be a strictly
positive real number ; we denote
n
X
An = (fi (Lδn β) − fi (0)) ,
i=1
and
I.4.5. PROOF OF THE CONVERGENCE RESULT 49
n
X
Bn = E [fi (Lδn β) − fi (0)|Tn ] .
i=1
Using lemmas I.4 and I.5, given > 0, we can find L = L such that, for n
large enough, P inf kβk=1 Bn > δn2 n > 1 − and supkβk=1 |An − Bn | = oP (δn2 n).
Then, we deduce
" n n
#
X X
P inf fi (Lδn β) − fi (0) > 0 > 1 − ,
kβk=1
i=1 i=1
Proof of lemma I.3. — Using lemma 6.2 of Cardot, Ferraty and Sarda
(2003), we have
2
b ρ−1/2 b −1 2
Noticing that hBτkn ,q C n β, X i τ
i ≤ hBkn ,q , Xi iCρn hBkn ,q , Xi i kβk , we de-
duce that
2
τ b −1/2
hBkn ,q Cρn β, Xi i
1
2 1−δ −1/2
≤ hBτkn ,q , Xi ihBkn ,q , Xi i kβk2 + o P kn n ,
C50 ηn
b −1
b −1 ) = 1/λmin (C
b ρn ). Then, noticing that
using the fact that
Cρn
= λmax (C ρn
kn +q
X
1
hBτkn ,q , Xi ihBkn ,q , Xi i = 2
hBj , Xi i = O ,
j=1
kn
50 I.2. QUANTILE REGRESSION WHEN THE COVARIATES ARE FUNCTIONS
2
τ b −1/2
this gives us hBkn ,q Cρn β, Xi i ≤ C500 kβk2 /(kn ηn ) + oP n(δ−1)/2 almost
surely, and achieves the proof of lemma I.3.
X n
sup fi (Lδn β) − fi (0) − E [fi (Lδn β) − fi (0)|Tn ]
kβk≤1 i=1
X n
τ b −1/2
= sup i − Lδn h Bkn ,q Cρn β, Xi i − Ri − |i − Ri |
kβk≤1 i=1
h i
b −1/2 β, Xi i − Ri − |i − Ri ||Tn ,
−E i − Lδn hBτkn ,q C ρn
!
Xn
lim P sup [∆i (β) − E(∆i (β)|Tn )] > δn2 n = 0.
n→+∞ kβk≤1
i=1
√
δn kn ηn
(I.15) diam (Cj ) ≤ .
8C5 L
Hence
I.4.5. PROOF OF THE CONVERGENCE RESULT 51
kn +q
8C5 L
(I.16) Kn ≤ √ .
δn kn ηn
X n
min [∆i (β) − E(∆i (β)|Tn )] − ∆i (β j ) − E(∆i (β j )|Tn )
j=1,...,Kn
i=1
Xn
τ b −1/2
≤ 2Lδn min hB C
kn ,q ρn (β − β j ), X i
i .
j=1,...,Kn
i=1
n
X
min [∆i (β) − E(∆i (β)|Tn )] − ∆i (β j ) − E(∆i (β j )|Tn )
j=1,...,Kn
i=1
C5 n
≤ 2Lδn √ min
β − β j
,
kn ηn j=1,...,Kn
this last inequality being true only on the set Ωn defined by (I.8). Moreover,
there exists a unique j0 ∈ {1, . . . , Kn } such that β ∈ Cj0 , which gives us with
relation (I.15)
(I.17)
X n
min [∆i (β) − E(∆i (β)|Tn )] − ∆i (β j ) − E(∆i (β j )|Tn ) ≤ δn2 n.
j=1,...,Kn 4
i=1
b −1/2 β, Xi i|,
sup |∆i (β)| ≤ Lδn sup |hBτkn ,q C ρn
β∈C β∈C
52 I.2. QUANTILE REGRESSION WHEN THE COVARIATES ARE FUNCTIONS
C5 Lδn
(I.18) sup |∆i (β)| ≤ √ .
β∈C kn ηn
n
X n
X
V (∆i (β)|T ? ) ≤ b −1/2 β, Xi i|2 |T ? .
L2 δn2 V |hBτkn ,q C ρn
i=1 i=1
b ρn , we remark that
Then, using the definition of C
n
X 2
τ b −1/2 2 b −1/2 Gkn C
b −1/2 β,
(I.19) hBkn ,q Cρn β, Xi i = n kβk − nρn β τ C ρn ρn
i=1
which gives us
n
X
(I.20) V (∆i (β)|T ? ) ≤ nL2 δn2 .
i=1
We are now able to prove lemma I.4. Using first relation (I.17), we have
" ! #
Xn
P sup [∆i (β) − E (∆i (β)|Tn )] > δn2 n ∩ Ωn T ?
kβk≤1 i=1
" ! #
X n
2
?
≤ P max ∆i (β j ) − E ∆i (β j )|Tn > δn n ∩ Ωn T ,
j=1,...,Kn 2
i=1
and then
I.4.5. PROOF OF THE CONVERGENCE RESULT 53
" n ! #
X
2 ?
P sup [∆i (β) − E (∆i (β)|Tn )] > δn n ∩ Ωn T
kβk≤1 i=1
" n ! #
X 2
?
≤ Kn max P ∆i (β j ) − E ∆i (β j )|Tn > δn n ∩ Ωn T .
j=1,...,Kn 2
i=1
" n ! #
X
P sup [∆i (β) − E (∆i (β)|Tn )] > δn2 n ∩ Ωn T ?
kβk≤1 i=1
( kn +q )
8C5 Ln 2 δn4 n2 /4
≤ 2 exp ln √ − √ .
δn kn ηn 2nL2 δn2 + 2C5 Lδn × δn2 n/(2 kn ηn )
This bound does not depend on the sample T ? = (X1 , . . . , Xn , . . .), hence, if
we take the expectation on both sides of this inequality above, we deduce
" n
! #
X
P sup [∆i (β) − E (∆i (β)|Tn )] > δn2 n ∩ Ωn
kβk≤1 i=1
√
2 δn2 kn ηn n
≤ 2 exp − 2 √
8L kn ηn + 4C5 Lδn
√
(kn + q)(8L2 kn ηn + 4C5 Lδn ) 8C5 Ln
× 1− √ ln √ .
2 δn2 kn ηn n δn kn ηn
p
If L = Ln ≤ nkn ηn δn2 , we have
√
δn2 kn ηn n 1
2
√ ≥ −−−−→ +∞,
L kn ηn kn ηn n→+∞
√
δn2 kn ηn n √
≥ n −−−−→ +∞,
Lδn n→+∞
√
k n L2 k n η n
2
√ ≤ kn2 ηn −−−−→ 0,
δn k n η n n n→+∞
54 I.2. QUANTILE REGRESSION WHEN THE COVARIATES ARE FUNCTIONS
kn Lδn kn
√ ≤ √ −−−−→ 0.
δn2 kn ηn n n n→+∞
This leads to
" ! #
Xn
2
lim P sup [∆i (β) − E (∆i (β)|Tn )] > δn n ∩ Ωn = 0,
n→+∞ kβk≤1 i=1
and with the fact that Ωn has probability tending to 1 when n goes to infinity,
we finally obtain
" n #
X
2
lim P sup [∆i (β) − E (∆i (β)|Tn )] > δn n = 0,
n→+∞ kβk≤1 i=1
Proof of lemma I.5. — Let a and b be two real numbers. We denote by Fi
the random repartition function of i given Tn Rand by fi the random density
function of i given Tn . As E (lα (i + b)|Tn ) = R lα (s + b) dFi (s), we obtain,
using the definition of lα ,
what gives us
Then, noticing that dFi (s) = fi (s)ds and using a Taylor linearization at
first order of around 0 (we write fi (s) = fi (0) + o(1) and Fi (−a − b) =
Fi (0) − (a + b)fi (0) + o(a + b)), we finally obtain (with Fi (0) = α)
a2
E (lα (i + a + b) − lα (i + b)|Tn ) = fi (0)a2 + 2fi (0)ab + ( + ab)riab ,
2
√ √
with riab −→ 0 when a, b −→ 0. If we set L0 = 2L and Ri0 = 2Ri , this
relation gives us
n
X h i
(I.21) b −1/2 β, Xi i − Ri − lα (i − Ri ) |Tn
E lα i − Lδn hBτkn ,q C ρn
i=1
X n h i
= 2 b −1/2 β, Xi i2 + L0 δn hBτ C
fi (0) L02 δn2 hBτkn ,q C b −1/2 β, Xi iR0
ρn kn ,q ρn i
i=1
n h
X i
+ b −1/2 β, Xi i2 + L0 δn hBτ C
L02 δn2 hBτkn ,q C b −1/2 β, Xi iR0 riβ ,
ρn kn ,q ρn i
i=1
b −1/2 β, Xi i2 + L0 δn hBτ C
L02 δn2 hBτkn ,q C b −1/2 0
(I.22) ρn kn ,q ρn β, Xi iRi
1 02 2 τ b −1/2 C2
≥ L δn hBkn ,q Cρn β, Xi i2 − 2p3 , a.s.
2 kn
56 I.2. QUANTILE REGRESSION WHEN THE COVARIATES ARE FUNCTIONS
Moreover, we set Vn = supkβk=1 maxi=1,...,n |riβ |. Using lemma I.3 and relation
(I.11), we have
Lδn kβk C3
τ b −1/2
Lδn hBkn ,q Cρn β, Xi i + |Ri | ≤ C5 √ + p.
kn ηn kn
We deduce from this that, for all β such that kβk = 1 and for all i = 1, . . . , n,
b −1/2 β, Xi i + |Ri | −→ 0,
sup max Lδn hBτkn ,q C ρn
kβk=1 i=1,...,n
b ρ−1/2
and riβ −→ 0 when Lδn hBτkn ,q C n β, X i + |Ri | −→ 0, hence, we can
i
conclude that supkβk=1 maxi=1,...,n |riβ | −→ 0. Then with condition (A.4), we
have 11{Vn <mini fi (0)/4} = 11R for n large enough, and
h i
02 2 τ b −1/2 b −1/2 β, Xi iR0 riβ
(I.23) L δn hBkn ,q Cρn β, Xi i2 + L0 δn hBτkn ,q C ρn i
1
b −1/2 β, Xi i2 + L0 δn hBτ C b −1/2 β, Xi iR0
≤ min fi (0) L02 δn2 hBτkn ,q C ρn kn ,q ρn i
4 i=1,...,n
3 02 2 τ b −1/2 C2
≤ 2 min fi (0) L δn hBkn ,q Cρn β, Xi i2 + 32p .
i=1,...,n 16 8kn
n
X h i
b −1/2 β, Xi i − Ri − lα (i − Ri ) |Tn
E lα i − Lδn hBτkn ,q C ρn
i=1
" n
#
5 02 2 X τ b −1/2 9 C 2
3 n
≥ 2 min fi (0) L δn hBkn ,q Cρn β, Xi i2 − 2p .
i=1,...,n 16 i=1
8 k n
X n
1
inf E [fi (Lδn β) − fi (0)|Tn ]
δn2 n kβk=1 i=1
" n
#
5L02 X τ b −1/2 9C 2
≥ 2 min fi (0) hB C β, Xi i2 − 2p3
i=1,...,n 16n i=1 kn ,q ρn 8kn δn2
(m)
2
τ
2
b −1/2
Lρn τ b −1/2 (m) τ
? (m)
+ρn L
Bkn ,q Cρn β
2 + 2 h B C
kn ,q ρn β , Bkn ,q θ i.
L δn
Reminding that L02 = 2L2 and taking ξ = min( 45 mini=1,...,n fi (0), 1), we have
ξ > 0 by hypothesis (A.4) and then
X n
1
inf E [fi (Lδn β) − fi (0)|Tn ]
δn2 n kβk=1 i=1
" n
#
1 X
(m)
2
≥ ξL2 inf b −1/2 β, Xi i2 + ρn
Bτ C
hBτkn ,q C b −1/2
kβk=1 n
ρn
kn ,q ρn β
2
i=1 L
9 C2 2Lρn (m)
b −1/2 β ? (m)
− min fi (0) 2p3 + h Bτkn ,q C ρ , B τ
k ,q θ i.
4 i=1,...,n kn δn2 δn n n
X n
1
inf E [fi (Lδn β) − fi (0)|Tn ]
δn2 n kβk=1 i=1
9 C2 2Lρn τ b −1/2 (m) (m)
≥ ξL2 − min fi (0) 2p3 + h Bkn ,q Cρn β , Bτkn ,q θ ? i.
4 i=1,...,n 2
k n δn δn
Moreover, for kβk = 1, the
infimum τ b −1/2 (m) , Bτ θ ? (m) i is
of h Bkn ,q Cρn β kn ,q
b 1/2 ?
b 1/2 ?
obtained for β = −C ρn θ /
Cρn θ
. Using the fact that the spline approxi-
mation has a bounded m-th derivative, we deduce the existence of a constant
C9 > 0 such that
58 I.2. QUANTILE REGRESSION WHEN THE COVARIATES ARE FUNCTIONS
(m) (m) C9
b −1/2 β
inf h Bτkn ,q C , Bτkn ,q θ ? i ≥ −√ ,
ρn
kβk=1 ηn
hence we obtain
X n
1
inf E [fi (Lδn β) − fi (0)|Tn ]
δn2 n kβk=1 i=1
9 C2 Lρn
≥ ξL2 − min fi (0) 2p3 − 2C9 √ ,
4 i=1,...,n kn δn2 δn η n
that is to say
X n
1
inf E [fi (Lδn β) − fi (0)|Tn ]
δn2 n kβk=1 i=1
2 9 mini=1,...,n fi (0)C32 2C9 ρn
≥ ξL 1 − − √ .
4ξL2 kn2p δn2 ξLδn ηn
Noticing that
1 1 nηn
for δn2 ∼ , we have 2p ∼ 2p −−−−→ 0,
nηn k n δn2 kn n→+∞
ρ n ρ n
p
for δn2 ∼ , we have √ ∼ ρn kn −−−−→ 0,
kn ηn δn η n n→+∞
The last quantity in the inequality above can be made arbitrarily large as n
goes to infinity by choosing L = L sufficiently large. This leads to
n
!
1 X
lim P inf E [fi (Lδn β) − fi (0)|Tn ] > 1 = 1,
n→+∞ δn2 n kβk=1 i=1
(I.24) kf − gk2ΓX = 2kΓX − ΓX,n k kf k2L2 + kgk2L2 + kf − gk2ΓX,n .
Pm−1 tl (l)
Now, let us decompose f as follows : f = P + R with P (t) = l=0 l!
f (0)
R t (t−u)m−1 (m)
and R(t) = 0 (m−1)! f (u) du. P belongs to the space Pm−1 of polynomials
of degree at most m − 1, whose dimension is finite and equal to m. Using
hypothesis (A.3), there exists a constant C6 > 0 such that we have kP k2L2 ≤
C6 kP k2ΓX,n . Then, we can deduce
and the hypothesis kf −gk2ΓX,n +ρn k(f −g)(m) k2L2 = OP (un ) gives us the bounds
kf − gk2ΓX,n = OP (un ) and k(f − g)(m) k2L2 = OP (un /ρn ). Then, relation (I.27)
becomes
60 I.2. QUANTILE REGRESSION WHEN THE COVARIATES ARE FUNCTIONS
un
(I.27) kf k2L2 = OP 1 + .
ρn
Finally, we have kΓX −ΓX,n k = oP (n(δ−1)/2 ) = oP (ρn ) from lemma 5.3 of Cardot,
Ferraty and Sarda (1999). This equality, combined with equations (I.24) and
(I.27) gives us kf − gk2ΓX = OP (un ), which is the announced result.
I.3. COMMENTAIRES ET PERSPECTIVES
Enfin, une autre perspective qu’il semble intéressant d’envisager est l’esti-
mation de quantiles conditionnels lorsque non seulement la variable explicative
est fonctionnelle mais aussi la variable d’intérêt. On pourrait même envisager
dans un premier temps une variable réponse uniquement multivariée. Les tra-
vaux déjà cités en introduction de Averous et Meste (1997) et de Cadre (2001)
semblent très utiles dans le cadre de cette étude.
PARTIE II
En se plaçant sur l’espace L2 ([0, 1]) muni de son produit scalaire usuel, le
modèle (2) s’écrit ainsi, pour tout i = 1, . . . , n,
Z 1
(II.1) Yi = α(t)Xi (t)dt + i ,
0
le but étant de donner une estimation de α sur la base des observations (X1 , Y1 ),
. . . , (Xn , Yn ).
p
1X
hf, gip = f (tj )g(tj ),
p j=1
p
1X
(II.2) Yi = α(tj )Xi (tj ) + i .
p j=1
1
(II.3) Y = Xα + .
p
(
2 Z )
1
1
Y − Xa
+ ρ s(m) (t)2 dt ,
(II.4) min
a∈Rp n
p
I
a
où k.k désigne ici la norme euclidienne usuelle de Rn , sa est la spline d’inter-
polation associée au vecteur a, et ρ est un paramètre de lissage permettant à
nouveau le compromis entre l’ajustement au données et le lissage de l’estima-
teur. En utilisant la relation (3), on peut écrire
Z
sa(m) (t)2 dt = aτ A∗m a,
I
avec
Z
−1
A∗m τ
= B (B B) [ b(m) (t)b(m) (t)τ dt] (Bτ B)−1 Bτ .
I
(II.5)
−1 −1
1
∗ 1 τ 1 1 τ
b =
α 2
X X + ρA∗m τ
X Y= X X + ρpA∗m Xτ Y.
np np n np
68 II.1. CONSTRUCTION DE L’ESTIMATEUR
Utreras (1983) montre que cette matrice pA∗m possède m valeurs propres nulles
µ1,p = . . . = µm,p = 0, tandis que, lorsque p tend vers l’infini,
p ∞
X 1 X
(II.6) −→ (πj)−2m ,
j=m+1
µ j,p j=m+1
où 0 < µm+1,p < . . . < µp,p désignent les p − m valeurs propres non nulles de
pA∗m . Comme dans (II.6) la série converge uniquement si m 6= 0, on supposera
que ceci est vérifié dans la suite.
Le fait que cette matrice pA∗m ait m valeurs propres nulles pose problème
1
pour l’inversion de la matrice np Xτ X + ρpA∗m , donc pour l’existence de l’esti-
mateur. Pour contourner ce problème, on va légèrement modifier l’estimateur
b ∗ en procédant de la façon suivante. On note Em le sous-espace propre de
α
dimension m associé aux m valeurs propres nulles de pA∗m , et Pm la matrice
de projection sur ce sous-espace. On définit alors
Am = Pm + pA∗m .
(II.7)
−1 −1
1 1 τ ρ τ 1 1 τ
b F LS,X
α = X X + Am X Y= X X + ρAm Xτ Y,
np np2 p n np
(
2 )
1
1
ρ
Y − Xa
+ aτ Am a ,
(II.8) min
a∈Rp n
p
p
égales à 1, les p−m valeurs propres restantes coı̈ncidant avec les valeurs propres
µm+1,p < . . . < µp,p de pA∗m . Finalement, l’estimation du paramètre fonctionnel
α est définie par
b F LS,X .
interpolation spline associée au vecteur α
II.2. RÉSULTAT DE CONVERGENCE
(II.9) Tr A−1
m ≤ D1 .
1 1 τ
(II.10) kuk2ΓX,n,p = uτ X X u.
p np
1 τ
b F LS,X ) −
kE(α αk2ΓX,n,p ≤ρ α Pm α + D 2 ≤ ρ (D3 + D2 ) ,
p
et
1 σ2
b F LS,X ) k2 ≤ D1 .
b F LS,X − E(α
E kα
p nρ
b F LS,X − αk2ΓX,n,p = OP n−1/2 .
kα
II.3. COMMENTAIRES ET
PERSPECTIVES
Le résultat précédent donne une vitesse moins bonne que la vitesse nonpa-
ramétrique unidimensionnelle usuelle de Stone (1982). Cependant, des travaux
en collaboration avec Hervé Cardot, Alois Kneip et Pascal Sarda sont actuelle-
ment en cours dans le but d’améliorer cette vitesse, donnant des résultats en-
courageants. D’autre part, ces travaux prennent aussi en compte le passage du
cas discrétisé considéré ici au cas “fonctionnel”. Plus précisément, on cherche
aussi à établir des résultats de convergence (si possible avec des vitesses aussi
bonnes que dans le cas discrétisé) pour α bF LS,X = sαb F LS,X relativement aux
semi-normes k.kΓX,n et k.kΓX . Ces travaux en cours tiennent également compte
de l’approximation du produit scalaire, ce qui n’estP pas fait dans cette thèse.
On considère en effet ici le modèle s’écrivant Yi = p pj=1 Xi (tj )α(tj ) + i pour
1
D’autre part, comme cela a été évoqué dans les perspectives d’estimation de
quantiles conditionnels pour variables explicatives fonctionnelles, on peut aussi,
pour l’estimation de la moyenne conditionnelle envisager la construction d’un
estimateur par ondelettes (voir à par exemple ce sujet les livres de Daubechies,
1992 et Cohen, 2003). Les ondelettes ont connu un intérêt grandissant ces
dernières années. Elles présentent en effet des avantages par rapport aux bases
de Fourier par exemple, comme de permettre la représentation d’un signal à
la fois en temps et en échelle.
PARTIE III
MODÈLE LINÉAIRE
FONCTIONNEL LORSQUE
LA VARIABLE
EXPLICATIVE EST
BRUITÉE
III.1. MOINDRES CARRÉS
ORTHOGONAUX - CAS MULTIVARIÉ
Yi = Xτi α + i ,
(III.1)
Wi = X i + δ i ,
n
1X
kWi − Xi k2 ,
n i=1
78 III.1. MOINDRES CARRÉS ORTHOGONAUX - CAS MULTIVARIÉ
( n
)
1 X 2
(III.2) min (Yi − Xτi a) + (Xi − Wi )τ (Xi − Wi ) .
a∈Rp ,Xi ∈Rp n i=1
MC Ord MC Orth
Yi Yi
i
i
Xi α δi
Xi α
Xi W i Xi
−1
(III.3) b T LS = Wτ W − σmin
α 2
Ip Wτ Y,
2
où Ip désigne la matrice identité de taille p et σmin est la plus petite valeur
τ
propre non nulle de la matrice (W, Y) (W, Y), où (W, Y) désigne la matrice
obtenue en concaténant les matrices W et Y.
p
n X
X
kAk2F = a2ij = Tr (Aτ A) .
i=1 j=1
min kEk2F .
Ax=Ex
xτ Eτ Ex xτ Aτ Ax
kEk2F ≥ kEk = sup = sup .
x6=0 xτ x x6=0 xτ x
Axxτ
E= ,
xτ x
on a bien Ax = Ex et
xxτ Aτ Axxτ xτ Aτ Ax
kEk2F = Tr (Eτ E) = = .
(xτ x)2 xτ x
τ τ
Il ne reste alors plus qu’à minimiser x xAτ xAx en x. On considère donc la dia-
gonalisation de Aτ A et on note σmin2
la plus petite valeur propre non nulle,
associée au vecteur propre noté vmin . Ainsi, la solution au problème de mini-
misation est obtenue pour x = kvmin . La dernière composante (la (p + 1)ème )
donne la valeur de k = −1/vminp+1 . La solution au problème de minimisation
(III.2) est donc donnée par
vmin1
1 ... et b
b T LS =
α − = Avmin vmin τ .
δ, b
vminp+1
vminp
L’écriture
b T LS s’obtient alors immédiatement de la façon suivante. Comme
de α
b T LS
α
−1
est vecteur propre de la matrice Aτ A associé à la valeur propre σmin
2
,
on a donc
Wτ b T LS
α 2 b T LS
α
(W, Y) = σmin ,
Yτ −1 −1
Wτ Wα
b T LS − Wτ Y = σmin
2
b T LS ,
α
III.1. MOINDRES CARRÉS ORTHOGONAUX - CAS MULTIVARIÉ 81
(III.4) ( )
n
1 X
min (Yi − Xτi a)2 + (Xi − Wi )(Xi − Wi )τ + ρaτ Lτ La ,
a∈Rp ,Xi ∈Rp n i=1
où L est une matrice de taille p×p fixée et ρ est un paramètre de régularisation
qui permet de contrôler le mauvais conditionnement de la matrice W. Golub,
Hansen et O’Leary (1999) montrent alors le résultat suivant, dont la preuve se
calque sur celle de la proposition III.1, en incorporant simplement en plus la
régularisation (cette preuve ne sera donc pas donnée ici).
Proposition III.2. — La solution en a ∈ Rp au problème de minimisation
b T LS,pen, est donnée par
(III.4), notée α
−1
(III.5) b T LS,pen = Wτ W + ρLτ L − σmin,pen
α 2
Ip Wτ Y,
2
où σmin,pen est la plus petite valeur propre non nulle de la matrice
τ Lτ L 0
(W, Y) (W, Y) + .
0 0
Ce cas faisant intervenir une pénalisation est important dans notre contexte
fonctionnel, où, comme cela a été souligné, l’apport d’une pénalisation s’avère
fondamental. Ce dernier résultat permettra ainsi la généralisation de la méthode
des moindres carrés orthogonaux au cas d’une variable explicative fonction-
nelle.
III.2. MOINDRES CARRÉS
ORTHOGONAUX - CAS FONCTIONNEL
avec
hB1 , X1 i . . . hBk+q , X1 i
DX = .. .. ,
. .
hB1 , Xn i . . . hBk+q , Xn i
et
84 III.2. MOINDRES CARRÉS ORTHOGONAUX - CAS FONCTIONNEL
(m) (m) (m) (m)
hB1 , B1 i . . . hB1 , Bk+q i
.. ..
Gk = . . .
(m) (m) (m) (m)
hBk+q , B1 i . . . hBk+q , Bk+q i
Ici, les courbes X1 , . . . , Xn ne sont pas connues, les courbes réellement ob-
servées W1 , . . . , Wn sont définies par (8). Pour étendre la méthode des moindres
carrés orthogonaux à ce contexte, on va donc considérer le problème de mini-
misation
(
1X
n
2
2
e f i
min Yi − hBτk,q θ, Xi i +
Xi − W
θ∈Rk+q ,Xi ∈L2 (I) n i=1
)
τ (m)
2
(III.7) +ρ
Bk,q θ
2 ,
L
e i et W
où X f i sont les versions splines de Xi et Wi . Plus précisément, en notant
X la matrice n × p de terme général (Xi (tj )) pour i = 1, . . . , n et j = 1, . . . , p
et si β est la matrice p × (k + q) de terme général Br (tj ) pour j = 1, . . . , p et
e est la matrice n × (k + q) définie par
r = 1, . . . , k + q, alors X
e = Xβ,
X
−1
bF T LS 1 1 τ 2
(III.8) θ = DW DW + ρGk − σmin Bk DτW Y,
n n
hB1 , W1 i . . . hBk+q , W1 i
DW = .. .. ,
. .
hB1 , Wn i . . . hBk+q , Wn i
hB1 , B1 i . . . hBk+q , B1 i
Bk = .. .. ,
. .
hB1 , Bk+q i . . . hBk+q , Bk+q i
2
et σmin est la plus petite valeur propre de la matrice
τ
1 DW DW −1 −1
√ ,Y √ , Y + γ (γ τ γ) (ρKk ) (γ τ γ) γ τ ,
n p p
β
√
p
0
γ= ,
0 0
Gk 0
Kk = .
0 0
Le problème
qui
τ vient
se rajouter ici est que les valeurs propres de la ma-
1 DW DW
trice n √p , Y √ , Y décroissent vers zéro et cela cause des problèmes
p
2
numériques pour le calcul de σmin . Ainsi, on va contourner ce problème par
l’intermédiaire d’un résultat qui donne le lien entre DτX DX (non accessible) et
DτW DW , ce qui va permettre de modifier la “dérégularisation”. La preuve de
ce résultat est également donnée en annexe (voir partie V.1.).
1 τ 1 σ2
(III.9) DW DW = DτX DX + δ Bk + R1 ,
n n p
1
kR1 k = OP .
n1/2 p1/2 k 1/2
Enfin, comme σδ2 n’est pas toujours connu, on peut l’estimer. On choisit ici
de l’estimer nonparamétriquement, en utilisant les travaux de Gasser, Sroka
et Jennen-Steinmetz (1986). Comme on est en présence de points de mesure
équidistants, cet estimateur est donné par
n p−1
1X 1 X
(III.10) bδ2
σ = [Wi (tj−1 ) − Wi (tj ) + Wi (tj+1 ) − Wi (tj )]2 .
n i=1 6(p − 2) j=2
−1
bF T LS 1 1 τ bδ2
σ
(III.11) θ = D DW + ρGk − Bk DτW Y,
n n W p
bF T LS .
bF T LS,k = Bτk,q θ
α
1 kn kn
kb
αF T LS,kn − αk2ΓX = OP 2d
+ + ρn + .
kn nρn npρn
La preuve ne sera pas donnée ici. Elle est simplement basée sur la comparaison
bF T LS,kn et α
entre α b et entre α
b et α. Un résultat de convergence a déjà été obtenu
par Cardot, Ferraty et Sarda (2003) concernant kb α − αkΓX . Plus précisément,
sous les hypothèses (B.1) − (B.3), dès que 1/p = o(ρn /kn ), on a
1 kn
kb
α− αk2ΓX = OP + + ρn .
kn2d nρn
kn
kb
αF T LS,kn − bk2ΓX
α = OP .
npρn
III.2.4. ESTIMATEUR PAR SPLINES DE LISSAGE 89
III.2.3. Commentaires
αF T LS,kn − αk2ΓX = OP n−2d/(4d+1) .
kb
−1
bW 1 1 τ
θ = D DW + ρGk DτW Y.
n n W
de cet estimateur est basée sur une correction de l’estimateur par splines de
lissages introduit dans la partie II, en s’inspirant directement de la méthode des
moindres carrés orthogonaux. La construction de l’estimateur se fait de façon
très proche de celle utilisée pour les splines de régression. La dérégularisation
diffère, ne faisant plus intervenir la matrice Bk mais la matrice identité. Cet
estimateur est présenté et étudié dans l’article de Cardot, Crambes, Kneip et
Sarda (2006), donné dans le chapitre suivant.
III.2.5. Perspectives
III.3.1. Introduction
Our study takes place in this framework of functional data analysis in the
context of regression estimation evocated above. Thus, we consider here the
case of a functional covariate while the response is scalar. To be more precise,
we first consider observations (Xi , Yi )i=1,...,n , where the Xi ’s are real functions
defined on an interval I of R with the assumption that it is square integrable
over I. As usually assumed in the literature, we then work on the Rseparable
real Hilbert space L2 (I) of such functions f defined on I such that I f (t)2 dt
is finite. RThis space is endowed with its usual inner product h., .i defined by
hf, gi = I f (t)g(t)dt for f, g ∈ L2 (I), and the associated norm is noted k.kL2 .
Now, the model we consider to sumarize the link between covariates Xi and
92 III.3. FUNCTIONAL LINEAR REGRESSION WITH ERRORS-IN-VARIABLES
Z
(III.12) Yi = α(t)Xi (t)dt + i , i = 1, . . . , n,
I
Before going further, let us note that there can be different ways to generate
the curves Xi . One possibility is a fixed design, that is, X1 , . . . , Xn are fixed,
non-random functions. Examples are experiments in chemical or engineering
applications, where Xi corresponds to functional responses obtained under va-
rious, predetermined experimental conditions (see for instance Cuevas, Febrero
and Fraiman, 2002). In other applications one may assume a random design,
where X1 , . . . , Xn are an i.i.d. sample. In any case, Y1 , . . . , Yn are independent
and the expectations always refer to the probability distribution induced by
the random variables 1 , . . . , n , only. In the case of random design, they thus
formally have to be interpreted as conditional expectation given X1 , . . . , Xn .
This implies for instance that E(i |Xi ) = 0 and E(2i |Xi ) = σ2 .
E(δij ) = 0,
and
E(δij2 ) = σδ2 .
The noise components δij are not discrete realizations of continuous time “ran-
dom noise” stochastic process and must be interpreted as random measurement
errors at the finite discretization points (see e.g. Cardot, 2000 and Chiou,
Müller and Wang, 2003 for similar points of view).
The problem of the Errors-in-Variables linear model has already been stu-
died in many ways in the case where the covariate takes values in R or Rp ,
that is to say when it is univariate or multivariate. For instance, the maximum
likelihood method has been applied to this context (see Fuller, 1987), and
asymptotic results have been obtained (see for example Gleser, 1981). Because
this problem is strongly linked to the problem of solving linear systems
Ax ≈ b,
Now, coming back to model (III.12), very few works have been done in the
case of Errors-in-Variables : in a recent work from Chiou, Müller and Wang
(2003), a two-step approach is proposed which consists in first smoothing the
noisy trajectories in order to get denoised curves and then build functional
estimators. The point of view adopted here is quite different and deals with
the extension of the T LS approach in the context of the functional linear
model.
the inner product h., .i will be denoted by h., .ip and defined for f, g ∈ L2 (I)
by
p
1X
hf, gip = f (tj )g(tj ).
p j=1
p
1X
(III.14) Yi = α(tj )Xi (tj ) + i , i = 1, . . . , n.
p j=1
1
(III.15) Y = Xα + .
p
In this section, we first assume that X is observable without errors and our
estimation procedure for α is motivated by the popular smoothing splines
approach. Then, we want to estimate α as a smooth function, i.e. we assume
that α is m times differentiable for some fixed m ∈ N∗ .
Z Z
(m)
sw (t)2 dt ≤ f (m) (t)2 dt for any other function f
I I
(III.17) with f (m) ∈ L2 (I) and f (tj ) = wj , j = 1, . . . , p.
96 III.3. FUNCTIONAL LINEAR REGRESSION WITH ERRORS-IN-VARIABLES
The inequality (III.17) implies that the solution fb is given by fb = swb , where
P R (m)
b is obtained by minimizing 1p i (zi − wi )2 + ρ I sw (t)2 dt over all vectors
w
w ∈ Rp .
(
2 Z )
1
1
(III.18) min
Y − Xa
+ ρ sa(m) (t)2 dt ,
a∈Rp n p I
where k.k stands for the usual Euclidean norm, and ρ > 0 is a smoothing
parameter allowing a trade-off between the goodness-of-fit
R (m) 2 to the data and
the smoothness of the fit. By (III.16), we have I sa (t) dt = aτ A∗m a, where
R
A∗m = B (Bτ B)−1 [ I b(m) (t)b(m) (t)τ dt] (Bτ B)−1 Bτ is a p × p matrix. There-
fore, (III.18) can be reformulated in the form
(
2 )
1
1
(III.19) min
Y − Xa
+ ρaτ A∗m a ,
a∈Rp n p
−1 −1
1 1 τ 1 1 τ
b ∗F LS,X
α = X X + ρA∗m τ
X Y= X X + ρpA∗m Xτ Y.
np np2 n np
However, there is a problem with this estimator which is due to the struc-
ture of the eigenvalues of pA∗m . These eigenvalues have been studied by many
authors and a discussion of general results is given by Eubank (1988). The
most precise results in our context are presented in Utreras (1983). It is shown
that this matrix has exactly m zero eigenvalues µ1,p = . . . = µm,p = 0, while
as p → ∞,
III.3.2. ESTIMATION OF α IN THE NON-NOISY CASE 97
p ∞
X 1 X
(III.20) −→ (πj)−2m ,
µ
j=m+1 j,p j=m+1
where 0 < µm+1,p < . . . < µp,p denote the p − m non-zero eigenvalues of pA∗m .
The series given in (III.20) converges for m 6= 0, so we assume this in the
following.
(III.21)
−1 −1
1 1 τ ρ τ 1 1 τ
b F LS,X
α = 2
X X + Am X Y= X X + ρAm Xτ Y,
np np p n np
and a corresponding estimator of α is provided by α bF LS,X = sαb F LS,X . It is
b F LS,X is solution of the modified minimization pro-
immediately verified that α
blem
(
2 )
1
1
ρ
Y − Xa
+ aτ Am a .
min
a∈Rp n
p
p
(III.22) Tr A−1
m ≤ D1 ,
98 III.3. FUNCTIONAL LINEAR REGRESSION WITH ERRORS-IN-VARIABLES
for all p ≥ p0 .
We will now study the behavior of our estimator for large values of n and p.
The behavior of our estimator will be evaluated with respect to the semi-norm
1 1 τ
kuk2ΓX,n,p = uτ X X u.
p np
R R
Then, let D2 = I α(m) (t)2 dt and D3∗ = I α(t)2 dt. By construction of Pm , Pm α
provides the best approximation (in a least squares sense) of α by (discretized)
polynomials of degree m, and p1 ατ Pm α ≤ p1 ατ α −→ D3∗ as p → ∞. Let D3
denote an arbitrary constant with D3∗ < D3 < ∞. There then exists a p1 ∈ N
with p1 ≥ p0 such that p1 ατ Pm α ≤ D3 for all p ≥ p1 .
1 τ
(III.23) b F LS,X ) −
kE(α αk2ΓX,n,p ≤ρ α Pm α + D 2 ≤ ρ (D3 + D2 ) ,
p
III.3.3. TOTAL LEAST SQUARES METHOD FOR FUNCTIONAL COVARIATES 99
as well as
1 σ2
(III.24) E kα b F LS,X ) k2 ≤ D1 .
b F LS,X − E(α
p nρ
Yi = Xτi α + i , i = 1, . . . , n,
and
Wi = Xi + δ i , i = 1, . . . , n,
100 III.3. FUNCTIONAL LINEAR REGRESSION WITH ERRORS-IN-VARIABLES
( n
)
1 X
(III.25) min (Yi − Xτi a)2 + (Xi − Wi )τ (Xi − Wi ) .
a∈Rp ,Xi ∈Rp n i=1
( n
1 X
min (Yi − Xτi a)2 + (Xi − Wi )(Xi − Wi )τ
a∈Rp ,Xi ∈Rp n i=1
)
(III.26) +ρaτ Lτ La ,
−1
(III.27) b T LS,pen = Wτ W + ρLτ L − σk2 Ip
α Wτ Y,
where σk is the smallest non-zero singular value of the matrix (W, Y) and Ip
is the p × p identity matrix.
In our functional situation, we consider model (III.15) and using the same
matricial notations as in the previous section, we write
W = X + δ,
III.3.3. TOTAL LEAST SQUARES METHOD FOR FUNCTIONAL COVARIATES 101
where W and δ are the n × p matrices with respective general terms Wi (tj )
and δij . So, the minimization problem we consider now is the following one :
we are looking for an estimation α b ∗F T LS of α, solution of the minimization
problem
( n
" 2 # )
1X 1 1 ρ
(III.28) min Yi − Xτi a + kXi − Wi k2 + aτ Am a ,
a∈R ,Xi ∈Rp
p
n i=1 p p p
where the matrix Am is the one introduced previously. Now, with these nota-
tions, we have the following result.
−1
1 1 ρ
(III.29) b ∗F T LS
α = 2
Wτ W + Am − σk2 Ip Wτ Y,
np np p
τ
1 W W ρ Am 0
,Y ,Y + .
n p p p 0 0
1 τ 1 τ σδ2
(III.30) W W = X X + Ip + R,
np2 np2 p2
1
where R is a matrix such that kRk = OP n1/2 p
, k.k being the usual norm of
a matrix.
The last problem is that σδ2 is not always known. There are several ways to
estimate it. We choose to use the estimator presented in Gasser, Sroka and
Jennen-Steinmetz (1986) and given by (as we are in the case of equispaced
measurement points)
n p−1
1X 1 X
(III.31) bδ2
σ = [Wi (tj−1 ) − Wi (tj ) + Wi (tj+1 ) − Wi (tj )]2 .
n i=1 6(p − 2) j=2
This leads us to change the former estimator of α given by (III.29) and to take
instead
−1
1 1 τ ρ bδ2
σ
(III.32) b F T LS
α = W W + A m − Ip Wτ Y,
np np2 p p2
bF T LS .
and again a corresponding estimator of α is provided by α
1 1
(III.33) b F T LS − α
kα b F LS,X kΓX,n,p = OP + .
n1/2 p1/2 ρ1/2 n1/2
III.3.4. SOME COMMENTS 103
b2
σ
(i) In the expression (III.32) of the estimator of α, the term − p2δ Ip acts as a
deregularization term. It allows us to deal with the bias introduced by the fact
that we only know the matrix W instead of the “true” one X.
(ii) In theorem III.2, the hypothesis p1/2
np1 2 Xτ Xα
≥ D6 means (in the case
of the random design) that α does not belong to the kernel of the covariance
operator ΓX .
1 1 1
b F T LS −
kα αk2ΓX,n,p = OP +ρ+ + .
nρ npρ n
If we compare these terms, we can see that, for p large enough, it remains
1
b F T LS −
kα αk2ΓX,n,p = OP +ρ ,
nρ
b F T LS − αk2ΓX,n,p = OP n−1/2 .
kα
This means that we obtain the same upper bound for the convergence speed of
the F T LS estimator as the F LS estimator using the true curves X1 , . . . , Xn .
This result is in accordance with the intuition. The estimation will be improved
for a high number p of discretization points.
(iv) Let us see what happens for the F LS estimator using the noisy curves
W1 , . . . , Wn . The estimator of α is then given by
104 III.3. FUNCTIONAL LINEAR REGRESSION WITH ERRORS-IN-VARIABLES
−1
1 1 ρ
(III.34) b F LS,W
α = 2
W τ W + Am Wτ Y.
np np p
A calculus analogous to the one used in the proof of theorem III.2 leads us to
1 1
b F LS,W − α
kα b F LS,X kΓX,n,p = OP + ,
n1/2 p1/2 ρ1/2 n1/2
that is to say we have the same upper bound of convergence speed for α b F LS,W
and αb F T LS . Nevertheless, the results obtained in the simulations allow us to
think that we improve the estimation (see last remark) using the F T LS esti-
mator instead of the F LS estimator with the noisy curves W1 , . . . , Wn .
(v) Using some heuristic arguments to expand the mean quadratic error of
estimation of α (similarly to what is done in Cardot, 2000), we can see that
it is generally better to consider the F T LS estimator compared to the F LS
one with the variable W . More precisely, using the same notations as before,
let us denote
−1
1 1 ρ
b
α(λ) = 2
Wτ W + Am − λIp Wτ Y,
np np p
where λ is a positive real number such that the matrix np1 2 Wτ W + ρp Am − λIp
is positive definite. Then we have the following result, which proof is given in
the last section.
∂
M ISE(λ)|λ=0 < 0.
∂λ
III.3.5. A SIMULATION STUDY 105
10 sin (2πit) if i is even,
Xi (t) =
10 cos (2πit) if i is odd,
similarly to what is used for the simulation in Cuevas, Febrero and Fraiman.
Each sample is randomly split into a learning sample of length nl = 100 (this
sample is used to build the estimator) and a test sample of length nt = 100 (this
sample is used to see the quality of the estimator by the way of computation
of error terms). We made simulations for different numbers of discretization
points, p = 50, p = 100 and p = 200. Two functions α were considered,
either α(t) = 10 sin (2πt) or α(t) = 10 sin3 (2πt3 ). Finally, the error terms
were chosen as follows : ∼ N (0, σ2 ) with σ = 0.2 and δij ∼ N (0, σδ2 ) for
106 III.3. FUNCTIONAL LINEAR REGRESSION WITH ERRORS-IN-VARIABLES
n
1X
(Yi − Ybi )2
n i=1
(III.35) GCVF LS,W (ρ) = 2 ,
1
1 − Tr(HF LS,W (ρ))
n
−1
1 1 τ ρ
HF LS,W (ρ) = W W W + Am Wτ ,
np np2 p
b = HF LS,W (ρ)Y. Then, we select the optimal parameter ρGCV as the one
and Y
that minimizes the GCV criterion (III.35). The criterion (III.35) is a direct
adaptation of the one introduced in Wahba (1990) except that the “hat matrix”
has been changed for our setting.
b τ Wi
Yi − p1 α
(III.36) b i = Wi +
X b
α,
b 2
1 + 1p kαk
n
1X b i ip )2
b F T LS , X
(Yi − hα
n i=1
(III.37) GCVF T LS (ρ) = 2 ,
1
1 − Tr(HF T LS (ρ))
n
−1
1 1 τ ρ bδ2
σ
HF T LS (ρ) = W W W + A m − Ip Wτ
np np2 p p2
Then, the optimal parameters ρGCV as obtained by minimizing the GCV cri-
terion (III.37). In our simulations, these GCV criteria have been computed for
ρ over a grid taking its values among 10−2 , 10−3 , . . . , 10−8 .
Results of the simulation. — We use two error criteria to see the quality of
the prediction. The first one is the relative mean square error of the estimator
of α, given by
Pp
j=1 b j ) − α(tj )]2
[α(t
(III.38) E1 = Pp 2
,
j=1 α(tj )
and the second one is the mean square error of the prediction of Y, given by
108 III.3. FUNCTIONAL LINEAR REGRESSION WITH ERRORS-IN-VARIABLES
1 X b 2
n
(III.39) E2 = Yi − Y i .
n i=1
These errors, evaluated on N = 100 simulated test samples, are given in tables
1 and 3 for the different values of p and the different functions α. We have
computed the F LS estimator of α using the unknown true curves X (in order
to have a reference), the observed curves W and the smooth version W f of the
observed curves W . Adopting the strategy described in 5.1, we have selected
bandwidth values for W f leading to best results in term of estimation of α.
Indeed, for the first example, it appears to us that undersmoothing the curves
W had some benefit on the estimation of α whereas the cross-validated band-
width was selected for the second example. Although it is beyond the scope
of this paper, we note that this problem of the choice of the bandwidth in the
“smoothing” procedure has to be investigated more deeply since it is a crucial
problem as it is pointed out for instance in Chiou, Müller and Wang (2003).
We can see that the F T LS estimator always improves the prediction com-
pared to F LS, W , and the improvement is really interesting when p is small
with a relatively important noise level σδ . We can also see that the estima-
tors F T LS and F LS, W f are quite close. F LS, W
f seems to be better when the
noise level σδ is small whereas F T LS seems to be better when this noise level
becomes high. Nevertheless, it is important to note that the F T LS estimator
is faster to compute compared to the F LS, W f one. Moreover, the choice of
the parameter h is not evident (choosing it by cross validation is not always
the best thing to do whereas it implies additional long computation times,
particularly when n is large).
of the function α(t) = 10 sin3 (2πt3 ). In order not to have too many curves
on a same graphic, we choose to plot only the estimators F T LS, F LS, X and
F LS, W . This graphic tends to confirm the values given in tables 1 and 3.
E1 E2
σδ = 0.1 σδ = 0.2 σδ = 0.5 σδ = 0.1 σδ = 0.2 σδ = 0.5
p = 50 0.00015 0.00014 0.00013 0.0031 0.0032 0.0032
F LS, X p = 100 0.00009 0.00010 0.00009 0.0027 0.0026 0.0027
p = 200 0.00005 0.00006 0.00004 0.0024 0.0026 0.0025
p = 50 0.00018 0.00061 0.00232 0.0044 0.0067 0.0180
F T LS p = 100 0.00013 0.00065 0.00219 0.0040 0.0063 0.0139
p = 200 0.00009 0.00057 0.00204 0.0035 0.0056 0.0091
p = 50 0.00017 0.00080 0.00245 0.0040 0.0065 0.0209
f
F LS, W p = 100 0.00011 0.00063 0.00226 0.0036 0.0062 0.0154
p = 200 0.00006 0.00056 0.00210 0.0029 0.0056 0.0112
p = 50 0.00020 0.00098 0.00366 0.0050 0.0081 0.0305
F LS, W p = 100 0.00015 0.00079 0.00344 0.0045 0.0072 0.0245
p = 200 0.00011 0.00063 0.00329 0.0039 0.0067 0.0124
Table 1. Error E1 on α given by α(t) = 10 sin (2πt) and error E 2 of prediction.
Proof of theorem III.1. — First consider relation (III.23), and note that
−1
1 1 τ ρ
b F LS,X ) = 2
E (α 2
X X + Am Xτ Xα.
np np p
110 III.3. FUNCTIONAL LINEAR REGRESSION WITH ERRORS-IN-VARIABLES
E1 E2
σδ = 0.1 σδ = 0.2 σδ = 0.5 σδ = 0.1 σδ = 0.2 σδ = 0.5
p = 50 0.0508 0.0509 0.0510 0.0427 0.0426 0.0426
F LS, X p = 100 0.0504 0.0504 0.0503 0.0422 0.0423 0.0424
p = 200 0.0503 0.0502 0.0502 0.0414 0.0414 0.0416
p = 50 0.0513 0.0526 0.0630 0.0439 0.0491 0.0830
F T LS p = 100 0.0509 0.0522 0.0618 0.0434 0.0476 0.0762
p = 200 0.0506 0.0517 0.0607 0.0429 0.0460 0.0735
p = 50 0.0510 0.0525 0.0645 0.0435 0.0490 0.0851
f
F LS, W p = 100 0.0507 0.0520 0.0627 0.0429 0.0475 0.0790
p = 200 0.0504 0.0516 0.0614 0.0422 0.0458 0.0763
p = 50 0.0516 0.0530 0.0850 0.0447 0.0504 0.0960
F LS, W p = 100 0.0512 0.0527 0.0822 0.0442 0.0496 0.0889
p = 200 0.0508 0.0521 0.0799 0.0438 0.0488 0.0834
Table 3. Error E1 on α given by α(t) = 10 sin 3 2πt3 and error E2
of prediction.
b F LS,X ) and a = α,
This implies, comparing this criterion above for a = E (α
2
1
1 1
Xα − XE (α
+ ρ E (α τ ρ τ
b ) b ) A E ( b
α ) ≤ α Am α.
n
p
F LS,X F LS,X m F LS,X
p p p
Z Z
1 τ 1 1
α Am α = α τ P m α + (m)
sα (t)2 dt ≤ ατ Pm α + α(m) (t)2 dt,
p p I p I
true curve α
estimation of α (FLS,X)
estimation of α (FTLS)
estimation of α (FLS,W)
−10
1
b F LS,X ) − αk2ΓX,n,p =
kE (α b F LS,X )k2 .
kXα − XE (α
np2
1 τ
E α b F LS,X − E α b τF LS,X [α b F LS,X − E (αb F LS,X )]
p
−2 !
1 1 τ 1 τ ρ
= E X X X + Am Xτ
p n2 p 2 np2 p
" −2 #
σ2 1 τ 1 τ
= Tr X X + ρAm X X
n np np
" −1 #
σ2 1 τ σ2 σ2
≤ Tr X X + ρAm ≤ Tr (ρAm )−1 ≤ D1 .
n np n nρ
W δ α
(III.40) ,Y − , = 0,
p p −1
(
2 )
1
δ
ρ
√ ,
+ a Am a ,
τ
min
(( W
p
,Y ) − ( δ
p
, ))( a
−1 ) =0 n p F
p
where the notation k.kF stands for the usual Frobenius norm, more precisely
kAk2F = Tr (Aτ A) for every matrix A. Then, we are led to consider the
minimization problem
III.3.6. PROOF OF THE RESULTS 113
(
2 )
1
δ
ρ
(III.41) min
√ ,
+ xτ Bm x ,
Cx=Ex n p F
p
W δ a Am 0
with C = p
,Y,E= , x = −1
p
, and Bm = 0 0
. If we denote γ
the (p + 1) × (p + 1) matrix defined by
√ √
γ=
diag(1/ p, . . . , 1/ p) 0 ,
0 0
we have
τ
1 τ τ δ δ 1 τ τ 1
x γ √ , √ , γx = x E Ex = xτ Cτ Cx
n p p n n
τ
1 τ τ W W
= x γ √ ,Y √ , Y γx,
n p p
τ
1 τ τ WW ρ
x γ √ , Y γx + xτ Bm x
√ ,Y
n pp p
τ
1 τ τ W W
= x γ √ ,Y √ , Y γx + xτ γ τ (ρBm ) γx
n p p
τ
1 τ W W
γ √ ,Y √ , Y γ + γ τ (ρBm ) γ
n p p
τ
1 W W ρ
= ,Y , Y + Bm ,
n p p p
114 III.3. FUNCTIONAL LINEAR REGRESSION WITH ERRORS-IN-VARIABLES
τ
1 W W ρ
,Y , Y + Bm xb = σk2 x
b.
n p p p
−1
1 1 ρ
b=
α 2
Wτ W + Am − σk2 Ip Wτ Y,
np np p
n
!
1 1 1 X
2
W τ W = 2 Xτ X + Mirs
np np np2 i=1
r,s=1,...,p
where Mirs = Xi (tr )δis + δir Xi (ts ) + δir δis . If we define R as the matrix such
that
n
!
1 X σδ2
Mirs = Ip + R,
np2 i=1 p2
r,s=1,...,p
E kRuk2 = uτ E (Rτ R) u
p n p
!
1 X XX
= E (Mirj Mijs ) ur us
n2 p4 r,s=1 i=1 j=1
p n p
!
1 X XX
= E (Mirj Mijr ) u2r
n2 p4 r=1 i=1 j=1
1
= O ,
np2
1
kRk = OP .
n1/2 p
−1
1 τ ρ 1 τ
b F T LS − α
α b= X X + Am V+S W Y ,
np2 p np
with
1 1 τ 1 τ
V := Wτ Y − X Y= δ Y,
np np np
−1 −1
1 τ ρ 1 τ ρ
S := 2
X X + Am + T − 2
X X + Am ,
np p np p
and
bδ2 − σδ2
σ
T := R − Ip .
p2
116 III.3. FUNCTIONAL LINEAR REGRESSION WITH ERRORS-IN-VARIABLES
" −1 #
1 τ ρ
E 2
X X + Am V = 0,
np p
1 −1
2
ρ
E
X τ
X + Am V
np2 p
ΓX,n,p
" −1 −1 #
1 τ 1 τ 1 τ 1 τ
= E 2 Y δ X X + ρAm X X X X + ρAm δτ Y
n p np np np
" −1 #
D8 1 τ
≤ Tr X X + ρAm ,
np np
−1
1 ρ
1
τ
(III.42)
X X + Am V
= OP .
np 2 p
(npρ)(1/2)
ΓX,n,p
1
(III.43) bδ2
σ = σδ2 + OP .
n1/2 p
Then, using this and the result (III.30) of the proposition III.7, we can write
−1 −1
1 τ ρ bδ2
σ 1 τ ρ bδ2 − σδ2
σ
W W + A m − Ip = X X + A m + R − Ip .
np2 p p2 np2 p p2
III.3.6. PROOF OF THE RESULTS 117
Using the result (III.43) and the fact that the norm of Ip is 1, we deduce
2
σ
b − σ 2
1
δ δ
p2 Ip
= OP n1/2 p3 .
1
kTk = OP .
n1/2 p
1
S 1 W τ Y
p1/2
np
" −1 −1 #
1
1 τ ρ 1 τ ρ
= 1/2
X X + Am + T − X X + Am
p
np2 p np2 p
1/2
1 τ τ
× W YY W
2
np 2
F
−1
2
−1
D9
1 τ ρ 1
1
τ
Wτ Y
,
≤ 1/2
X X + A m W Y
kTk
np
p
np2 p np
−1
1 ρ 1
τ τ
X X + A m W Y
= OP (p1/2 ),
np2 p np
and kTk = OP 1/(n1/2 p) . Moreover, with the hypothesis on p1/2
np1 2 Xτ Xα
,
we also have
−1
1
W Y
= OP p1/2 ,
τ
np
118 III.3. FUNCTIONAL LINEAR REGRESSION WITH ERRORS-IN-VARIABLES
so we get
(III.44)
S 1 W τ Y
= OP
1
.
np
n1/2
ΓX,n,p
Finally, we combine relations (III.42) and (III.44) to get the result of theorem
III.2.
b τ α(λ))
M ISE(λ) = E (α(λ) b − 2ατ E (α(λ))
b + ατ α,
b
to deduce, using the matricial expression of α(λ)
" −3
∂ 1 τ 1 τ ρ
(III.45) M ISE(λ)|λ=0 = 2E 2 2 Y W 2
W W + Am Wτ Y
∂λ n p np p
−2 #
1 τ 1 ρ
− α W τ W + Am Wτ Y .
np np2 p
−1
1 τ 1 ρ
Y W 2
W τ W + Am − ατ
np np p
−1 −1
1 τ 1 τ ρ 1 τ τ 1 τ
= Y W W W + Am − 2α W W W W
np np2 p np np2
" −1
1 1 τ τ 1 τ ρ
= α W W W W + Am
np p np2 p
−1 −1 #
1 τ τ 1 ρ 1 ρ
− α δ W W τ W + Am + τ W W τ W + Am
p np2 p np2 p
" −1 #
1 1 τ τ 1 τ
− α W W W W .
np p np2
−1 −1
Considering the quantity np1 2 Wτ W + pρ Am − np1 2 Wτ W , if we make
an approximation at first order, we get
−1 −1
1 τ ρ 1 τ
W W + Am − W W
np2 p np2
−1 −1
1 τ ρ 1 τ
≈ − W W Am W W ,
np2 p np2
∂
(III.46) M ISE(λ)|λ=0
∂λ "
−1 −1 !
1 1 ρ 1
≈ 2E − 2 3 ατ Wτ W Wτ W Am Wτ W
n p np2 p np2
−2 #
1 ρ
× W τ W + Am Wτ Y
np2 p
" −3 #
1 1 ρ
+2E − 2 3 ατ δ τ W W τ W + Am Wτ Y
n p np2 p
" −3 #
1 τ 1 ρ
+2E 2 2 W W τ W + Am Wτ Y .
np np2 p
Using the fact that δ and are both independent from W and Y , the last two
terms in relation (III.46) are zero, and we obtain finally
∂
M ISE(λ)|λ=0
∂λ "
−1 −1 !
1 1 ρ 1
≈ 2E − 2 4 ατ Wτ W 2
Wτ W Am 2
Wτ W
n p np p np
−2 #
1 ρ
× 2
W τ W + Am Wτ Wα .
np p
This last quantity is negative, what achieves the proof of proposition III.8.
III.4. RÉGRESSION SUR COMPOSANTES
PRINCIPALES
p
X
t − tj
Wi (tj )K
hi
(III.47) fi (t) = j=1
W .
p
X t − tj
K
j=1
hi
ΓX,n gr = λr gr .
n
X
ηir = 0,
i=1
pour tout r ≥ 1 et
n
X
ηir ηis = λr 11[r=s],
i=1
1
(III.49) M i1 i2 = hXi1 , Xi2 i,
n
p
(III.50) ηir = λr pir ,
124 III.4. RÉGRESSION SUR COMPOSANTES PRINCIPALES
pour tout i = 1, . . . , n et pour tout r ≥ 1 tel que λr > 0. On obtient alors les
fonctions propres gr , pour r ≥ 1, par
n Pn
1 X i=1 ηir Xi
(III.51) gr = √ pir Xi = P n 2
.
λr i=1 i=1 ηir
Ainsi, en utilisant ce qui a été fait dans la première étape, on construit une
estimation de la matrice M définie par (III.49), en utilisant les estimations
fi de Xi , pour i = 1, . . . , n. L’estimateur le plus naturel M
W c de M semble
être la matrice de taille n × n et de terme général M ci1 i2 = hW
1 fi1 , W
fi2 i, pour
n
i1 , i2 = 1, . . . , n. Cependant, comme cela a été souligné, on cherche à estimer
ici des produits scalaires entre des courbes et non les courbes elles-mêmes. Si
on regarde l’estimateur hW fi1 , W
fi2 i lorsque i1 = i2 = i, on remarque que ce
terme s’écrit
XX p p Z t−tj1
K hi K hi
t−tj2
fi , W
hW fi i = Wi (tj1 )Wi (tj2 ) hP i2 dt
I p t−tj3
j3 =1 K
j1 =1 j2 =1
hi
X p
X p Z K t−t j1
K
t−tj2
hi hi
= Wi (tj1 )Wi (tj2 ) hP i2 dt
I p t−tj3
j3 =1 K
j1 =1 j2 =1
j2 6=j1 hi
2
X p Z K hij1
t−t
2
+ Wi (tj1 ) hP i2 dt.
I p t−tj3
j1 =1 j3 =1 K hi
Ainsi, le terme
2
X p Z K
t−tj1
hi
Wi (tj1 )2 hP i2 dt
I p t−tj3
j1 =1
j3 =1 K hi
produit un biais dans l’estimation de Mii . L’idée est donc de le supprimer dans
l’estimateur. Cette idée a été utilisée par Kneip et Utikal (2001) dans le cadre
III.4.1. PROCÉDURE D’ESTIMATION 125
X p
X p Z K
t−tj1
K
t−tj2
1 hi 1 hi
Wi1 (tj1 )Wi2 (tj2 ) hP i hP 2 i dt,
n j =1 j =1 I
p
K
t−t j3 p
K
t−tj4
1 2 j3 =1 hi 1 j4 =1 hi 2
ci1 i2
M = si i1 6= i2 ,
Z K t−tj1 K t−tj2
1 X p
X p
Wi1 (tj1 )Wi2 (tj2 ) hP 1
hi hi 2
i2 dt, si i1 = i2 .
n j1 =1 j2 =1
I p
j3 =1 K
t−tj3
j2 6=j1 hi 1
De plus, en ayant à l’esprit que l’on estime des produits scalaires plutôt que
des courbes, il semble plus approprié de choisir une même largeur de fenêtre
hi1 i2 pour l’estimation du produit scalaire entre la paire de courbes {Xi1 , Xi2 },
pour i1 , i2 = 1, . . . , n. Une légère modification de l’estimateur ci-dessus nous
donne alors
(III.52)
p p Z K
t−tj1
K
t−tj2
1 XX hi i hi 1 i 2
Wi1 (tj1 )Wi2 (tj2 ) hP 1 2 i2 dt, si i1 6= i2 ,
n j =1 j =1 p t−tj3
1 2
I K
j3 =1 hi i
1 2
c
M i1 i2 =
p p Z K t−tj1 K t−tj2
1 X X hi i hi 1 i 2
Wi1 (tj1 )Wi2 (tj2 ) hP 1 2 i2 dt, si i1 = i2 .
n j =1 j =1 t−tj3
I p
1 2 j3 =1 K hi i
j2 6=j1 1 2
126 III.4. RÉGRESSION SUR COMPOSANTES PRINCIPALES
L n
1 X X Yi f
(III.53) bL =
α hW , gb ib
g.
br i r r
n r=1 i=1 λ
Cette partie est relativement indépendante de ce qui précède. Son but est
d’établir des résultats concernant le biais et la variance d’un estimateur à noyau
de l’intégrale du carré d’une fonction de régression. Ce résultat sera ensuite
utilisé pour en déduire le biais et la variance concernant l’estimation de la
matrice M par (III.52). Le cas qui nous intéresse est celui d’un modèle à effets
fixes (t1 , . . . , tp sont fixés et forment une subdivision régulière de [0, 1]). On
considère donc ici le modèle
Yi = r(xi ) + i ,
Pn xi −x
Yi K
rb(x) = Pi=1
n
h
xi −x .
i=1 K h
Le but final est d’estimer l’intégrale de r 2 sur [0, 1] (voir cas 3 ci-après). On va
cependant profiter de cette étude pour donner d’autres résultats pouvant être
utiles (cas 1 et cas 2). Les preuves de ces résultats sont relativement techniques
et seront données dans l’annexe (voir partie V.2.).
III.4.2. INTÉGRALE DU CARRÉ DE LA RÉGRESSION 127
Z 1
θ= r(x)α(x)dx,
0
où α est une fonction donnée de L2 ([0, 1]). On considère pour cela l’estimateur
n Z
X 1
K xih−x α(x)
θb = Yi Pn
xi −x dx.
i=1 0 i=1 K h
Z 1
(III.54) b − θ = µ2 (K)
E(θ) r (x)α(x)dx h2 + o(h2 ).
00
2 0
Proposition III.10. — On a
Z 1 Z 2
b 2 2 1 1
(III.55) V θ = 2σ α(x) dx Ψ(z)dz +o ,
0 0 n n
avec
Z 1
Ψ(z) = K(s)K(s − z)dz.
−1+z
Zi = s(xi ) + δi ,
128 III.4. RÉGRESSION SUR COMPOSANTES PRINCIPALES
Z 1
θ= r(x)s(x)dx.
0
n X
n Z x −x
X 1
K xih−x K jh
θb = Yi Z j Pn Pn xi −x
x −x dx.
i=1 j=1 0 i=1 j=1 K h
K jh
Les hypothèses et notations sur K sont les mêmes qu’au cas précédent. Le
biais et la variance de θ sont donnés dans les propositions III.11 et III.12.
Proposition III.11. — On a
Z 1
(III.56) b − θ = µ2 (K)
E(θ) [r(x)s (x) + r (x)s(x)] dx h2 + o(h2 ).
00 00
2 0
Proposition III.12. — On a
Z 1 Z 1
(III.57) b
V θ = 2 τ2 2
r(x) dx + σ 2
s(x) dx 2
0 0
Z 2
1 1
× Ψ(z)dz +o .
0 n n
Z 1
θ= r(x)2 dx.
0
Pn Pn x −x
Z 1 i=1 Yi Yj K xih−x K jh
j=1
θb =
j6=i
Pn
xi −x 2
dx
0 i=1 K h
n X n Z 1 x −x
X K xih−x K jh
= Yi Yj Pn dx.
xi −x 2
i=1 j=1 0 i=1 K h
j6=i
Z 1
(III.58) b − θ = µ2 (K)
E(θ) r(x)r (x)dx h2 00
0
Z 1
2 1 2 1
−R(K) r(x) dx +o h + .
0 nh nh
Proposition III.14. — On a
Z 1 Z 2
b = 8σ 2 2 1 1
(III.59) V(θ) r(x) dx Ψ(z)dz +o .
0 0 n n
Les résultats que l’on va établir ici sont directement inspirés des travaux
de Kneip et Utikal (2001) et Benko, Härdle et Kneip (2005). Les preuves des
résultats qui suivent sont elles aussi directement inspirées de ces travaux, elles
seront données dans l’annexe de la thèse (voir partie V.3.).
Proposition III.15. — Pour tous i1 , i2 = 1, . . . , n, si on prend hi1 i2 de la
forme p−ζ avec ζ ∈ [1/4, 1/2[, on a
ci1 i2 − Mi1 i2 = OP 1
M .
np1/2
130 III.4. RÉGRESSION SUR COMPOSANTES PRINCIPALES
2
c
1
M − M
= O P .
p
et
C2r ≤ λr ≤ C3r .
b r − λr = O P 1 1
λ + .
n1/2 p1/2 p
1
kb
pr − p r k = O P .
p1/2
III.4.4. PERSPECTIVES 131
III.4.4. Perspectives
APPLICATION À LA
PRÉVISION DE PICS DE
POLLUTION
IV.1. PRÉVISION PAR LES QUANTILES
CONDITIONNELS
ωi (α) = 2α11{Yi −hBτk,q θ,Xi i≥0} + 2(1 − α)11{Yi −hBτk,q θ,Xi i<0} ,
( n
)
1X
2
(IV.1) min ωi (α) Yi − hBτk,q θ, Xi i + ρ
(Bτk,q θ)(m)
L2 .
θ∈Rk+q n i=1
où η 2 est une constante strictement positive que l’on se fixe pour éviter
(r)
un dénominateur nul, et ωi (α) est ωi (α) à l’étape r de l’algorithme, à
savoir
(r)
ωi (α) = 2α11{Y −hBτ b(r) ,Xi i≥0} + 2(1 − α)11{Y −hBτ b (r) ,Xi i<0} .
i k,q θ i k,q θ
(r)
ωi (α)
,
[(Yi − hBτk,q θ, Xi i)2 + η 2 ]1/2
on obtient la solution du problème de minimisation de l’étape r +1 donnée
par
−1
b (r+1) 1 1 τ (r)
θ = D Ω DX + ρGk DτX Ω(r) Y.
n n X
• Critère d’arrêt : on décide d’arrêter l’algorithme lorsque
(r+1)
C − C (r) < err,
où la quantité err est fixée et où C (r) est défini par
1X
n
2
C (r) = b(r) , Xi i) + ρ
lα (Yi − hBτk,q θ b (r) )(m)
(Bτk,q θ
2.
n i=1 L
1 X 2
n
CV (r)
(ρ) = b(r),[−i] , Xi i ,
Yi − hBτk,q θ
n i=1
(r),[−i]
b
où θ désigne l’estimation de θ à l’étape r de l’algorithme, en utilisant
toutes les données sauf la ième , (Xi , Yi ). On choisit alors pour valeur de ρ celle
138 IV.1. PRÉVISION PAR LES QUANTILES CONDITIONNELS
qui minimise ce critère CV (ρ). On peut alors montrer (voir Wahba, 1990) que
ce critère s’écrit sous la forme
(r)
2
τ b
1 Xn Y i − hB k,q θ , X i i
CV (r) (ρ) = 2 ,
n i=1 (r)
1 − hii
(r)
où hii est le ième élément diagonal de la “hat matrix” H(r) (à l’étape r de
l’algorithme) définie par
−1
H(r) = DX DτX Ω(r) DX + ρGk DτX Ω(r) .
τ
1 b (r)
Y−Y Ω (r)
Y−Y b (r)
n
GCV (r) (ρ) = 2 ,
1 − n1 Tr (H(r) )
et on choisit alors pour valeur de ρ celle qui minimise ce critère GCV (ρ).
Notons que le calcul numérique de ce critère est plus rapide que celui du
critère de validation croisée ordinaire, et donne en pratique de bons résultats.
En utilisant les propriétés de la trace, on peut gagner aussi en calcul sur les
tailles de matrices en écrivant
−1
Tr H (r)
= Tr DτX Ω(r) DX DτX Ω(r) DX + ρGk .
On souhaite étendre ici le modèle (2) au cas où on dispose de plusieurs va-
riables explicatives. Notons dans la suite ces v variables (centrées) Xi1 , . . . , Xiv
IV.1.3. MODÈLE AVEC PLUSIEURS VARIABLES EXPLICATIVES 139
Z 1 Z 1
Yi = Ψ1α (t)Xi1 (t)dt +...+ Ψvα (t)Xiv (t)dt + i ,
0 0
avec
P i ≤ 0/Xi1 = x1 , . . . , Xiv = xv = α.
b 1,(1)
• Initialisation : on pose Ψ α
b v,(1)
= ... = Ψ α = 0.
• Étape r + 1 : on considère, pour tout l = 1, . . . , v, la variable
l−1 Z
X 1 v
X Z 1
Yil,r+1 = Yi − b s,(r+1) (t)X s (t)dt −
Ψ b s,(r) (t)X s (t)dt,
Ψ
α i α i
s=1 0 s=r+1 0
Dans cette partie, on donne une rapide description des données de pollution
fournies par l’ORAMIP, ainsi qu’une rapide étude de celles-ci. Les différentes
variables sont mesurées toutes les heures, la période concernant nos données
allant du 15 Mai au 15 Septembre, pour les années 1997, 1998, 1999 et 2000.
Les variables mesurées sont des polluants ou des variables météorologiques,
jamais observées. On supprime les variables qui ont trop de données man-
quantes, et on garde pour les autres leur moyenne sur toutes les stations (car
les variables sont très similaires d’une station à l’autre). On dispose ainsi de 5
variables NO, N2, O3, DV et VV. On peut avoir une première idée du compor-
tement des variables (par exemple la variable O3 qui nous intéressera plus par
la suite) en regardant les courbes journalières. La figure 2 donne une partie
des courbes journalières de cette variable O3, ainsi que la courbe moyenne en
trait plus clair. Notons que les courbes journalières vont de 18 h à 17 h le
lendemain. On constate ainsi une diminution de l’ozone pendant la nuit, alors
que le pic d’ozone intervient dans le milieu de l’après-midi.
200
150
ozone
100
50
0
18 21 24 3 6 9 12 15
hours
IV.4.1. Introduction
The data we study here were provided by the ORAMIP(1) , which is an air
observatory located in the city of Toulouse (France). We are interested in a
pollutant like Ozone. We consider the prediction of the maximum of pollution
for a day (maximum of Ozone) knowing the Ozone temporal evolution the day
before. To do this, we consider two models. The first one is the functional linear
model introduced by ramsay and Dalzell (1991). It is based on the prediction
of the conditional mean. The second one is a generalization of the linear model
for quantile regression introduced by Koenker and Bassett (1978) when the
covariates are curves. It consists in forecasting the conditional median. More
(1)
“Observatoire Régional de l’Air en Midi-Pyrénées”
148 IV.4. OZONE POLLUTION FORECASTING
generally, we introduce this model for the α-conditional quantile, with α ∈]0, 1[.
This allows us to give prediction intervals. For both models, a spline estimator
of the functional coefficient is introduced, in a way similar to Cardot, Ferraty
and Sarda (2003).
This work is divided into four parts. First, we give a brief statistical descrip-
tion and analysis of the data, in particular by the use of principal components
analysis (PCA), to study the general behaviour of the variables. Secondly, we
present the functional linear model and we propose a spline estimator of the
functional coefficient. Similarly, we propose in the third part a spline estima-
tor of the functional coefficient for the α-conditional quantile. In both models,
we describe the algorithms that have been implemented to obtain the spline
estimator. We also extend these algorithms to the case where there are seve-
ral functional predictors by the use of a backfitting algorithm. Finally, these
approaches are illustrated using the real pollution data provided by the ORA-
MIP.
A descriptive analysis of the variables can show simple links between them.
For example, we can see that the mean daily curves of the first three variables
NO, N2 and O3 (cf. figure 3) have a similar evolution for NO and N2 (at least
in the first part of the day). On the contrary, the curves for NO and O3 have
opposite variations. These observations are also confirmed by the correlation
matrix of the variables NO, N2 and O3.
mean of NO
5 10 15 20
NO
5 10 15 20
hours
mean of N2
15 20 25 30 35
N2
5 10 15 20
hours
mean of O3
40 60 80 100
O3
5 10 15 20
hours
Principal Component Analysis. — A first PCA has been done on the ma-
trix whose columns are the different daily mean variables. As these variables
have different units, we also consider the reduced matrix. The first two compo-
nents allow to explain more than 80% of the variance. To visualize the results
of this PCA, we have represented the mean hours (figure 4) and the variables
(figure 5) in the plane formed by the two first principal axes. We notice on
figure 4 that the first axis separates the morning and the afternoon evolution
while the second axis separates the day and the night. Concerning figure 5,
the first axis separates Nitrogen Monoxide and Nitrogen Dioxide of Ozone. We
can also remark that, if we put the graphic 4 on the graphic 5, we find that
the maximum of Ozone is in the afternoon and that the quantity of Ozone
is low in the morning. It is the contrary for Nitrogen Monoxide and Nitrogen
Dioxide.
150 IV.4. OZONE POLLUTION FORECASTING
10
23
21
11
20
13 12 8
0
15 1
17 7
16 19
1814
2 5
6
3
4
-2 -1 0 1 2 3 4
first principal component
N2
second principal component
WS
O3
0
WD
NO
0
first principal component
We come back here to the functional background where we consider each va-
riable as a curve discretized in some points. We can look at the variations of
each variable around its mean by representing the functions µ, µ + Cξ and
µ − Cξ, where µ is the mean curve of the variable, C is a constant and ξ is a
principal component. For example, for Ozone, we make this representation for
the first principal component (that represents nearly 80% of the information)
on figure 6. The constant C has been fixed arbitrarily in this example equal to
10, to obtain a figure easily interpretable. We can see that the first principal
component highlights variations around the mean at 3:00 pm. It is the time of
the maximum of Ozone in the middle of the afternoon.
5 10 15 20
hours
We describe now the functional linear model presented for example by Ram-
say and Silverman (1997). Let us consider a sample (Xi , Yi )i=1,...,n of pairs of
random variables, independent and identically distributed, with the same dis-
tribution as (X, Y ), with X belonging to the functional space L2 (D) of the
152 IV.4. OZONE POLLUTION FORECASTING
Z
(IV.2) Yi = µ + fi (t) dt + i ,
α(t)X
D
Z
with E(i |Xi ) = 0. We have E(Yi ) = µ and E(Yi |Xi ) = µ + fi (t) dt.
α(t)X
D
Z X p−1
fi (t) dt ' λ(D)
α(t)X fi (tj ),
α(tj )X
D p j=1
where λ(D) stands for the length of the interval D. More generally, when the
discretization points are not equispaced, the integral can be easily approxima-
ted by
Z p−1
X
fi (t) dt '
α(t)X fi (tj ).
(tj+1 − tj )α(tj )X
D j=1
k+q
X
b=
α θbl Bl = t Bk,q θ,
b
l=1
X n
1
t
(m)
2
(IV.3) min t f 2
(Yi − µ − h Bk,q θ, Xi i) + ρ ( Bk,q θ) ,
µ∈R,θ∈Rk+q n L2
i=1
where (t Bk,q θ)(m) is the mth derivative of t Bk,q θ and ρ is a penalization pa-
rameter that allows to control the smoothness of the estimator (see Cardot,
Ferraty and Sarda, 2003). The notation h., .i refers to the usual inner product
of L2 (D) and k.kL2 is the norm induced by this inner product.
µ
If we set β = ∈ Rk+q+1 , then, the solution of the minimization pro-
θ
blem (IV.3) above is given by
b = 1 ( 1 t DX DX + ρKk )−1 t DX Y,
β
n n
with
1 hB1 , X1 i . . . hBk+q , X1 i
0 0
DX = ... ..
.
..
. and Kk = ,
0 Gk
1 hB1 , Xn i . . . hBk+q , Xn i
(m) (m)
where Gk is the (k + q) × (k + q) matrix with elements hBj , Bl i. It also
satisfies
2
t
θGk θ =
(t Bk,q θ)(m)
L2 .
154 IV.4. OZONE POLLUTION FORECASTING
Let us notice that a convergence result for this spline estimator is given by
Cardot, Ferraty and Sarda (2003).
1 1
Consider the “hat matrix” H(ρ) = DX ( t DX DX + ρKk )−1 t DX . It sa-
n n
b
tisfies Y = H(ρ)Y. The generalized cross validation criterion is then given
by
n
1X
(Yl − Ybl )2
n l=1
(IV.4) GCV (ρ) = 2 .
1
1 − T r(H(ρ))
n
We select the optimal parameter ρGCV as the one that minimizes the GCV
criterion (IV.4). Let us notice that we do not have to compute the matrix H(ρ)
(whose size is n × n) since we have T r(H(ρ)) = T r( n1 t DX DX ( n1 t DX DX +
ρKk )−1 ).
The Xplore function sflmgcv uses this GCV criterion and gives the estima-
tions of µ, θ and α.
Z Z
(IV.5) Yi = µ + f1 (t) dt + . . . +
α1 (t)X fv (t) dt + i .
αv (t)X
i i
D D
– Step 1
P
We initialize α c1 (1) , . . . , αd
v−1
(1)
b to n1 ni=1 Yi . Then, we determine
to 0 and µ
cv (1) by using the spline estimation procedure for the functional
b(1) and α
µ
linear model with one covariate.
– Step 2
For r = 1, . . . , v, we consider
r−1 Z
X v
X Z
Yir,2 = Yi − αbl (2) fl (t) dt −
(t)X fl (t) dt,
αbl (1) (t)X
i i
l=1 D l=r+1 D
Then, we obtain µ b(2) and αcr (2) , for r = 1, . . . , v. The optimal penaliza-
tion parameter is determined for each estimator with generalized cross
validation.
– Step j + 1
αr (j) − α
While maxr=1,...,v (kc cr (j−1) k) > ξ (where ξ is an error constant to
be fixed), we consider
r−1 Z
X v
X Z
Yir,j+1 = Yi − αbl (j+1) fl (t) dt −
(t)X fl (t) dt,
αbl (j) (t)X
i i
l=1 D l=r+1 D
by using the estimator defined for the functional linear model with one
cr (j+1) , for r = 1, . . . , v. The optimal
b(j+1) and α
covariate. We then deduce µ
penalization parameter is determined for each estimator with generalized
cross validation.
Our goal is now to find the Ozone threshold value such that the conditional
probability to exceed this value is equal to a certain given risk α ∈]0, 1[. More
precisely, if Y is a real random value, we define its α-quantile by the real
number qα such that
P(Y ≤ qα ) = α.
Koenker and Bassett (1978) use the following property to define quantile
estimators (which can be naturally generalized to conditional quantiles) :
with
Let us now come back to our functional case. We still consider the sample
(Xi , Yi )i=1,...,n of pairs of random variables, independent and identically distri-
buted, with the same distribution as (X, Y ), with X belonging to the functional
space L2 (D), and Y belonging to R. Without loss of generality, we suppose
that X is a centered variable, that is to say E(X) = 0. Let α be a real number
in ]0, 1[ and x a function in L2 (D). We suppose that the conditional α-quantile
of Y given [X = x] is the unique scalar gα (x) such that
Let us remark that gα (x) can be defined in an equivalent way as the solution
of the minimization problem
We assume now that there exists a unique function Ψα ∈ L2 (D) such that
gα can be written in the following way
Z
(IV.8) gα (X) = c + hΨα , Xi = c + Ψα (t)X(t) dt.
D
As for the spline estimator of the conditional mean, we consider the vectorial
space of spline functions with k − 1 interior knots and of degree q, and its B-
splines basis Bk,q = t (B1 , . . . , Bk+q ). We estimate Ψα by a linear combination
of the Bl functions for l going from 1 to k + q. This leads us to find a vector
θb = t (θb1 , . . . , θbk+q ) in Rk+q such that
k+q
X
(IV.9) bα =
Ψ θbl Bl = t Bk,q θ.
b
l=1
X n
1
t
(m)
2
(IV.10) min t
lα (Yi − c − h Bk,q θ, Xi i) + ρ ( Bk,q θ) ,
c∈R,θ∈Rk+q n L2
i=1
where (t Bk,q θ)(m) is the m-th derivative of the spline function t Bk,q θ and ρ
is a penalization parameter which role is to control the smoothness of the
estimator, as for the minimization problem (IV.3). This criterion is similar to
(IV.3), the quadratic function being here replaced by the loss function lα . In
this case, we have to deal with an optimization problem that does not have an
explicit solution, contrary to the estimation of the conditional mean. That is
why we adopted the strategy proposed by Lejeune and Sarda (1988). It is based
on an algorithm that consists in performing iterative weighted least squares
(see Ruppert and Caroll, 1988). Let us consider the function δi defined by
δi (α) = 2α11{Yi −c−ht Bk,q θ,Xi i≥0} + 2(1 − α)11{Yi −c−ht Bk,q θ,Xi i<0} .
X n
1
t
(m)
2
(IV.11) min t
δi (α) | Yi − c − h Bk,q θ, Xi i | +ρ ( Bk,q θ) .
c∈R,θ∈Rk+q n L2
i=1
– Initialization
We determine β 1 = t (c1 , θ 1 ) solution of the minimization problem
X n
1
t
(m)
2
min t 2
(Yi − c − h Bk,q θ, Xi i) + ρ ( Bk,q θ) ,
c∈R,θ∈Rk+q n L2
i=1
X n
1 δij (α)(Yi − c − ht Bk,q θ, Xi i)2
t
(m)
2
min + ρ ( Bk,q θ) L2
,
c∈R,θ∈Rk+q n
i=1
[(Yi − c − ht Bk,q θ, Xi i)2 + η 2 ]1/2
where δij (α) is δi (α) on step j of the algorithm, and η is a strictly positive
constant that allows us to avoid a denominator equal to zero. Let us define
the n × n diagonal matrix Wj with diagonal elements given by
δ1j (α)
[Wj ]ll = .
n[(Yl − c − ht Bk,q θ, Xl i)2 + η 2 ]1/2
Remark : Since our algorithm relies on weighted least squares, we can derive
a generalized cross validation criterion to choose the penalization parameter
value ρ at each step of the algorithm. Indeed, the “hat matrix” defined by
H(ρ) = DX (t DX WDX +ρKk )−1 t DX W satisfies Y b = H(ρ)Y, where W is the
weight matrix obtained at the previous step of the algorithm. The generalized
cross validation criterion is then given by
1 t b b
(Y − Y)W(Y − Y)
(IV.12) n
GCV (ρ) = 2 ,
1
1 − T r(H(ρ))
n
We select the optimal parameter ρGCV as the one that minimizes the GCV
criterion (IV.12). The Xplore function squantgcv uses this GCV criterion and
gives the estimations of c, θ and Ψα .
(IV.13) P (Yi ≤ gα1 (Xi1 ) + . . . + gαv (Xiv )/Xi1 = x1i , . . . , Xiv = xvi ) = α.
Similarly as before, we assume that gα1 (Xi1 ) + . . . + gαv (Xiv ) = c + hΨ1α , Xi1 i +
. . .+hΨvα , Xiv i with Ψ1α , . . . , Ψvα in L2 (D). The estimation of each function Ψrα is
obtained using the iterative backfitting algorithm combined with the Iterative
Reweighted Least Squares algorithm. The Xplore function giving the estimates
of c, Ψ1α , . . . , Ψvα is squantgcvmult.
We ramdomly splitted the initial sample (Xi , Yi )i=1,...,n into two sub-samples :
– a learning sample (Xai , Yai )i=1,...,nl whose size is nl = 332, used to compute
b and α
the estimators µ b for the functional linear model and the estimators
b b
c and Ψα for the model with quantiles,
– a test sample (Xti , Yti )i=1,...,nt whose size is nt = 142, used to evaluate the
quality of the models and to make a comparison between them.
We also have chosen to take k = 8 for the number of knots, q = 3 for the
degree of spline functions and m = 2 for the order of the derivative in the
penalization.
To predict the value of Yi , we use the conditional mean and the conditional
median (i.e. α = 0.5). To judge the quality of the models, we give a prediction
of the maximum of Ozone for each element of the test sample,
IV.4.5. APPLICATION TO OZONE PREDICTION 161
Z
ct = µ
Y b+ b(t)Xti (t) dt,
α
i
D
Z
c
Y ti = b
c+ b α (t)Xt (t) dt
Ψ i
D
P nt
1 ct )2
−Y
nt i=1 (Yti i
C1 = 1
P nt ,
nt i=1 (Yti − Y l )2
nt
1 X ct |,
C2 = | Yt i − Y i
nt i=1
P nt
1 ct )
lα (Yti − Y
Pnti=1
nt i
C3 = 1 ,
nt i=1 lα (Yti − qα (Yl ))
where Y l is the empirical mean of the learning sample (Yai )i=1,...,nl and qα (Yl ) is
the empirical α-quantile of the learning sample (Yai )i=1,...,nl . This last criterion
C3 is similar to the one proposed by Koenker and Machado (1999). We remark
that, the more these criteria take low values (close to zero), the better is the
prediction. These three criteria are all computed on the test sample.
Models Variables C1 C2
NO 0.828 16.998
models N2 0.761 16.153
with 1 covariate O3 0.416 12.621
WD 0.910 18.414
WS 0.796 16.756
O3, NO 0.409 12.338
models O3, N2 0.410 12.373
with 2 covariates O3, WD 0.405 12.318
O3, WS 0.400 12.267
O3, NO, N2 0.408 12.305
O3, NO, WD 0.394 11.956
models O3, NO, WS 0.397 12.121
with 3 covariates O3, N2, WD 0.397 12.003
O3, N2, WS 0.404 12.156
O3, WD, WS 0.397 12.101
O3, NO, WD, WS 0.391 11.870
models O3, NO, N2, WD 0.395 11.875
with 4 covariates O3, NO, N2, WS 0.398 12.069
O3, N2, WD, WS 0.394 11.962
model with 5 covariates O3, NO, N2, WD, WS 0.392 11.877
Table 4. Prediction error criteria C 1 and C2 for the different func-
tional linear models.
Another interest of the conditional quantiles is that we can build some pre-
diction intervals for the maximum of Ozone, which can be quite useful in the
IV.4.5. APPLICATION TO OZONE PREDICTION 163
Models Variables C1 C2 C3
NO 0.826 16.996 0.911
models N2 0.805 16.800 0.876
with 1 covariate O3 0.425 12.332 0.661
WD 0.798 18.836 0.902
WS 0.885 18.222 0.976
O3, NO 0.412 12.007 0.643
models O3, N2 0.405 11.936 0.640
with 2 covariates O3, WD 0.406 12.109 0.649
O3, WS 0.406 11.823 0.633
O3, NO, N2 0.404 11.935 0.639
O3, NO, WD 0.404 12.024 0.644
models O3, NO, WS 0.407 11.832 0.638
with 3 covariates O3, N2, WD 0.402 11.994 0.642
O3, N2, WS 0.403 12.108 0.641
O3, WD, WS 0.403 12.123 0.640
O3, NO, WD, WS 0.399 11.954 0.641
models O3, NO, N2, WD 0.397 11.921 0.639
with 4 covariates O3, NO, N2, WS 0.397 11.712 0.634
O3, N2, WD, WS 0.398 11.952 0.640
model with 5 covariates O3, NO, N2, WD, WS 0.397 11.864 0.638
Table 5. Prediction error criteria C 1 , C2 and C3 for the different
functional quantile regression models.
Analysis of the results. — Both models, the functional linear model and
the model with conditional quantiles for functional covariates, give satisfying
results concerning the maximum of Ozone prediction. Concerning figure 8, it
seems that few values are not well predicted. This highlights a common problem
for statistical models, which get into trouble when predicting extreme values
164 IV.4. OZONE POLLUTION FORECASTING
GCV criterion
4
3.5
GCV
3
2.5
2
5 6 7 8 9 10
-log(rho)
(outliers). The interval of prediction given by the 90% and 10% conditional
quantiles can be an interesting answer to that problem, as seen on figure 9.
In spite of the lack of some important variables in the model, such as tempe-
rature for example, we can produce good estimators of maximum of pollution
knowing the data the day before. The most efficient variable to estimate the
maximum of Ozone is the Ozone curve the day before ; however, we noticed
that prediction accuracy can be improved by adding other variables in the
model. We can suppose that it will be possible to improve again these results
when other covariates will be available from ORAMIP, such as temperature
curves.
IV.4.5. APPLICATION TO OZONE PREDICTION 165
200
150
Ozone predicted
100
50
0
10 20 30 40
days
ANNEXE
V.1. VARIABLE EXPLICATIVE BRUITÉE
- PREUVES
−1
bF T LS 1 1 τ 2
θ = DW DW + ρGk − σmin Bk DτW Y.
n n
Wβ δβ θ
(V.1) ,Y − , = 0,
p p −1
(
2 )
1
δ
√ ,
+ ρθ τ Gk θ ,
min
(V.1) n
p
F
(
2 )
1
δ
√ ,
+ ρxτ Kk x ,
(V.2) min
Ax=Ex n
p
F
θ
avec A = Wβ
p
,Y , E = δβ
p
, et x = −1
. En notant que
τ
1 τ τ δ δ 1 τ τ
x γ √ , √ , γx = x E Ex
n p p n
1 τ τ
= x A Ax
n τ
1 τ τ W W
= x γ √ ,Y √ , Y γx,
n p p
τ
1 τ τ W W
x γ √ , Y γx + ρxτ Kk x
√ ,Y
n p p
τ
1 τ τ W W −1 −1
= x γ √ ,Y √ , Y γx + xτ γ τ γ (γ τ γ) (ρKk ) (γ τ γ) γ τ γx
n p p
τ
1 W W −1 −1
√ ,Y √ , Y + γ (γ τ γ) (ρKk ) (γ τ γ) γ τ ,
n p p
2
correspondant à la plus petite valeur propre non nulle, notée σmin . En utilisant
la définition de cette valeur propre, on déduit que
τ
1 W W τ −1 τ −1 τ 2
√ ,Y √ , Y + γ (γ γ) (ρKk ) (γ γ) γ γ x b = σmin b,
γx
n p p
τ βτ β b
1 Wβ Wβ b
θ 2 θ
,Y ,Y = σmin p .
n p p −1 −1
−1
b= 1
θ
1 τ 2
D DW + ρGk − σmin Bk DτW Y,
n n W
1 τ 1 σ2
DW DW = DτX DX + δ Bk + R1 ,
n n p
avec
1
kR1 k = OP .
n1/2 p1/2 k 1/2
n
!
1 τ 1 1X
DW DW = DτX DX + Mirs ,
n n n i=1
r,s=1,...,k+q
avec Mirs = hBr , Xi ihBs , δi i+hBr , δi ihBs , Xi i+hBr , δi ihBs , δi i. Étudions main-
tenant cette variable aléatoire Mirs . Tout d’abord, en utilisant l’indépendance
entre Xi et δi , on peut écrire
172 V.1. VARIABLE EXPLICATIVE BRUITÉE - PREUVES
σδ2
= hBr , Bs i.
p
D’autre part, on a
2
(V.4) E Mirs = E hBr , Xi i2 E hBs , δi i2
+E hBr , δi i2 E hBs , Xi i2
+E hBr , δi i2 hBs , δi i2
+2E (hBr , Xi ihBs , Xi i) E (hBr , δi ihBs , δi i) .
En utilisant des résultats techniques sur les B-splines (voir Cardot, 2000), on
note que
σ2 Xp 1
δi
(V.5) |E (hBr , δi ihBs , δi i)| = 2 Br (tj )Bs (tj ) = O ,
p pk
j=1
1
(V.6) |E (hBr , Xi ihBs , Xi i)| = O .
k2
E hBr , δi i2 hBs , δi i2
p p p p
1 XXXX
= 4 Br (tj1 )Br (tj2 )Bs (tj3 )Bs (tj4 )E (δij1 δij2 δij3 δij4 )
p j =1 j =1 j =1 j =1
1 2 3 4
p
1 X
= 4 Br (tj )2 Bs (tj )2 E δij4
p j=1
p p
1 XX
+ 4 Br (tj1 )Br (tj2 )Bs (tj1 )Bs (tj2 )E δij2 1 E δij2 2 ,
p j =1 j =1
1 2
d’où
" #2
p
1 X
E hBr , δi i2 hBs , δi i2 = O 4 Br (tj )Bs (tj ) ,
p j=1
2 2 1
(V.7) E(hBr , δi i hBs , δi i ) = O .
p k2
2
2
1 1
E Mirs =O +O ,
pk 3 p k2
2
2
1
(V.8) E Mirs =O .
pk 3
n
1X σ2 1
Mirs = δ hBr , Bs i + OP .
n i=1 p n1/2 p1/2 k 3/2
C’est donc là qu’apparaissent les matrices Bk and R1 : il existe une matrice
R1 telle que
n
!
1X σδ2
Mirs = Bk + R1 ,
n i=1 p
r,s=1,...,k+q
1
avec, pour r, s = 1, . . . , k + q, R1rs = OP n1/2 p1/2 k 3/2
, soit, avec le théorème
1.19 de Chatelin (1983),
1
kR1 k = OP ,
n1/2 p1/2 k 1/2
Z 1
b − θ = µ2 (K)
E(θ) r (x)α(x)dx h2 + o(h2 ).
00
2 0
Preuve:
(V.9) b −θ
E(θ)
n Z Z 1
X 1
K xih−x α(x)
= E(Yi ) Pn
xi −x dx − r(x)α(x)dx
i=1 0 i=1 K h 0
Z 1
Pn xi −x
Pn xi −x
i=1 r(x i )K − r(x) K
= Phn xi −x
i=1 h
α(x)dx.
0 i=1 K h
n
X
xi − x
K .
i=1
h
On utilise l’approximation d’une somme par une intégrale, ce qui donne, avec
le changement de variable s = u−x
h
,
176 V.2. INTÉGRALE DU CARRÉ DE LA RÉGRESSION - PREUVES
n
X Z x+h
xi − x u−x
(V.10) K = n K du + o(nh)
i=1
h x−h h
Z 1
= nh K(s)ds + o(nh)
−1
= nh + o(nh).
Calculons maintenant
n
X n
X
xi − x xi − x
r(xi )K − r(x) K .
i=1
h i=1
h
n
X n
X
xi − x xi − x
r(xi )K − r(x) K
i=1
h i=1
h
" n n
X xi − x r 00 (x) X xi − x
0
= r (x) (xi − x)K + (xi − x)2 K
i=1
h 2 i=1 h
Xn !#
xi − x
+o (xi − x)2 K ,
i=1
h
n
X n
X
xi − x xi − x
(V.11) r(xi )K − r(x) K
i=1
h i=1
h
µ2 (K) 00
= r (x)nh3 + o nh3 .
2
Z 1 µ2 (K) 00
b −θ = 2
r (x)nh3 + o(nh3 )
E(θ) dx,
0 nh + o (nh)
Z 1 Z 2
1 1
V θb = 2σ 2
α(x) dx 2
Ψ(z)dz +o .
0 0 n n
b on a
Preuve: D’après la définition de θ,
n
n X Z !
X 1
K xih−x α(x)
θb2 = Yi Yj Pn
xi −x dx
i=1 j=1 0 i=1 K h
Z 1 x −y
!
K jh α(y)
× Pn
xi −y dy ,
0 i=1 K h
2
(V.12) V θb = E θb2 − E θb
n Z 1 !
X K xi −x
α(x)
= E(Yi2 ) − r(xi )2 Pn h xi −x dx
i=1 0 i=1 K h
Z 1 !
xi −y
K h α(y)
× Pn
xi −y dy
0 i=1 K h
n Z ! Z !
X 1 x −x
K ih α(x) 1
K ih−y α(y)
x
2
= σ Pn
xi −x dx Pn
xi −y dy
i=1 0 i=1 K h 0 i=1 K h
Z 1Z 1 " n #
1 X x i − x x i − y
= σ2 K K α(x)α(y)dxdy,
0 0 S(x)S(y) i=1 h h
178 V.2. INTÉGRALE DU CARRÉ DE LA RÉGRESSION - PREUVES
P
en notant S(x) = ni=1 K xih−x . Si on calcule la somme à l’aide d’une ap-
proximation par une intégrale, on a
n
X
xi − x xi − y
K K
i=1
h h
Z
u−x u−y
= n K K du + o(nh).
[x−h,x+h]∪[y−h,y+h] h h
u−x
Considérons le cas x ≤ y (le cas x ≥ y est analogue). En posant s = h
, ceci
donne
n
X
xi − x xi − y
K K
i=1
h h
Z
y−x
= nh K(s)K s − ds + o(nh).
[−1,1]∪[−1+ y−x
h
,1+ y−x
h
] h
Remarquons que les quantités K u−x h
et K u−y
h
du ont des supports non
disjoints uniquement pour y compris entre x − 2h et x + 2h, soit x−yh
compris
entre −2 et 2. On introduit alors la fonction Ψ définie par
Z 1
Ψ(a) = K(s)K(s − a)ds,
−1+a
n
X
xi − x xi − y y−x
K K = nhΨ + o(nh).
i=1
h h h
y−x
En revenant alors à (V.12) et en posant z = h
, il vient (en utilisant aussi
(V.10))
V.2. INTÉGRALE DU CARRÉ DE LA RÉGRESSION - PREUVES 179
Z 1 Z 2
b 2 nh2
V θ = 2σ Ψ(z)α(x + hz)dz α(x)dx,
0 [nh + o(nh)]2 0
Z 1
b − θ = µ2 (K)
E(θ) [r(x)s (x) + r (x)s(x)] dx h2 + o(h2 ).
00 00
2 0
b −θ
E(θ)
n n Z x −x Z 1
XX K xih−x K jh
1
= E(Yi )E(Zj ) Pn Pn xi −x
xj −x dx − r(x)s(x)dx
i=1 j=1 0 i=1 j=1 K h
K h 0
hP i
Z 1 P n xi −x n x j −x Pn xj −x
i=1 r(x i )K h j=1 s(x j )K h
− s(x) j=1 K h
= 2
dx
0 S(x)
h i
Z 1 Pn r(xi )K xi −x − r(x) Pn K xi −x s(x) Pn K xj −x
i=1 h i=1 h j=1 h
+ dx.
0 S(x)2
Avec ce qui a été fait précédemment pour établir les relations (V.10) et (V.11),
on a aussi
n
X
xi − x
r(xi )K = r(x)nh + o (nh) ,
i=1
h
n
X n
X
xj − x xj − x µ2 (K) 00
s(xj )K − s(x) K = s (x)nh3 + o nh3 ,
j=1
h j=1
h 2
180 V.2. INTÉGRALE DU CARRÉ DE LA RÉGRESSION - PREUVES
n
X n
X
xi − x xi − x µ2 (K) 00
r(xi )K − r(x) K = r (x)nh3 + o nh3 ,
i=1
h i=1
h 2
n
X
xj − x
s(x) K = s(x)nh + o (nh) ,
j=1
h
b −θ
E(θ)
Z 1 µ2 (K) µ2 (K) 00
2
r(x)s00 (x)n2 h4 + 2
r (x)s(x)n2 h4 + o (n2 h4 )
= 2 dx,
0 [nh + o(nh)]
Z 1 Z 1 Z 2
1 1
V θb = 2 τ 2 2
r(x) dx + σ 2 2
s(x) dx Ψ(z)dz +o .
0 0 0 n n
n X
n X
n X
n Z x −x
!
X K xih−x K jh
1
θb2 = Yi Z j Yk Z l Pn Pn xi −x
x −x dx
i=1 j=1 k=1 l=1 0 i=1 j=1 K h
K jh
Z 1 !
K xkh−y K xlh−y
× P n Pn xk −y
xl −y dy .
0 k=1 l=1 K h
K h
2
V θb = E θb2 − E θb
n X
n Z x −x
!
X 2 K jh1
K xi −x
2 2 2 2 2 h
= σ s(xj ) + τ r(xj ) + σ τ dx
i=1 j=1 0 S(x)2
Z 1 x −y
!
K xih−y K jh
× dy
0 S(y)2
n X
n X
n Z x −x
!
X 1
K xih−x K jh
2
+τ r(xi )r(xk ) dx
i=1 j=1 k=1 0 S(x)2
k6=i
Z x −y
!
1 xk −y
K h
K jh
× dy
0 S(y)2
n X
n X
n Z xj −x
!
X 1
K xi −x
K
2 h h
+σ s(xj )s(xl ) dx
i=1 j=1 l=1 0 S(x)2
l6=j
Z !
1 xi −y xl −y
K h
K h
× dy
0 S(y)2
Z 1Z P n xi −x
xi −y
hPn 2 xj −x xj −y
i
i=1 K K j=1 s(xj ) K K
1
h h h h
= σ2 dxdy
0 0 S(x)2 S(y)2
Z 1Z Pn 2 xi −x
xi −y
hPn xj −x xj −y i
i=1 r(xi ) K K h j=1 K K
1
2 h h h
+τ dxdy
0 0 S(x)2 S(y)2
Z 1Z P n xi −x
xi −y
hPn xj −x xj −y
i
i=1 K K j=1 K K
1
h h h h
+σ 2 τ 2 dxdy
0 0 S(x)2 S(y)2
Pn Pn xi −x
xk −y
hPn xj −x xj −y
i
Z 1Z 1 i=1 k=1 r(xi )r(xk )K h
K h j=1 K h
K h
k6=i
+τ 2 dxdy
0 0 S(x)2 S(y)2
P n xi −x
xi −y
Pn Pn xj −x xl −y
Z 1Z 1 i=1 K h
K h j=1 l=1 s(xj )s(xl )K h
K h
2 l6=j
+σ dxdy
0 0 S(x)2 S(y)2
n
X
xi − x xi − y y−x
K K = nhΨ + o(nh).
i=1
h h h
n
X
2 xj − x xj − y y−x
s(xj ) K K = nhs(x)Ψ + o(nh),
j=1
h h h
n X
X n
xi − x xk − y
r(xi )r(xk )K K = n2 h2 r(x)r(y) + o n2 h2 .
i=1 k=1
h h
k6=i
V θb
2 1 2 1 2 2 1
= σ ×O +τ ×O +σ τ ×O
n2 h n2 h n2 h
Z 1 Z 1 Z 2
2 2 2 2 1 1
+2 τ r(x) dx + σ s(x) dx Ψ(z)dz +o ,
0 0 0 n n
Z 1
b − θ = µ2 (K)
E(θ) r(x)r (x)dx h2 00
0
Z 1
2 1 2 1
−R(K) r(x) dx +o h + .
0 nh nh
Preuve:
b −θ
E(θ)
n X n Z x −x Z 1
X 1
K xih−x K jh
= r(xi )r(xj ) P n dx −
xi −x 2
r(x)2 dx
i=1 j=1 0 i=1 K h
0
j6=i
Z n
n X xj −x
1 X K ih x −x
K
= r(x )r(x ) h
− r(x)2
i j Pn
xi −x 2 dx
0 i=1 j=1 i=1 K h
j6=i
Z 1
P n xi −x
2 Pn 2
xi −x 2
P n xi −x
2
i=1 r(xi )K h
− i=1 r(xi ) K h
− i=1 r(x)K h
= Pn
xi −x 2
dx.
0 i=1 K h
n
X 2
2 xi − x
r(xi ) K .
i=1
h
n
X 2
2 xi − x
(V.13) r(xi ) K = R(K)r(x)2 nh + o(nh).
i=1
h
Calculons à présent
184 V.2. INTÉGRALE DU CARRÉ DE LA RÉGRESSION - PREUVES
" n #2 " n #2
X xi − x X xi − x
r(xi )K − r(x)K .
i=1
h i=1
h
On a, comme précédemment,
" n #2 " n #2
X xi − x X xi − x
r(xi )K − r(x)K
i=1
h i=1
h
" n X n #
X xi − x xi − x
= r(xi )K − r(x)K
i=1
h i=1
h
" n X n #
X xi − x xi − x
× r(xi )K + r(x)K
i=1
h i=1
h
" n n
X xi − x r 00 (x) X xi − x
0 2
= r (x) (xi − x)K + (xi − x) K
i=1
h 2 i=1 h
X n !#
x i − x
+o (xi − x)2 K
i=1
h
" n n !#
X xi − x X xi − x
× 2r(x) K +o K .
i=1
h i=1
h
" n #2 " n #2
X xi − x X xi − x
(V.14) r(xi )K − r(x)K
i=1
h i=1
h
µ2 (K) 00 3 3
= r (x)nh + o(nh ) × [2r(x)nh + o(nh)]
2
= µ2 (K)r(x)r 00 (x)n2 h4 + o(n2 h4 ).
Z 1
b −θ = µ2 (K)r(x)r 00 (x)n2 h4 + o(n2 h4 ) − R(K)r(x)2 nh + o(nh)
E(θ) dx,
0 n2 h2 + o(n2 h2 )
Z 1 Z 2
b = 8σ 2 2 1 1
V(θ) r(x) dx Ψ(z)dz +o .
0 0 n n
b on a
Preuve: D’après la définition de θ,
n X
n X n
n X Z x −x
!
X 1
K xih−x K jh
b2
θ = Yi Yj Yk Yl Pn dx
xi −x 2
i=1 j=1 k=1 l=1 0 i=1 K h
j6=i l6=k
Z !
1
K xkh−y K xlh−y
× Pn dy .
xk −x 2
0 k=1 K h
On commence par chercher les différents cas de figure pour la quadruple somme
ci-dessus. On répertorie ces cas ci-dessous.
l = j → Yi2 Yj2 → n(n − 1)
• k=i 2
l 6= j →Yi Yj Yl → n(n
2 2
− 1)(n − 2)
l = i → Yi Yj → n(n − 1)
k=j
l 6= i → Yi Yj2 Yl → n(n − 1)(n − 2)
• k=
6 i
l = i → Yi2 Yj Yk → n(n − 1)(n − 2)
k 6= j l = j → Yi Yj2 Yk → n(n − 1)(n − 2)
l 6= i, j → Yi Yj Yk Yl → n(n − 1)(n − 2)(n − 3)
E Yi2 Yj2 = r(xi )2 r(xj )2 + σ 2 r(xi )2 + r(xj )2 + σ 4 ,
pour j 6= i,
E Yi2 Yj Yk = r(xi )2 r(xj )r(xk ) + σ 2 r(xj )r(xk ),
pour j 6= i et k 6= i, j,
n X
n Z x −x
!
X 1
K xih−x K jh
(V.16) r(xi )2 P n dx
xi −x 2
i=1 j=1 0 i=1 K h
j6=i
Z x −y
!
K xih−y K jh
1
× Pn dy
xi −y 2
0 i=1 K h
Z 1Z 1 " n X n
1 X xi − x xj − x
= 2 2
r(xi )2 K K
0 0 S(x) S(y) i=1 j=1
h h
xi − y xj − y
×K K dxdy
h h
Z 1Z 1 " n 2 2 #
1 X x i − x x i − y
− 2 2
r(xi )2 K K dxdy.
0 0 S(x) S(y) i=1
h h
n X
X n
2 xi − x xj − x xi − y xj − y
r(xi ) K K K K
i=1 j=1
h h h h
ZZ
u−x v−x
= n2 r(u)2 K K
([x−h,x+h]∪[y−h,y+h])2 h h
u−y v−y
×K K dudv + o(n2 h2 )
h h
Z
2 2 u−x u−y
= n r(u) K K du
[x−h,x+h]∪[y−h,y+h] h h
Z
v−x v−y
× K K dv + o(n2 h2 ).
[x−h,x+h]∪[y−h,y+h] h h
u−x
Considérons le cas x ≤ y (le cas x ≥ y est analogue). En posant s = h
et
t = v−x
h
, ceci donne
188 V.2. INTÉGRALE DU CARRÉ DE LA RÉGRESSION - PREUVES
n X
X n
2 xi − x xj − x xi − y xj − y
r(xi ) K K K K
i=1 j=1
h h h h
Z
y−x
= n 2 h2 r(x + hs)2 K(s)K s − ds
[−1,1]∪[−1+ y−x
h
,1+ y−x
h
] h
Z
y−x
× K(t)K t − dt + o(n2 h2 )
y−x
[−1,1]∪[−1+ h ,1+ h ]y−x h
Z 1
2 2 2 y−x
= n h r(x + hs) K(s)K s − ds
−1+ y−x
h
h
Z 1
y−x
× K(t)K t − dt + o(n2 h2 ).
−1+ h y−x h
R 2 u−x
u−y
Remarquons
que, par
exemple dans r(u) K h
K h
du, les quantités
u−y
K u−xh
et K h
du ont des supports non disjoints uniquement pour y com-
x−y
pris entre x − 2h et x + 2h, soit h compris entre −2 et 2. On déduit alors,
en utilisant la fonction Ψ vue dans le cas 1
n X
X n
2 xi − x xj − x xi − y xj − y
r(xi ) K K K K
i=1 j=1
h h h h
2
2 2 2 y−x
= n h [r(x) + o(1)] Ψ + o(n2 h2 ).
h
Z 1Z " n n
1
1 XX xi − x xj − x
2
2 2
r(xi ) K K
0 0 S(x) S(y) i=1 j=1
h h
xi − y xj − y
×K K dxdy
h h
Z 1 Z x+2h 2 2 2
n h [r(x) + o(1)]2 y−x
= 2 Ψ dxdy
0 x−2h [nh + o(nh)]4 h
n 2 h3
+o ,
[nh + o(nh)]4
y−x
d’où, en posant z = h
et en supposant que nh → +∞
Z 1Z " n n
1
1 XX xi − x xj − x
2
2 2
r(xi ) K K
0 0 S(x) S(y) i=1 j=1
h h
xi − y xj − y
×K K dxdy
h h
Z 1 Z 2
2 2 1 1 1
= 2 r(x) dx Ψ(z) dz 2
+o 2
=o .
0 0 n h n h n
Z 1Z " n 2 2 #
1
1 X x i − x x i − y 1
2
2 2
r(xi ) K K dxdy = o .
0 0 S(x) S(y) i=1 h h n
n X
n Z x −x
!
X 1
K xih−x K jh
(V.17) r(xi )2 Pn dx
xi −x 2
i=1 j=1 0 i=1 K h
j6=i
Z x −y
!
1
K xih−y K jh 1
× Pn dy = o
xi −y 2
.
n
0 i=1 K h
n X
n X n Z x −x
!
X 1
K xih−x K jh
(V.18) r(xj )r(xk ) P n dx
xi −x 2
i=1 j=1 k=1 0 i=1 K h
j6=i k6=i,j
! Z
K xkh−y K xlh−y 1
× Pn dy
xk −x 2
0 k=1 K h
n X
X n h i
n X n h i
n X
X n h i
n X
X Xn Xn h i X n h i
= − − − − .
i=1 j=1 k=1 i=1 j=1 i=1 j=1 i=1 k=1
j6=i j6=i k6=i |i=1{z }
| {z } | {z } | {z } cas k=j=i
cas k=i cas k=j cas j=i
Dans cette expression, par des calculs analogues aux précédents, les quatre
dernières sommes donnent des o n1 . Il reste à calculer la première somme, et
là aussi, un calcul similaire (en approximant la triple somme par une intégrale
triple) conduit à
n X
X n X
n
xi − x xj − x xi − y xk − y
r(xj )r(xk )K K K K
i=1 j=1 k=1
h h h h
Z
u−x u−y
= n3 K K du
[x−h,x+h]∪[y−h,y+h] h h
Z x+h Z y+h
v−x w−y
× r(v)K dv r(w)K dw + o(n3 h3 ).
x−h h y−h h
u−x v−x
Ceci donne, pour x ≤ y et en posant s = h
, t= h
,
V.2. INTÉGRALE DU CARRÉ DE LA RÉGRESSION - PREUVES 191
n X
X n X
n
xi − x
xj − x xi − y xk − y
r(xj )r(xk )K K K K
i=1 j=1 k=1
h h h h
Z 1 Z 1
3 3 y−x
= nh Ψ r(x + ht)K(t)dt r(y + hz)K(z)dz + o(n3 h3 )
h
−1 −1
y−x
= n 3 h3 Ψ [r(x) + o(1)] [r(y) + o(1)] + o(n3 h3 ).
h
y−x
En posant z = h
, on obtient finalement en revenant à (V.18)
n X n
n X Z x −x
!
X 1
K xih−x K jh
(V.19) r(xj )r(xk ) P n dx
xi −x 2
i=1 j=1 k=1 0 i=1 K h
j6=i k6=i,j
Z !
K xkh−y K xlh−y 1
× Pn dy
xk −x 2
0 k=1 K h
Z 1 3 4 2 Z 2 3 4
n h [r(x) + o(1)] n h
= 2 Ψ(z)dz dx + o
0 [nh + o(nh)]4 0 [nh + o(nh)]4
Z 1 Z 2
1 1
= 2 r(x)2 dx Ψ(z)dz +o .
0 0 n n
ci1 i2 − Mi1 i2 = OP 1
M .
np1/2
c
E M i1 i2 − M i1 i2
Z 1
1 µ2 (K) 00 00 2 2
= [Xi1 (t)Xi2 (t) + Xi1 (t)Xi2 (t)] dt hi1 i2 + o hi1 i2 ,
n 2 0
et
V M ci1 i2 − Mi1 i2
Z 1 Z 2
1 2
2 2
1 1
= 2
2 σδ Xi1 (t) + Xi2 (t) dt Ψ(z)dz +o .
n 0 0 p p
1 Z 1
c
E Mii − Mii = µ2 (K) 00 2 2
Xi (t)Xi (t)dt hii + o hii ,
n 0
et
Z 1 Z 2
cii − Mii 1 1 1
V M = 2 4σδ2 2
Xi (t) dt Ψ(z)dz +o .
n 0 0 p p
ci1 i2 − Mi1 i2 = O h2i1 i2
E M ,
n
et
ci1 i2 = O 1
V M .
n2 p
Ainsi, en prenant hi1 i2 de la forme p−ζ avec ζ ∈ [1/4, 1/2[, on s’assure d’un
biais négligeable, et le résultat de la proposition III.15 est immédiat.
2
c
1
M − M
= O P .
p
Preuve: On a
2 h τ i X n
n X 2
c
c−M c−M = ci1 i2 − Mi1 i2 ,
M − M
≤ Tr M M M
i1 =1 i2 =1
b r − λr = O P 1 1
λ 1/2 1/2
+ .
n p p
h i
b c
λr − λr = Tr PEr M − M + R1 ,
2
c
6
M − M
|R1 | ≤ .
mins=1,...,n,s6=r |λr − λs |
1
R1 = O P ,
p
ce qui donne
b τ c 1
λr − λ r = p r M − M p r + O P .
p
D’autre part, on a
196 V.3. RÉGRESSION SUR COMPOSANTES PRINCIPALES - PREUVES
2
E pτr c
M − M pr
n X
X n X
n X
n h i
= p i1 r p i2 r p i3 r p i4 r E ci1 i2 − Mi1 i2
M ci3 i4 − Mi3 i4
M
i1 =1 i2 =1 i3 =1 i4 =1
X n X n X n h i
= 2 c
p i1 r p i2 r p i3 r E M i1 i2 − M i1 i2 M ci1 i3 − M i1 i3
i1 =1 i2 =1 i3 =1
X n X n X n
2 1
≤ p i1 r |pi2 r | |pi3 r | × O ,
i1 =1 i2 =1 i3 =1
n2 p
Pn Pn
ce qui donne finalement, vu que i1 =1 p2i1 r = 1 et que i2 =1 |pi2 r | = O n1/2 ,
c − M pr = O P 1
pτr M ,
n p1/2
1/2
1
kb
pr − p r k = O P .
p1/2
b r − pr = −Sr M
p c − M pr + R 2 ,
X 1
Sr = PE ,
s6=r
λs − λ r s
V.3. RÉGRESSION SUR COMPOSANTES PRINCIPALES - PREUVES 197
et R2 vérifie
2
c
6
M − M
kR2 k ≤ .
minλ6=λr |λ − λr |2
1
kR2 k = O .
p
c
En posant q r = M − M pr , on obtient donc
1
kb
pr − p r + S r q r k = O P .
p
" ! ! #1/2
X 1 X 1
kSr k = sup v τ ps1 pτs1 ps2 pτs2 v
kvk=1 s1 6=r
λ s1 − λ r
s2 6=r
λ s2 − λ r
" ! ! #1/2
1 X X
≤ sup v τ ps1 pτs1 ps2 pτs2 v ,
`r kvk=1 s 6=r s 6=r
1 2
1
kSr k ≤ .
`r
kSr k = O (1) .
E (v τ Sr q r )2 = v τ Sr E (q r q τr ) Sr v
h τ i
2 2 τ c c
≤ kvk kSr k E pr M − M M − M pr .
!
2 kvk2
E (v τ Sr q r ) =O .
np
1
E (Sr q r )2i =O ,
np
d’où
1
|b
pir − pir | = OP ,
n p1/2
1/2
[5] Benko, M., Härdle, W. and Kneip, A. (2005). Common functional prin-
cipal components. SFB 649 Economic Risk Discussion Paper, 2006-010.
[11] Bhattacharya, P.K. and Gangopadhyay, A.K. (1990). Kernel and nearest-
neighbor estimation of a conditional quantile. Annals of Statistics, 18,
1400-1415.
[13] Breiman, L., Friedman, J.H., Olshen, R.A. and Stone, C.J. (1984). Clas-
sification and regression trees. Wadsworth Statistics and Probability Se-
ries, Wadsworth Advanced Books and Software, Belmont.
[17] Cardot, H., Crambes, C., Kneip, A. and Sarda, P. (2006). Smoothing
splines estimators in functional linear regression with errors-in-variables.
Computational Statistics and Data Analysis, special issue on functional
data analysis, to appear.
[20] Cardot, H., Crambes, C. and Sarda, P. (2005). Quantile regression when
the covariates are functions. Journal of Nonparametric Statistics, 17,
841-856.
BIBLIOGRAPHIE 201
[22] Cardot, H., Ferraty, F. and Sarda, P. (1999). Functional linear model.
Statistic and Probability Letters, 45, 11-22.
[23] Cardot, H., Ferraty, F. and Sarda, P. (2003). Spline estimators for the
functional linear model. Statistica Sinica, 13, 571-591.
[26] Chiou, J-M., Müller, H.-G., Wang, J-L and Carey, J.R. (2003). A func-
tional multiplicative effects model for longitudinal data, with application
to reproductive histories of female medflies. Statistica Sinica, 13, 1119-
1133.
[27] Chiou, J-M., Müller, H.-G. and Wang, J-L. (2003). Functional quasi-
likelihood regression models with smooth random effects. Journal of the
Royal Statistical Society, Series B, 65, 405-423.
[28] Chiou, J-M., Müller, H.-G. and Wang, J-L. (2004). Functional response
models. Statistica Sinica, 14, 675-693.
[30] Crambes, C. (2005). Total least squares for functional data. Invited paper
in ASMDA 2005 Proceedings, 619-626.
[31] Cuevas, A., Febrero, M. and Fraiman, R. (2002). Linear functional re-
gression : the case of a fixed design and functional response. Canadian
Journal of Statistics, 30, 285-300.
[35] Dauxois, J., Pousse, A. and Romain, Y. (1982). Asymptotic theory for
the principal component analysis of a random vector function : some
applications to statistical inference. Journal of Multivariate Analysis,
12, 136-154.
[40] Dierckx, P. (1993). Curve and surface fitting with splines. Monographs
on Numerical Analysis, Oxford Science Publications, New York.
[41] Ducharme, G., Gannoun, A., Guertin, M.-C. and Jéquier, J.-C. (1995).
Reference values obtained by kernel-based estimation of quantile regres-
sion. Biometrics, 51, 1105-1116.
[44] Fan, J., Hu, T.-C. and Truong, Y (1994). Robust nonparametric function
estimation. Scandinavian Journal of Statistics, 21, 433-446.
[45] Ferraty, F., Rahbi, A. and Vieu, P. (2005). Conditional quantiles for
functional dependent data with application to the climatic El Nino phe-
nomenon. Sankhya, 67, 378-399.
[46] Ferraty, F. and Vieu, P. (2002). The functional nonparametric model and
application to spectrometric data. Computational Statistics, 17, 545-564.
BIBLIOGRAPHIE 203
[49] Frank, I.E. and Friedman, J.H. (1993). A statistical view of some che-
mometrics regression tools. Technometrics, 35, 109-135.
[50] Fuller, W.A. (1987). Measurement error models. Wiley, New York.
[52] Ghattas, B. (1999). Prévisions des pics d’ozone par arbres de régression,
simples et agrégés par bootstrap. Revue de Statistique Appliquée, XLVII,
61-80.
[55] Golub, G.H., Hansen, P.C and O’Leary, D.P. (1999). Tikhonov regula-
rization and total least squares. SIAM, Journal of Matrix Analysis and
Applications, 21, 185-194.
[56] Golub, G.H. and Van Loan, C.F. (1980). An analysis of the total least
squares problem. SIAM, Journal of Numerical Analysis, 17, 883-893.
[57] Golub, G.H. and Van Loan, C.F. (1996). Matrix computations. Johns
Hopkins University Press, Baltimore.
[58] Good, I.J. (1969). Some applications of the singular value decomposition
of a matrix. Technometrics, 11, 823-831.
[60] Green, P.J. and Silverman, B.W. (1994). Nonparametric regression and
generalized linear models : a roughness penalty approach. Monographs on
Statistics and Applied Probability, Chapman and Hall, London.
[61] Hall, P. and Marron, J.S. (1987). Estimation of integrated squared den-
sity derivatives. Statistics and probability Letters, 6, 109-115.
[67] Helland, I.S. (1990). Partial least squares regression and statistical mo-
dels. Scandinavian Journal of Statistics, 17, 97-114.
[68] Hoerl, A.E. and Kennard, R.W. (1980). Ridge regression : advances,
algorithms and applications. American Journal of Mathematical Mana-
gement Sciences, 1, 5-83.
[70] Jones, M.C. and Sheater, S.J. (1991). Using non-stochastic terms to ad-
vantage in kernel-based estimation of integrated squared density deriva-
tives. Statistics and probability Letters, 11, 511-514.
[71] Kneip, A., Li, X., Mac Gibbon, K.B. and Ramsay, J.O. (2000). Curve
registration by local regression. Canadian Journal of Statistics, 28, 19-
29.
BIBLIOGRAPHIE 205
[72] Kneip, A. and Utikal, K.J. (2001). Inference for density families using
functional principal component analysis. Journal of the American Sta-
tistical Association, 96, 519-542.
[75] Koenker, R. and Machado, J. (1999). Goodness of fit and related infe-
rence processes for quantile regression. Journal of the American Statis-
tical Association, 94, 1296-1310.
[76] Koenker, R., Ng, P. and Portnoy, S. (1994). Quantile smoothing splines.
Biometrika, 81, 673-680.
[78] Marx, B.D. and Eilers, P.H. (1999). Generalized linear regression on
sampled signals and curves : a P -spline approach. Technometrics, 41,
1-13.
[79] McCullagh, P. and Nelder, J.A. (1989). Generalized linear models (Se-
cond Edition). Monographs on Statistics and Applied Probability, Chap-
man and Hall, London.
[80] Mosteller, F. and Tukey, J. (1977). Data analysis and regression : a se-
cond course in statistics. Addison-Wesley, Reading.
[85] Ramsay, J.O. (1982). When the data are functions. Psychometrika, 47,
379-396.
[87] Ramsay, J.O. and Dalzell, C.J. (1991). Some tools for functional data
analysis. Journal of the Royal Statistical Society, Series B, 53, 539-572.
[88] Ramsay, J.O. and Li, X. (1998). Curve registration. Journal of the Royal
Statistical Society, Series B, 60, 351-363.
[89] Ramsay, J.O. and Silverman, B.W. (1997). Functional data analysis
(First Edition). Springer, New York.
[90] Ramsay, J.O. and Silverman, B.W. (2002). Applied functional data ana-
lysis. Springer, New York.
[91] Ramsay, J.O. and Silverman, B.W. (2005). Functional data analysis (Se-
cond Edition). Springer, New York.
[92] Rao, C.R. (1958). Some statistical methods for comparison of growth
curves. Biometrics, 14, 1-17.
[95] Ruppert, D., Sheater, S.J. and Wand, M.P. (1993). An effective band-
width selector for local least squares regression. Working paper, 93-017.
[96] Sarda, P. and Vieu, P. (2000). Kernel regression. In Smoothing and Re-
gression : Approches, Computation and Application, M.G. Schimek edi-
tor, Wiley Series in Probability and Statistics, 43-70.
[97] Schumaker, L.L. (1981). Spline functions : basic theory. Wiley, New York.
[98] Sima, D.M. and Van Huffel, S. (2004). Appropriate cross validation for
regularized error-in-variables linear models. In Compstat 2004 Procee-
dings, J. Antoch editor, Physica-Verlag, 1815-1822.
BIBLIOGRAPHIE 207
[99] Stone, C.J. (1982). Optimal rates of convergence for nonparametric mo-
dels. Annals of Statistics, 10, 1040-1053.
[100] Stone, C.J. (1985). Additive regression and other nonparametric models.
Annals of Statistics, 13, 689-705.
[105] Van Huffel, S. and Vandewalle, J. (1991). The total least squares problem :
computational aspects and analysis. SIAM, Philadelphia.
[106] Wahba, G. (1990). Spline models for observational data. SIAM, Phila-
delphia.
[107] Watson, G.S. (1964). Smooth regression analysis. Sankhya, Series A, 26,
359-372.
[110] Yao, F., Müller, H.-G. and Wang, J.-L. (2005a). Functional data ana-
lysis for sparse longitudinal data. Journal of the American Statistical
Association, 100, 577-590.
[111] Yao, F., Müller, H.-G. and Wang, J.-L. (2005b). Functional linear regres-
sion analysis for longitudinal data. Annals of Statistics, 33, 2873-2903.