Sad 1990 15 1 61 0

Statistique et analyse
des données
D INH T UAN P HAM

Choix de modèle en analyse des séries chronologiques
Statistique et analyse des données, tome 15, no 1 (1990), p. 61-90
<http://www.numdam.org/item?id=SAD_1990__15_1_61_0>
© Association pour la statistique et ses utilisations, 1990, tous droits réservés.

L’accès aux archives de la revue « Statistique et analyse des données » im-
plique l’accord avec les conditions générales d’utilisation (http://www.numdam.org/
conditions). Toute utilisation commerciale ou impression systématique est consti-
tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit
contenir la présente mention de copyright.
Article numérisé dans le cadre du programme

Numérisation de documents anciens mathématiques
http://www.numdam.org/
Statistique et Analyse des Données
1990 - Vol. 15 n° 1 - p. 61 - 90
CHOIX DE MODELE EN ANALYSE DES SERIES

CHRONOLOGIQUES
PHAMDinhTuan
Laboratoire de Modélisation et Calcul

IMAG
BJ>. 53x
38041 Grenoble cedex
FRANCE
Résumé
Cet article fait le point des différentes méthodes du choix de V ordre du modèle
ARMA en séries chronologiques. Deux types d'approche sont décrits en détail :
approche interactive et approche automatique.
Mots clefs : choix de l'ordre, identification de modèle, fonction de vraisemblance,

modèle autorégressif moyenne mobile, test d'adéquation.
Classification AMS : 62 M 10
Abstract
Our subject concerns various methodsfor selecting the order ofARMA models in
time séries analysis. Two approaches are described : interactive and automatic
approaches.
Keywords : order sélection, identification, likelihood fonction, autoregressive-

moving average model, diagnostic checking.
Manuscrit reçu en avril 1990, revisé en septembre 1990

62 Ptaam D. T.
1. INTRODUCTION
L'inférence statistique paramétrique est basée sur la donnée d'un modèle

comportant un petit nombre de paramètres* Sa validité dépend donc fortement du bon
choix d'un modèle. Parfois le modèle peut être choisi a priori, indépendamment de
l'observation, à l'aide des connaissances théoriques du phénomène aléatoire étudié. Mais
dans beaucoup de cas, celles-ci sont insuffisantes pour formuler un modèle fiable, et on
doit recourir aux données observées pour la construction de modèle, La modélisation
statistique fait alors partie intégrante de l'inférence paramétrique. Curieusement, ce sont
surtout les analystes de séries chronologiques qui s'intéressent à ce problème. Ceci peut
s'expliquer en partie par le fait que dans ce domaine, on a souvent à traiter de masses
importantes de données, parfois en temps réel, et un choix automatique de modèle sera
très utile. Une autre raison est que l'on dispose déjà d'une classe de modèles très riche, à
savoir les modèles autorégressifs moyenne mobile (ARMA - autoregressive moving
average, en anglais), qui permettent de décrire la plupart des séries chronologiques
rencontrées en pratique, au moins en première approximation, et le problème du choix
d'un modèle se simplifie alors en le problème du choix de l'ordre du modèle ARMA.
C'est ce dernier problème qui nous intéresse dans cet article. Nous exposerons
différentes techniques proposées dans la littérature et au passage quelques-unes de nos
contributions propres. Une synthèse de ces techniques peut être trouvé dans Shibata
(1985) et De Gooijer et al. (1985). Le choix de l'ordre du modèle ARMA peut être aussi
vu comme un problème d'approximation rationnelle de la structure au second ordre d'un
processus stationnaire, considéré dans Hannan (1987).
2. GENERALITES SUR LES MODELES ARMA ET LEUR

IDENTIFICATION
L'analyse statistique des séries chronologiques est essentiellement une analyse du

second ordre, où on s'intéresse uniquement aux moyennes et covariances. On considère
donc un processus stationnaire du second ordre X t , t = ..., -1,0, 1,..., c'est-à-dire tel
que E (Xt) et cov (Xt, Xt+y) ne dépendent pas de t, pour tout k. Pour simplifier, nous
nous restreindrons aux processus centrés, c'est-à-dire tels que E (Xt) = 0. Cela ne nuit
pas à la généralité car en pratique, on peut se ramener à ce cas par simple soustraction de
la série observée de sa moyenne arithmétique. Le processus Xt est appelé ARMA d'ordre
(p, q) (au sens large) s'il admet une représentation de la forme
CHOIX D'UN MODELE ARMA 63
Xt = - ]T aj Xt.j + et + £ bj et.j (2.1)

j=i j=i
où les aj, bj sont des constantes et et est une suite de variables aléatoires centrées non
correlées de même variance a 2 . Cette classe de modèles contient deux sous-classes
importantes : celle des modèles autorégressifs (AR) qui correspondent au cas q = 0 et
celle des modèles moyenne mobile (MA - moving average en anglais -) qui correspondent
au cas p = 0.
H est facile de voir que le processus (1) a pour densité spectrale
f(K) = <r £ b j e i j X / £ ajeijX / (2K) , (a0 = b 0 = 1),

j=0 j=0
* A.
pourvu que le dénominateur ^ aj e u du second membre précédent ne s'annule pas.

j=o
Comme la structure de covariance d'un processus dépend uniquement de sa densité

spectrale, la représentation ARMA (1) n'est pas unique. Cela provient du fait que (i) les
polynômes £ aj zJ et £ bj z J , appelés respectivement polynôme autorégressif et
j=o j=0
moyenne mobile, peuvent avoir un facteur commun, et que (ii) la factorisation d'un
polynôme trigonométrique positif en X en le carré d'un polynôme en e*** n'est pas
unique. Pour enlever la première ambiguité, il suffit d'imposer la condition que les
polynômes autorégressif et moyenne mobile n'ont pas de racine commune. Quant à
l'unicité de la factorisation, elle sera réalisée si on se restreint aux polynômes n'ayant pas
de racines à l'intérieur du cercle unité du plan complexe (on les appelle polynômes
stables). On supposera donc que les polynômes autorégressif et moyenne mobile sont
stables. Cette dernière condition est équivalente à ce que e t soit l'innovation du
processus, c'est-à-dire e t = X t - Xt 1 1 . \ où X t 1 1 . \ désigne le meilleur prédicteur
linéaire de Xt basé sur les observations passées jusqu'à l'instant t - 1.
64 Pham D. T.
Jusqu'à présent, nous avons seulement supposé que les innovations e t sont non
corrélées. En pratique, pour obtenir des résultats intéressants comme la normalité
asymptotique des estimateurs, on a besoin d'hypothèses plus fortes sur ceux-ci.
L'hypothèse minimale semble être la suivante :
(i) E (et I Xs- s < t) = 0
et
(ii) E | e t I Xs* s < t ] = G (nonaléatoire).
Toutefois, dans la littérature, on travaille souvent sous l'hypothèse que les e t sont
indépendantes et équidistribuées. Nous appellerons dans ce cas le processus X t ARMA
au sens strict
Box et Jenkins (1970) ont été les premiers à populariser l'usage des modèles
ARMA dans l'étude des séries chronologiques. Ils ont proposé une méthodologie simple
pour sa modélisation. Celle-ci comporte trois étapes :
(i) Identification : on essaie d'identifier le type de modèle, soit AR (q = 0) soit

MA (p > 0 et q > 0), ainsi que son ordre. On construit aussi un estimateur
préliminaire (non efficace) des paramètres.
(ii) Ajustement du modèle : on estime les paramètres par les méthodes

classiques (maximum de vraisemblance exacte ou approchée).
(iii) Validation du modèle : on teste le modèle proposé pour voir si celui-ci est
en accord avec les observations. Si le modèle est rejeté, on revient à (i) pour
une nouvelle identification. Sinon, le modèle peut être retenu.
On voit que la partie la plus délicate est l'étape (i), l'étape (ii) et (iii) étant des
problèmes classiques bien étudiés. Pour l'étape (i), Box et Jenkins ont proposé une
méthode d'identification de modèle MA et AR, basée sur l'examen des fonctions
d'autocorrélation empirique et d'autocorrélation partielle empirique, respectivement. En
effet, on sait que les autocorrélations p k , de retard k, d'un processus MA d'ordre q, sont
nulles pour k > q. On peut donc reconnaître un tel processus en examinant les
autocorrélations empiriques qui, pour k > q, sont asymptotiquement normales
centrées de variance ^ P?/n> n

étant la taille de l'échantillon. Dans la pratique, on
j = -q
cherchera l'existence d'un rang faible q, à partir duquel la fonction d'autocorrélation
empirique peut être considérée comme nulle, en tenant compte de son écart type. De
même, les autocorrélations partielles d'un processus AR d'ordre p sont nulles pour les
retards plus grands que p, et leurs homologues empiriques basés sur une série
chronologique provenant d'un tel processus sont, pour les retards supérieurs à p,
asymptotiquement indépendants, de distribution normale-centrée de variance 1/n.
Toutefois, Box et Jenkins n'ont pas proposé de méthode pour identifier le modèle ARMA
général, et ont seulement suggéré d'adopter ce dernier quand la série observée ne semble
pas suivre ni un modèle MA ni un modèle AR.
L'approche de Box et Jenkins a été généralisée par la suite au cas des modèles
ARMA par divers auteurs. L'idée de base est de construire une famille de statistiques
indexée par deux indices, qui seront faibles (plus exactement qui tendent vers zéro quand
n tend vers l'infini), à partir de certains indices directement liés aux ordres du vrai
modèle. L'examen d'un tel tableau de statistiques permettra au statisticien de choisir un
couple d'ordres probable pour une modélisation préliminaire, qui sera validé par la suite
par un test d'adéquation.
L'approche précédente sera appelée interactive par opposition à l'approche

automatique décrite plus loin. Cette approche a l'avantage de laisser le statisticien maître
de son choix. Elle lui permet de prendre en considération des informations a priori sur le
phénomène aléatoire étudié. Dans le cas où le choix n'est pas clair, c'est-à-dire où il
existe deux modèles (ou plus) qui sont apparemment aussi bons l'un que l'autre, le
statisticien a l'opportunité d'examiner ceux-ci en détail avant de fixer son choix.
Toutefois, l'approche interactive n'est possible que si on n'a qu'une ou quelques séries à
analyser. Dans le cas où on doit traiter rapidement un grand nombre de séries (comme
dans certains problèmes de traitement du signal), une approche qui fournit
automatiquement l'ordre du modèle sera utile. L'intérêt d'une telle approche réside aussi
du fait qu'elle est objective, car n'ayant fait intervenir que les observations, tandis que
l'approche interactive contient toujours un élément subjectif.
66 Pham D. T,
Le modèle AR fut le premier à bénéficier des procédures de choix automatique de

l'ordre. Ce modèle a attiré beaucoup d'attention vu la facilité de son ajustement, de son
réalisme pour représenter des phénomènes cycliques (les racines du polynôme AR, quand
elles sont proches du cercle unité, correspondent aux modes de vibration propre du
système) et de son utilisation simple en prédiction. Il est bien connu que tout processus
stationnaire de densité spectrale continue strictement positive peut être approché en
moyenne quadratique par un processus AR d'ordre suffisament grand. Cela donne lieu à
la procédure d'estimation de densité spectrale par ajustement d'un modèle AR d'ordre
élevé. La question est de savoir quel ordre il faut prendre. Parzen (1974, 1977) a
considéré ce problème et a proposé un critère baptisé CAT (Criterion Autoregressive
Transfer Function). Parallèlement, Akaike (1969, 1970) a considéré l'utilisation des
modèles AR pour la prédiction et a proposé un critère de choix de l'ordre basé sur l'erreur
de prédiction finale (FPE - Final Prédiction Error, en anglais). Il est clair qu'un modèle
d'ordre plus élevé permet de mieux rendre compte de la réalité complexe du phénomène
aléatoire considéré, mais cet argument seul conduit à choisir l'ordre le plus grand
possible. En fait, quand on augmente l'ordre du modèle, l'estimation de ses paramètres
se dégrade, et, à un certain point, le gain enfidélitédu modèle est annulé par la mauvaise
estimation de ses paramètres. L'erreur de prédiction finale d*Akaiketientcompte à la foix
de l'erreur de prédiction due à la mauvaise adéquation du modèle et de celle due à la
mauvaise estimation de ses paramètres (d'où l'attribut final). Par la suite Akaike (1973) a
introduit un critère plus général, applicable pour une classe de modèles quelconques,
appelée AIC (Akaike Information Criterion). La philosophie de ce critère est basée sur
une fonction de perte liée à la quantité d'information de Kullback-Leibler et est donc
différente de la précédente, quoique dans le cas des modèles ARMA, la considération du
FPE conduit à un critère asymptotiquement équivalent (voir Pham, 1983). D'autres
procédures de choix automatique de l'ordre du modèle ont été proposées par la suite.
Elles sont toutes basées sur un critère, qui associe à chaque modèle (dans une classe
donnée a priori) une valeur numérique, et on choisira le modèle qui minimise le critère en
question. Les avantages de cette approche ont déjà été mentionnés. L'inconvénient est
qu'elle peut être très coûteuse sur le plan numérique, car il faut examiner tous les modèles
possibles. De plus, l'évaluation du critère nécessite l'estimation des paramètres du
modèle par une méthode optimale (maximum de vraisemblance), de sorte que l'on est
obligé d'ajuster un très grand nombre de modèles pour n'en retenir qu'un seul.
Toutefois, Hannan et Rissanen (1982) ont proposé une procédure rapide pour choisir
l'ordre du modèle. Celle-ci peut être utilisée pour un choix préliminaire qui sera raffiné
par la suite. Un tel procédé à plusieurs étapes a été suggéré dans Hannan et Kavalieris
(1984a, 1984b) et Hannan et Deistler (1988).
Nous avons distingué deux types d'approche pour le choix de l'ordre du modèle
ARMA, et mentionné succintement les travaux qui sont à leur origine. Dans la suite nous
examinerons plus en détail les développements récents de ces deux approches. Citons
toutefois une autre démarche consistant à considérer le problème comme un problème de
test d'hypothèse multiple où il faut choisir une parmi plusieurs hypothèses possibles
(McClave, 1978, Duong, 1984). On peut aussi envisager de sélectionner le modèle par
une succession de tests d'adéquation. Pour éviter le problème d'identification, on
commence par les modèles d'ordre faible et on augmente l'ordre tant que le test rejette le
modèle (Pôtscher, 1983).
3. APPROCHE INTERACTIVE POUR LE CHOIX DE L'ORDRE
La définition (2.1) montre que la fonction d'autocovariance d'un processus ARMA

satisfait une relation de récurrence linéaire. En effet, multiplions les deux membres de
(2.1) par X t . m et prenons l'espérance mathématique de chaque membre; nous obtenons,
--ii Ym-j »
j=l
m >
<i» #-1)
°ù Ym = ^ (Xt X t . m ) désigne la fonction d'autocovariance du processus.

Evidemment, la fonction d'autocorrélation p^ = J^/Jo satisfait la même relation de
récurrence. Gray, Kelley et Mclntyre (1978) et Gray, Houston et Morgan (1978) sont
les premiers à exploiter cette propriété pour déterminer l'ordre du modèle ARMA via ce
qu'on appelle l'epsilon-algorithme. Cet algorithme (voir Shanks, 1955, Wynn, 1956) a
été inventé par les numériciens pour la sommation des séries numériques et on sait que si
le terme général d'une série tend vers zéro géométriquement, alors l'algorithme permet de
la sommer en un nombre fini de pas. L'application de cette technique à la série X 7^ ou
XPk permet de déterminer l'ordre du modèle, car y^ tend vers zéro géométriquement à
partir du rang q. Différentes variantes de l'epsilon-algorithme ont été proposées (voir
Berlinet, 1984, 1985), en particulier la méthode des tableaux R-S de Gray, Kelley et
Mclntyre (1978). Certains éléments du tableau S sont en fait des autocorrélations
partielles (Woodward et Gray, 1981). Parallèlement, Béguin, Gouriéroux et Montfort
(1980) ont proposé une méthode dite "du coin" pour déterminer l'ordre du modèle
ARMA. Elle est basée sur le tableau des A (j, i) qui sont les déterminants des matrices de
Toeplitz
68 Pham D. T.
Pj-i+ll
D(j.i) =
Pj + i-1
\
et sont donc, d'après (3.1), nuls pour i > p et j > q. Notons que des méthodes
semblables ont été proposées par Woodside (1971) et Chow (1972). Une autre méthode,
proposée par Graupe, Krause et Moore (1975) procède de façon analogue, mais
utilise la réponse impulsionnelle, c'est-à-dire les coefficients w^ de l'expansion
1+ ±b ( 1 + >. a Wj z
j-i J20
à la place des autocorrélations. La méthode du coin est d'autre part directement liée à
l'epsilon algorithme car les quantités générées par ce dernier sont fonctions du
déterminant des matrices de Hankel
/
... p, i + k - 1 I
H (k,m) =
Pm + k-1 Pm + 2k-2
\ 7
Il est clair que H (k, m) = det D (m + k - 1, k). La méthode du coin nous semble
beaucoup plus simple que l'epsilon algorithme. L'intérêt de ce dernier provient du fait
qu'il est plus rapide sur le plan du calcul, mais récemment Pham (1984) a obtenu des
relations de récurrence pour calculer les quantités A (j, i) pour la méthode du coin. La
plus intéressante est
A G + 1, i) A Q - 1. i) « A 0. i) 2 - A Q, i + D A (j, i - 1 ) .
Notons que si les méthodes précédentes appliquées à la fonction d'autocorrélation

permettent de déterminer exactement l'ordre du modèle, dans la pratique cette fonction est
inconnue. On doit donc la remplacer par son estimateur, la fonction d'autocorrélation
empirique, et il se pose le problème de prendre en compte l'erreur due à l'estimation.

Dans la méthode du coin par exemple; si les A (j. i) s o n t n u l s P01"" i > p, j > q, les A (j, i),
obtenus comme A (j, i) mais avec les autocorrélations empiriques r k à la place des
autocorrélations théoriques p k , ne le seront pas. Il faut donc interpréter une petite
valeur de A (j, i) comme pouvant provenir d'un A (j, i) nul, mais pour cela il faut
connaître la loi de la statistique A (j, i). Cette dernière est asymptotiquement normale,
pour i < p ou j < q, mais sa variance asymptotique est assez compliquée et se prête mal
au calcul numérique. Toutefois Mareschal et Mélard (1988) ont fourni un procédé de
calcul basé sur les relations de récurrence de Pham (1984). On rencontre la même
difficulté dans l'epsilon-algorithme. La méthode ci-dessous, due à Glasbey (1982) a
l'avantage que les statistiques considérées ont une variance asymptotique très simple à
calculer. Ces statistiques sont données par
y8 = r j + i + 1 + X a k (i,j) r i + j + 1 . k
k^l
où les ak (i, j) sont solution du système d'équations
i
r
i + X M i . j ) ri-k= 0 , l = j + l , . . . , j + i . (3.2)
k=l
On peut interpréter y y comme la différence entre le premier et le second membre de (3.1)

quand p = i, m = j + i + 1, avec Ym remplacés par r m et ak remplacés par les
estimateurs âk (i, j). Par suite pour i > p, j > q, yy -» 0 quand n —» <» (n étant la taille de
l'échantillon). La méthode de Glasbey est en fait équivalente à la méthode du coin car on
peut montrer que yy = (-1)1 A (j+1, i+1) / A (i, j), (voir Pham, 1984). L'avantage des
statistiques yy est que leur loi asymptotique est très simple. Glasbey (1982) a montré
que les statistiques n1'2 y pq , ..., n 1 / 2 y p + I , q et n 1 / 2 yp# q + h ..., n 1 / 2 yp^ q + J
(I, J fixés) convergent en loi vers des variables YQQ, ..., YJQ, YJQ, ..., YJQ de loi
conjointe normale centrée de structure de covariance, donnée par
E( Yoi Y0j) = X vm vm + i . j
ou
P P 2 q4^l
a
V' mm = X X k a l Pm + k-1 = <* X b
k b k+|m|> ( a 0= b 0 = 1) • <3-3)
k=0 1=0 k=0
70 Pham D, T.
Notons que v m = 0 pour m > q. Par la suite, on examinera les statistiques

normalisées
z r v* rm
ij= y , | n / m (i.j)j •
ou
vm = X X M M ) M M ) 'm+k-i.
k=0 1=0
qui pour i = p, j > q ou i > p, j = q, sont asymptotiquement normales centrées de

variance unité.
Notons que toutes les méthodes reposent sur la propriété que les A (j, i) associés à
un modèle ARMA d'ordre (p, q) sont nuls pour i > p et j > q, mais il n'est pas clair que
l'inverse soit vrai. La méthode de Glasbey repose aussi sur le fait que le système (3.2)
ne converge pas vers un système singulier, c'est-à-dire A (j, i) * 0, pour i - p, j > q ou
i > p, j = q. Béguin, Gouriéroux et Montfort (1980) ont montré que c'est le cas si (p, q)
est le couple d'ordre minimal du modèle (en fait minimum, cf. Théorème 3.2). Le
résultat suivant (Pham, 1984) précise les positions possibles des zéros dans le tableau
des A.
Théorème 3.1
Les zéros dans le tableau des A (resp. A) se groupent toujours en

blocs carrés de taille k (k peut être infini). Si A (i, j) (resp. A (i, j),
i = r+1, ... , r+k, j = s+1, ..-, s+k) est un tel bloc, alors il existe un
vecteur unique (ctQ, ..., a r ) ' avec CCQ = 1, tel que
a
X i Pj-i = °» ( res P- X a
i rJ-i = 0)
» J = s + ^ -"s +k
•
1=0 1=0
Notons que pour i > p, j > q, le système (3.2) converge vers un système
singulier, et les statistiques n 1 / 2 y y ainsi que zy ne seront plus asymptotiquement
normales. Pham (1982) montre que celles-ci convergent encore en loi, mais la loi limite
est assez compliquée pour être d'une grande utilité. Evidemment, dans le cas où i < p
ou j < q, y y et zy/n 1 ' 2 convergent vers une limite finie, sauf si A (j - 1, i - 1) = 0.
Les statistiques yy précédentes peuvent avoir une variance importante, ce qui limite
la capacité de discerner des modèles d'ordre voisin de la méthode précédente. En effet,
en considérant â^ (i, j) comme des constants, yy apparaît comme une combinaison
linéaire des autocorrélations empiriques de retard j + 1,..., j + i. Or, les autocorrélations
de grands retards sont généralement mal estimées. En plus si A (j, i) est proche de zéro,
les âk (i, j) seront très instables. Pour cette raison, Pham (1988) a introduit une nouvelle
méthode où les statistiques considérées sont calculées à partir d'un grand nombre
d'autocorrélations estimées, ce qui améliore leur précision. Cette méthode est basée sur
la caractérisation suivant du modèle ARMA.
Théorème 3.2
Notons X t | s la projection de X t sur le sous-espace de Hilbert

engendré par les X„ , u < s (avec le produit scalaire X, Y —» E (XY)).
Le processus X t est ARMA d'ordre (p, q) si et seulement si X t | t . q . i
est une combinaison linéaire de X t . j | t . q . ^ , j = 1, ..., p. Dans ce cas,
il existe PQ, qo tel que le processus est ARMA d'ordre (p% q') pour tout
p' > PQ> q' > qo» mais n'est pas un processus ARMA d'ordre ( p \ q') si
p' < p 0 ou q' < q 0 . En plus, pour p £ p 0 ou q < q 0 , les X t . j ( t . q . l f
j = 1, ..., p sont linéairement indépendants, et en notant - aj (p, q) les
coefficients de la régression de X t | t . q . i sur ceux-ci, le polynôme
a Z
1 + X j (P» Q) est stable.
j=i
Note
La définition du processus ARMA dans le Théorème précédent n'exclu pas le cas
où le polynôme autorégressif a des racines sur le cercle unité pourvu que celles-ci soient
annulées par des racines indentiques du polynôme moyenne mobile. Ainsi la classe de
ces processus ARMA contient les processus harmoniques avec bruit additif :
72 Pham D. T.
A
Xt = X k cos(w k t + y k J + e t
k= l
où et un bruit blanc (ou plus généralement un processus stationnaire de densité spectrale

rationnelle) et w^ sont des nombres réels et A^ exp (ixjfk) sont des variables aléatoires
complexes non corrélées, c'est-à-dire E [Aj Ak exp (i\|/j - ixj/k)] = 0 pourj^k. Il est
facile de voir que ce processus admet la représentation ARMA (2.1) avec p = q = 2r et
bj - aj, j = 1, ..., 2r. Toutefois, de tels processus sont souvent exclus dans la
littérature, par l'adjonction de la condition que le polynôme autorégressif n'ait pas de
racines de module unité.
Les entiers po , qo du théorème 3.2 sont les ordres minimum du modèle. Dans la
suite, l'ordre sera sous-entendu l'ordre minimum et sera noté (PQ, qo)- Le théorème
précédent montre que les aj (p, q) sont uniquement définis pour p < p 0 ou q < qo et
coïncident avec les coefficients aj du modèle (2.1). Toutefois, les aj (p, q) font
intervenir toute la fonction d'autocorrélation tandis qu'en pratique, sur un échantillon de
taille finie, seule un petit nombre des autocorrélations peuvent être raisonnablement
estimées. On est donc amené à remplacer les X t . j | t . q . i par X t . j | t . q . ls t . q . m où m
est un entier donné et X ^ s désigne la projection de Xt sur le sous-espace engendré par
X r , ..., X s . D'après le théorème 3.1, pour p = Po ou q = qo et m > p, les
^ t - jlt - q - 1 , t - q - m » J = 1» •..» P sont linéairement indépendants. Ce résultat n'est pas
forcément vrai si p < PQ ou q < qo mais d'après le théorème 3.2, ce sera le cas si m
est suffisamment grand. Dans ces conditions, on peut définir uniquement les coefficients
-2LX (p, q, m), ..., -a p (p, q, m) de la régression de X t + q(t m ïr t. m sur
X t . q j t . ^ t . m , ..., Xtjt - q . pt t-q-m* Ces coefficients dépendent uniquement des
autocorrélations jusqu'au retard m + q, et en remplaçant ces dernières par les
autocorrélations empiriques, on obtient les estimateurs âj (p, q, m) de aj (p, q, m).
Pham (1989) a obtenu des relations de récurrence pour calculer rapidement les
a
j (p+1. Q> ni) en fonction de aj (p, q, m) et des coefficients - aj(p, q, m) de la
régression de Xt + q - p . 11 1 -1, t-m sur Xt + q . j t1.1, t . m , j = 1, ... , p. Les
a*(p+l, q, m), de leurs côtés, peuvent être calculés à partir de aj(p, q-1, m) et
a* (p, q-1, m). Ces relations de récurrence font intervenir les variances v* (p, q, m) des
résidus des régression en question, c'est-à-dire de
e t (p,q,m) = X l + q U _ u _ m + X aj(p,q,m) X t + q _ j t t _ u _ m ,
j=i
e t (p,q,m) = X t + q _ p _ l u . u . m + X a p + 1 ( p , q , m ) X t + q _ j l t . u _ m ,
ainsi que la covariance partielle n (p, q, m) entre Xt + q | t . ^ t . m et X t + q . p | t . ^ t . m

en gardant fixe Xt + q - JU -1, t - m » J " !»•••» P - 1» c'est-à-dire la covariance
entre e t (p - 1, q, m) et e t (p - 1, q, m). Ces variances résiduelles et covariance partielle
seront évidemment estimées par les variances résiduelles et covariance partielle
empiriques v (p, q, m), v* (p, q, m) et K (p, q, n), obtenues de la même façon avec les
autocorrélations empiriques à la place des autocorrélations théoriques. D'après le
théorème 3.2, pour q = q0 et p > PQ, V (p - 1, q, m) et donc n (p, q, m) sont nuls et on
peut montrer (Pham, 1989) que n1/2 n (p, q, m) est asymptotiquement normale centrée
réduite de variance approximativement (pour grand m) égale à VQV* (p, q, m),
où VQ est définie dans (3.3). On examine donc les statistiques
1/2
n n (p, q, m) / [ vo v*(p, q, m], où vo est un estimateur de vo, pour la
détermination de l'ordre du modèle. Pour p > Po, q = qo» c e s statistiques sont
asymptotiquement normales centrées de variance unité, tandis que pour p > p 0 , q > qo,
on peut montrer qu'elles sont au plus 0 (m) en probabilité (Pham, 1988).
Notons que pour m = p, les âj (p, q, m) se réduisent aux âj (p, q) dans la méthode
de Glasbey précédente, et les îï (p+1, q, m) se réduisent aux ypq. L'utilisation de m > p
permet d'avoir des estimateurs plus précis des paramètres aj du modèle, et réduit la
variabilité des statistiques indicatrices de l'ordre I y^ ou n (p, q, m)]. Notons également
que la quantité G2 (p, q, m) = a 2 + v (p, q, m) s'interprète comme la variance de la
différence entre X t et sa projection sur le sous-espace linéaire engendré par X t .j,..., X t . p
et et_], ..., e t . q . Hannan et Rissanen (1982) ont proposé d'effectuer la régression de X t
sur Xt_j, ... , X t . p et êt_i, où les ê t sont les résidus de l'ajustement d'un modèle AR
d'ordre élevé m, pour obtenir les estimateurs des coefficients du modèle ARMA. Les
estimateurs de aj ainsi obtenus sont en fait asymptotiquement équivalent à nos
âj (p, q, m), dans le cas où m tend vers l'infini avec n. L'algorithme proposée par ces
auteurs, pour calculer leur estimateurs, ainsi que celui de Franke (1985), est toutefois
moins efficace sur le plan numérique que celui mentionné plus haut pour le calcul de
âj (p, q, m). Cet algorithme fournit aussi les estimateurs o (p, q, m) de a 2 (p, q, m),
qui sont à la base d'une procédure du choix automatique de l'ordre du modèle de Hannan
74 Pham D. T.
et Rissanen (1982) (ces auteurs ont fait tendre m vers l'infini avec n). Nous reviendrons
sur cette procédure dans le paragraphe suivant.
Récemment, Chaverie, Szpiro et Topol (1990) ont proposé une autre méthode
d'identification de modèle ARMA basé sur la transformée en z de la réponse
impulsionnelle H (z) = X Wj zK On cherche, par la méthode de Padé, une

j>0
approximation rationnelle de degrés (i, j) de cette fonction dans un voisinage d'un point
zo (à choisir). D est vrai que l'approximation est exacte quand le processus est ARMA
d'ordre (p, q) avec p > i, q > j , et par suite l'examen des suites approximantes de Padé
permet de déceler les ordres du modèle. Cette méthode diffère des précédentes
essentiellement du fait qu'elle est basée sur les réponses impulsionnelles WJ au lieu des
autocorrélations, et en plus comme on considère l'expansion de Taylor de H (z) autour de
ZQ, ce sont en fait des combinaisons linéaires de WJ qui jouent le rôle des autocorrélations
(dans le même ordre d'idée, on peut travailler avec une certaine transformation de la
séquence des autocorrélations comme dans la note ci-dessous). Le choix de zo, n'est
toutefois pas clair et aucun résultat concernant le comportement probabiliste des
statistiques considérées n'est disponible.
Note
1) Si la fonction d'autocorrélations pj du processus satisfait une récurrence linéaire, la

fonction zJ Pj satisfait aussi une récurrence de même ordre. Pour des raisons de stabilité,
on se restreint à Izl = 1 (z est complexe); alors Zj pj s'interprète comme la fonction
d'autocorrélation du processus (complex) z1 Xt. On peut donc appliquer les méthodes
précédentes avec z) Tj à la place de rj pour la détermination de l'ordre du modèle (on prend
souvent z = - 1, pour rester dans le domaine réel). Notons toutefois que le processus
z1 X t est seulement ARMA au sens large, ce qui peut invalider les résultats
asymptotiques concernant les statistiques indicatrices de l'ordre. En tous cas, ces résultats
ne sont applicables que si la constante z est choisie indépendamment de l'observation.
2) Les autocorrélations partielles empiriques (à partir du rang p 0 + 1) ont la propriété

intéressante d'être asymptotiquement indépendantes. On ne retrouve pas cette propriété
ni pour les autocorrélations empiriques, ni pour les statistiques introduites pour la
détermination de l'ordre du modèle ARMA. Or si Xt suit un modèle MA, l'inverse de sa
densité spectrale est celle d'un processus AR. D'où l'idée de considérer les
autocorrélations partielles associées à cette inverse, appelées autocorrélations partielles

inverses, pour la détermination de l'ordre du modèle. Ces corrélations ont été introduites
par Cleveland (1972). Leur estimation et leur utilisation pour la détermination de l'ordre
du modèle MA ont été considérées par Chatfield (1979) et Bhansali (1980, 1983). La
méthode toutefois ne s'applique qu'à ce modèle.
4. CHOIX AUTOMATIQUE DE L'ORDRE
Il existe de nombreux travaux consacrés au problème de choix automatique de

l'ordre du modèle AR. Le premier critère proposé par Akaike est basé sur la notion
d'erreur de prédiction finale. Soient - a l p ,..., - a pp les coefficients de la régression de
X t sur Xt_i, ... , Xt_p ; adopter un modèle AR d'ordre p revient à utiliser
p
a
"X j X t . j comme prédicteur de Xt. L'erreur de prédiction (à un pas) est donc
i-i
p
a
et (p) = Xt + 2* j X t . j, et sa variance est notée G£. Si on tient compte de
j= i
l'erreur d'estimation des coefficients du modèle, on arrive à une erreur de prédiction
finale dont la variance est a p (1+p/n). Mais, comme on ne connaît pas <Tp, on doit
l'estimer, par exemple, par
^2
X
°P - X U + 1 îjp H
t-p+1 j=l
^2
où âjp sont des estimateurs des moindres carrés de ajp. Or, cet estimateur a p est biaisé
et, pour corriger son biais, on doit le multiplier par n / (n - p). On est donc amené au
critère
ï « « - ^ ( i + f ) / ( i - S ) . : î ( i + ï).
introduit par Akaike (1969) sous le nom FPE (final prédiction error en anglais). Notons
que les calculs précédents concernent un modèle centré ; dans le cas non centré, le facteur
p / n sera remplacé par (p + 1) / n. D'un autre côté, l'ajustement du modèle autorégressif
d'ordre p permet de construire l'estimateur de la densité spectrale du processus par
76 Pham D. T.
2 .
, ^ -iA, ^ -ipX
f(X) = a p / 2TC
1 + a lp e + ... + a p p e
Un critère raisonnable pour le choix de l'ordre p du modèle est donc l'erreur intégrée de
cet estimateur de densité spectrale :
j E | [ f ( X ) - f ( X ) f / f ( X ) / d*
Parzen (1974,1976) a montré que minimiser cette erreur est asymptotiquement équivalent
à minimiser le critère CAT (Autoregressive Transfer Criterion)
-2 -2
CAT(p) = iLLl J Cj . îl^P a p , p > 0, (CAT(O) = -(1 + 1/n)) .
En pratique, les critères FPE et CAT choisissent très souvent le même ordre. Ceci
se voit en remarquant que pour p voisin de l'ordre vrai po du modèle,
~2 ^2
(p - Po) / n et a p - c p o sera petite et par suite
^2 ^2 ^2
FPE(p) - Const. + o p - o po + - (p - p0) a po
,2 ^2 \ ^4 ^2
CAT(p) - Const. + ^ a p - OVQJ I a po + - (p - p0) / a'Po*
Plus récemment, Akaike (1973) a introduit un critère très général pour le choix
d'un modèle basé sur la notion d'information. Considérons un modèle spécifié par un
paramètre vectoriel 9 € ©, un ouvert de RP. Soit L„ (8) la fonction log-vraisemblance
normalisée par la taille n de l'échantillon. Alors, sous des conditions très générales,
L n (6) converge quand n tend vers infini vers L^, (6) = - H (PQ, P) oùPe désigne la
loi de l'observation associée au modèle et P la vraie loi, et où H (Q, P) est l'entropie
relative de Q par rapport à P (au sens de Kullback-Leibner). On sait que H (Q, P) est
minimum quand Q = P, et par suite H (Pe, P) - H (P, P) peut être utilisé comme une
fonction de perte quand le modèle spécifié par 6 est utilisé à la place du "vrai modèle" (ce
dernier peut ne correspondre à aucun 6 dans 8 ) . Soient maintenant deux classes de
modèles spécifiées par deux sous-ensembles de 0 ' et 0 " de 0 . Il est naturel de

préférer la première classe si L^ \Q ' ) > L^ \6 ' ') où 6 \ 6 ' ' sont les estimateurs du
maximum de vraisemblance (ou d'une méthode asymptotiquement équivalente) relative à
ces deux classes. La difficulté est qu'on ne connaît pas la fonction L«, (.).
L'idée est de remplacer L^ \Q ' j - L« (0 ' ') par L n \Q ') - L n \6 ' '), mais le premier
est un estimateur biaisé du second. Pour le voir, considérons le cas où 0 ' est isomorphe
à un ouvert de R p *, 0 " est contenu dans 0 ' et isomorphe à un ouvert de R p " et la
vraie loi est donnée par P9 où 6Q est un point de 0 " .
H est bien connu que 2n I L n \G ' j - L n \Q ' ' j I converge en loi quand n tend vers infini
vers une variable du %2 à p' - p" degrés de liberté. D'autre part, un développement de
Taylor donne
2
^ * / \
L . (e0) - L M (e-) + I (e0 - e-) | - L_ (G() (e 0 - v),
\ae /
Le signe * désignant le transposé. D'après les propriétés bien connues de

Loo (G) - E [Ln (9)] et de l'estimateur du maximum de vraisemblance, le dernier terme
de l'expression précédente tend vers p' / 2 quand n tend vers infini.
Donc L.. (e1) - LM \& j converge vers (p' ' - pO/2 tandis que L n (G1) - L n (G")
converge en loi vers une variable de moyenne (p' - p") / 2.
Par suite, il faut prendre L n \B') - p* - L n \8"J - p " pour obtenir un estimateur
asymptotiquement sans biais de L^ \8 ' j - L^ \8 ' '). Ce résultat a été montré dans le cas
général par Findley (1985), sous des conditions raisonnables. On est donc amené au
critère
AIC = 2 (-maximum de log vraisemblance + nombre de paramètres).
Dans le cas du modèle AR d'ordre p, la fonction log-vraisemblance a pour

expression approchée
2
x
n
2 L
logeai] + X t+ X a J x t-j| I *
t= P +i 1 j=i
^2\ „2
Cette fonction a pour maximum - ( n / 2 ) log \opf + Const. où a p est défini comme
78 Pham D. T.
précédemment. Le critère d'Akaike prend alors la forme
^2
AIC(p) = nlog o p + 2p . (4.1)
L'utilisation de la vraisemblance approchée permet de simplifier les calculs sans changer

les propriétés asymptotiques de la procédure. Notons que la vraisemblance est obtenue
sous l'hypothèse que le processus est gaussien, mais grâce au théorème de la limite
centrale, les résultats asymptotiques ci-dessous restent valables sans cette hypothèse. En
utilisant l'approximation log (1 + p / n) « p / n ( p petit devant n), on voit que
log FPE (p) * AIC (p) / n. Les critères AIC et FPE sont donc asymptotiquement
équivalents. Le lien entre l'AIC et le principe du maximum de l'entropie a été montré par
Shimzu (1978) (voir aussi Bednar et Roberts, 1985).
La performance du critère AIC (ou FPE) pour le choix de l'ordre du modèle AR a

été beaucoup étudié, aussi bien sur le plan empirique (Jones, 1975, Bhansali et
Downham 1977) que sur le plan théorique (Bhansali et Downham 1977, Shibata, 1976,
1980,1981). Il est montré que si la série observée suit réellement un modèle AR d'ordre
PO , alors le critère AIC choisira un ordre p < Po avec une probabilité tendant vers 0
quand n tend vers infini. Toutefois, pour tout p > PQ, le critère choisira l'ordre p avec
une probabilité tendant vers une limite positive. Cette limite est liée à certaines
probabilités associées au processus de marche aléatoire (Banshali et Downham, 1977).
Par la suite, la procédure d'Akaike n'est pas convergente comme estimateur de l'ordre du
modèle. Toutefois, Shibata (1980, 1981) a montré que cette procédure est
asymptotiquement optimale dans le cas où le processus sous-jacent admet seulement une
représentation AR d'ordre infini mais n'est pas un processus AR (d'ordre fini). Dans ce
cas, comparer l'ordre choisi avec le vrai ordre (qui est infini) n'a pas de sens. Shibata a
en fait montré l'optimalité de la procédure d'Akaike selon deux critères : l'erreur de
prédiction à un pas et l'erreur de l'estimation de la densité spectrale, basée sur
l'ajustement du modèle AR d'ordre choisi. Taniguchi (1980) a montré que le résultat de
Shibata reste valable dans le cas du modèle ARMA, en ce qui concerne le deuxième
critère d'optimalité.
Pour corriger la tendance de surestimation de l'ordre de la procédure d'Akaike

(quand le processus sous-jacent est un processus AR), on remplacera le terme 2p dans
(4.1) par otnp, où o^ est une suite donnée. Bhansali et Downham (1977) a considéré
le choix a n = a une constante donnée, ainsi que Atkinson (1980) dans le contexte
différent de la régression. Il s'avère que a > 2 permet seulement d'atténuer la

surestimation de l'ordre de la procédure. Pour obtenir une procédure convergente, il est
nécessaire que o^ tend vers infini avec n, et Hannan et Quinn (1979) ont montré que la
vitesse minimum de croissance de a n est 2c log log n, c > 1. Mais il existe des
arguments suggérant l'utilisation d'une vitesse encore plus élevée. En effet, Akaike
(1978, 1979) a obtenu à partir des arguments du type Bayésien, un nouveau critère
appelé BIC (Bayesian Information Criterion). Celui-ci s'écrit, pour un modèle AR
d'ordre p,
^2 j .-2 ^2
BIC(p) = n l o g a, p - 2(n-p)log(
^ . - , , ^ 1 - nJ j] +• Kplogn
w e „ +. rp~log
& L p xox/op- 1
^2
où a p désigne la variance empirique du processus. Pour p fixé et n tendant vers infini,
on a
BIC (p) = n log c p + p log n + 0 (1),
En négligeant le terme 0(1) on obtient une version simplifiée de BIC qui est précisément
"*2
le critère de Schwarz (1978) : log c p + p log n.
En résumé, pour le modèle AR, on dispose d'un critère de choix automatique de
^2
l'ordre de la forme n log o p + otn p. Le choix de ctn dépend de l'objectif de l'analyse.
S'il s'agit d'une estimation spectrale ou d'une prédiction non paramétrique (où on n'est
pas sûr que le processus sous-jacent soit autorégressif), il est recommandé de prendre
ccn = 2 ou <xn s a > 2. S'il s'agit d'estimer l'ordre d'un processus (réellement)
autorégressif, il est préférable de prendre o^ = log n ou 0¾ = 2c log log n, c > 1.
Une comparaison de ces différentes procédures appliquées aux séries réelles d'EEG
(électroencéphalogramme) se trouvent dans Franke, Gasser et Steinberg (1985).
Sur le plan pratique, le calcul du critère peut être effectué rapidement à l'aide de
l'algorithme de Levinson-Durbin. Cet algorithme permet d'ajuster de façon récursive des
modèles AR d'ordre successif. On obtient ainsi les autocorrélations partielles
^2
empiriques, soient - âpp, p < 1, et on calcule les o p récursivement par
oi = oî-i (l - aL).
80 Pham D. T.
Cette relation montre le lien entre la procédure automatique et l'approche interactive basée
sur l'examen de la fonction d'autocorrélation partielle empirique. En effet, la différence
des critères correspondant aux ordres p et p' est approximativement
11 a
UFP" J+ - +n
(V" a J
La généralisation des procédures précédentes aux modèles ARMA est immédiate.
On minimise le critère
^2
log a p q + <xn (p + q) (4.2)
où a n = 2 pour AIC, = logn pour BIC, = c log log n pour le critère d'Hannan et
^2
Quinn. Ici, a p q est l'estimateur de la variance de l'innovation dans un modèle ARMA
d'ordre q, obtenue comme la moyenne quadratique des résidus d'un ajustement standard
(voir par ex. Box et Jenkins, 1970) du modèle. La forme (4.2) résulte en fait de
l'utilisation d'une fonction de vraisemblance approchée, calculée sous l'hypothèse
gaussienne. Cette forme peut aussi bien résulter de l'utilisation d'une fonction de
vraisemblance exacte, toujours sous l'hypothèse gaussienne, à condition d'incorporer un
terme jacobien (voir Ansley, 1979). Ici, l'hypothèse gaussienne est utilisée pour écrire la
vraisemblance mais les propriétés asymptotiques de la procédure ne dépendent pas de
cette hypothèse. Notons toutefois que même en travaillant avec la vraisemblance
approchée, l'utilisation des critères précédents est très lourde, car l'ajustement de modèle
ARMA n'est pas récursif en ordre comme dans le cas du modèle AR, et demande en plus
un calcul itératif coûteux. Pour cette raison, Hannan et Rissanen (1982) ont introduit un
autre critère de la forme
^2
n l o g o (p,q) + (p + q) logn (4.3)
•N.2 2 <~*
où a (p, q) est l'estimateur de a (p, q, <*>), c'est-à-dire a ( p , q,m) avec m tendant

vers infini avec n, introduit vers la fin du paragraphe 3. Notons que Hannan et Rissanen
ont choisi m par la procédure Akaike, appliquée au modèle autorégressif, ce qui conduit à
une procédure à deux étapes.
Une autre approche pour le choix de modèle a été proposée par Rissanen (1978),
basée sur un principe qu'il appelle "longueur de description minimum". Le modèle est vu
comme une description des données observées, et on cherche naturellement à trouver la
description la plus courte. Rissanen considère donc le codage de données, qui est
optimal pour le modèle proposé. On sait que le code sera (en moyenne) le plus court si et
seulement si les données sont réellement engendrées selon celui-ci. Dans le cas où une
famille paramétrique de modèles, indexée par G est donnée, on cherchera le modèle qui
rendra le plus court le code correspondant, ce qui conduit à un estimateur de G de 8, qui
est en fait asymptotiquement équivalent à l'estimateur du maximum de vraisemblance.
Mais le code résultant des observations ne suffit pas, car il faut coder aussi le modèle
choisi, c'est-à-dire 8. La longueur totale de ces deux codes est le critère de comparaison
entre différentes classes de modèles. Dans le cas de modèles ARMA ce principe conduit
au critère de Schwarz, à des termes négligeables près. Rissanen a appliqué son principe
dans un cadre "non prédictif', c'est-à-dire les données sont codées seulement quand elles
sont toutes observées. Dans un travail ultérieur, Rissanen (1986) a formulé le principe de
"longueur de description minimum prédictif dans lequel le codage d'une observation
s'effectue, dès qu'elle est disponible, selon sa loi de probabilité conditionnelle (suivant le
modèle adopté) sachant les observations passées. Il a aussi introduit la notion de
complexité stochastique, définie uniquement à partir des observations, de la donnée d'une
classe de modèles et éventuellement des connaissances a priori, mais ne faisant aucune
référence à l'existence d'un "vrai modèle". Pour plus de détails voir Rissanen (1978,
1983,1986,1987) et aussi Wallace et Freeman (1987).
Il est important de souligner une difficulté propre au problème du choix de l'ordre
du modèle ARMA lié au surajustement. En effet, si p > PQ et q > qo alors le modèle
n'est pas indentifiable et l'estimateur du maximum de vraisemblance sera très instable et
le maximum de la vraisemblance n'aura pas le comportement standard (la matrice
d'information de Fisher est en fait singulière). Hannan (1982) a considéré le cas où on
ajuste un modèle ARMA d'ordre (1, 1) au bruit blanc et a montré que le maximum de
L n (8) tend vers infini avec n (voir aussi Veres, 1987). Par suite, AIC dans ce cas
choisira l'ordre (1,1) avec une probabilité tendant vers 1. Dans le cas de BIC, à cause de
la sévère pénalité associée au choix du modèle d'ordre élevé, ce critère choisira encore
correctement l'ordre avec une probabilité tendant vers 1 (ce résultat de convergence a été
établi de façon générale par Hannan, 1980). Toutefois on n'a pas de résultat de
convergence pour le critère d'Hannan et Quinn (¾ = c log log n). Dans tous les cas, il
est clair qu'une procédure du choix de l'ordre basée sur le maximum de vraisemblance,
favorise les modèles strictement surajustés. Or, on veut précisément éviter de les choisir
82 Pham D. T.
car ils ne sont pas identifiables et donc les paramètres estimés n'ont pas de signification.
Notons aussi que l'ajustement par maximum de vraisemblance d'un tel modèle est aussi
très difficile car les estimateurs ont tendance à aller vers le bord du domaine admissible
des paramètres (de plus ils ne sont pas convergents). Le surajustement est inévitable car
la procédure de choix consiste à ajuster des modèles de tout ordre, jusqu'à un maximum
fixé à l'avance.
Une solution à ce problème est la procédure à plusieurs étapes proposée par

Hannan et Kavalieris (1984, voir aussi Hannan, Kavalieris et MacKinsack, 1986,
Hannan et Deisder, 1988). Cette procédure débute par la procédure à deux étapes décrite
plus haut. Celle-ci peut aussi engendrer la surestimation de l'ordre, au sens que l'ordre
choisi (p, q) converge vers po + v, qo + v) où v > 0 (voir Hannan et Kavalieris,
1984). Toutefois, les paramètres estimés âj (p, q, m) possèdent la propriété
remarquable d'être convergents même si p > PQ, q > qo- Plus précisément, dans le
dernier cas, si m tend vers l'infini avec n avec une vitesse adéquate,
p
1 + Z*i âj (p, q, m) 7) converge vers <ï>(z) (1 + 2-r aj T) ) où O(z) est un polynôme de
degré v = max(p, q) - po, de coefficients 4>j avec OQ = 1 et - 0 1 ? ... , O v les

coefficients de régression de Yt sur Y t .j, ... , Yt.v, Yt étant le processus
X t + £ aj Xt.j = et + £ bj et.j (voir Hannan et Kavalieris, 1984, Pham, 1988).
Hannan et Kavalieris (1984) ont proposé différentes méthodes pour corriger la
surestimation de la procédure à deux étapes dont l'une consiste à en ajouter un troisième.
Dans cette étape, on commence par calculer les estimations e t de e t , par la récurrence
et = * £ bj e H + Xt + JT ïj X H
j=i j=i
où (p\ qf) est l'ordre et Sj, j = 1, ... , p* et bj, j = 1, ... , q1 sont des estimateurs des
paramètres, choisis à l'étape 2 (notons que cette étape comporte déjà une correction du
choix de l'ordre obtenu par minimisation de (4.3)). On calcule ensuite de façon récursive
et on fait, pour tout couple (p, q), une régression de ë t + Tit - Çt sur - T | t l , ...,-T| t ,
Çt • 1 » - - -» £t - q * *-* moyenne quadratique des résidus de cette régression sera utilisée
^2
comme a ^ dans (4.2) pour le choix de l'ordre du modèle.
Une méthode analogue, proposée dans Pham (1986) procède de la façon suivante.
^2
L'idée est de modifier la quantité Gpq dans (4.3) de sorte que - n/2 fois son logarithme
comporte comme un maximum de vraisemblance (i.e. diffère de la vraisemblance évaluée
en le vrai modèle par une variable du x2)» même quand p > po, q > qo- Pour (p, q)
donné, notons 8 = ( a l t ...,a p , b l 9 . . . , b p ) et 8 son estimateur de maximum de
vraisemblance alors Opq apparaît comme moyenne quadratique des ê t (8), t = 1, ... , n,
où les êt(8) sont définis par la récurrence
et(e) = - t bj et.j (8) + Xt + f aj XH

3=1 j-1
avec les données initiales nulles. Notons ©o l'ensemble des paramètres correspondant
au vrai modèle et soit 8* un estimateur n1/2 convergent de 8 quand p < po ou q > qo,
au sens que n sup e 6 Bo II 8 - 8 11 est borné en probabilité quand n tend vers infini,
00 étant l'ensemble des paramètres correspondant au vrai modèle. La
~2 * * 2
e
modification consiste alors à prendre comme Cpq le minimum de 2* t (8) où
t= i
e :W= at(e*)JA;|(e*)(e-e1.
On montre qu'on peut prendre comme 8* les âj (p, q, m) précédents et les estimateurs de
bj qui en découlent. Cette méthode diffère de la méthode d'Hannan et Kavalieris par le
fait qu'il n'y a pas de choix de l'ordre à l'étape 2. On se sert uniquement d'un estimateur
fourni par cette étape pour construire le critère.
5. CONCLUSION
Beaucoup de méthodes pour le choix de l'ordre du modèle ARMA ont été

proposées, ce qui témoigne l'intérêt du problème. La littérature dans ce domaine est très
vaste et continue de croître. Cet article ne prétend pas d'être exhaustif. Une comparaison
84 Pham D. T.
systématique de la performance des différentes méthodes est souhaitable mais une telle
étude ne semble pas avoir été faite. En ce qui concerne les méthodes interactives, la
comparaison est difficile vu le fait qu'il y a un élément subjectif dans le choix retenu.
Une autre difficulté est l'absence d'un bon critère pour cette comparaison. La
considération de la fréquence où le procédé a choisi l'ordre correct est insuffisante, car le
procédé peut choisir un ordre incorrect mais le modèle correspondant reste très proche du
vrai modèle, ce qui est moins grave que si ce choix aboutit à un modèle complètement
différent. En fait, si le vrai modèle est bien distinct des autres, la plupart des procédés de
choix permettent de l'identifier. C'est seulement dans le cas où il existe des modèles
alternatifs assez proches de celui-ci que l'identification est difficile, mais dans ce cas,
choisir un modèle alternatif en question n'est pas très grave. En pratique, le procédé
d'identification de modèles est adopté souvent selon le goût du praticien ou par simplicité
(l'existence d'un logiciel qui implante ce procédé, par ex.). La méthode empirique simple
suivante est aussi couramment employée et donne des résultats satisfaisants dans
beaucoup de cas. Elle consiste à ajuster des modèles AR d'ordre 1, 2, 3 et 4 pour les
données trimestrielles ou 12 pour les données mensuelles (pour tenir compte de la
saisonnalité), puis examiner les autocorrélations empiriques des résidus. Si pour un
modèle AR (p), il y a "troncation" de celle-ci au rang q, (c'est-à-dire la série des résidus
semble provenir d'un modèle MA (q), on adoptera le modèle ARMA (p, q). En ce qui
concerne les méthodes automatiques, il s'avère que le critère d'Akaike a tendance à
surestimer l'ordre et de plus l'ordre choisi a une plus grande dispersion que celui obtenu
par les critères d'Hannan ou BIC. Cependant ceci ne s'applique qu'au cas où le modèle
sous-jacent est bien un modèle ARMA d'un certain ordre. Dans le cas où le modèle
ARMA n'est qu'une approximation du vrai modèle et il s'agit de déterminer l'ordre
optimal pour la meilleur approximation, le critère d'Akaike est plus adapté que les autres.
L'adoption d'un critère dépend donc du contexte de son utilisation.
REMERCIEMENTS
Nous remercions le rapporteur anonyme pour ses critiques constructives et pour

avoir attiré notre attention sur certaines références.
REFERENCES
Akaike, H, (1969) Fitting autoregressive model for prédiction. Ann. Inst. Statist.
Math., 21, pp. 243-247.
Akaike, H. (1970) Statistical predictor identification. Ann. Inst. Statist. Math., 22,
pp. 203-217.
Akaike, H. (1973) Information theory and an extension of the maximum likelihood

principle. Dans 2nd Int. Symposium on Information Theory, pp. 267-281. Eds B.N.
Pretov et F. Csaki, Académia Budapest Kiado, Budapest
Akaike, H. (1978) A Bayesian analysis for the minimum AIC procédure. Ann. Inst.
Statist. Math., 30, pp. 9-14.
Akaike, H. (1979) A Bayesian extensian extension of the minimum AIC procédure for
autoregressive model fitting. Biometrika, 66, pp. 237-242.
Ansley, C, S, (1979) An algorithm for the exact likelihood of a mixed

autoregressive-moving average process, Biometrika, 66, pp. 59-65.
Atkinson, A.C. (1980) A note on the generalized information criterion for choice of a
model. Biometrika, 67, pp. 413-418.
Béguin, J.M., Gourieroux, C.» Montfort, A. (1980) Identification of a mixed

autoregressive moving average process : the corner method. Time Séries, pp. 423-426,
éd. O.D. Andersen, Amsterdam : North-Holland.
Bednard, J.B., Roberts, B. (1985) On the relationship between Levinson recursion

and the R and S array for ARMA model identification. Comm. Statist. Theory and
Methods, 14, pp.1217-1248.
Berlinet, A. (1984) Sur quelques problèmes d'estimation fonctionnelle et de statistique

de processus. Thèse doctorat, Université de Lille.
Berlinet, A. (1985) Séquence transformations as a statistical tools. Applied Numerical

Math., 1, pp. 531-544. North-Holland.
86 Pham D. T.
Bhansali, R.J. (1980) Autoregressive and windowed estimâtes of the inverse

autocorrélation. Biometrika, 67, pp. 551-566.
Bhansali, R.J. (1983) The inverse partial autocorrélation function of a time séries and
its applications. / . Mult. Anal, 13, pp. 310-327.
Bhansali, R,J., Downham, D.Y. (1977) Some properties of the order of an

autoregressive model selected by a generalization of Akaike's FPE criterion. Biometrika,
64, pp. 547-551.
Box, G.P.E., Jenkins, G.M. (1970) Time Séries Analysis, Forecasting and
Control. San Francisco : Holden Day.
Chaverie, P., Szpiro, D., Topol, R. (1990) Identification de modèle à fonction

de transfert : la méthode Padé transformée en z. Ann. d'Economie et Statistique, 17,
pp.145-161.
Chatfield, C. (1979) Inverse autocorrélations. / . Roy. Statist. Soc, A, 142, 3, pp.

363-377.
Cleveland, W.S. (1972) The inverse autocorrélations of a time séries and their
application. Technometrics, 14, pp. 277-293.
Chow, J.C. (1972) On estimating the order of an autoregressive moving average

process with uncertain observation. IEEE Trans. Automat. Control, AC-17, pp. 707-
709.
De Gooijer, J.G., Abraham, B., Gould, A., Robinson, L. (1985) Methods

for determining the order of an autoregressive moving average process : a survey. Inst.
Stat. Rev., 53, 3, pp. 301-329.
Findley, D.F. (1985) On the unbiasedness property of AIC for exact or approximating
linear stochastic time séries models. /. Time Séries Anal., §, pp. 229-252.
Franke, J. (1985) A Levinson-Durbin recursion for autoregressive moving average

process. Biometrika, 72, pp. 573-581.
Franke, JM Gasser, Th., Steinberg, H. (1985) Fitting autoregressive processes

to EEG time séries : an empirical comparison of estimâtes of the order. IEEE Trans.,
ASSP-33, pp. 1115-1193.
Glasbey, C.A* (1982) A generalization of partial autocorrélation useful in

identification of ARMA models. Technometrics, 24, pp. 223-228.
Graupe, D., Krause, D.J., Moore, J.B. (1975) Identification of autoregressive

moving average parametrers of time séries. IEEE Trans. Automat. Control, AC-20, pp.
104-107.
Gray, H.L., Kelley, G.D., Mclntyre, D.D. (1978) A new approach to ARMA
modelling. Comm. Statist. SimuL Comp., B7, pp. 1-77.
Gray, H.L., Houston, A.G., Morgan, F.W. (1978) On G-spectral estimation.

Applied Time Séries Analysis, pp. 39-138, D.F. Findley éd. New York : Académie
Press.
Hannan, E.J. (1980) The estimation of the order of an ARMA process, Ann. Statist.,
8, pp. 1071-1081.
Hannan, E.J. (1982) Testing for autocorrélation and Akaike's criterion. Essays in
Statistical Science. Papers in Honnor of P. A. Moran, Appl. Prob. Trust, pp. 403-412.
Hannan, E.J. (1987) Rational transfer function approximation (with comments).

Statistical Science, 2, pp. 135-161.
Hannan, E.J., Deistler, M* (1988) The statistical theory of linear System. New
York : Wiley.
Hannan, E.J., Kavalieris, L. (1984) A method for autoregressive moving average

estimation. Biometrika, 71,2, pp. 273-280.
Hannan, E.J., Kavalieris, L. (1984) Multivariate linear time séries models. Adv.
Appl. Prob., 16, pp. 492-561.
88 Pham D. T.
Hannan, EJ*, Kavalieris, L., MacKinsack, M. (1986) Recursive estimation of

linear Systems. Biometrika, 73, pp. 119-134.
Hannan, E J . , Quinn, B.G. (1979) The détermination of the order of an

autoregression, / . Roy. Statist. Soc, B, 41, pp. 190-195.
Hannan, E.J., Rissanen, J. (1982) Recursive estimation of mixed autoregressive

moving average order. Biometrika, 69, pp. 81-94.
Jones, R.H. (1975) Fitting autoregressions. / . Amer. Statist. Assoc, 70, pp. 590-
592.
Mareschal, B., Mélard, G. (1988) The corner method for identifying

autoregressive moving average model. Appl. Statist., 37, pp. 301-316.
McClave, J.T. (1978) Estimating the order of autoregressive model, the max %2
method. / . Amer. Statist. Ass., 73, pp. 122-128.
Pham, D.T. (1983) A survey of time séries analysis through parametric models. Math.
Operationsforchung. Statistik, séries Statistics, 14,4, pp. 603-631.
Pham, D.T. (1984) A note on some statistics useful in identifying the order of
autoregressive moving average model. / . Time Séries Anal., 5, pp. 273-279.
Pham, D.T. (1986) Parameter estimation and order sélection for autoregressive moving
average models. Rapport Recherche n° 614 M, Laboratoire TIM3, Institut IMAG,
Grenoble.
Pham, D.T. (1988) Estimation of autoregressive parameters and order sélection for
ARMA models. / . Time Séries Anal., 9, 3, pp. 265-269.
Parzen, E. (1974) Some récent advances in time séries modelling. IEEE Trans.
Automatic Control, AC-19, pp. 723-729.
Parzen, E. (1977) Multiple time séries modelling : determining the order of

approximating autoregressive schemes. Multivariate Analysis, IV, pp. 283-295, éd.
Krishnaiah. Amsterdam : North-Holland.
Pôtscher, B.M. (1983) Order estimation in ARMA models by Lagrangian multiplier

tests. Annal. Statits., 11, pp. 872-885.
Rissanen, J. (1978) Modelling by shortest data description. Automatica, 14, pp. 465-
471.
Rissanen, J. (1983) A universal prior for integer and estimation by minimum

description length. Ann. Statist., 11, pp. 416-431.
Rissanen, J. (1986) Stochastic complexity and modelling. Ann. Statist., 14, pp.
1080-1100.
Rissanen, J. (1987) Stochastic complexity (with discussion). /. Roy. Statist., B 49,

pp. 223-239.
Schwarz, G. (1978) Estimating the dimension of a model. Ann. Statist., 6, pp. 461-
464.
Shibata, R. (1976) Sélection of the order of autoregressive model by Akaike's

information criterion. Biometrika, 63, pp. 117-126.
Shibata, R. (1980) Asymptotically efficient sélection of the order of the for estimation
parameters of a linear process. Ann. Statist., 8, pp. 147-244.
Shibata, R. (1981) An optimal autoregressive spectral estimate. Ann. Statist., 9, pp.

300-306.
Shibata, R. (1985) Various models sélections techniques in time séries analysis.

Handbook of Statistics, 5, pp. 179-187. EJ. Hannan, P.R. Krishnaiah et M.M. Rao
eds. Amsterdam : North-Holland.
Tsay, R.S., Tiao, G.C. (1984) Consistent estimate of autoregressive parameters and
extended sample autocorrélation function for stationary and non stationary ARMA
models. J. Amer. Statist. Ass, 79, pp. 84-86.
90 Pham D. T.
Shanks, D. (1955) Nonlinear transformation of divergent or slowly convergent séries.

J. Math. Phys., 34, pp. 1-42.
Shimzu, R. (1978) Entropy maximization principle and sélection of the order of an

autoregressive gaussian process. Ann. Inst. Statist. Math., 30A, pp. 263-270.
Taniquichi, M. (1980) On sélection of the spectral density model for a stationary

process. Ann. Inst. Statist. Math., 32A, pp. 401-419.
Veres, S. (1987) Asymptotic distribution of likelihood ratio for averparametrised

ARMA process. J. Time Séries Anal., 8, 3, pp. 145-157.
Woodside, C M . (1971) Estimation of the order of linear Systems. Automatica, 7,

pp. 727-733.
Woodward, W.A., Gray, H.L. (1981) On the relationship between the S array and
the Box-Jenkins methods of ARMA model identification. J. Amer. Statist. Assoc, 16,
pp. 579-587.
Wallace, C.S., Freeman, P.R. (1987) Estimation and inference by compact coding
(with discussion). J. Roy. Statist. Soc, B 49, pp. 240-265.
Wynn, P. (1956) On a device to compute the e m (Sm) transformation. Math. Tables

andAids to Corn., 10, pp. 91-96.

Sad 1990 15 1 61 0

Transféré par

Droits d'auteur :

Formats disponibles

Sad 1990 15 1 61 0

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Sad 1990 15 1 61 0

Transféré par

Droits d'auteur :

Formats disponibles

Statistique et analyse

D INH T UAN P HAM

© Association pour la statistique et ses utilisations, 1990, tous droits réservés.

Article numérisé dans le cadre du programme

CHOIX DE MODELE EN ANALYSE DES SERIES

Laboratoire de Modélisation et Calcul

Mots clefs : choix de l'ordre, identification de modèle, fonction de vraisemblance,

Keywords : order sélection, identification, likelihood fonction, autoregressive-

Manuscrit reçu en avril 1990, revisé en septembre 1990

L'inférence statistique paramétrique est basée sur la donnée d'un modèle

2. GENERALITES SUR LES MODELES ARMA ET LEUR

L'analyse statistique des séries chronologiques est essentiellement une analyse du

Xt = - ]T aj Xt.j + et + £ bj et.j (2.1)

f(K) = <r £ b j e i j X / £ ajeijX / (2K) , (a0 = b 0 = 1),

pourvu que le dénominateur ^ aj e u du second membre précédent ne s'annule pas.

Comme la structure de covariance d'un processus dépend uniquement de sa densité

(i) E (et I Xs- s < t) = 0

(i) Identification : on essaie d'identifier le type de modèle, soit AR (q = 0) soit

(ii) Ajustement du modèle : on estime les paramètres par les méthodes

centrées de variance ^ P?/n> n

L'approche précédente sera appelée interactive par opposition à l'approche

Le modèle AR fut le premier à bénéficier des procédures de choix automatique de

3. APPROCHE INTERACTIVE POUR LE CHOIX DE L'ORDRE

La définition (2.1) montre que la fonction d'autocovariance d'un processus ARMA

°ù Ym = ^ (Xt X t . m ) désigne la fonction d'autocovariance du processus.

Notons que si les méthodes précédentes appliquées à la fonction d'autocorrélation

empirique, et il se pose le problème de prendre en compte l'erreur due à l'estimation.

où les ak (i, j) sont solution du système d'équations

On peut interpréter y y comme la différence entre le premier et le second membre de (3.1)

Notons que v m = 0 pour m > q. Par la suite, on examinera les statistiques

qui pour i = p, j > q ou i > p, j = q, sont asymptotiquement normales centrées de

Les zéros dans le tableau des A (resp. A) se groupent toujours en

Notons X t | s la projection de X t sur le sous-espace de Hilbert

où et un bruit blanc (ou plus généralement un processus stationnaire de densité spectrale

ainsi que la covariance partielle n (p, q, m) entre Xt + q | t . ^ t . m et X t + q . p | t . ^ t . m

impulsionnelle H (z) = X Wj zK On cherche, par la méthode de Padé, une

1) Si la fonction d'autocorrélations pj du processus satisfait une récurrence linéaire, la

2) Les autocorrélations partielles empiriques (à partir du rang p 0 + 1) ont la propriété

autocorrélations partielles associées à cette inverse, appelées autocorrélations partielles

4. CHOIX AUTOMATIQUE DE L'ORDRE

Il existe de nombreux travaux consacrés au problème de choix automatique de

modèles spécifiées par deux sous-ensembles de 0 ' et 0 " de 0 . Il est naturel de

Le signe * désignant le transposé. D'après les propriétés bien connues de

AIC = 2 (-maximum de log vraisemblance + nombre de paramètres).

Dans le cas du modèle AR d'ordre p, la fonction log-vraisemblance a pour

précédemment. Le critère d'Akaike prend alors la forme

L'utilisation de la vraisemblance approchée permet de simplifier les calculs sans changer

La performance du critère AIC (ou FPE) pour le choix de l'ordre du modèle AR a

Pour corriger la tendance de surestimation de l'ordre de la procédure d'Akaike

différent de la régression. Il s'avère que a > 2 permet seulement d'atténuer la

BIC (p) = n log c p + p log n + 0 (1),

où a (p, q) est l'estimateur de a (p, q, <*>), c'est-à-dire a ( p , q,m) avec m tendant

Une solution à ce problème est la procédure à plusieurs étapes proposée par

degré v = max(p, q) - po, de coefficients 4>j avec OQ = 1 et - 0 1 ? ... , O v les

et(e) = - t bj et.j (8) + Xt + f aj XH

Beaucoup de méthodes pour le choix de l'ordre du modèle ARMA ont été

Nous remercions le rapporteur anonyme pour ses critiques constructives et pour

Akaike, H. (1973) Information theory and an extension of the maximum likelihood

Ansley, C, S, (1979) An algorithm for the exact likelihood of a mixed