Sad 1990 15 1 61 0
Sad 1990 15 1 61 0
Sad 1990 15 1 61 0
des données
PHAMDinhTuan
Résumé
Cet article fait le point des différentes méthodes du choix de V ordre du modèle
ARMA en séries chronologiques. Deux types d'approche sont décrits en détail :
approche interactive et approche automatique.
Classification AMS : 62 M 10
Abstract
Our subject concerns various methodsfor selecting the order ofARMA models in
time séries analysis. Two approaches are described : interactive and automatic
approaches.
1. INTRODUCTION
où les aj, bj sont des constantes et et est une suite de variables aléatoires centrées non
correlées de même variance a 2 . Cette classe de modèles contient deux sous-classes
importantes : celle des modèles autorégressifs (AR) qui correspondent au cas q = 0 et
celle des modèles moyenne mobile (MA - moving average en anglais -) qui correspondent
au cas p = 0.
H est facile de voir que le processus (1) a pour densité spectrale
* A.
moyenne mobile, peuvent avoir un facteur commun, et que (ii) la factorisation d'un
polynôme trigonométrique positif en X en le carré d'un polynôme en e*** n'est pas
unique. Pour enlever la première ambiguité, il suffit d'imposer la condition que les
polynômes autorégressif et moyenne mobile n'ont pas de racine commune. Quant à
l'unicité de la factorisation, elle sera réalisée si on se restreint aux polynômes n'ayant pas
de racines à l'intérieur du cercle unité du plan complexe (on les appelle polynômes
stables). On supposera donc que les polynômes autorégressif et moyenne mobile sont
stables. Cette dernière condition est équivalente à ce que e t soit l'innovation du
processus, c'est-à-dire e t = X t - Xt 1 1 . \ où X t 1 1 . \ désigne le meilleur prédicteur
linéaire de Xt basé sur les observations passées jusqu'à l'instant t - 1.
64 Pham D. T.
Jusqu'à présent, nous avons seulement supposé que les innovations e t sont non
corrélées. En pratique, pour obtenir des résultats intéressants comme la normalité
asymptotique des estimateurs, on a besoin d'hypothèses plus fortes sur ceux-ci.
L'hypothèse minimale semble être la suivante :
et
(ii) E | e t I Xs* s < t ] = G (nonaléatoire).
Toutefois, dans la littérature, on travaille souvent sous l'hypothèse que les e t sont
indépendantes et équidistribuées. Nous appellerons dans ce cas le processus X t ARMA
au sens strict
Box et Jenkins (1970) ont été les premiers à populariser l'usage des modèles
ARMA dans l'étude des séries chronologiques. Ils ont proposé une méthodologie simple
pour sa modélisation. Celle-ci comporte trois étapes :
(iii) Validation du modèle : on teste le modèle proposé pour voir si celui-ci est
en accord avec les observations. Si le modèle est rejeté, on revient à (i) pour
une nouvelle identification. Sinon, le modèle peut être retenu.
On voit que la partie la plus délicate est l'étape (i), l'étape (ii) et (iii) étant des
problèmes classiques bien étudiés. Pour l'étape (i), Box et Jenkins ont proposé une
méthode d'identification de modèle MA et AR, basée sur l'examen des fonctions
d'autocorrélation empirique et d'autocorrélation partielle empirique, respectivement. En
effet, on sait que les autocorrélations p k , de retard k, d'un processus MA d'ordre q, sont
nulles pour k > q. On peut donc reconnaître un tel processus en examinant les
autocorrélations empiriques qui, pour k > q, sont asymptotiquement normales
CHOIX D'UN MODELE ARMA 65
L'approche de Box et Jenkins a été généralisée par la suite au cas des modèles
ARMA par divers auteurs. L'idée de base est de construire une famille de statistiques
indexée par deux indices, qui seront faibles (plus exactement qui tendent vers zéro quand
n tend vers l'infini), à partir de certains indices directement liés aux ordres du vrai
modèle. L'examen d'un tel tableau de statistiques permettra au statisticien de choisir un
couple d'ordres probable pour une modélisation préliminaire, qui sera validé par la suite
par un test d'adéquation.
Nous avons distingué deux types d'approche pour le choix de l'ordre du modèle
ARMA, et mentionné succintement les travaux qui sont à leur origine. Dans la suite nous
examinerons plus en détail les développements récents de ces deux approches. Citons
toutefois une autre démarche consistant à considérer le problème comme un problème de
test d'hypothèse multiple où il faut choisir une parmi plusieurs hypothèses possibles
(McClave, 1978, Duong, 1984). On peut aussi envisager de sélectionner le modèle par
une succession de tests d'adéquation. Pour éviter le problème d'identification, on
commence par les modèles d'ordre faible et on augmente l'ordre tant que le test rejette le
modèle (Pôtscher, 1983).
--ii Ym-j »
j=l
m >
<i» #-1)
Pj-i+ll
D(j.i) =
Pj + i-1
\
et sont donc, d'après (3.1), nuls pour i > p et j > q. Notons que des méthodes
semblables ont été proposées par Woodside (1971) et Chow (1972). Une autre méthode,
proposée par Graupe, Krause et Moore (1975) procède de façon analogue, mais
utilise la réponse impulsionnelle, c'est-à-dire les coefficients w^ de l'expansion
1+ ±b ( 1 + >. a Wj z
j-i J20
à la place des autocorrélations. La méthode du coin est d'autre part directement liée à
l'epsilon algorithme car les quantités générées par ce dernier sont fonctions du
déterminant des matrices de Hankel
/
... p, i + k - 1 I
H (k,m) =
Pm + k-1 Pm + 2k-2
\ 7
Il est clair que H (k, m) = det D (m + k - 1, k). La méthode du coin nous semble
beaucoup plus simple que l'epsilon algorithme. L'intérêt de ce dernier provient du fait
qu'il est plus rapide sur le plan du calcul, mais récemment Pham (1984) a obtenu des
relations de récurrence pour calculer les quantités A (j, i) pour la méthode du coin. La
plus intéressante est
A G + 1, i) A Q - 1. i) « A 0. i) 2 - A Q, i + D A (j, i - 1 ) .
y8 = r j + i + 1 + X a k (i,j) r i + j + 1 . k
k^l
i
r
i + X M i . j ) ri-k= 0 , l = j + l , . . . , j + i . (3.2)
k=l
E( Yoi Y0j) = X vm vm + i . j
ou
P P 2 q4^l
a
V' mm = X X k a l Pm + k-1 = <* X b
k b k+|m|> ( a 0= b 0 = 1) • <3-3)
k=0 1=0 k=0
70 Pham D, T.
z r v* rm
ij= y , | n / m (i.j)j •
ou
vm = X X M M ) M M ) 'm+k-i.
k=0 1=0
Notons que toutes les méthodes reposent sur la propriété que les A (j, i) associés à
un modèle ARMA d'ordre (p, q) sont nuls pour i > p et j > q, mais il n'est pas clair que
l'inverse soit vrai. La méthode de Glasbey repose aussi sur le fait que le système (3.2)
ne converge pas vers un système singulier, c'est-à-dire A (j, i) * 0, pour i - p, j > q ou
i > p, j = q. Béguin, Gouriéroux et Montfort (1980) ont montré que c'est le cas si (p, q)
est le couple d'ordre minimal du modèle (en fait minimum, cf. Théorème 3.2). Le
résultat suivant (Pham, 1984) précise les positions possibles des zéros dans le tableau
des A.
Théorème 3.1
a
X i Pj-i = °» ( res P- X a
i rJ-i = 0)
» J = s + ^ -"s +k
•
1=0 1=0
Notons que pour i > p, j > q, le système (3.2) converge vers un système
singulier, et les statistiques n 1 / 2 y y ainsi que zy ne seront plus asymptotiquement
CHOIX D'UN MODELE ARMA 71
normales. Pham (1982) montre que celles-ci convergent encore en loi, mais la loi limite
est assez compliquée pour être d'une grande utilité. Evidemment, dans le cas où i < p
ou j < q, y y et zy/n 1 ' 2 convergent vers une limite finie, sauf si A (j - 1, i - 1) = 0.
Les statistiques yy précédentes peuvent avoir une variance importante, ce qui limite
la capacité de discerner des modèles d'ordre voisin de la méthode précédente. En effet,
en considérant â^ (i, j) comme des constants, yy apparaît comme une combinaison
linéaire des autocorrélations empiriques de retard j + 1,..., j + i. Or, les autocorrélations
de grands retards sont généralement mal estimées. En plus si A (j, i) est proche de zéro,
les âk (i, j) seront très instables. Pour cette raison, Pham (1988) a introduit une nouvelle
méthode où les statistiques considérées sont calculées à partir d'un grand nombre
d'autocorrélations estimées, ce qui améliore leur précision. Cette méthode est basée sur
la caractérisation suivant du modèle ARMA.
Théorème 3.2
Note
La définition du processus ARMA dans le Théorème précédent n'exclu pas le cas
où le polynôme autorégressif a des racines sur le cercle unité pourvu que celles-ci soient
annulées par des racines indentiques du polynôme moyenne mobile. Ainsi la classe de
ces processus ARMA contient les processus harmoniques avec bruit additif :
72 Pham D. T.
A
Xt = X k cos(w k t + y k J + e t
k= l
e t (p,q,m) = X l + q U _ u _ m + X aj(p,q,m) X t + q _ j t t _ u _ m ,
j=i
e t (p,q,m) = X t + q _ p _ l u . u . m + X a p + 1 ( p , q , m ) X t + q _ j l t . u _ m ,
et Rissanen (1982) (ces auteurs ont fait tendre m vers l'infini avec n). Nous reviendrons
sur cette procédure dans le paragraphe suivant.
Récemment, Chaverie, Szpiro et Topol (1990) ont proposé une autre méthode
d'identification de modèle ARMA basé sur la transformée en z de la réponse
approximation rationnelle de degrés (i, j) de cette fonction dans un voisinage d'un point
zo (à choisir). D est vrai que l'approximation est exacte quand le processus est ARMA
d'ordre (p, q) avec p > i, q > j , et par suite l'examen des suites approximantes de Padé
permet de déceler les ordres du modèle. Cette méthode diffère des précédentes
essentiellement du fait qu'elle est basée sur les réponses impulsionnelles WJ au lieu des
autocorrélations, et en plus comme on considère l'expansion de Taylor de H (z) autour de
ZQ, ce sont en fait des combinaisons linéaires de WJ qui jouent le rôle des autocorrélations
(dans le même ordre d'idée, on peut travailler avec une certaine transformation de la
séquence des autocorrélations comme dans la note ci-dessous). Le choix de zo, n'est
toutefois pas clair et aucun résultat concernant le comportement probabiliste des
statistiques considérées n'est disponible.
Note
p
a
"X j X t . j comme prédicteur de Xt. L'erreur de prédiction (à un pas) est donc
i-i
p
a
et (p) = Xt + 2* j X t . j, et sa variance est notée G£. Si on tient compte de
j= i
l'erreur d'estimation des coefficients du modèle, on arrive à une erreur de prédiction
finale dont la variance est a p (1+p/n). Mais, comme on ne connaît pas <Tp, on doit
l'estimer, par exemple, par
^2
X
°P - X U + 1 îjp H
t-p+1 j=l
^2
où âjp sont des estimateurs des moindres carrés de ajp. Or, cet estimateur a p est biaisé
et, pour corriger son biais, on doit le multiplier par n / (n - p). On est donc amené au
critère
ï « « - ^ ( i + f ) / ( i - S ) . : î ( i + ï).
introduit par Akaike (1969) sous le nom FPE (final prédiction error en anglais). Notons
que les calculs précédents concernent un modèle centré ; dans le cas non centré, le facteur
p / n sera remplacé par (p + 1) / n. D'un autre côté, l'ajustement du modèle autorégressif
d'ordre p permet de construire l'estimateur de la densité spectrale du processus par
76 Pham D. T.
2 .
, ^ -iA, ^ -ipX
f(X) = a p / 2TC
1 + a lp e + ... + a p p e
Un critère raisonnable pour le choix de l'ordre p du modèle est donc l'erreur intégrée de
cet estimateur de densité spectrale :
j E | [ f ( X ) - f ( X ) f / f ( X ) / d*
Parzen (1974,1976) a montré que minimiser cette erreur est asymptotiquement équivalent
à minimiser le critère CAT (Autoregressive Transfer Criterion)
-2 -2
CAT(p) = iLLl J Cj . îl^P a p , p > 0, (CAT(O) = -(1 + 1/n)) .
En pratique, les critères FPE et CAT choisissent très souvent le même ordre. Ceci
se voit en remarquant que pour p voisin de l'ordre vrai po du modèle,
~2 ^2
(p - Po) / n et a p - c p o sera petite et par suite
^2 ^2 ^2
FPE(p) - Const. + o p - o po + - (p - p0) a po
,2 ^2 \ ^4 ^2
CAT(p) - Const. + ^ a p - OVQJ I a po + - (p - p0) / a'Po*
Plus récemment, Akaike (1973) a introduit un critère très général pour le choix
d'un modèle basé sur la notion d'information. Considérons un modèle spécifié par un
paramètre vectoriel 9 € ©, un ouvert de RP. Soit L„ (8) la fonction log-vraisemblance
normalisée par la taille n de l'échantillon. Alors, sous des conditions très générales,
L n (6) converge quand n tend vers infini vers L^, (6) = - H (PQ, P) oùPe désigne la
loi de l'observation associée au modèle et P la vraie loi, et où H (Q, P) est l'entropie
relative de Q par rapport à P (au sens de Kullback-Leibner). On sait que H (Q, P) est
minimum quand Q = P, et par suite H (Pe, P) - H (P, P) peut être utilisé comme une
fonction de perte quand le modèle spécifié par 6 est utilisé à la place du "vrai modèle" (ce
dernier peut ne correspondre à aucun 6 dans 8 ) . Soient maintenant deux classes de
CHOIX D'UN MODELE ARMA 77
2
^ * / \
L . (e0) - L M (e-) + I (e0 - e-) | - L_ (G() (e 0 - v),
\ae /
^2\ „2
Cette fonction a pour maximum - ( n / 2 ) log \opf + Const. où a p est défini comme
78 Pham D. T.
^2
AIC(p) = nlog o p + 2p . (4.1)
^2 j .-2 ^2
BIC(p) = n l o g a, p - 2(n-p)log(
^ . - , , ^ 1 - nJ j] +• Kplogn
w e „ +. rp~log
& L p xox/op- 1
^2
où a p désigne la variance empirique du processus. Pour p fixé et n tendant vers infini,
on a
En négligeant le terme 0(1) on obtient une version simplifiée de BIC qui est précisément
"*2
le critère de Schwarz (1978) : log c p + p log n.
En résumé, pour le modèle AR, on dispose d'un critère de choix automatique de
^2
l'ordre de la forme n log o p + otn p. Le choix de ctn dépend de l'objectif de l'analyse.
S'il s'agit d'une estimation spectrale ou d'une prédiction non paramétrique (où on n'est
pas sûr que le processus sous-jacent soit autorégressif), il est recommandé de prendre
ccn = 2 ou <xn s a > 2. S'il s'agit d'estimer l'ordre d'un processus (réellement)
autorégressif, il est préférable de prendre o^ = log n ou 0¾ = 2c log log n, c > 1.
Une comparaison de ces différentes procédures appliquées aux séries réelles d'EEG
(électroencéphalogramme) se trouvent dans Franke, Gasser et Steinberg (1985).
Sur le plan pratique, le calcul du critère peut être effectué rapidement à l'aide de
l'algorithme de Levinson-Durbin. Cet algorithme permet d'ajuster de façon récursive des
modèles AR d'ordre successif. On obtient ainsi les autocorrélations partielles
^2
empiriques, soient - âpp, p < 1, et on calcule les o p récursivement par
oi = oî-i (l - aL).
80 Pham D. T.
Cette relation montre le lien entre la procédure automatique et l'approche interactive basée
sur l'examen de la fonction d'autocorrélation partielle empirique. En effet, la différence
des critères correspondant aux ordres p et p' est approximativement
11 a
UFP" J+ - +n
(V" a J
La généralisation des procédures précédentes aux modèles ARMA est immédiate.
On minimise le critère
^2
log a p q + <xn (p + q) (4.2)
où a n = 2 pour AIC, = logn pour BIC, = c log log n pour le critère d'Hannan et
^2
Quinn. Ici, a p q est l'estimateur de la variance de l'innovation dans un modèle ARMA
d'ordre q, obtenue comme la moyenne quadratique des résidus d'un ajustement standard
(voir par ex. Box et Jenkins, 1970) du modèle. La forme (4.2) résulte en fait de
l'utilisation d'une fonction de vraisemblance approchée, calculée sous l'hypothèse
gaussienne. Cette forme peut aussi bien résulter de l'utilisation d'une fonction de
vraisemblance exacte, toujours sous l'hypothèse gaussienne, à condition d'incorporer un
terme jacobien (voir Ansley, 1979). Ici, l'hypothèse gaussienne est utilisée pour écrire la
vraisemblance mais les propriétés asymptotiques de la procédure ne dépendent pas de
cette hypothèse. Notons toutefois que même en travaillant avec la vraisemblance
approchée, l'utilisation des critères précédents est très lourde, car l'ajustement de modèle
ARMA n'est pas récursif en ordre comme dans le cas du modèle AR, et demande en plus
un calcul itératif coûteux. Pour cette raison, Hannan et Rissanen (1982) ont introduit un
autre critère de la forme
^2
n l o g o (p,q) + (p + q) logn (4.3)
•N.2 2 <~*
Une autre approche pour le choix de modèle a été proposée par Rissanen (1978),
basée sur un principe qu'il appelle "longueur de description minimum". Le modèle est vu
comme une description des données observées, et on cherche naturellement à trouver la
description la plus courte. Rissanen considère donc le codage de données, qui est
optimal pour le modèle proposé. On sait que le code sera (en moyenne) le plus court si et
seulement si les données sont réellement engendrées selon celui-ci. Dans le cas où une
famille paramétrique de modèles, indexée par G est donnée, on cherchera le modèle qui
rendra le plus court le code correspondant, ce qui conduit à un estimateur de G de 8, qui
est en fait asymptotiquement équivalent à l'estimateur du maximum de vraisemblance.
Mais le code résultant des observations ne suffit pas, car il faut coder aussi le modèle
choisi, c'est-à-dire 8. La longueur totale de ces deux codes est le critère de comparaison
entre différentes classes de modèles. Dans le cas de modèles ARMA ce principe conduit
au critère de Schwarz, à des termes négligeables près. Rissanen a appliqué son principe
dans un cadre "non prédictif', c'est-à-dire les données sont codées seulement quand elles
sont toutes observées. Dans un travail ultérieur, Rissanen (1986) a formulé le principe de
"longueur de description minimum prédictif dans lequel le codage d'une observation
s'effectue, dès qu'elle est disponible, selon sa loi de probabilité conditionnelle (suivant le
modèle adopté) sachant les observations passées. Il a aussi introduit la notion de
complexité stochastique, définie uniquement à partir des observations, de la donnée d'une
classe de modèles et éventuellement des connaissances a priori, mais ne faisant aucune
référence à l'existence d'un "vrai modèle". Pour plus de détails voir Rissanen (1978,
1983,1986,1987) et aussi Wallace et Freeman (1987).
Il est important de souligner une difficulté propre au problème du choix de l'ordre
du modèle ARMA lié au surajustement. En effet, si p > PQ et q > qo alors le modèle
n'est pas indentifiable et l'estimateur du maximum de vraisemblance sera très instable et
le maximum de la vraisemblance n'aura pas le comportement standard (la matrice
d'information de Fisher est en fait singulière). Hannan (1982) a considéré le cas où on
ajuste un modèle ARMA d'ordre (1, 1) au bruit blanc et a montré que le maximum de
L n (8) tend vers infini avec n (voir aussi Veres, 1987). Par suite, AIC dans ce cas
choisira l'ordre (1,1) avec une probabilité tendant vers 1. Dans le cas de BIC, à cause de
la sévère pénalité associée au choix du modèle d'ordre élevé, ce critère choisira encore
correctement l'ordre avec une probabilité tendant vers 1 (ce résultat de convergence a été
établi de façon générale par Hannan, 1980). Toutefois on n'a pas de résultat de
convergence pour le critère d'Hannan et Quinn (¾ = c log log n). Dans tous les cas, il
est clair qu'une procédure du choix de l'ordre basée sur le maximum de vraisemblance,
favorise les modèles strictement surajustés. Or, on veut précisément éviter de les choisir
82 Pham D. T.
car ils ne sont pas identifiables et donc les paramètres estimés n'ont pas de signification.
Notons aussi que l'ajustement par maximum de vraisemblance d'un tel modèle est aussi
très difficile car les estimateurs ont tendance à aller vers le bord du domaine admissible
des paramètres (de plus ils ne sont pas convergents). Le surajustement est inévitable car
la procédure de choix consiste à ajuster des modèles de tout ordre, jusqu'à un maximum
fixé à l'avance.
p
1 + Z*i âj (p, q, m) 7) converge vers <ï>(z) (1 + 2-r aj T) ) où O(z) est un polynôme de
et = * £ bj e H + Xt + JT ïj X H
j=i j=i
où (p\ qf) est l'ordre et Sj, j = 1, ... , p* et bj, j = 1, ... , q1 sont des estimateurs des
paramètres, choisis à l'étape 2 (notons que cette étape comporte déjà une correction du
choix de l'ordre obtenu par minimisation de (4.3)). On calcule ensuite de façon récursive
CHOIX D'UN MODELE ARMA 83
et on fait, pour tout couple (p, q), une régression de ë t + Tit - Çt sur - T | t l , ...,-T| t ,
Çt • 1 » - - -» £t - q * *-* moyenne quadratique des résidus de cette régression sera utilisée
^2
comme a ^ dans (4.2) pour le choix de l'ordre du modèle.
Une méthode analogue, proposée dans Pham (1986) procède de la façon suivante.
^2
L'idée est de modifier la quantité Gpq dans (4.3) de sorte que - n/2 fois son logarithme
comporte comme un maximum de vraisemblance (i.e. diffère de la vraisemblance évaluée
en le vrai modèle par une variable du x2)» même quand p > po, q > qo- Pour (p, q)
donné, notons 8 = ( a l t ...,a p , b l 9 . . . , b p ) et 8 son estimateur de maximum de
vraisemblance alors Opq apparaît comme moyenne quadratique des ê t (8), t = 1, ... , n,
où les êt(8) sont définis par la récurrence
avec les données initiales nulles. Notons ©o l'ensemble des paramètres correspondant
au vrai modèle et soit 8* un estimateur n1/2 convergent de 8 quand p < po ou q > qo,
au sens que n sup e 6 Bo II 8 - 8 11 est borné en probabilité quand n tend vers infini,
00 étant l'ensemble des paramètres correspondant au vrai modèle. La
~2 * * 2
e
modification consiste alors à prendre comme Cpq le minimum de 2* t (8) où
t= i
e :W= at(e*)JA;|(e*)(e-e1.
On montre qu'on peut prendre comme 8* les âj (p, q, m) précédents et les estimateurs de
bj qui en découlent. Cette méthode diffère de la méthode d'Hannan et Kavalieris par le
fait qu'il n'y a pas de choix de l'ordre à l'étape 2. On se sert uniquement d'un estimateur
fourni par cette étape pour construire le critère.
5. CONCLUSION
systématique de la performance des différentes méthodes est souhaitable mais une telle
étude ne semble pas avoir été faite. En ce qui concerne les méthodes interactives, la
comparaison est difficile vu le fait qu'il y a un élément subjectif dans le choix retenu.
Une autre difficulté est l'absence d'un bon critère pour cette comparaison. La
considération de la fréquence où le procédé a choisi l'ordre correct est insuffisante, car le
procédé peut choisir un ordre incorrect mais le modèle correspondant reste très proche du
vrai modèle, ce qui est moins grave que si ce choix aboutit à un modèle complètement
différent. En fait, si le vrai modèle est bien distinct des autres, la plupart des procédés de
choix permettent de l'identifier. C'est seulement dans le cas où il existe des modèles
alternatifs assez proches de celui-ci que l'identification est difficile, mais dans ce cas,
choisir un modèle alternatif en question n'est pas très grave. En pratique, le procédé
d'identification de modèles est adopté souvent selon le goût du praticien ou par simplicité
(l'existence d'un logiciel qui implante ce procédé, par ex.). La méthode empirique simple
suivante est aussi couramment employée et donne des résultats satisfaisants dans
beaucoup de cas. Elle consiste à ajuster des modèles AR d'ordre 1, 2, 3 et 4 pour les
données trimestrielles ou 12 pour les données mensuelles (pour tenir compte de la
saisonnalité), puis examiner les autocorrélations empiriques des résidus. Si pour un
modèle AR (p), il y a "troncation" de celle-ci au rang q, (c'est-à-dire la série des résidus
semble provenir d'un modèle MA (q), on adoptera le modèle ARMA (p, q). En ce qui
concerne les méthodes automatiques, il s'avère que le critère d'Akaike a tendance à
surestimer l'ordre et de plus l'ordre choisi a une plus grande dispersion que celui obtenu
par les critères d'Hannan ou BIC. Cependant ceci ne s'applique qu'au cas où le modèle
sous-jacent est bien un modèle ARMA d'un certain ordre. Dans le cas où le modèle
ARMA n'est qu'une approximation du vrai modèle et il s'agit de déterminer l'ordre
optimal pour la meilleur approximation, le critère d'Akaike est plus adapté que les autres.
L'adoption d'un critère dépend donc du contexte de son utilisation.
REMERCIEMENTS
REFERENCES
Akaike, H, (1969) Fitting autoregressive model for prédiction. Ann. Inst. Statist.
Math., 21, pp. 243-247.
Akaike, H. (1970) Statistical predictor identification. Ann. Inst. Statist. Math., 22,
pp. 203-217.
Akaike, H. (1978) A Bayesian analysis for the minimum AIC procédure. Ann. Inst.
Statist. Math., 30, pp. 9-14.
Akaike, H. (1979) A Bayesian extensian extension of the minimum AIC procédure for
autoregressive model fitting. Biometrika, 66, pp. 237-242.
Atkinson, A.C. (1980) A note on the generalized information criterion for choice of a
model. Biometrika, 67, pp. 413-418.
Bhansali, R.J. (1983) The inverse partial autocorrélation function of a time séries and
its applications. / . Mult. Anal, 13, pp. 310-327.
Box, G.P.E., Jenkins, G.M. (1970) Time Séries Analysis, Forecasting and
Control. San Francisco : Holden Day.
Cleveland, W.S. (1972) The inverse autocorrélations of a time séries and their
application. Technometrics, 14, pp. 277-293.
Findley, D.F. (1985) On the unbiasedness property of AIC for exact or approximating
linear stochastic time séries models. /. Time Séries Anal., §, pp. 229-252.
Gray, H.L., Kelley, G.D., Mclntyre, D.D. (1978) A new approach to ARMA
modelling. Comm. Statist. SimuL Comp., B7, pp. 1-77.
Hannan, E.J. (1982) Testing for autocorrélation and Akaike's criterion. Essays in
Statistical Science. Papers in Honnor of P. A. Moran, Appl. Prob. Trust, pp. 403-412.
Hannan, E.J., Deistler, M* (1988) The statistical theory of linear System. New
York : Wiley.
Hannan, E.J., Kavalieris, L. (1984) Multivariate linear time séries models. Adv.
Appl. Prob., 16, pp. 492-561.
88 Pham D. T.
Jones, R.H. (1975) Fitting autoregressions. / . Amer. Statist. Assoc, 70, pp. 590-
592.
McClave, J.T. (1978) Estimating the order of autoregressive model, the max %2
method. / . Amer. Statist. Ass., 73, pp. 122-128.
Pham, D.T. (1983) A survey of time séries analysis through parametric models. Math.
Operationsforchung. Statistik, séries Statistics, 14,4, pp. 603-631.
Pham, D.T. (1984) A note on some statistics useful in identifying the order of
autoregressive moving average model. / . Time Séries Anal., 5, pp. 273-279.
Pham, D.T. (1986) Parameter estimation and order sélection for autoregressive moving
average models. Rapport Recherche n° 614 M, Laboratoire TIM3, Institut IMAG,
Grenoble.
Pham, D.T. (1988) Estimation of autoregressive parameters and order sélection for
ARMA models. / . Time Séries Anal., 9, 3, pp. 265-269.
Parzen, E. (1974) Some récent advances in time séries modelling. IEEE Trans.
Automatic Control, AC-19, pp. 723-729.
Rissanen, J. (1978) Modelling by shortest data description. Automatica, 14, pp. 465-
471.
Rissanen, J. (1986) Stochastic complexity and modelling. Ann. Statist., 14, pp.
1080-1100.
Schwarz, G. (1978) Estimating the dimension of a model. Ann. Statist., 6, pp. 461-
464.
Shibata, R. (1980) Asymptotically efficient sélection of the order of the for estimation
parameters of a linear process. Ann. Statist., 8, pp. 147-244.
Tsay, R.S., Tiao, G.C. (1984) Consistent estimate of autoregressive parameters and
extended sample autocorrélation function for stationary and non stationary ARMA
models. J. Amer. Statist. Ass, 79, pp. 84-86.
90 Pham D. T.
Woodward, W.A., Gray, H.L. (1981) On the relationship between the S array and
the Box-Jenkins methods of ARMA model identification. J. Amer. Statist. Assoc, 16,
pp. 579-587.
Wallace, C.S., Freeman, P.R. (1987) Estimation and inference by compact coding
(with discussion). J. Roy. Statist. Soc, B 49, pp. 240-265.