Doucoure Econometrie SAM2 BEM 2022

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 144

Master 2 en Statistique Appliquée au Management

Cours : Méthodes économétriques

Professeur : Fodiyé Bakary Doucouré

Maître de Conférences Titulaire

Maître en économétrie

Docteur en statistique

Support de cours

Chapitre 1 : Econométrie des données de panel…………….….…...1

Chapitre 2 : Econométrie des variables qualitatives………………..55

Chapitre 3 : Cointégration et modèle à correction d’erreur..……...94

Juillet 2022
Chapitre 1 / L’économétrie des données de panel

CHAPITRE 1
L’économétrie des données de panel

Objectifs pédagogiques du chapitre 1

Lorsque vous aurez complété l’étude du chapitre 1, vous pourrez :

1. définir une variable de panel ;

2. énoncer les avantages et les inconvénients des données de panel;

3. maîtriser l’économétrie des modèles de panel stationnaires (modèle


sans effets, modèle à effets fixes, modèle à effets aléatoires) ;

4. utiliser les tests de spécification (Fisher, Breusch-Pagan, Hausman) pour


déterminer le meilleur modèle ;

5. maîtriser l’économétrie des modèles de panel dynamiques ;

6. estimer les paramètres des modèles de panel dynamiques par la


méthode des moments généralisés (Arellano-Bond; Blundell-Bond) ;

7. utiliser les différents types de modèles de panel à des fins de


prévision.

1
Chapitre 1 / L’économétrie des données de panel

Partie 1 : Eléments de cours

A. Modèles de panel classiques

1. Introduction

Les données de panel (Yit) sont une combinaison de séries temporelles (Yt)

et de coupes instantanées (Yi)

Les données de panel (Yit) sont des données à deux dimensions, un premier
indice i, caractérise l’individu considéré, un deuxième indice, t, le moment
dans le temps où l’observation a été réalisée.

Yit , i 1, , n ; t  1, , T

Les données de panel sont constituées d’un ensemble de T observations


temporelles sur n unités statistiques.

L’individu (ou unité statistique) peut désigner une personne (un chef de
ménage), une entreprise, un pays, …

La période peut désigner une année, un semestre, un trimestre, un mois,


une semaine, un jour, une heure, une minute, ….

Exemple de variable de panel :

La variable « PIB de 4 pays africains sur la période 2014 à 2018 » est


une variable en panel.

PIBit , 1  i  n , 1  t  T
n  4 ; T  5 ; nT  20

Le pays représentant l’individu (indice i) mesure l’effet spatial.

2
Chapitre 1 / L’économétrie des données de panel
L’année étant la période (indice t) mesure l’effet temporel.

obs pays année pib


1 1 2014
2 1 2015
3 1 2016
4 1 2017
5 1 2018
6 2 2014
7 2 2015
8 2 2016
9 2 2017
10 2 2018
11 3 2014
12 3 2015
13 3 2016
14 3 2017
15 3 2018
16 4 2014
17 4 2015
18 4 2016
19 4 2017
20 4 2018

Avant d’exposer les modèles de panel, nous indiquons leurs avantages


et inconvénients.

2. Avantages et inconvénients des données de panel

2.1 Avantages des données de panel

Les données de panel

a. permettent d’obtenir des séries temporelles longues à moindre coût car


elles sont basées sur nT observations où n est le nombre d’individus et
T le nombre de périodes ;

3
Chapitre 1 / L’économétrie des données de panel
b. permettent de capter les effets dynamiques dans le comportement des
agents ;

c. permettent de contrôler l’hétérogénéité individuelle et / ou temporelle ;

d. permettent d’obtenir beaucoup d’informations sur les populations ;

e. donnent un gain d’efficacité dans les estimations puisqu’elles sont basées


sur nT observations ;

L'accroissement de la taille de l'échantillon conduit à l'augmentation du


nombre de degrés de liberté. Les estimations et les résultats des tests
économétriques sont meilleurs.

f. engendrent un faible niveau de colinéarité entre les variables explicatives


grâce aux 2 indices (Hsiao, 1986).

Les données sont plus variées, plus précisément, les différences individuelles
(par firmes, par pays, etc.) sont importantes, il s’en suit une moindre
colinéarité entre les variables explicatives du modèle.

L’avantage fondamental des données de panel est de permettre au chercheur


d’avoir une grande flexibilité dans la modélisation des différences entre les
individus.

La double dimension des données de panel constitue un avantage décisif


par rapport aux autres types de données, séries temporelles et coupes
transversales.

Cette double dimension permet en effet de prendre compte simultanément


de la dynamique des comportements et de leur éventuelle hétérogénéité, ce
qui n’est pas possible avec des séries temporelles ou les coupes
instantanées (transversales).

4
Chapitre 1 / L’économétrie des données de panel
2.2 Inconvénients des données de panel

Les données de panel

a. sont coûteuses à maintenir sur plusieurs périodes ; (coût de stockage)

b. captent difficilement les effets temporels lorsque le nombre de périodes


(T) est petit ;

c. engendrent des méthodes économétriques compliquées (sophistiquées) ;

d. nécessitent pour leur utilisation, des logiciels très performants.

C’est pourquoi il paraît difficile de se passer des logiciels Stata, Eviews, RATS,
R, LIMDEP, Gauss ou SAS (Statistical Analysis System), particulièrement
adaptés à l’estimation des modèles de données de panel.

En dépit de ces limites, les économistes s'accordent de dire que les avantages
des données de panel sont plus importants que les inconvénients.

Les économistes préconisent que chaque fois qu'il y a moyen de faire une
analyse en panel il faut la privilégier par rapport aux modèles en coupe
instantanée ou en séries temporelles.

3. Modèles de panel classiques

Le modèle de panel s’écrit matriciellement :

(1) Yi t  Xi t b  εi t

avec i  1 ,  , n et t  1 ,  , T

Y est la variable endogène , X est la matrice des variables explicatives,


b est le vecteur des paramètres et ε le terme d’erreur.

5
Chapitre 1 / L’économétrie des données de panel
On suppose que :

-- εi t est une perturbation aléatoire centrée, E(ε i t )  0 ,  i , t

-- les variables explicatives X i t sont indépendantes de εi t

-- les variables explicatives X i t sont non colinéaires

Remarque 1 : Echantillon cylindré

On suppose que l’échantillon est cylindré (balanced) : T observations sont


disponibles pour chacun des n individus, cette hypothèse assez restrictive
peut conduire à l’élimination de certaines informations utiles à l’estimation du
modèle.

Pour tirer partie de la double dimension, individuelle et temporelle, différents


schémas de variation des paramètres sont proposés.

3.1 Modèle à effets fixes

Considérons les variables produit intérieur brut (pib), investissement (inv),


capital humain (ch), exportations (x) et taux d’inflation (tinf) des 8 pays de
l’UEMOA.

Nous désirons estimer une fonction de croissance économique, sur la


période 2011 à 2020.

Le modèle à effets fixes s’écrit :

pib i t  αi  a1inv i t  a 2chi t  a 3x i t  a 4 tinf i t  εi t


1  i  n ; 1  t  T ; n  8 ; T 10

Les coefficients αi sont les effets individuels fixes, ils sont constants dans
le temps mais propres à chaque individu (pays).

6
Chapitre 1 / L’économétrie des données de panel

Le coefficient αi est appelé « effet spécifique » de l’individu i, il permet de


capter l’hétérogénéité individuelle.

Ce modèle contient 12 paramètres :

a1 , a 2 , a 3 , a 4 , α1 , α 2 ,, α8

Ce modèle a un seul effet spécifique. L’estimateur défini sur le modèle à


un seul effet fixe est l’estimateur «Within».
On peut aussi inclure un effet temporel λ t non aléatoire dans l’écriture du
modèle à effets fixes.
Le modèle devient alors :

pib i t  α i  λ t  a1inv i t  a 2 chi t  a 3 x i t  a 4 tinf i t  ε i t


1  i  n ; 1  t  T ; n  8 ; T 10

L’estimateur défini sur le modèle à deux effets fixes est appelé «Double
Within».

3.2 Modèle à effets aléatoires

Le modèle à effets aléatoires s’écrit :

pib i t  c  a1inv i t  a 2 chi t  a 3 x i t  a 4 tinf i t  α i  u i t


1  i  n ; 1  t  T ; n  8 ; T 10

avec
ε i t  αi  u i t

αi et u i t sont des perturbations (ou erreurs) aléatoires non corrélées.

Les coefficients α i sont maintenant aléatoires.

On les estime avec les paramètres a1 , a 2 , a 3 , a 4 et c .

7
Chapitre 1 / L’économétrie des données de panel

L’erreur de l’équation εi t est composée de 2 parties :

α i : effet individuel
u it : effet résiduel

Le modèle à effets aléatoires est appelé modèle à erreurs composées.

Ce modèle comporte 13 paramètres :

c , a1 , a 2 , a 3 , a 4 , α1 , α 2 ,, α8

L’estimateur défini sur le modèle à effets aléatoires est celui des


Moindres Carrés Généralisés (MCG).

GLS : Generalized Least Squares

L’estimateur des MCG est appelé estimateur de Aitken.

3.3 Modèle sans effets

Le modèle sans effets s’écrit :

pib i t  α  a1inv i t  a 2 chi t  a 3 x i t  a 4 tinf i t  ε i t


1  i  n ; 1  t  T ; n  8 ; T 10

On suppose que les coefficients α sont constants dans le modèle à effets


fixes.

Ce modèle contient 5 paramètres :


α , a1 , a 2 , a 3 , a 4
L’estimateur défini sur le modèle sans effets est celui des Moindres
Carrés Ordinaires (MCO).

L’estimateur des MCO est appelé estimateur de Gauss-Markov.

8
Chapitre 1 / L’économétrie des données de panel
3.4 Modèles à coefficients variables

On suppose une variabilité des coefficients d’un individu à l’autre et d’une


période à l’autre.
Le modèle s’écrit :

PIBi t  α  bit Xi t  εi t
1  i  n ; 1  t  T ; n  8 ; T 10

Les effets sur les coefficients peuvent être individuels et / ou temporels.

On a alors b  b  δ  λt où δ
i
est effet spécifique individuel et
it i

λt représente l’effet spécifique temporel.

On peut distinguer deux possibilités :

-- Lorsque les effets δi et λ t sont considérés comme fixes, on a un modèle


à coefficients composés fixes.

-- Lorsque les effets δi et λ t sont considérés comme aléatoires, on a un


modèle à coefficients aléatoires.

L’estimateur défini sur ce modèle est appelé « estimateur de Hsiao ».

4. Tests de spécification sur données de panel

Lorsque que l’on considère de données de panel, la toute première chose qu’il
convient de vérifier est la spécification homogène ou hétérogène du processus
générateur des données.

Sur le plan économétrique, cela revient à tester l’égalité des coefficients (αi )
du modèle étudié dans la dimension individuelle.

9
Chapitre 1 / L’économétrie des données de panel
Sur le plan économique, les tests de spécification reviennent à déterminer
si l’on est en droit de supposer que le modèle théorique étudié est
parfaitement identique pour tous les individus (les pays de l’UEMOA ont le
même PIB), ou au contraire s’il existe des spécificités propres à chaque
individu (les pays de l’UEMOA n’ont pas le même PIB).

4.1 Test de Fisher

Le test de Fisher permet de choisir entre le modèle sans effets et celui


à effets fixes.
Le test d’hypothèses s’écrit :

H0 : le modèle sans effets est approprié


H1 : le modèle à effets fixes est approprié

4.2 Test de Breusch et Pagan

Le test de Breusch-Pagan permet de choisir entre le modèle sans effets


et celui à effets aléatoires.
Le test d’hypothèses s’écrit :

H0 : le modèle sans effets est approprié


H1 : le modèle à effets aléatoires est approprié

4.3 Test de Hausman

Le test de Hausman permet de choisir entre le modèle à effets aléatoires


et celui à effets fixes.
Il sert à discriminer les effets fixes et aléatoires.

Le test d’hypothèses s’écrit :

H0 : le modèle à effets aléatoires est approprié


H1 : le modèle à effets fixes est approprié

10
Chapitre 1 / L’économétrie des données de panel

Remarque 2 : Quelques arguments d’ordre général facilitant le choix


des modèles à effets fixes ou à effets aléatoires

Lorsque la probabilité du test de Hausman est supérieure à 10%, le test


de Hausman ne permet pas de différencier le modèle à effets fixes du
modèle à effets aléatoires.
Dans ce cas on peut se référer à quelques arguments qui facilitent le choix
du modèle :

-- Lorsque la variation intra individuelle des variables est plus forte que
la variation interindividuelle, le modèle à effets fixes est plus approprié que
le modèle à effets aléatoires et vice versa.

La commande xtsum du logiciel Stata permet d’obtenir les variances intra


individuelles (within) et les variances inter individuelles (between).

-- Lorsque la dimension temporelle est très réduite, par exemple à deux


périodes, le modèle à effets fixes donne de moins bons résultats que le
modèle à effets aléatoires.

Exemple d’application

Dans cette étude de cas, nous procédons à l’estimation économétrique d’une


fonction de consommation des pays de l’UEMOA.
Les données couvrent 6 pays de l’UEMOA et sont disponibles de 1973 à
1993.
Les pays considérés sont : Bénin, Burkina, Côte d’ivoire, Niger, Sénégal et
Togo.

Soit consit la consommation du pays i observée à la date t. Nous cherchons à

relier cette variable aux dépenses gouvernementales notées gouvit.

11
Chapitre 1 / L’économétrie des données de panel
Le modèle considéré est :

consit  αi  β gouvi t  εi t n  6 ; T  21

1. Effectuer les différents tests de spécification.

2. Donner les estimations du meilleur modèle. Interpréter la valeur du


coefficient de détermination.
Interpréter les estimations et tester la significativité du coefficient β.

3. Tester l’hypothèse de corrélation des résidus.

4. Prévoir les consommations des pays des pays de l’UEMOA pour les
années 1994 et 1995 en utilisant le meilleur modèle.

Partie 1 : Solution avec Stata

Avant d’estimer les modèles de panel, on doit indiquer à Stata, la nature


des données.
Pour cela, il faut utiliser la commande :

xtset pays annee

panel variable: pays (unbalanced)


time variable: annee, 1973 to 1995
delta: 1 unit

L’individu est le pays et l’année est la période.

1. Tests de spécification avec Stata

1.1 Test de Fisher

H0 : le modèle sans effets est approprié (Estimateur des MCO)


H1 : le modèle à effets fixes est approprié (Estimateur Within)

Le test de Fisher est automatiquement effectué après l’estimation du


modèle à effets fixes.

12
Chapitre 1 / L’économétrie des données de panel

xtreg cons gouv, fe

Le logiciel affiche :

F test that all u_i=0: F(5, 119) = 38.87


Prob > F = 0.0000

La statistique de Fisher vaut 38,87 avec une probabilité critique nulle.


L’hypothèse nulle d’absence d’effets est rejetée au seuil de 1%.
Ce test suggère que le Within est plus performant que l’estimateur des MCO.
Le modèle à effets fixes est meilleur que celui sans effets.

1.2 Test de Breusch-Pagan

H0 : le modèle sans effets est approprié (Estimateur des MCO)

H1 : le modèle à effets aléatoires est approprié (Estimateur des MCG)

On estime d’abord le modèle à effets aléatoires.

xtreg cons gouv, re

L’instruction Stata xttest0 effectue le test de Breusch-Pagan.

Le logiciel affiche :

Breusch and Pagan Lagrangian multiplier test for random effects

cons[pays,t] = Xb + u[pays] + e[pays,t]

Estimated results:
| Var sd = sqrt(Var)
---------+-----------------------------
cons | 327037.6 571.8721
e | 6190.219 78.67794
u | 13143.43 114.6448

Test: Var(u) = 0
chibar2(01) = 399.66
Prob > chibar2 = 0.0000

13
Chapitre 1 / L’économétrie des données de panel

La statistique de Breusch-Pagan (399,66) indique une probabilité critique


nulle. L’hypothèse nulle d’absence d’effets est rejetée au seuil de 1%.

Le test du multiplicateur de Lagrange suggère que l’estimateur des MCG est


plus performant que celui des MCO et rejette logiquement l’estimation par les
MCO dans la dimension totale.

Le modèle à effets aléatoires est meilleur que celui sans effets.

Les tests de Fisher et de Breusch-Pagan indiquent la présence d’effets


spécifiques.
Nous effectuons le test de Hausman qui sert à discriminer les effets fixes et
aléatoires.

1.3 Test de Hausman

H0 : le modèle à effets aléatoires est approprié (Estimateur des MCG)


H1 : le modèle à effets fixes est approprié (Estimateur Within)

Nous effectuons le test de Hausman qui sert à discriminer les effets fixes et
aléatoires.
Le test de Hausman s’exécute après l’estimation du modèle à effets
aléatoires.

xtreg cons gouv, re

On exécute les 4 commandes suivantes :

xtreg cons gouv, fe

est store fixed

xtreg cons gouv , re

hausman fixed . , sigmamore

14
Chapitre 1 / L’économétrie des données de panel
---- Coefficients ----
| (b) (B) (b-B) sqrt(diag(V_b-V_B))
| fixed . Difference S.E.
-------------+----------------------------------------------------------------
gouv | 3.051585 3.257678 -.2060931 .1102026
------------------------------------------------------------------------------
b = consistent under Ho and Ha; obtained from xtreg
B = inconsistent under Ha, efficient under Ho; obtained from xtreg

Test: Ho: difference in coefficients not systematic

chi2(1) = (b-B)'[(V_b-V_B)^(-1)](b-B)
= 3.50
Prob>chi2 = 0.0615

Pour l’échantillon considéré, la réalisation de la statistique du test de Hausman


est égale à 3,5.

Comme la probabilité critique (0,0615) est supérieure à 5%, l’hypothèse


nulle n’est pas rejetée.

Nous devons donc privilégier l’adoption d’un modèle à effets aléatoires et


retenir l’estimateur des Moindres Carrés Généralisés.

Conclusion : le modèle à effets aléatoires est le meilleur modèle pour


estimer les déterminants de la consommation des pays de l’UEMOA.

2.

2.1 Estimation du modèle à effets aléatoires

xtreg cons gouv , re

Random-effects GLS regression Number of obs = 126


Group variable: pays Number of groups = 6

R-sq: Obs per group:


within = 0.6499 min = 21
between = 0.9709 avg = 21.0
overall = 0.9526 max = 21

15
Chapitre 1 / L’économétrie des données de panel

Wald chi2(1) = 343.61


corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000

------------------------------------------------------------------------------
cons | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gouv | 3.257678 .1757419 18.54 0.000 2.913231 3.602126
_cons | 211.8394 55.22912 3.84 0.000 103.5923 320.0864
-------------+----------------------------------------------------------------
sigma_u | 114.6448
sigma_e | 78.677945
rho | .67982147 (fraction of variance due to u_i)
------------------------------------------------------------------------------

Pour obtenir les valeurs des effets aléatoires α̂1, α̂ 2 , , α̂6 , on effectue
la commande suivante :

predict aleat ,u

Les effets aléatoires sont indiqués dans le tableau suivant :

Pays Effets aléatoires


Bénin -35,68
Burkina Faso -23,29
Côte d’Ivoire 112,15
Niger -60,45
Sénégal 185,69
Togo -178,41

L’examen des valeurs obtenues indique que le Sénégal et la Côte d’Ivoire


ont structurellement les consommations incompressibles les plus élevées.

2.2 Pour le modèle à effets aléatoires, le R² le plus pertinent est le R²


between, c’est la mesure de la variabilité inter-individuelle de la variable
dépendante expliquée par celles des variables explicatives.

Le R² within quant à lui donne une idée de la contribution des effets


aléatoires pays du modèle.

R_sq between = 0.9709

16
Chapitre 1 / L’économétrie des données de panel

La valeur du R² between indique que 97,09% des fluctuations des


consommations des 6 pays de l’UEMOA sont expliquées par les
dépenses gouvernementales.

2.3 Test de significativité de la variable explicative

H0 : β  0 contre H1 : β  0

Le ratio de Student est égal 18,54 avec une probabilité critique nulle.
Comme la probabilité critique nulle est inférieure à 5%, on rejette l’hypothèse
nulle. Les dépenses gouvernementales ont un impact positif significatif sur
les consommations.

3. Test de corrélation des résidus de Pesaran

H0 : les résidus du modèle à effets aléatoires ne sont pas corrélés


H1 : les résidus du modèle à effets aléatoires sont corrélés

Après l’estimation des paramètres du modèle effets fixes, on saisit la


commande :

xtcsd, pesaran

Pesaran's test of cross sectional independence = 4.986, Pr = 0.0000

Les résidus du modèle à effets aléatoires sont corrélés.

4. Prévision

La commande de la prévision est :

predict prev

prev est le nom de la variable prévue.

17
Chapitre 1 / L’économétrie des données de panel
Pour visualiser à l’écran les valeurs prévues.

list pays annee prev if cons==.

pays annee prev |


|-------------------------|
22. | 1 1994 423.5884 |
23. | 1 1995 426.8461 |
45. | 2 1994 576.6993 |
46. | 2 1995 579.957 |
68. | 3 1994 1742.948 |
|-------------------------|
69. | 3 1995 1752.721 |
91. | 4 1994 553.8956 |
92. | 4 1995 566.9263 |
114. | 5 1994 889.4365 |
115. | 5 1995 902.4672 |
|-------------------------|
137. | 6 1994 384.4963 |
138. | 6 1995 397.527 |

Partie 2 : Solution avec Eviews

1. Estimation des paramètres du modèle à effets aléatoires

LS(CX=R) CONS? GOUV? @CXREG C

Dependent Variable: CONS?


Method: Pooled EGLS (Cross-section random effects)
Sample (adjusted): 1973 1993
Included observations: 21 after adjustments
Cross-sections included: 6
Total pool (balanced) observations: 126
Swamy and Arora estimator of component variances

Variable Coefficient Std. Error t-Statistic Prob.

C 211.8394 54.66556 3.875189 0.0002


GOUV? 3.257678 0.173949 18.72782 0.0000
Random Effects (Cross)
_PAYS1--C -35.68407
_PAYS2--C -23.29025

18
Chapitre 1 / L’économétrie des données de panel
_PAYS3--C 112.1538
_PAYS4--C -60.45072
_PAYS5--C 185.6856
_PAYS6--C -178.4145

Effects Specification
S.D. Rho

Cross-section random 114.6448 0.6798


Idiosyncratic random 78.67794 0.3202

Weighted Statistics

R-squared 0.734822 Mean dependent var 107.2659


Adjusted R-squared 0.732683 S.D. dependent var 153.7426
S.E. of regression 79.48905 Sum squared resid 783495.2
F-statistic 343.6098 Durbin-Watson stat 0.539521
Prob(F-statistic) 0.000000

Unweighted Statistics

R-squared 0.936527 Mean dependent var 724.2507


Sum squared resid 2594775. Durbin-Watson stat 0.162909

Les deux logiciels indiquent les mêmes estimations.

2. Prévision

Après l’estimation des paramètres du modèle à effets aléatoires la


prévision de la variable endogène est obtenue par l’instruction Eviews :

Cliquer sur Proc  Make Model  Solve  OK

Les prévisions obtenues pour un horizon de deux années sont données


dans le tableau ci-dessous :

années pays1 pays2 pays3 pays4 pays5 pays6


1994 387,90 553,41 1855,10 493,44 1075,12 206,08
1995 391,16 556,67 1864,88 506,48 1088,15 219,11

19
Chapitre 1 / L’économétrie des données de panel
B. Les modèles de panel dynamiques

1. Introduction

Les anticipations, l’existence de coûts d’ajustement, les phénomènes


d’habitude, sont autant d’éléments dont la prise en compte dans la
modélisation des comportements conduit à spécifier des modèles dynamiques.

Parmi ceux-ci, les modèles de type autorégressif, i.e les modèles comptant
les variables retardées de la variable endogène parmi les variables
explicatives, occupent une place importante.

2. Le modèle autorégressif à effets fixes

Le modèle dynamique à effets fixes s’écrit

K
Yit  aYi t 1  f i   b k X kit  ε i t
k 1

On démontre que les estimateurs usuels des moindres carrés ordinaires


sont non convergents.

Pour estimer les paramètres d’un tel modèle, on dispose de l’estimateur des
moments généralisés.

3. Le modèle autorégressif à erreurs composées

Le modèle autorégressif à effets aléatoires fixes s’écrit


K
Yit  aYi t 1   b k X kit  u i  ε i t
k 1

Pour estimer les paramètres d’un tel modèle, on dispose de l’estimateur des
moments généralisés (GMM).

20
Chapitre 1 / L’économétrie des données de panel
4. Méthode des moments généralisés (GMM) en panel dynamique

C’est la méthode « magique » qui fait fureur chez les macro-économistes


depuis quelques années.

Selon ses défenseurs, cette méthode permet d’apporter des solutions aux
problèmes de biais de simultanéité, de causalité inverse et de variables
omises.

Un modèle dynamique est tel qu’un ou plusieurs retards de la variable


endogène sont considérées comme variables explicatives.
K
Yit  f i  g t  aYi t 1   b k X kit  u i  ε i t
k 1

Les techniques économétriques standard comme les moindres carrés


ordinaires ne permettent pas d’avoir des estimations efficientes d’un tel
modèle à cause de la présence de la variable retardée à droite de
l’équation.

On dispose de deux classes d’estimateurs des GMM en panel dynamique :


l’estimateur GMM en première différence et l’estimateur GMM en système

4.1 Estimateur GMM en première différence de Arellano et Bond

L’estimateur GMM en première différence de Arellano et Bond (1991)


consiste à prendre pour chaque période la première différence de l’équation
à estimer pour éliminer les effets spécifiques pays, et ensuite à instrumenter
les variables explicatives de l’équation en première différence par leurs
valeurs en niveau retardées d’une période ou plus.

21
Chapitre 1 / L’économétrie des données de panel
4.2 Estimateur GMM en système de Blundell et Bond (1998)

L’estimateur GMM en système de Blundel et Bond (1998) combine les


équations en première différence avec les équations en niveau dans
lesquelles les variables sont instrumentées par leurs premières différences.
Blundell et Bond (1998) ont montré à l’aide des simulations de Monte Carlo
que l’estimateur GMM en système est plus performant que celui en
première différence.

5. Les tests d’hypothèses

Deux tests sont associés aux différents estimateurs des modèles de


panels dynamiques : le test de suridentification de Sargan et Hansen (appelé
aussi test de validité des instruments) et le test d’autocorrélation d’Arellano
et Bond où l’hypothèse nulle est l’absence d’autocorrélation de premier ou
de second ordre des erreurs de l’équation en différence.

Ces deux tests sont automatiquement effectués après la commande


xtabond2 du logiciel Stata.

22
Chapitre 1 / L’économétrie des données de panel
Partie 2 : Enoncés et solutions des études de cas

Etude de cas 1 : Fonction d’investissement de 3 firmes

Dans cette étude de cas, nous procédons à l’estimation économétrique d’une


fonction simple d’investissement de trois firmes d’un pays africain.

Soit invit l’investissement de la firme i observé à la date t.

Nous cherchons à relier cette variable à la variable profit notée profit.

Le modèle de panel considéré est :

inv it  α i  β profit  ε it 1  i  n ; 1  t  T
n  3 ; T  10
Les données (en milliards de FCFA), disponibles de 2011 à 2020 sont
reportées dans le tableau suivant :

firme année inv prof


1 2011 13.32 12.85
1 2012 26.3 25.69
1 2013 2.62 5.48
1 2014 14.94 13.79
1 2015 15.8 15.41
1 2016 12.2 12.59
1 2017 14.93 16.64
1 2018 29.82 26.45
1 2019 20.32 19.64
1 2020 4.77 5.43
1 2021 7
1 2022 10
1 2023 12
1 2024 10
2 2011 20.3 22.93
2 2012 17.47 17.96
2 2013 9.31 9.16
2 2014 18.01 18.73

23
Chapitre 1 / L’économétrie des données de panel

2 2015 7.63 11.31


2 2016 19.84 21.15
2 2017 13.76 16.13
2 2018 10 11.61
2 2019 19.51 19.55
2 2020 18.32 17.06
2 2021 15
2 2022 19
2 2023 16
2 2024 13
3 2011 8.85 8.65
3 2012 17.96 16.55
3 2013 3.87 1.47
3 2014 24.19 24.91
3 2015 3.99 5.01
3 2016 5.73 8.3
3 2017 26.68 22.7
3 2018 11.49 8.36
3 2019 18.49 15.44
3 2020 20.84 17.87
3 2021 17
3 2022 20
3 2023 15
3 2024 14

La période 2021 à 2024 est utilisée à des fins de prévision.

1. Saisir les données.

2. Estimer et interpréter les paramètres du modèle sans effets. Interpréter


la valeur du coefficient de détermination et tester la significativité de la
variable profit.
3. Estimer et interpréter les paramètres du modèle à effets fixes. Interpréter
la valeur du coefficient de détermination et tester la significativité de la
variable profit.
Effectuer le test de Pesaran de corrélation des résidus du modèle.
24
Chapitre 1 / L’économétrie des données de panel
4. Estimer et interpréter les paramètres du modèle à effets aléatoires.
Interpréter la valeur du coefficient de détermination et tester la significativité
de la variable profit.
Effectuer le test de Pesaran de corrélation des résidus du modèle.

5. Effectuer les différents tests de spécification (Fisher, Breusch-Pagan et


Hausman)

6. Prévoir les investissements des trois firmes pour les années 2021 à
2024 en utilisant le meilleur modèle.

7. On considère le modèle de panel suivant :

log(inv it )  α i  β log( profit )  ε it 1 i  n ; 1 t  T


n  3 ; T  10
où log est le logarithme népérien.

Estimer les paramètres des différents modèles de panel.

Partie 1 : Solution avec Stata

Pour tous les tests qui vont suivre, nous choisissons le seuil de 5%.

La règle de décision est :

-- Si la valeur de Probability est supérieure à 5%, on ne rejette pas


l’hypothèse nulle H0.

-- Si la valeur de Probability est inférieure ou égale à 5%, on rejette


l’hypothèse nulle H0.

25
Chapitre 1 / L’économétrie des données de panel
1. Saisie des données

Il est plus simple de copier les données à partir de Excel

a. Sélectionner et copier les données à partir de Excel


b. Lancer Stata 15.
c. Cliquer sur Data Editor (Edit)

d. Click droit de la souris et ensuite cliquer sur Paste.


e. La fenêtre suivante apparaît

f. Cliquer sur Variable names


Les données sont maintenant collées.

g. Pour enregistrer le fichier des données

File  Save as

Nom du fichier : Saisir inv_prof_3firmes

 Enregistrer

h. Commande xtset

Avant d’estimer les modèles de panel, on doit indiquer à Stata, la nature


des données.
26
Chapitre 1 / L’économétrie des données de panel
Pour cela, il faut utiliser la commande :

xtset firme annee

panel variable: firme (strongly balanced)


time variable: annee, 2011 to 2024
delta: 1 unit

L’individu est la firme et l’année est la période.


Le panel est fortement cylindré (strongly balanced) car toutes les variables
sont renseignées.
Le panel ne comporte pas de données manquantes.

2. Modèle sans effets

2.1 Estimation des paramètres du modèle sans effets

Le modèle sans effets s’écrit :

inv it  α  β profit  ε it 1 i  n ; 1 t  T
n  3 ; T  10

regress inv prof

Source | SS df MS Number of obs = 30


-------------+---------------------------------- F(1, 28) = 344.26
Model | 1399.35394 1 1399.35394 Prob > F = 0.0000
Residual | 113.814108 28 4.06478959 R-squared = 0.9248
-------------+---------------------------------- Adj R-squared = 0.9221
Total | 1513.16805 29 52.1782087 Root MSE = 2.0161

------------------------------------------------------------------------------
inv | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
prof | 1.056729 .0569533 18.55 0.000 .9400653 1.173392
_cons | -.7673684 .9281691 -0.83 0.415 -2.668637 1.1339
------------------------------------------------------------------------------

Les paramètres estimés sont :

α̂   0,767 ; β̂  1,057

27
Chapitre 1 / L’économétrie des données de panel

2.2 Interprétation économique des paramètres estimés

β̂  1,057 est l’estimation de la propension marginale à investir.

Si les profits des 3 firmes augmentent de 10 milliards de FCFA, alors


leurs investissements augmentent de 10,57 milliards de FCFA, toutes
choses égales par ailleurs.

2.3 Interprétation du coefficient de détermination

R-squared = 0.9248 = 92.48%

La valeur du R² indique que 92,48% des fluctuations des investissements


des 3 firmes sont expliquées par leurs profits.

2.4 Test de significativité de la variable explicative

Testons les hypothèses

H0 : β  0 contre H1 : β  0

Le ratio de Student est égal 18,55 avec une probabilité critique nulle.
Comme la probabilité critique nulle est inférieure à 5%, on rejette l’hypothèse
nulle.
Les profits des 3 firmes ont un impact positif significatif sur leurs
investissements.

3. Modèle à effets fixes

3.1 Estimation des paramètres du modèle à effets fixes


(Estimateur Within)

Le modèle à effets fixes s’écrit :

inv it  α i  β profit  ε it 1  i  n ; 1  t  T
n  3 ; T  10

28
Chapitre 1 / L’économétrie des données de panel

xtreg inv prof , fe

Fixed-effects (within) regression Number of obs = 30


Group variable: firme Number of groups = 3

R-sq: within = 0.9486 Obs per group: min = 10


between = 0.8633 avg = 10.0
overall = 0.9248 max = 10

F(1,26) = 479.99
corr(u_i, Xb) = -0.2300 Prob > F = 0.0000

------------------------------------------------------------------------------
invest | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
profit | 1.097122 .0500768 21.91 0.000 .9941876 1.200056
_cons | -1.371676 .8125698 -1.69 0.103 -3.041937 .2985847
-------------+----------------------------------------------------------------
sigma_u | 1.3900164
sigma_e | 1.7233223
rho | .39415572 (fraction of variance due to u_i)
------------------------------------------------------------------------------
F test that all u_i=0: F(2, 26) = 6.16 Prob > F = 0.0065

L’estimation des paramètres donne :

β̂  1,097

Le tableau d’estimation n’affiche pas les effets fixes α̂1 , α̂ 2 , α̂ 3

Affichage des effets fixes à l’écran

On peut stocker sous le nom de la variable fixes, la liste des effets fixes
(cross).

Pour obtenir les valeurs de α̂1 , α̂ 2 , α̂ 3 , on effectue la commande


suivante :

predict fixes,u

scalar _1_c=fixes in 1

scalar _2_c=fixes in 15

scalar _3_c=fixes in 29

29
Chapitre 1 / L’économétrie des données de panel

display _1_c
-.01871116

display _2_c
-1.3805664

display _3_c
1.3992774

Les effets fixes sont :

α̂1   0,019 ; α̂ 2  1,381 ; α̂3  1,399

3.2 Interprétation économique des paramètres estimés

β̂  1,097 est l’estimation de la propension marginale à investir.

Si les profits des 3 firmes augmentent de 10 milliards de CFA, alors


leurs investissements augmentent de 10,97 milliards de FCFA, toutes
choses égales par ailleurs.

3.3 Interprétation du coefficient R²

Pour le modèle à effets fixes, le R² le plus pertinent est le R² within,


car il donne une idée de la part de la variabilité intra-individuelle de la
variable dépendante expliquée par celles des variables explicatives.

Le R² between quant à lui donne une idée de la contribution des effets


fixes.

R-sq: within = 0.9486 = 94,86%

30
Chapitre 1 / L’économétrie des données de panel

La valeur du R² within indique que 94,86% des fluctuations des


investissements des 3 firmes sont expliquées par leurs profits.

3.4 Test de significativité de la variable explicative

Testons les hypothèses

H0 : β  0 contre H1 : β  0

Le ratio de Student est égal 21,91 avec une probabilité critique nulle.
Comme la probabilité critique nulle est inférieure à 5%, on rejette l’hypothèse
nulle.
Les profits des 3 firmes ont un impact positif significatif sur leurs
investissements.

3.5 Test de corrélation des résidus de Pesaran

H0 : les résidus du modèle à effets fixes ne sont pas corrélés


H1 : les résidus du modèle à effets fixes sont corrélés

Attention il faut télécharger le package xtcsd qui est disponible sur les
versions récentes du logiciel Stata.

vous tapez dans la barre de commande

findit xtcsd

vous suivez ensuite les instructions pour télécharger le package.

Après l’estimation des paramètres du modèle effets fixes, on saisit la


commande :

xtcsd, pesaran

Pesaran's test of cross sectional independence = 0.022, Pr = 0.9824

31
Chapitre 1 / L’économétrie des données de panel

Comme la probabilité critique du test (98,24%) est supérieure à 5%, on


ne rejette pas l’hypothèse nulle.
Les résidus du modèle à effets fixes ne sont pas corrélés.

4. Modèle à effets aléatoires

4.1 Estimation des paramètres du modèle à effets aléatoires (Estimateur


des Moindres Carrés Généralisés : MCG)

GLS : Generalized Least Squares

Le modèle à effets aléatoires s’écrit :

inv it  β profit  α i  ε it 1  i  n ; 1  t  T
n  3 ; T  10

xtreg inv prof , re

Random-effects GLS regression Number of obs = 30


Group variable: firme Number of groups = 3

R-sq: within = 0.9486 Obs per group: min = 10


between = 0.8633 avg = 10.0
overall = 0.9248 max = 10

Wald chi2(1) = 344.26

corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000

------------------------------------------------------------------------------
invest | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
profit | 1.056729 .0569533 18.55 0.000 .9451025 1.168355
_cons | -.7673684 .9281691 -0.83 0.408 -2.586546 1.05181
-------------+----------------------------------------------------------------
sigma_u | 0
sigma_e | 1.7233223
rho | 0 (fraction of variance due to u_i)
------------------------------------------------------------------------------

L’estimation des paramètres donne :

β̂  1,057

32
Chapitre 1 / L’économétrie des données de panel

Affichage des effets aléatoires à l’écran

Pour cela, on effectue la commande suivante

predict alea,u

Les effets aléatoires sont nuls.

α̂1  0 ; α̂ 2  0 ; α̂ 3  0

4.2 Interprétation économique des paramètres estimés

β̂  1,057 est l’estimation de la propension marginale à investir.

Si les profits des 3 firmes augmentent de 10 milliards de CFA, alors


leurs investissements augmentent de 10,57 milliards de FCFA, toutes
choses égales par ailleurs.

4.3 Interprétation du coefficient R²

Pour le modèle à effets aléatoires, le R² le plus pertinent est le R²


between, c’est la mesure de la variabilité inter-individuelle de la variable
dépendante expliquée par celles des variables explicatives.

Le R² within quant à lui donne une idée de la contribution des effets


aléatoires pays du modèle.

R_sq between = 0.8633 = 86,33%

La valeur du R² between indique que 86,33% des fluctuations des


investissements des 3 firmes sont expliquées par leurs profits.

33
Chapitre 1 / L’économétrie des données de panel

4.4 Test de significativité de la variable explicative

Testons les hypothèses

H0 : β  0 contre H1 : β  0

Le ratio de Student est égal 18,55 avec une probabilité critique nulle.
Comme la probabilité critique nulle est inférieure à 5%, on rejette l’hypothèse
nulle.
Les profits des 3 firmes ont un impact positif significatif sur leurs
investissements.

4.5 Test de corrélation des résidus sur le modèle à effets aléatoires

H0 : les résidus du modèle à effets aléatoires ne sont pas corrélés


H1 : les résidus du modèle à effets aléatoires sont corrélés

xtcsd, pesaran

Pesaran's test of cross sectional independence = 0.021, Pr = 0.9832

Comme la probabilité critique du test (98,32%) est supérieure à 5%, on


ne rejette pas l’hypothèse nulle.
Les résidus du modèle à effets aléatoires ne sont pas corrélés.

5. Tests de spécification sur données de panel

5.1 Test de Fisher

H0 : le modèle sans effets est approprié (Estimateur des MCO)

H1 : le modèle à effets fixes est approprié (Estimateur Within)

Ce test est effectué automatiquement après l’estimation des paramètres


du modèle à effets fixes.

34
Chapitre 1 / L’économétrie des données de panel

Le logiciel Stata donne :

F test that all u_i=0: F(2, 26) = 6.16


Prob > F = 0.0065 = 0,65%

La statistique de Fisher vaut 6,16 avec une probabilité critique égale à


0,65%.

Comme la probabilité critique (0,65%) est inférieure à 5%, l’hypothèse


nulle d’absence d’effets est rejetée.

Le modèle à effets fixes est meilleur que celui sans effets.

Ce test suggère que l’estimateur Within est plus performant que celui des
Moindres Carrés Ordinaires (MCO).

5.2 Test de Breusch-Pagan

H0 : le modèle sans effets est approprié (Estimateur des MCO)

H1 : le modèle à effets aléatoires est approprié (Estimateur des MCG)

Après l’estimation du modèle à effets aléatoires,

xttest0

Le logiciel affiche :
Breusch and Pagan Lagrangian multiplier test for random effects

inv[firme,t] = Xb + u[firme] + e[firme,t]

Estimated results:
| Var sd = sqrt(Var)
---------+-----------------------------
inv | 52.17821 7.223449
e | 2.96984 1.723322
u | 0 0

Test: Var(u) = 0
chibar2(01) = 0.00
Prob > chibar2 = 1.0000

35
Chapitre 1 / L’économétrie des données de panel
La statistique de Breusch-Pagan est nulle, sa probabilité critique vaut 1.
L’hypothèse nulle d’absence d’effets n’est pas rejetée.

Le modèle sans effets est meilleur que celui à effets aléatoires.


L’estimateur des MCO est plus performant que celui des MCG.

6.3 Test de Hausman

H0 : le modèle à effets aléatoires est approprié (Estimateur des MCG)


H1 : le modèle à effets fixes est approprié (Estimateur Within)

Nous effectuons le test de Hausman qui sert à discriminer les effets fixes et
aléatoires.
Le test de Hausman s’exécute après l’estimation du modèle à effets
aléatoires.

xtreg invest profit , re

Après l’estimation du modèle à effets aléatoires, on exécute les 4


commandes suivantes :

xtreg invest profit , fe

est store fixed

xtreg invest profit, re

hausman fixed . , sigmamore

36
Chapitre 1 / L’économétrie des données de panel
---- Coefficients ----
| (b) (B) (b-B) sqrt(diag(V_b-V_B))
| fixed . Difference S.E.
-------------+----------------------------------------------------------------
prof | 1.097122 1.056729 .0403931 .0137322
------------------------------------------------------------------------------
b = consistent under Ho and Ha; obtained from xtreg
B = inconsistent under Ha, efficient under Ho; obtained from xtreg

Test: Ho: difference in coefficients not systematic

chi2(1) = (b-B)'[(V_b-V_B)^(-1)](b-B)
= 8.65
Prob>chi2 = 0.0033 = 0,33%

Pour l’échantillon considéré, la réalisation de la statistique du test de Hausman


est de 8,65.

Comme la probabilité critique (0,33%) est inférieure à 5%, l’hypothèse


nulle de présence d’effets aléatoires est rejetée.
Le modèle à effets fixes est meilleur que celui à effets aléatoires.

L’estimateur Within est plus performant que celui des moindres carrés
généralisés.

Conclusion :

Le modèle à effets fixes est le meilleur modèle pour estimer les


déterminants de l’investissement des 3 firmes.

6. Prévision avec le modèle à effets fixes


Estimons à nouveau les paramètres du modèle à effets fixes.

quietly xtreg inv prof , fe

L’option quietly n’affiche pas le résultat de l’estimation du modèle.

La commande de la prévision est :

predict prev

prev est le nom de la variable prévue.

37
Chapitre 1 / L’économétrie des données de panel

Pour visualiser à l’écran les valeurs prévues.

list firme annee prev if inv==.

+--------------------------+
| firme annee prev |
|--------------------------|
11. | 1 2021 6.308177 |
12. | 1 2022 9.599544 |
13. | 1 2023 11.79379 |
14. | 1 2024 9.599544 |
25. | 2 2021 15.08515 |
|--------------------------|
26. | 2 2022 19.47364 |
27. | 2 2023 16.18228 |
28. | 2 2024 12.89091 |
39. | 3 2021 17.2794 |
40. | 3 2022 20.57076 |
|--------------------------|
41. | 3 2023 15.08515 |
42. | 3 2024 13.98803 |
+--------------------------+

Les prévisions obtenues pour un horizon de 4 années sont données


dans le tableau ci-dessous :

Année Firme 1 Firme 2 Firme 3


2021 6,308 15,085 17,279
2022 9,599 19,474 20,571
2023 11,794 16,182 15,085
2024 9,599 12,891 13,988

-- Graphiques linéaires des séries observée et prévue

38
Chapitre 1 / L’économétrie des données de panel
Firme 1

tsline inv prev if firme==1

30
20
10
0

2010 2015 2020 2025


annee

inv Linear prediction

Firme 2

tsline inv prev if firme==2


25
20
15
10
5

2010 2015 2020 2025


annee

inv Linear prediction

39
Chapitre 1 / L’économétrie des données de panel
Firme 3

tsline inv prev if firme==3

30
20
10
0

2010 2015 2020 2025


annee

inv Linear prediction

7. Estimation des paramètres du modèle logarithmique

Nous générons les logarithmes népériens des séries inv et prof.

gen linv = log(inv)

gen lprof = log(prof)

7.1 Estimation du modèle sans effets

regress linv lprof

Source | SS df MS Number of obs = 30


-------------+---------------------------------- F(1, 28) = 126.72
Model | 9.34308355 1 9.34308355 Prob > F = 0.0000
Residual | 2.06440276 28 .07372867 R-squared = 0.8190
-------------+---------------------------------- Adj R-squared = 0.8126
Total | 11.4074863 29 .393361597 Root MSE = .27153

------------------------------------------------------------------------------
Linv | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
Lprof | .916416 .0814078 11.26 0.000 .7496598 1.083172
_cons | .2045348 .2147265 0.95 0.349 -.2353125 .6443821
------------------------------------------------------------------------------

40
Chapitre 1 / L’économétrie des données de panel
7.2 Estimation du modèle à effets fixes

xtreg linv lprof , fe

Fixed-effects (within) regression Number of obs = 30


Group variable: firme Number of groups = 3

R-sq: Obs per group:


within = 0.8338 min = 10
between = 0.9346 avg = 10.0
overall = 0.8190 max = 10

F(1,26) = 130.48
corr(u_i, Xb) = -0.2961 Prob > F = 0.0000

------------------------------------------------------------------------------
Linv | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
Lprof | .9597203 .0840196 11.42 0.000 .7870155 1.132425
_cons | .0933984 .2210523 0.42 0.676 -.360981 .5477779
-------------+----------------------------------------------------------------
sigma_u | .10906273
sigma_e | .26655723
rho | .1434002 (fraction of variance due to u_i)
------------------------------------------------------------------------------
F test that all u_i=0: F(2, 26) = 1.53 Prob > F = 0.2360

7.3 Estimation du modèle à effets aléatoires

xtreg linv lprof , re

Random-effects GLS regression Number of obs = 30


Group variable: firme Number of groups = 3

R-sq: Obs per group:


within = 0.8338 min = 10
between = 0.9346 avg = 10.0
overall = 0.8190 max = 10

Wald chi2(1) = 126.72


corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000

------------------------------------------------------------------------------
Linv | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
Lprof | .916416 .0814078 11.26 0.000 .7568598 1.075972
_cons | .2045348 .2147265 0.95 0.341 -.2163214 .625391
-------------+----------------------------------------------------------------
sigma_u | 0
sigma_e | .26655723
rho | 0 (fraction of variance due to u_i)
------------------------------------------------------------------------------

41
Chapitre 1 / L’économétrie des données de panel
Partie 2 : Solution avec Eviews

1. Saisie des données

a. La première étape consiste à créer un espace de travail (WORKFILE) par

< File > < new-worfile >

Cliquer sur Annual

Dans la fenêtre Start : Saisir 1982

Dans la fenêtre End : Saisir 1995

2. Création et saisie des séries

Cliquer sur < Objects > < new objects > < pool >

Saisir _firm1 _firm2 _firm3

Cliquer sur Define

Cliquer sur < Views > < Spread sheet >

Dans la fenêtre « List of ordinary and panel » : Saisir invest? profit?

Cliquer sur Order + - puis

Cliquer sur Edit + -

Saisir les données

2. Estimation des paramètres des différents modèles

2.1 Estimation du modèle sans effets

INVESTi t  α  β1 PROFITi t  εi t

Cliquer sur Estimate pour estimer les paramètres des modèles.

42
Chapitre 1 / L’économétrie des données de panel

Dependent Variable : Saisir invest?


Common Coefficients : Saisir profit ?
Cross-section specific coefficients : Saisir c
Cross-section : Choisir None
Period : Choisir None
Cliquer sur OK

L’estimation par les MCO donne les résultats suivants :

Dependent Variable: INVEST?


Method: Pooled Least Squares
Sample (adjusted): 2011 2020
Included observations: 10 after adjustments
Cross-sections included: 3
Total pool (balanced) observations: 30

Variable Coefficient Std. Error t-Statistic Prob.

PROFIT? 1,097 0,050 21,909 0,000


_FIRM1--C -1,390 0,944 -1,473 0,153
_FIRM2--C -2,752 0,992 -2,774 0,010
_FIRM3--C 0,028 0,846 0,033 0,974

R-squared 0,949 Mean dependent var 15,042


Adjusted R-squared 0,943 S.D. dependent var 7,223

43
Chapitre 1 / L’économétrie des données de panel
S.E. of regression 1,723 Akaike info criterion 4,050
Sum squared resid 77,216 Schwarz criterion 4,237
Log likelihood -56,749 Hannan-Quinn criter. 4,110
F-statistic 161,171 Durbin-Watson stat 1,833
Prob(F-statistic) 0,000

La variable profit explique à 94,9% les investissements. L’examen de la


statistique de Student montre que la variable PROFIT est significative au seuil
de 1%.

2.2 Estimation du modèle à effets fixes

2.2.1 Estimation des paramètres du modèle à un effet fixe (estimateur


within)

INVESTi t  αi  β1 PROFITi t  εi t , 1  i  3

Dependent Variable : Saisir invest?


Common Coefficients : Saisir profit ?
Cross-section specific coefficients : Saisir c
Cross-section : Choisir Fixed
Period : Choisir None
Cliquer sur OK

L’estimation donne les résultats suivants :

Dependent Variable: INVEST?


Method: Pooled Least Squares
Sample (adjusted): 2011 2020
Included observations: 10 after adjustments
Cross-sections included: 3
Total pool (balanced) observations: 30

Variable Coef Std. Error t-Stat Prob.

C -1,372 0,813 -1,688 0,103


PROFIT? 1,097 0,050 21,909 0,000
Fixed Effects (Cross)
_FIRM1--C -0,019
_FIRM2--C -1,381
_FIRM3--C 1,399

44
Chapitre 1 / L’économétrie des données de panel

Effects Specification

Cross-section fixed (dummy variables)

R-squared 0,949 Mean dependent var 15,042


Adjusted R-squared 0,943 S.D. dependent var 7,223
S.E. of regression 1,723 Akaike info criterion 4,050
Sum squared resid 77,216 Schwarz criterion 4,237
Log likelihood -56,749 Hannan-Quinn criter. 4,110
F-statistic 161,171 Durbin-Watson stat 1,833
Prob(F-statistic) 0,000

La variable profit explique à 94,9% les investissements. L’examen de la


statistique de Student montre que la variable PROFIT est significative au seuil
de 1%.

2.2.2 Estimation des paramètres du modèle à 2 effets fixes (Estimateur


double Within)

INVESTi t  μ  αi  λ t  β1 PROFITi t  εi t ,
1  i  3 ; 1  t  10

Dependent Variable : Saisir invest?

Common Coefficients : Saisir profit ?

Cross-section specific coefficients : Saisir c

Cross-section : Choisir Fixed

Period : Choisir Fixed

Cliquer sur OK

L’estimation donne les résultats suivants :

45
Chapitre 1 / L’économétrie des données de panel

Dependent Variable: INVEST?


Method: Pooled Least Squares
Sample (adjusted): 2011 2020
Included observations: 10 after adjustments
Cross-sections included: 3
Total pool (balanced) observations: 30

Variable Coefficient Std. Error t-Statistic Prob.

C -1,634 1,050 -1,556 0,138


PROFIT? 1,115 0,067 16,615 0,000
Fixed Effects (Cross)
_FIRM1--C -0,026
_FIRM2--C -1,409
_FIRM3--C 1,435
Fixed Effects (Period)
2011--C -0,717
2012--C -0,157
2013--C 0,915
2014--C -0,658
2015--C -1,015
2016--C -1,396
2017--C -0,519
2018--C 1,490
2019--C 0,776
2020--C 1,281

Effects Specification

Cross-section fixed (dummy variables)


Period fixed (dummy variables)

R-squared 0,968 Mean dependent var 15,042


Adjusted R-squared 0,945 S.D. dependent var 7,223
S.E. of regression 1,698 Akaike info criterion 4,195
Sum squared resid 49,012 Schwarz criterion 4,803
Log likelihood -49,931 Hannan-Quinn criter. 4,390
F-statistic 42,321 Durbin-Watson stat 2,316
Prob(F-statistic) 0,000

46
Chapitre 1 / L’économétrie des données de panel
2.3 Estimation du modèle à effets aléatoires

2.3.1 Estimation des paramètres du modèle à un effet

INVESTi t  μ  β1 PROFITi t  αi  εi t , 1  i  3

Dependent Variable : Saisir invest?


Common Coefficients : Saisir profit ?
Cross-section specific coefficients : Saisir c
Cross-section : Choisir Random
Period : Choisir None
Cliquer sur OK

L’estimation donne les résultats suivants :

Dependent Variable: INVEST?


Method: Pooled EGLS (Cross-section random effects)
Sample (adjusted): 2011 2020
Included observations: 10 after adjustments
Cross-sections included: 3
Total pool (balanced) observations: 30
Swamy and Arora estimator of component variances

Variable Coefficient Std. Error t-Statistic Prob.

C -0,767 0,793 -0,967 0,342


PROFIT? 1,057 0,049 21,707 0,000
Random Effects (Cross)
_FIRM1--C 0
_FIRM2--C 0
_FIRM3--C 0

Effects Specification
S.D. Rho

Cross-section random 0.000000 0.0000


Idiosyncratic random 1.723322 1.0000

Weighted Statistics

R-squared 0,925 Mean dependent var 15,042


Adjusted R-squared 0,922 S.D. dependent var 7,223
S.E. of regression 2,016 Sum squared resid 113,814
47
Chapitre 1 / L’économétrie des données de panel
F-statistic 344,262 Durbin-Watson stat 1,246
Prob(F-statistic) 0,000

Unweighted Statistics

R-squared 0,925 Mean dependent var 15,042


Sum squared resid 113,814 Durbin-Watson stat 1,246

2.3.2 Estimation des paramètres du modèle à 2 effets aléatoires

INVESTi t  μ  β1 PROFITi t  αi  λ t  εi t ,
1  i  3 ; 1  t  10

Dependent Variable : Saisir invest?


Common Coefficients : Saisir profit ?
Cross-section specific coefficients : Saisir c
Cross-section : Choisir Random
Period : Choisir Random
Cliquer sur OK

L’estimation donne les résultats suivants :

Dependent Variable: INVEST?


Method: Pooled EGLS (Two-way random effects)
Sample (adjusted): 2011 2020
Included observations: 10 after adjustments
Cross-sections included: 3
Total pool (balanced) observations: 30
Swamy and Arora estimator of component variances

Variable Coefficient Std. Error t-Statistic Prob.

C -0,744 0,953 -0,781 0,441


PROFIT? 1,055 0,058 18,216 0,000
Random Effects (Cross)
_FIRM1--C 0
_FIRM2--C 0
_FIRM3--C 0
Random Effects (Period)
2011--C -0,123

48
Chapitre 1 / L’économétrie des données de panel
2012--C 0,025
2013--C 0,058
2014--C -0,069
2015--C -0,216
2016--C -0,246
2017--C -0,052
2018--C 0,258
2019--C 0,164
2020--C 0,202

Effects Specification
S.D. Rho

Cross-section
random 0,000 0,000
Period random 0,443 0,064
Idiosyncratic
random 1,698 0,936

Weighted Statistics

R-squared 0,922 Mean dependent var 13,707


Adjusted R-squared 0,919 S.D. dependent var 6,952
S.E. of regression 1,974 Sum squared resid 109,065
F-statistic 331,832 Durbin-Watson stat 1,266
Prob(F-statistic) 0,000

Unweighted Statistics

R-squared 0,925 Mean dependent var 15,042


Sum squared resid 113,817 Durbin-Watson stat 1,248

3. Prévision avec le modèle à un seul effet fixe

Après l’estimation des paramètres du modèle à effets fixes la prévision


de la variable endogène est obtenue par l’instruction Eviews :

Cliquer sur Proc  Make Model  Solve  OK

49
Chapitre 1 / L’économétrie des données de panel
Les prévisions obtenues pour un horizon de 4 années sont données
dans le tableau ci-dessous :

Année Firme 1 Firme 2 Firme 3


2021 6,289 13,705 18,679
2022 9,581 18,093 21,970
2023 11,775 14,802 16,484
2024 9,581 11,510 15,387

4. Estimation des paramètres du modèle logarithmique

4.1 Nous devons d’abord générer les logarithmes népériens des séries
invest et profit.

Cliquer sur PoolGenr

Enter Equation : Saisir linvest? = log(invest?)

Cliquer sur PoolGenr

Enter Equation : Saisir lprofit? = log(profit?)

4.2 Estimation du modèle à un effet fixe

Dependent Variable : Saisir linvest?

Common Coefficients : Saisir lprofit ?

Cross-section specific coefficients : Saisir c

Cross-section : Choisir Fixed

Period : Choisir None

Cliquer sur OK

50
Chapitre 1 / L’économétrie des données de panel

Dependent Variable: LINVEST?


Method: Pooled Least Squares
Sample (adjusted): 2011 2020
Included observations: 10 after adjustments
Cross-sections included: 3
Total pool (balanced) observations: 30

Variable Coefficient Std. Error t-Statistic Prob.

C 0,093 0,221 0,423 0,676


LPROFIT? 0,960 0,084 11,423 0,000
Fixed Effects (Cross)
_FIRM1--C -0,057
_FIRM2--C -0,069
_FIRM3--C 0,126

Effects Specification

Cross-section fixed (dummy variables)

R-squared 0,838 Mean dependent var 2,556


Adjusted R-squared 0,819 S.D. dependent var 0,627
S.E. of regression 0,267 Akaike info criterion 0,317
Sum squared resid 1,847 Schwarz criterion 0,504
Log likelihood -0,757 Hannan-Quinn criter. 0,377
F-statistic 44,850 Durbin-Watson stat 2,149
Prob(F-statistic) 0,000

51
Chapitre 1 / L’économétrie des données de panel

Etude de cas 2 : Modèle dynamique

Fonction de consommation des pays de l’UEMOA

Dans cette étude de cas, nous traitons un modèle dynamique qui fait intervenir
une variable endogène décalée.

Nous procédons à l’estimation économétrique d’une fonction de consommation


des pays de l’UEMOA.

Soit consit la consommation du pays i observée à la date t.


Nous cherchons à relier cette variable aux dépenses gouvernementales
notées gouvit, selon la relation dynamique suivante :

consit  αi  β1consit 1  β 2gouvit  εit

Les données couvrant 6 pays de l’UEMOA sont disponibles de 1973 à 1993.


Les pays considérés sont : Bénin, Burkina, Côte d’ivoire, Niger, Sénégal et
Togo.

Estimer les paramètres du modèle dynamique par la méthode des


moments généralisés.

Solution avec Stata

1. Estimation d’un modèle de panel dynamique par la méthode de Arellano


et Bond

xtset pays annee

panel variable: pays (unbalanced)


time variable: annee, 1973 to 1995
delta: 1 unit

set matsize 500

52
Chapitre 1 / L’économétrie des données de panel
Estimateur GMM en première différence

xtabond cons gouv, lags(1) artests(2)

Arellano-Bond dynamic panel-data estimation Number of obs = 114


Group variable (i): pays Number of groups = 6
Wald chi2(2) = 304.46
Time variable (t): annee Obs per group: min = 19
avg = 19
max = 19
One-step results
------------------------------------------------------------------------------
D.cons | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
cons |
LD | .269336 .0575332 4.68 0.000 .1565731 .3820989
gouv |
D1 | 1.672268 .1850446 9.04 0.000 1.309587 2.034948
_cons | 6.599917 .9777389 6.75 0.000 4.683584 8.51625
------------------------------------------------------------------------------

Sargan test of over-identifying restrictions:

chi2(189) = 189.68 Prob > chi2 = 0.4724

Arellano-Bond test that average autocovariance in residuals of order 1 is 0:

H0: no autocorrelation z = -1.68 Pr > z = 0.0930

Arellano-Bond test that average autocovariance in residuals of order 2 is 0:

H0: no autocorrelation z = -0.61 Pr > z = 0.5403

Le test de Sargan (prob = 0,4724) ne permet pas de rejeter l’hypothèse


de validité des variables retardées.

Le test d’autocorrélation des résidus de Arellano et Bond ne permet pas


de rejeter les hypothèses d’absence d’autocorrélation de premier et de
second ordres.

53
Chapitre 1 / L’économétrie des données de panel
2. Estimation d’un modèle de panel dynamique par la méthode de Arellano
et Bond

Estimateur GMM en système

xtabond2 cons L.cons gouv, gmm(L.cons, lag(2 .)) iv(gouv)

Building GMM instruments..


78 instruments dropped because of collinearity.
Warning: Number of instruments may be large relative to number of observations.
Estimating.Performing specification tests.

Arellano-Bond dynamic panel-data estimation, one-step system GMM results


------------------------------------------------------------------------------
Group variable: pays Number of obs = 120
Time variable : annee Number of groups = 6
Number of instruments = 113 obs per group: min = 20
F(2, 117) = 4122.59 avg = 20.00
Prob > F = 0.000 max = 20

------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
cons |
L1 | .770339 .0503929 15.29 0.000 .6715708 .8691072
gouv | .9159269 .1887777 4.85 0.000 .5459294 1.285924
_cons | 35.87473 11.35765 3.16 0.002 13.61414 58.13532
------------------------------------------------------------------------------

Sargan test of overid. restrictions: chi2(110) = 107.28 Prob > chi2 = 0.556

Arellano-Bond test for AR(1) in first differences: z = -2.33 Pr > z = 0.020


Arellano-Bond test for AR(2) in first differences: z = -0.18 Pr > z = 0.860
-----------------------------------------------------------------------------------------------------

Le test de Sargan (prob = 0,556) ne permet pas de rejeter l’hypothèse de


validité des variables retardées en niveau et en différences comme
instruments.

Le test d’autocorrélation des résidus de Arellano et Bond permet


d’accepter l’hypothèse d’autocorrélation de premier ordre.

Le test d’autocorrélation des résidus de Arellano et Bond ne permet pas


de rejeter l’hypothèse d’absence d’autocorrélation de second ordre.

54
Chapitre 2 / Econométrie des variables qualitatives

CHAPITRE 2
Econométrie des variables qualitatives

Objectifs pédagogiques du chapitre 2

Lorsque vous aurez complété l’étude du chapitre 2, vous pourrez :

1. définir les modèles binaires Probit/Logit ;

2. estimer les paramètres des modèles Probit/Logit ;

3. interpréter les effets marginaux associés aux différents modèles ;

4. utiliser les tests de validation sur les modèles binaires ;

55
Chapitre 2 / Econométrie des variables qualitatives

Partie 1 : Eléments de cours

1. Introduction

Les variables qualitatives constituent une partie importante de


l’économétrie contemporaine.
Il existe trois façons de considérer les variables qualitatives en
économétrie :

- les incorporer comme variables explicatives dans un modèle de


régression ;

- étudier leur indépendance ;

- les traiter comme variables dépendantes.

Dans la situation où une variable qualitative est utilisée comme


variable endogène, alors on se trouve dans le domaine de l’économétrie
des variables qualitatives.

Dans ce chapitre, nous verrons que les méthodes d’inférence


traditionnelles ne permettent pas de modéliser et d’étudier des
caractères qualitatifs.

Nous devons utiliser des méthodes spécifiques pouvant prendre en


compte par exemple l’absence de continuité des variables traitées ou
l’absence d’ordre naturel entre les modalités que peut prendre le
caractère qualitatif.

Dans ce chapitre, nous traitons l’économétrie des variables qualitatives.


Nous y présentons d’abord les modèles spécifiques lorsque la variable
à expliquer est binaire tels que : décision d’acheter ou de ne pas acheter
un produit, être pauvre ou pas, voter en faveur d’un parti politique,

56
Chapitre 2 / Econométrie des variables qualitatives

l’éclatement d’une guerre civile dans un pays, … Il s’agit des modèles à


choix binaires (Probit et Logit).

Nous traitons ensuite les modèles multinomiaux et le modèle tobit.

Nous ne traitons pas les autres modèles relevant de l’économétrie des


variables qualitatives à savoir le modèle de Poisson, les modèles de
durée, le modèle log-linéaire, les données spatio-temporelles qualitatives,...

Le lecteur intéressé trouvera ces thèmes bien traités dans les ouvrages
de Thomas (2000), Gouriéroux (1989), Madalla (1983), Lancaster (1990) et
Greene (1997).

2. Les problèmes et les conséquences de la spécification binaire

Le recours à des modèles et des méthodes d’estimation spécifiques


lorsque la variable endogène est qualitative binaire est lié au fait que le
modèle linéaire général ne peut pas s’appliquer dans ce contexte.

Prenons l’exemple d’un modèle de régression simple permettant de


relier la réussite ou l’échec à l’examen de Licence 3 d’économie, pour
un étudiant, à sa note d’économétrie sur 20.

(1) yi = a 0 + a1x i + ε i i = 1, , n
avec :

yi : variable indicatrice qui prend la valeur 1 si l’individu i réussit à


l’examen et 0 sinon.
xi : note d’économétrie sur 20 de l’individu i.

a0 et a1 : paramètres à estimer.

57
Chapitre 2 / Econométrie des variables qualitatives

Ce modèle appelé aussi modèle à probabilité linéaire, présente les


propriétés suivantes :

a. En faisant l’hypothèse classique de l’espérance de l’erreur nulle :

E(ε i ) = 0, alors E(y i ) = a 0 + a1x i

b. La valeur prévue de la variable à expliquer yi peut s’interpréter de la


manière suivante :

Si on pose Pi = Prob(yi = 1) , alors Prob(yi = 0) = 1 − Pi

E(y i ) = 1  Prob(yi = 1) + 0  Prob(yi = 0) = Pi

Soit
Pi = a 0 + a1x i  i
D’où le nom de modèle de probabilité linéaire.

c. La variable yi ne pouvant prendre que deux valeurs (0 et 1), par voie


de conséquence, l’erreur ne peut prend que deux valeurs :

ε i = 1 − (a 0 + a1x i ) avec la probabilité Pi

ε i = − (a 0 + a1x i ) avec la probabilité 1 − Pi

La variance de l’erreur est donnée par :

Var(ε i ) = E(ε i2 ) = Pi  (1 − a 0 − a1x i ) 2 + (1 − Pi )  (− a 0 − a1x i ) 2

Comme
Pi = a 0 + a1x i
Alors on obtient :

58
Chapitre 2 / Econométrie des variables qualitatives

(2) Var(ε i ) = E(ε i2 ) = Pi  (1 − Pi ) 2 + (1 − Pi )  (Pi ) 2 = Pi  (1 − Pi )

Examinons les problèmes soulevés par l’application de la méthode des


moindres carrés ordinaires afin d’estimer ce modèle.

a. Puisque l’erreur ne peut prendre que deux valeurs, elle suit donc une
loi discrète, l’hypothèse de normalité des erreurs n’est donc pas vérifiée.

b. D’après la relation (2) Var(εi ) = Pi  (1 − Pi ) , les erreurs sont


hétéroscédastiques.
Cependant nous ne pouvons pas appliquer la méthode des moindres

carrés car Pi dépend des paramètres a0 et a1 du modèle.

c. Enfin nous devons imposer une contrainte au modèle :

0  Pi = a 0 + a1x i  1

qui peut se révéler non compatible avec les données.

Après l’estimation des paramètres du modèle (1) par la méthode des


moindres carrés ordinaires, certaines valeurs ajustées peuvent être
négatives ou supérieures à 1 ce qui est évidemment incompatible avec
la valeur d’une probabilité.

3. Les modèles de choix binaires

Nous supposons que la variable endogène qualitative Y est binaire. Les


modalités qu’elle peut prendre sont par convention codées 0 et 1, le 1
indiquant l’existence de la caractéristique, 0 son absence.

Ce codage est caractérisé par le fait que l’espérance mathématique de


Y est la proportion sur l’échantillon de cas où la variable vaut 1.

59
Chapitre 2 / Econométrie des variables qualitatives

En effet, l’espérance de la variable binaire Y est :

1 n Nombre de cas où Y vaut 1


E(Y)   Yi = = p(Y)
ni =1 Nombre total de cas

où n est la taille de l’échantillon (nombre d’observations) et p(Y) la


fréquence empirique de Y (la proportion).

Les modèles de choix binaires (ou encore appelés modèles dichotomiques)


sont utilisés dans des secteurs très divers dès que la variable à
expliquer ne peut prendre que deux modalités, par exemple en

- économie : être pauvre ou ne pas être pauvre, travailler ou être au


chômage,

- médecine : guérison ou non guérison,

- marketing : achat ou non achat,

- finance : remboursement du prêt ou non remboursement, défaillance d’une


entreprise ou non défaillance,

- science politique : répondre oui ou non à un référendum, voter pour X


ou Y à une élection,

- sociologie : réussir ou rater un examen,

- etc.

3.1 Interprétation économique des modèles binaires : le modèle


linéaire sur variable latente

Les variables latentes sont une première réponse aux problèmes liés à
l’utilisation des moindres carrés ordinaires dans un modèle dont la
variable à expliquer est binaire.

60
Chapitre 2 / Econométrie des variables qualitatives

Qu’est-ce qu’une variable latente ? Il s’agit d’une variable continue non


observable et représentative du phénomène étudié.

Comme dans une régression classique, on lie la variable expliquée à un


ensemble de facteurs explicatifs.
On utilise un modèle de probabilité conditionnelle dans lequel le choix
de l’individu reflète une variable latente (inobservable).

Soit un individu i pouvant prendre une décision A ou B. La première


décision lui procure une utilité U iA et la deuxième U iB . Les utilités, non

observées, sont une fonction linéaire des variables explicatives xi et zi :

(3) U iA = a + bx i + ε i

(4) U iB = c + dzi + v i

εi et vi sont des variables aléatoires représentant les termes d’erreurs ;


a, b, c et d sont des paramètres inconnus.

On définit une variable latente yi qui est la différence entre l’utilité
procurée par la décision A et celle procurée par la décision B :

(5) yi = (a − c) + bxi − dzi + (εi − vi ) ; yi = α + βxi + λzi + u i


La décision A est prise si yi est positive. Soit yi une variable muette

codée 1 si l’individu choisit A et 0 dans le cas contraire.

On peut alors en déduire la probabilité que l’agent choisisse A :

(6) Prob(yi  0) = Prob(yi = 1) = Probα + βxi + λzi + u i  0

= Probu i  −(α + βxi + λzi )

61
Chapitre 2 / Econométrie des variables qualitatives

Si la distribution de la variable aléatoire ui est symétrique, on peut


écrire :
Prob(yi = 1) = Prob(ui  α + βxi + λzi )

Soit
Pi = Prob(yi = 1) = Prob(ui  α + βxi + λzi ) = F(α + βxi + λzi )

où F est la fonction de répartition de la variable aléatoire ui.

L’ensemble de ces résultats peut être généralisé dans le cas d’un


modèle à k variables.

La probabilité Pi dépend ainsi de la distribution du terme de l’erreur ui


du modèle de décision, nous pouvons alors distinguer trois cas :

- le modèle Probit si la fonction de répartition de l’erreur suit une loi


normale,

- le modèle Logit si la fonction de répartition de l’erreur suit une loi


logistique,

- Le modèle Gombit si la fonction de répartition de l’erreur suit une loi


de Gumbel.

3.2 Les modèles binaires probit, logit et gombit

3.2.1 Le modèle Probit

Le modèle probit est basé sur la fonction de répartition de la loi


normale. On suppose que variable aléatoire ui suit une loi normale
centrée et réduite.

Soit Φ et  respectivement la fonction de répartition et la densité de


la loi normale centrée et réduite.

62
Chapitre 2 / Econométrie des variables qualitatives

On a :
t
1  1 2
Φ(t) =  2π exp  − x  dx
 2 
−

1  1 
 (t) = exp − t 2 
2π  2 

La distribution normale est symétrique, on a :

Φ (− t ) = 1 − Φ ( t )

Sa moyenne est égale à 0 et sa variance 1.

On peut écrire la probabilité Pi sous la forme :

1 α +βx i + λzi  1 2
2π − 
(7) Pi = exp  − t dt
 2 

3.2.2 Le modèle Logit

Le modèle Logit utilise la fonction de répartition de la fonction


logistique. Plus précisément, on suppose que variable aléatoire ui suit
une loi logistique définie par la fonction de répartition suivante :

1 et
Λ(t ) = = t IR .
−t t
1+ e 1+ e

La densité de la loi logistique est :

e− t
Λ ( t ) = t IR
−t 2
(1 + e )

63
Chapitre 2 / Econométrie des variables qualitatives

On en déduit une relation simple entre la densité et la fonction de répartition :

Λ ( t ) = Λ ( t )[1 − Λ ( t )]

La distribution logistique est symétrique :

Λ (− t ) = 1 − Λ ( t )

1 2
Sa moyenne est nulle et sa variance vaut π .
3

On peut écrire la probabilité Pi sous la forme :

1
(8) Pi =
1 + exp− (α + βxi + λzi )

3.2.3 Le modèle Gombit

Le modèle Gombit est basé sur la fonction de répartition de la loi de


Gumbel.

T suit une loi de Gumbel si sa densité de probabilité est :

f ( t ) = exp( t − e t ) t IR .

Sa fonction de répartition est :

F ( t ) = 1 − exp ( − e t ) t IR .

Les valeurs caractéristiques de la loi de Gumbel sont :

π2
E (T ) = − 0,57722 ; Var ( T ) =
6
où 0,57722 est la constante d’Euler.

64
Chapitre 2 / Econométrie des variables qualitatives

Remarque

Les modèles Probit, Logit et Gombit sont exécutables sur le logiciel


Eviews tandis que les modèles Logit et Probit sont les seuls
disponibles sur le logiciel Stata.

3.2.4 Estimation par la méthode du maximum de vraisemblance

Le modèle dichotomique simple correspond à une vraisemblance de la


forme :
n Y (1 − Y )
(9) L ( Y, β ) =  [F ( X i β )] i [1 − F ( X i β )] i
i=1

On démontre que les équations de vraisemblance associées aux modèles


dichotomiques simples sont non linéaires dans les paramètres.

Il n’est donc pas possible d’exprimer les estimateurs comme fonctions


simples des observations et les équations devront être résolues au moyen
d’algorithmes.

3.3 Exemple d’interprétation économique du modèle logit : la notion


de cote

Soit le modèle Logit

1
Pi =
1 + exp− (α + βxi + λzi )

On établit facilement l’égalité suivante :


Pi
exp(α + βxi + λzi ) =
1 − Pi
Cette égalité est intéressante en ce qui concerne l’analyse économique
des résultats d’estimation.

65
Chapitre 2 / Econométrie des variables qualitatives

En effet, on sait que la probabilité Pi désigne la probabilité associée à

l’événement yi = 1, et que la quantité 1 − Pi désigne par conséquent la

probabilité associée à l’événement complémentaire yi = 0.

Pi
Proposition : De façon générale, la quantité ci = représente le
1 − Pi

rapport de la probabilité associée à l’événement yi = 1 à la probabilité


de non survenue de cet événement : il s’agit de la cote (« odds » en
anglais).

Dans un modèle Logit, la cote est égale à :

Pi
ci = = exp(α + βxi + λzi )
1 − Pi

Si ce rapport est égal à ci pour l’individu i, cela signifie qu’il y a ci plus

fois de chances que l’événement associé au code yi = 1 se réalise, qu’il

ne se réalise pas (« ci contre 1 » dans le langage usuel).

Exemple 1 :

Si on suppose que la probabilité conditionnelle qu’une famille soit


pauvre est Pi = 0,8. Dans ce cas, l’expression

Pi
ci = =4
1 − Pi

est le ratio de chances en faveur de la pauvreté.

L’individu a donc 4 fois plus de chances d’être pauvre que de pas


l’être, il s’agit du coefficient de cote (4 contre 1).

Les chances sont donc de 4 contre 1 en faveur de la pauvreté.

66
Chapitre 2 / Econométrie des variables qualitatives

Exemple 2 :

Si on suppose que la probabilité conditionnelle qu’une famille possède


une maison est Pi = 0,25.

Dans ce cas, l’expression


Pi
ci = = 1/ 3
1 − Pi
est le ratio de chances en faveur de la possession d’une maison.

Dans cette situation, il est préférable d’interpréter l’inverse de la cote.

1 1 − Pi
= =3
ci Pi

est le ratio de chances en faveur de la non possession d’une maison.

L’individu a donc 3 fois plus de chances de ne pas posséder une


maison que d’en posséder : il s’agit du coefficient de cote (3 contre 1).

On a aussi la relation

 P 
log  i  = α + βxi + λzi
 1 − Pi 

La variable expliquée de cette équation est le logarithme népérien d’un

coefficient de cote. β et λ sont les effets marginaux de xi et zi sur

le logarithme du coefficient de cote. On peut donc les interpréter


comme des semi élasticités.

67
Chapitre 2 / Econométrie des variables qualitatives

3.4 Inférence dans les modèles binaires

Nous présentons dans cette section les éléments d’inférence statistique


à partir de l’estimation des modèles Probit et Logit.

3.4.1 Interprétation des paramètres estimés

Dans les modèles linéaires estimés par la méthode des moindres


carrés ordinaires, la valeur numérique des paramètres estimés a un
sens. Ces paramètres ont des interprétations économiques immédiates
en termes de propension marginale, d’élasticité ou de semi élasticité.

Par contre, dans les modèles Probit-Logit, la valeur numérique des


paramètres estimés n’a pas vraiment d’intérêt en soi, dans la mesure où
ils ne correspondent aux paramètres de l’équation de la variable latente
qu’à une constante multiplicative près.

La seule information réellement utilisable est le signe des paramètres,


indiquant si la variable associée influence la probabilité à la hausse ou à
la baisse.

3.4.2 Calcul des effets marginaux

Il est utile en pratique d’avoir une idée de la sensibilité de la

probabilité de l’événement yi = 1 ou yi = 0 par rapport à des


variations dans les variables explicatives.

Cette sensibilité est généralement fournie par le calcul de l’effet


marginal c’est à dire la dérivée de la probabilité estimée par rapport
aux composantes des variables explicatives.

68
Chapitre 2 / Econométrie des variables qualitatives

Il est important de remarquer que β et λ ne représentent plus, comme


dans le modèle linéaire de la régression multiple, l’effet marginal des
variables xi et zi sur la probabilité conditionnelle.

3.4.2.1 Modèle probit

L’effet marginal doit être calculé en dérivant l’équation (7) par rapport aux
variables explicatives.

Prob(yi = 1) Prob(yi = 1)
= βi ; = λi
 xi  zi

Le signe de l’effet marginal est celui du coefficient dans la mesure où la


densité de probabilité est toujours positive. L’effet marginal n’est pas
constant car il est fonction des variables explicatives. Autrement dit,
l’effet marginal d’une variable dépend de la valeur attribuée à l’ensemble
des variables.

Pour disposer d’une valeur synthétique de cet effet, on le calcule


souvent pour les valeurs correspondant aux moyennes des variables
explicatives.

3.4.2.2 Modèle Logit

L’effet marginal doit être calculé en dérivant l’équation (8) par rapport aux
variables explicatives.

Prob(yi = 1)
= βΛi = βΛi (1 − Λi )
 xi

Prob(yi = 1)
= λΛi = λΛi (1 − Λi )
 zi

69
Chapitre 2 / Econométrie des variables qualitatives

L’effet marginal peut être calculé comme dans le cas du Probit pour
les valeurs correspondant aux moyennes des variables explicatives.

3.4.3 Tests statistiques

3.4.3.1 Test de significativité des coefficients

La significativité des coefficients est appréciée à l’aide des ratios


appelés « z-Statistique » car la distribution des rapports du coefficient sur
son écart type ne suit pas une loi de Student , comme dans le modèle
linéaire général, mais une loi normale.

Cette « z-Statistique » s’interprète de manière classique à partir des


probabilités critiques et permet de tester la significativité des
coefficients.

3.4.3.2 Test de significativité globale

Dans les modèles de régression linéaire avec variable dépendante continue,


il est usuel de tester l’hypothèse que les variables explicatives n’ont aucune
influence sur les variations de la variable expliquée. Cette hypothèse
revenant à tester la nullité globale des paramètres de pente, on utilise le
test de Fisher de significativité globale du modèle.

Dans le cas des modèles estimés par maximum de vraisemblances, un


test analogue est employé. Ce test est fondé sur le rapport des
vraisemblances.

Afin de tester l’hypothèse H0 : β1= β 2 =  = β k = 0 , nous utilisons


la statistique du ratio de vraisemblance (LR statistic) définie par :

LR = 2log(L u ) − log(L R )
avec

70
Chapitre 2 / Econométrie des variables qualitatives

log(L u ) : Log de la vraisemblance du modèle complet ou non contraint.

log(L R ) : Log de la vraisemblance du modèle contraint.

Le modèle contraint est celui qui est défini sous l’hypothèse


H0 : β1= β 2 =  = β k = 0 .

La statistique LR suit sous l’hypothèse nulle H0 une loi du Khi-Deux à k


degrés de liberté. k est le nombre de variables exogènes du modèle
(constante exclue).

La règle de décision suivante est appliquée :

- Si la statistique LR est supérieure à la valeur lue dans la table pour


un seuil déterminé, généralement de 5%, alors nous rejetons l’hypothèse

H0, le modèle comporte au moins une variable explicative significative. Le


modèle est considéré globalement significatif.

- Si la statistique LR est inférieure ou égale à la valeur lue, nous ne


rejetons pas l’hypothèse H0 . Le modèle n’est pas globalement significatif.

3.4.3.3 Test d’adéquation de l’ajustement de Hosmer-Lemeshow

Le test d’adéquation de l’ajustement de Hosmer-Lemeshow (en anglais


Hosmer-Lemesohw goodness of fit test) compare les effectifs attendus
des événements et non événements aux effectifs observés afin
d’évaluer l’ajustement des modèles Probit/Logit aux données.

L’hypothèse nulle du test est celle d’adéquation.

H0 : l’ajustement du modèle aux données est correct

H1 : l’ajustement du modèle aux données est incorrect

71
Chapitre 2 / Econométrie des variables qualitatives

3.4.4 Coefficient de détermination

La statistique de test LR est liée à la mesure de la qualité de l’ajustement


du modèle.

L’analogue du R² de la régression par moindres carrés ordinaires est, dans


le cas des modèles à variables qualitatives le R² de McFadden défini par :

log (L U )
R2 = 1 −
log(L R )

La statistique du R² de McFadden est comprise entre 0 et 1.

3.5 Courbe ROC (Receiver operating Characteristic)

L’analyse ROC est utilisée pour déterminer et évaluer l’exactitude des


prévisions d’un modèle.

La courbe ROC s’interprète par la forme et par la valeur de AUC (Area


Under Curve : surface sous la courbe) qui estime le taux de discrimination
entre le modèle et la réalité.

Cette courbe est la représentation graphique de la qualité discriminatoire du


modèle Logit pour différents seuils.
L’aire sous la courbe ROC traduit le pouvoir discriminant du modèle.
Plus la courbe s’écarte de la bissectrice, meilleure est la prédiction.

72
Chapitre 2 / Econométrie des variables qualitatives

Etude de cas : Prendre la décision de s’abonner à un journal

Logiciels : Eviews & Stata

L’échantillon suivant se rapporte à 15 personnes interrogées sur leur


volonté ou non de s’abonner à un journal.

Pour chacune des personnes, on définit les variables suivantes :

- abon est la variable endogène qui vaut 1 si la personne désire


s’abonner et 0 sinon,

- sexe est une variable binaire qui est égale à 1 quand la personne est
de sexe féminin et 0 dans le cas contraire.

- age est l’âge de la personne.

Les données recueillies sont reportées dans le tableau suivant :

obs sexe age abon


1 1 35 1
2 0 44 1
3 0 45 0
4 1 47 0
5 1 51 1
6 1 47 1
7 0 54 0
8 0 47 0
9 1 35 1
10 1 34 1
11 1 48 1
12 1 56 0
13 0 46 0
14 1 59 0
15 1 46 0

73
Chapitre 2 / Econométrie des variables qualitatives

1. Générer les modalités féminin et masculin de la variable sexe.

2. Estimer les paramètres du modèle Logit.

Pour la variable sexe, la modalité féminin est choisie comme référence.


Tester la significativité des variables explicatives et interpréter le signe
des coefficients estimés.

3. Tester la significativité globale du modèle.

4. Interpréter la valeur du coefficient de détermination R².

5. Calculer les effets marginaux avec le modèle Logit. Interpréter les


valeurs obtenues.

6. Effectuer le test de Hosmer-Lemeshow.

L’ajustement du modèle Logit est-il bon ?

7. Calculer le pourcentage de prédictions correctes.

8. Etudier la qualité discriminatoire du modèle Logit, en utilisant la courbe


ROC (Receiver Operating Characteristic).

9. Donner la probabilité d’abonnement, à l’aide du modèle Logit estimé,


pour une personne dont les caractéristiques sont les suivantes :

âge = 40 et sexe = féminin.

Indiquer et interpréter le coefficient de cote associé à cette personne.

10. Estimer les paramètres des modèles Probit et Gombit. Pour ces deux
modèles, la modalité féminin de la variable sexe est choisie comme
référence.

11. Comparer les résultats obtenus par les trois méthodes.

74
Chapitre 2 / Econométrie des variables qualitatives

Partie 1 : Solution avec Stata

1. Génération des modalités masculin et féminin de la variable sexe

tabulate sexe, gen(sex)

Les modalités sont notées sex1 et sex2.

sexe | Freq. Percent Cum.


------------+-----------------------------------
0 | 5 33.33 33.33
1 | 10 66.67 100.00
------------+-----------------------------------
Total | 15 100.00

sex1 = masculin (sexe = 0)

sex2 = feminin (sexe = 1)

Sur l’échantillon des 15 personnes :

5 soit 33,33% sont de sexe masculin

10 soit 66,67% sont de sexe féminin.

Nous renommons les variables.

rename sex1 masculin

rename sex2 feminin

Le tableau des données est le suivant :

obs sexe masculin feminin age abon


1 1 0 1 35 1
2 0 1 0 44 1
3 0 1 0 45 0
4 1 0 1 47 0
5 1 0 1 51 1
6 1 0 1 47 1
75
Chapitre 2 / Econométrie des variables qualitatives

7 0 1 0 54 0
8 0 1 0 47 0
9 1 0 1 35 1
10 1 0 1 34 1
11 1 0 1 48 1
12 1 0 1 56 0
13 0 1 0 46 0
14 1 0 1 59 0
15 1 0 1 46 0

2. Estimation des paramètres du modèle logit

2.1 Estimation des paramètres du modèle Logit

Puisqu’il faut choisir une modalité de référence pour la variable sexe, la


modalité « féminin » est utilisée comme référence.
On supprime donc la modalité « féminin » de la liste des variables
explicatives.

logit abon age masculin

Iteration 5: log likelihood = -6.3759576


Logistic regression Number of obs = 15
LR chi2(2) = 7.98
Prob > chi2 = 0.0185
Log likelihood = -6.3759576 Pseudo R2 = 0.3848
------------------------------------------------------------------------------
abon | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | -.2880861 .1928356 -1.49 0.135 -.6660368 .0898647
masculin | -2.140715 1.536534 -1.39 0.164 -5.152266 .8708367
_cons | 14.08807 9.36831 1.50 0.133 -4.273479 32.44962
------------------------------------------------------------------------------
_cons est la constante du modèle.

Les probabilités associées aux tests de significativité des variables


explicatives sont indiquées dans la colonne P>|z|.

Les variables âge et sexe n’ont pas un impact significatif sur la


probabilité d’abonnement, car leurs probabilités critiques respectives
(13,5% et 16,4%) sont supérieures à 5%.
76
Chapitre 2 / Econométrie des variables qualitatives

Effectuons une estimation robuste.

logit abon age masculin, vce(robust)

Avec l’option vce(robust), les z-statistics sont corrigés de l’hétérocédasticité


des résidus.

Les résultats obtenus à partir de Stata sont les suivants :

Iteration 5: log pseudolikelihood = -6.3759576

Logistic regression Number of obs = 15


Wald chi2(2) = 7.43
Prob > chi2 = 0.0244
Log pseudolikelihood = -6.3759576 Pseudo R2 = 0.3848

------------------------------------------------------------------------------
| Robust
abon | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | -.2880861 .116801 -2.47 0.014 -.5170119 -.0591602
masculin | -2.140715 1.460929 -1.47 0.143 -5.004083 .7226534
_cons | 14.08807 5.919706 2.38 0.017 2.485661 25.69048
------------------------------------------------------------------------------

2.2 Significativité des variables explicatives sur les estimations robustes

- l’âge a un impact significatif sur la décision (ou la probabilité)


d’abonnement, au seuil de 5%.

- le sexe n’a pas un impact significatif sur la décision (ou la probabilité)


d’abonnement.

2.3 Interprétation du signe des coefficients estimés

2.3.1 Variable âge

Le signe du coefficient estimé associé à la variable âge est négatif.


Le signe négatif indique que la probabilité d’abonnement est une
fonction décroissante de l’âge.
Si l’âge augmente alors la probabilité d’abonnement diminue.

77
Chapitre 2 / Econométrie des variables qualitatives

2.3.2 Variable sexe

Le signe négatif obtenu pour la modalité « masculin » indique que les


femmes ont une propension plus grande à s’abonner.

La probabilité d’abonnement chez les femmes est plus élevée que celle
des hommes.

Le tableau de contingence des variables abon et sexe est donné par


la commande Stata suivante :

tabulate abon sexe

| sexe
abon | masculin feminin | Total
-----------+------------------------------+----------
Non abon | 4 4 | 8
Abon | 1 6 | 7
-----------+------------------------------+----------
Total | 5 10 | 15

On constate que sur les sept personnes abonnées, 6 sont des femmes.

3. Test de significativité globale du modèle

H0 : le modèle Logit n’est pas globalement significatif

H1 : le modèle Logit est globalement significatif

Pour tester la significativité globale du modèle, le logiciel Stata propose


le test de Wald.

La statistique de Wald [Wald chi2(2)] à deux degrés de liberté est égale


à 7,43 avec une probabilité critique de 2,44%.

Comme cette probabilité critique est inférieure à 5%, nous rejetons


l’hypothèse nulle.
Au seuil 5%, le modèle Logit est globalement significatif.

78
Chapitre 2 / Econométrie des variables qualitatives

Les variables âge et sexe ont globalement un effet significatif sur la


probabilité d’abonnement.

4. Interpréter la valeur du coefficient de détermination

Le coefficient de détermination R² (Pseudo R2) est égal à 0,3848.


Cette valeur indique que 38,48% des fluctuations de la probabilité
d’abonnement sont expliquées par les variables âge et sexe.

5. Calcul des effets marginaux avec le modèle logit

mfx

Cette commande utilise la méthode de calcul des impacts marginaux aux


valeurs moyennes des variables explicatives du modèle.

Les résultats obtenus à partir de Stata sont les suivants :

Marginal effects after logit


y = Pr(abon) (predict)
= .51142722
------------------------------------------------------------------------------
variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X
---------+--------------------------------------------------------------------
age | -.0719839 .02859 -2.52 0.012 -.128026 -.015942 46.2667
masculin*| -.4804192 .27961 -1.72 0.086 -1.02845 .067607 .333333
------------------------------------------------------------------------------
(*) dy/dx is for discrete change of dummy variable from 0 to 1

Les effets marginaux sont indiqués dans la colonne dy/dx.

5.1 Effet marginal associé à la variable âge au point moyen

dy/dx = − 0,07

La valeur obtenue indique qu’une augmentation d’une unité de l’âge (par


exemple si l’âge passe de 32 à 33 ans) implique une diminution de 7%
de la probabilité de d’abonnement.

79
Chapitre 2 / Econométrie des variables qualitatives

5.2 Effet marginal associé à la modalité masculin au point moyen

dy/dx = − 0,48

La probabilité d’abonnement diminue de 48% pour les hommes


comparativement aux femmes.

6. Test de Hosmer-Lemeshow (Goodness of fit Test)

H0 : l’ajustement au modèle logit est bon

H1 : l’ajustement au modèle logit est mauvais

estat gof

Une valeur très grande de la statistique de Hosmer-Lemeshow (HL


Statistic) indique une différence très significative entre les valeurs
observées et prédites des déciles.
Dans cette situation on rejette l’hypothèse nulle et l’ajustement au
modèle est mauvais.

Logistic model for abon, goodness-of-fit test


number of observations = 15
number of covariate patterns = 13
Pearson chi2(10) = 8.23
Prob > chi2 = 0.6062

La statistique de Hosmer-Lemeshow [Pearson chi2(10)] est égale à 8,23


avec une probabilité critique 60,62%.

Comme cette probabilité (60,62%) est supérieure à 5%, on ne rejette pas


l’hypothèse nulle. L’ajustement au modèle Logit est bon.

80
Chapitre 2 / Econométrie des variables qualitatives

7. Calcul du pourcentage de prédictions correctes avec le modèle logit

lstat

Logistic model for abon

-------- True --------


Classified | D ~D | Total
-----------+--------------------------+-----------
+ | 5 2 | 7
- | 2 6 | 8
-----------+--------------------------+-----------
Total | 7 8 | 15

Classified + if predicted Pr(D) >= .5


True D defined as abon != 0
--------------------------------------------------
Sensitivity Pr( +| D) 71.43%
Specificity Pr( -|~D) 75.00%
Positive predictive value Pr( D| +) 71.43%
Negative predictive value Pr(~D| -) 75.00%
--------------------------------------------------
False + rate for true ~D Pr( +|~D) 25.00%
False - rate for true D Pr( -| D) 28.57%
False + rate for classified + Pr(~D| +) 28.57%
False - rate for classified - Pr( D| -) 25.00%
--------------------------------------------------
Correctly classified 73.33%

Le pourcentage de prédictions correctes s’obtient en additionnant les


valeurs diagonales, en comparant avec le nombre d’observations totales.

On a
6+5
100  = 73,33%
15
Le pourcentage de prédictions correctes avec le modèle Logit est égal
à 73,33%.
Le pourcentage de prédictions incorrectes avec le modèle Logit est
égal à 26,67%. Le taux d’erreur (environ 27%) est élevé.

81
Chapitre 2 / Econométrie des variables qualitatives

8. Qualité discriminante du modèle logit

Receiver Operating Characteristic (ROC) analysis

lroc
1.00
0.75
Sensitivity
0.50
0.25
0.00

0.00 0.25 0.50 0.75 1.00


1 - Specificity
Area under ROC curve = 0.8661

L’analyse de la courbe ROC permet de visualiser l’ajustement des


données au modèle Logit.

Cette courbe est la représentation graphique de la qualité discriminatoire du


modèle Logit pour différents seuils.

L’aire sous la courbe ROC traduit le pouvoir discriminant du modèle.


Plus la courbe s’écarte de la bissectrice, meilleure est la prédiction.

Ainsi, la figure ci-dessus révèle que l’aire sous la courbe ROC est de
0,8661 ; soit environ 87%.

Conclusion : le pouvoir de prédiction (87%) du modèle Logit est bon.

82
Chapitre 2 / Econométrie des variables qualitatives

9. Probabilité d’abonnement pour une personne dont les caractéristiques


sont les suivantes :

âge = 40 et sexe = féminin

Le modèle Logit estimé est le suivant :

 p 
log i  = 14,09 − 0,29  age − 2,14  masculin
 1 − pi 

 p̂ 
log i  = 14,09 − 0,29  40 − 2,14  0 = 2,49
 1 − p̂ i 

p̂ i
= exp(2,49) = 12,06
1 − p̂ i

12,06
 p̂i = = 0,92
1 + 12,06

La probabilité d’abonnement de cette personne est donc de 92%.

p̂ i 0,92
Le coefficient de cote est ci = = = 12
1 − p̂ i 1 − 0,92

Cette personne a 12 fois plus de chances de s’abonner au journal que


de ne pas s’abonner. Il s’agit du coefficient de cote (12 contre 1).

10. Estimation des modèles Probit et Gombit

L’estimation du modèle Gombit n’est pas disponible sur Stata. Nous


indiquons uniquement l’estimation du modèle Probit.

probit abon age masculin, vce(robust)

83
Chapitre 2 / Econométrie des variables qualitatives

Les résultats obtenus à partir de Stata sont les suivants :

Iteration 4: log pseudolikelihood = -6.279545

Probit regression Number of obs = 15


Wald chi2(2) = 9.49
Prob > chi2 = 0.0087
Log pseudolikelihood = -6.279545 Pseudo R2 = 0.3941

------------------------------------------------------------------------------
| Robust
abon | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | -.1728942 .0613747 -2.82 0.005 -.2931864 -.052602
masculin | -1.30647 .8467675 -1.54 0.123 -2.966103 .353164
_cons | 8.439949 3.123134 2.70 0.007 2.31872 14.56118
------------------------------------------------------------------------------

- l’âge a un impact négatif significatif sur la décision d’abonnement, au


seuil de 1%.

- le sexe n’a pas un impact significatif sur la décision d’abonnement.

11. Comparaison des résultats des deux méthodes.

Variable endogène : abon Coefficients estimés


Logit Probit
âge − 0,288 − 0,173
masculin − 2,141 − 1,306
constante 14,088 8,439
R² 0,385 0,394
Probabilité de la statistique LR 0,024 0,009
Probabilité de la statistique de HL 0,606 0,619
Pourcentage de prédictions correctes 73,33 73,33
Aire sous la courbe ROC 86,61% 86,61%

Les modèles Probit et Logit donnent des résultats très similaires.

84
Chapitre 2 / Econométrie des variables qualitatives

Partie 2 : Solution avec le logiciel Eviews

1. Génération des modalités « masculin » et « féminin » de la variable


sexe.

sexe = 1 si féminin et 0 sinon

1.1 Génération de la modalité « féminin »

Quick → Generate series

→ Enter Equation : Saisir feminin = 1*(sexe = 1) + 0*(sexe <> 1) → OK

1.2 Génération de la modalité « masculin»

Quick → Generate series

→ Enter Equation : Saisir masculin = 1*(sexe = 0) + 0*(sexe <> 0) → OK

2. Estimation des paramètres du modèle logit

Cliquer sur Quick → Estimate Equation

→ Method : Choisir Binary Choice (Logit, Probit, Extreme Value)

La fenêtre suivante apparait :

85
Chapitre 2 / Econométrie des variables qualitatives

Equation specification : Saisir abon age masculin c

Binary estimation method : Sélectionner Logit → Cliquer sur OK

Les résultats obtenus à partir de Eviews sont les suivants :

Dependent Variable: ABON


Method: ML - Binary Logit (Newton-Raphson / Marquardt steps)
Sample: 1 15
Included observations: 15

Variable Coefficient Std. Error z-Statistic Prob.

AGE -0,288 0,193 -1,494 0,135


MASCULIN -2,141 1,537 -1,393 0,164
C 14,088 9,368 1,504 0,133

McFadden R-squared 0,385

Les variables âge et masculin n’ont pas un impact significatif sur la


décision d’abonnement.

86
Chapitre 2 / Econométrie des variables qualitatives

Effectuons une estimation robuste :

Cliquer sur Quick → Estimate Equation

→ Method : Choisir Binary Choice (Logit, Probit, Extreme Value)

Equation specification : Saisir abon age masculin c

Binary estimation method : Sélectionner Logit

Cliquer sur Options → Covariance method : Choisir Huber/White

→ Cliquer sur OK

Les résultats obtenus à partir de Eviews sont les suivants :

Dependent Variable: ABON


Method: ML - Binary Logit (Newton-Raphson / Marquardt steps)
Sample: 1 15
Included observations: 15
Convergence achieved after 6 iterations
Coefficient covariance computed using the Huber-White method

Variable Coefficient Std. Error z-Statistic Prob.

AGE -0,288 0,113 -2,553 0,011


MASCULIN -2,141 1,411 -1,517 0,129
C 14,088 5,719 2,463 0,014

McFadden R-squared 0,385 Mean dependent var 0,467


S.D. dependent var 0,516 S.E. of regression 0,433
Akaike info criterion 1,250 Sum squared resid 2,247
Schwarz criterion 1,392 Log likelihood -6,376
Hannan-Quinn criter. 1,249 Deviance 12,752
Restr. deviance 20,728 Restr. log likelihood -10,364
LR statistic 7,976 Avg. log likelihood -0,425
Prob(LR statistic) 0,019

Obs with Dep=0 8 Total obs 15


Obs with Dep=1 7

87
Chapitre 2 / Econométrie des variables qualitatives

Avec l’option « robust », les « z-statistics » sont corrigés de


l’hétéroscédasticité par la méthode de Huber-White.

Les estimations obtenues sont identiques à celles du logiciel Stata.

Eviews rappelle le nom de la variable dépendante, le modèle (Logit


binaire) estimé par maximum de vraisemblance, l’étendue de l’échantillon
et sa taille (Sample et Included observations).

Le logiciel indique ensuite le nombre d’itérations avant convergence et


la méthode de calcul de Huber-White.

Le tableau des paramètres estimés fournit le nom des variables


explicatives (Variable), leurs coefficients estimés (Coefficient), leur écart
type (Standard Error), leur statistique de Student (z-Statistic) et leur
probabilité critique ou p-value (Prob).

Eviews indique ensuite les statistiques sur la variable dépendante :


moyenne (Mean dependent var) et écart type (S.D. dependent var). On
vérifie bien que la proportion de Abon = 1 est de 46,7%.

Les statistiques d’ajustement du modèle : écart type de la variable


dépendante estimée (S.E of regression), critères d’information d’Akaike,
de Schwarz et de Hannan-Quinn, somme des carrés des résidus (Sum
squared resid).

Suivent ensuite la valeur de la log-vraisemblance totale (Log likelihood),


puis divisée par le nombre d’observations (Avg. Log likelihood), la log
vraisemblance contrainte (Restr. Log likelihood) sous l’hypothèse de nullité
de tous les paramètres sauf la constante, ce qui permet de calculer le
test du rapport des vraisemblances avec 2 degrés de liberté ( LR
statistic (2df) ).

88
Chapitre 2 / Econométrie des variables qualitatives

Le coefficient R² de Mc Fadden vaut soit 38,5%.

Enfin, le logiciel rapporte que 8 observations ont Abon = 0 et 7 ont


Abon = 1, soit un total de 15 observations.

Nous rappelons les définitions suivantes :

LR statistic = 2 (Log Likelihood − Restr Log Likelihood)

= 2 (− 6,376 + 10,364) = 7,976

Log likelihood
R² de Mc Fadden = 1 −
Restr log likelihood

6,376
=1− = 0,385
10,364

3. Test de significativité globale du modèle

H0 : le modèle n’est pas globalement significatif

H1 : le modèle est globalement significatif

La statistique du rapport de vraisemblance est égale à 7,976 avec une


probabilité critique de 1,9%.

Comme cette probabilité associée est inférieure à 5%, nous rejetons


l’hypothèse nulle. Le modèle logit est globalement significatif.

Les variables âge et sexe ont globalement un effet significatif sur la


probabilité d’abonnement.

5. Test de Hosmer-Lemeshow

H0 : l’ajustement au modèle logit est bon

H1 : l’ajustement au modèle logit est mauvais

89
Chapitre 2 / Econométrie des variables qualitatives

Après l’estimation des paramètres du modèle Logit

Cliquer sur View → Goodness of Fit Test (Hosmer-Lemeshow) → OK

Le tableau du test de Hosmer-Lemeshow est :

Goodness-of-Fit Evaluation for Binary Specification


Andrews and Hosmer-Lemeshow Tests
Grouping based upon predicted risk (randomize ties)

Quantile of Risk H-L


Low High Value

1 0,026 0,026 0,027


2 0,052 0,115 0,181

9 0,982 0,982 0,018


10 0,982 0,987 0,032

H-L Statistic 7,498 Prob, Chi-Sq(8) 0,484

La statistique de Hosmer-Lemeshow est égale à 07,498 avec une


probabilité critique de 48,4%.

Comme cette probabilité est supérieure à 5%, nous ne rejetons pas


l’hypothèse nulle. L’ajustement au modèle logit est bon.

6. Pourcentage de prédictions correctes avec le modèle Logit

Après l’estimation des paramètres du modèle Logit

Cliquer sur View → Expectation-Prediction Evaluation

→ Success if probability is greater than : Saisir C = 0.5

→ OK

90
Chapitre 2 / Econométrie des variables qualitatives

Le tableau des effectifs observés et prédits est le suivant :

Expectation-Prediction Evaluation for Binary Specification


Equation: UNTITLED
Success cutoff: C = 0.5

Estimated Equation
Dep=0 Dep=1 Total

P(Dep=1)<=C 6 2 8
P(Dep=1)>C 2 5 7
Total 8 7 15
Correct 6 5 11
% Correct 75 71,43 73,33
% Incorrect 25 28,57 26,67

Le pourcentage de prédictions correctes s’obtient en additionnant les


valeurs diagonales, en comparant avec le nombre d’observations totales.
On a :
6+5
100  = 73,33%
15

7. Estimation des modèles Probit et Gombit

7.1 Modèle Probit

Cliquer sur Quick → Estimate Equation

→ Method : Choisir Binary Choice (Logit, Probit, Extreme Value)

Equation specification : Saisir abon age masculin c

Binary estimation method : Sélectionner Probit

Cliquer sur Options → Covariance method : Choisir Huber/White

→ Cliquer sur OK

91
Chapitre 2 / Econométrie des variables qualitatives

Les résultats de l’estimation Probit sont donnés dans le tableau


suivant :

Dependent Variable: ABON


Method: ML - Binary Probit (Newton-Raphson / Marquardt steps)
Sample: 1 15
Included observations: 15
Convergence achieved after 5 iterations
Coefficient covariance computed using the Huber-White method

Variable Coefficient Std. Error z-Statistic Prob.


AGE -0,173 0,059 -2,916 0,004
MASCULIN -1,306 0,818 -1,597 0,110
C 8,440 3,017 2,797 0,005

McFadden R-squared 0,394 Mean dependent var 0,467


S.D. dependent var 0,516 S.E. of regression 0,431
Akaike info criterion 1,237 Sum squared resid 2,232
Schwarz criterion 1,379 Log likelihood -6,280
Hannan-Quinn criter. 1,236 Deviance 12,559
Restr. deviance 20,728 Restr. log likelihood -10,364
LR statistic 8,169 Avg. log likelihood -0,419
Prob(LR statistic) 0,017

Obs with Dep=0 8 Total obs 15


Obs with Dep=1 7

7.2 Modèle Gombit

Cliquer sur Quick → Estimate Equation


→ Method : Choisir Binary Choice (Logit, Probit, Extreme Value)
Equation specification : Saisir abon age masculin c
Binary estimation method : Sélectionner Extreme Value
Cliquer sur Options → Covariance method : Choisir Huber/White

→ OK

Les résultats de l’estimation Gombit sont donnés dans le tableau


suivant :

92
Chapitre 2 / Econométrie des variables qualitatives

Dependent Variable: ABON


Method: ML - Binary Extreme Value (Newton-Raphson / Marquardt steps)
Sample: 1 15
Included observations: 15
Convergence achieved after 5 iterations
Coefficient covariance computed using the Huber-White method

Variable Coefficient Std. Error z-Statistic Prob.

AGE -0,217 0,088 -2,463 0,014


MASCULIN -1,708 1,041 -1,641 0,101
C 11,166 4,780 2,336 0,020

McFadden R-squared 0,409 Mean dependent var 0,467


S.D. dependent var 0,516 S.E. of regression 0,426
Akaike info criterion 1,216 Sum squared resid 2,178
Schwarz criterion 1,358 Log likelihood -6,123
Hannan-Quinn criter. 1,215 Deviance 12,246
Restr. deviance 20,728 Restr. log likelihood -10,364
LR statistic 8,481 Avg. log likelihood -0,408
Prob(LR statistic) 0,014

Obs with Dep=0 8 Total obs 15


Obs with Dep=1 7

8. Comparaison de résultats obtenus par les trois modèles

Variable endogène : abon Coefficients estimés


Logit Probit Gombit
âge − 0,288 − 0,173 − 0,217
masculin − 2,141 − 1,306 − 1,708
constante 14,088 8,439 11,166
R² 38,5% 39,4% 40,9%*
Probabilité de la statistique LR 0,019 0,017 0,014*
Probabilité de la statistique de HL 0,484 0,494 0,500*
Pourcentage de prédictions correctes 73,33 73,33 73,33

L’astérisque indique le meilleur modèle selon le critère utilisé.

Au vu des résultats, le modèle Gombit est le meilleur.

93
Chapitre 3 / Cointégration et modèle à correction d’erreur

CHAPITRE 3
Cointégration et modèle à correction d’erreur

Objectifs pédagogiques du chapitre 3

A la fin de l’étude du chapitre 3, l’apprenant sera en mesure de :

1. définir la stationnarité d’une variable ;

2. déterminer l’ordre d’intégration d’une variable en utilisant les tests


de stationnarité de Dickey-Fuller Augmenté et Phillips-Perron ;

3. tester l’hypothèse de cointégration en utilisant les procédures de


Johansen, de Engle-Granger et de Pesaran-Shin-Smith ;

4. estimer les paramètres des modèles à correction d’erreur de


Hendry et de Engle-Granger ;

5. utiliser les différents modèles à correction d’erreur à des fins de


prévision.

94
Chapitre 3 / Cointégration et modèle à correction d’erreur

1. Introduction

Lorsqu’on travaille sur des séries temporelles, il convient de prendre


garde à la stationnarité de celles-ci au cours du temps.

Les modèles étudiés précédemment , et en particulier la méthode des


moindres carrés ordinaires, ne sont valables que si les séries
temporelles sont stationnaires.

Cet aspect de la méthode économétrique a été ignoré pendant


longtemps avant de ressurgir au cours des dernières années.

Il pose des problèmes redoutables dans la mesure où la plupart des


séries économiques sont non stationnaires car elles sont tendancielles ou
saisonnières.

Face à ce problème, la théorie de la cointégration permet de préciser


les conditions dans lesquelles il est légitime de travailler sur des séries
non stationnaires.

Les variables non stationnaires peuvent être combinées pour obtenir un


modèle à correction d’erreur qui est une relation stable économiquement
interprétable.

Les termes non stationnaires s’interprètent comme les éléments d’un


équilibre de long terme.

2. Notion de stationnarité
2.1 Définition
Un processus stochastique X t est stationnaire si :

-- E(X t ) = E(X t + h ) = μ t et  h , la moyenne est constante et

indépendante du temps ;
95
Chapitre 3 / Cointégration et modèle à correction d’erreur

-- la variance est finie et indépendante du temps ;

-- la fonction d’autocovariance γ (h) = Cov(Xt , X t + h ) est indépendante


du temps.

Une série chronologique est donc stationnaire si elle est la réalisation


d’un processus stationnaire.

Ceci implique que la série ne comporte ni tendance, ni saisonnalité et


plus généralement aucun facteur n’évoluant avec le temps.

Une variable stationnaire est caractérisée par une moyenne et une


variance constantes et a tendance à fluctuer autour de sa moyenne
revenant régulièrement vers sa valeur d’équilibre de long terme.

2.2 Fonction d’autocorrélation

La fonction d’autocorrélation est définie par :

γ(h)
ρ(h) =
γ(0)
avec
γ(h) = Cov(X t , X t + h ) ; γ(0) = Var(X t )

La représentation graphique de la fonction d’autocorrélation s’appelle le


corrélogramme.

2.3 Exemple de processus stationnaire

Un processus de bruit blanc t (suite de variables aléatoires


2
équidistribuées et mutuellement indépendantes) de loi normale N (0, σ )
est stationnaire.

96
Chapitre 3 / Cointégration et modèle à correction d’erreur

Exercice 1 : Simulation et représentation graphique d’un processus


de bruit blanc normal centré réduit

On demande de générer sur 200 observations, de manière artificielle le


processus bruit normal centré réduit.

Solution avec Eviews

1. La simulation d’un bruit blanc normal centré réduit se fait par les
instructions Eviews suivantes :

Cliquer sur File → New → Workfile → Frequency : Choisir Integer date


Start date : Saisir 1
End date : Saisir 200 → Cliquer sur OK
Puis

genr bblanc = nrnd

2. Représentation graphique du processus de bruit blanc

line bblanc

La représentation graphique du processus de bruit blanc normal centré


réduit est donnée dans la figure suivante :
4

-1

-2

-3
25 50 75 100 125 150 175 200

BBLANC MOY

Nous pouvons remarquer que cette série est bien centrée sur 0 et que
les fluctuations semblent représentatives d’une série stationnaire.

97
Chapitre 3 / Cointégration et modèle à correction d’erreur

3. Tests de stationnarité
3.1 Généralités

Pour vérifier la stationnarité des séries, il faut pratiquer des tests de


stationnarité ou de racine unité (Unit Root Test).

Les tests de stationnarité les plus utilisés sont : le test de Dickey-Fuller


augmenté (ADF,1981) et le test de Phillips-Perron (PP, 1988).

Ces tests permettent de mettre en évidence le caractère stationnaire ou


non d’une série temporelle par la détermination d’une tendance
déterministe ou stochastique.

Les hypothèses nulles des tests ADF et PP sont celles de la non


stationnarité (c’est à dire de racine unité).

Les tests de stationnarité sont fondés sur l’estimation par les moindres
carrés ordinaires (MCO) des trois modèles suivants :

Modèle [1] : Modèle sans tendance et sans terme constant

p
ΔX t = ρ X t − 1 −  φiΔX t − j + 1 + ε t
j= 2
Modèle [2] : Modèle sans tendance et avec terme constant
p
ΔX t = ρ X t − 1 −  φiΔX t − j + 1 + c + ε t
j= 2

Modèle [3] : Modèle général avec tendance et avec terme constant

p
ΔX t = ρ X t − 1 −  φiΔX t − j + 1 + c + b t + ε t
j= 2

98
Chapitre 3 / Cointégration et modèle à correction d’erreur

3.2 Procédure séquentielle des tests de racine unité

Il est fondamental de noter que les tests de racine unité (ou de


stationnarité) sont appliqués sur un seul des trois modèles.
Nous employons la stratégie séquentielle suivante :

Etape 1 : On commence par estimer le modèle [3] : modèle avec


tendance et avec terme constant.
On teste par la méthode de Student les hypothèses suivantes :

H0 : le coefficient b est égal à 0


H1 : le coefficient b est différent de 0

-- Si on rejette l’hypothèse nulle H0, alors le coefficient b est non nul et


on maintient le modèle [3]
-- Si on ne rejette pas l’hypothèse nulle H0, alors on passe à l’étape 2.

Etape 2 : On estime le modèle [2] : modèle sans tendance et avec


terme constant .

On teste par la méthode de Student les hypothèses suivantes :

H0 : le terme constant c est égal à 0


H1 : le terme constant c est différent de 0

-- Si on rejette l’hypothèse nulle H0, alors le coefficient c est non nul et


on maintient le modèle [2]
-- Si on ne rejette pas l’hypothèse nulle H0, alors on passe à l’étape 3.

Etape 3 : On estime le modèle [1] : modèle sans tendance et sans


terme constant

99
Chapitre 3 / Cointégration et modèle à correction d’erreur

Remarque 1 : Table statistique de Dickey-Fuller

Sur les logiciels, les statistiques des tests sont assorties de leurs
probabilités critiques.

Dans les étapes 1 et 2 de la procédure séquentielle des tests de raine


unité, les probabilités critiques associées aux tests de Student ne
doivent pas être utilisées.

Nous devons nous référer aux tables statistiques de Dickey-Fuller.

Tables de Dickey-Fuller1

Modèle [1] sans tendance et sans terme constant

Modèle [2] sans tendance et avec terme constant

Modèle [3] avec tendance et avec terme constant

Tables de la distribution des t ĉ et t b̂ (test bilatéral)

Modèle [2] Modèle [3]


Constante c Constante c Tendance b
n 2% 5% 10% 2% 5% 10% 2% 5% 10%
25 3,41 2,97 2,61 4,05 3,59 3,2 3,74 3,25 2,85
50 3,28 2,89 2,56 3,87 3,47 3,14 3,6 3,18 2,81
100 3,22 2,86 2,54 3,78 3,42 3,14 3,53 3,14 2,79
250 3,19 2,84 2,53 3,74 3,39 3,09 3,49 3,12 2,79
500 3,18 2,83 2,52 3,72 3,38 3,08 3,48 3,11 2,78
∞ 3,18 2,83 2,52 3,71 3,38 3,08 3,46 3,11 2,78

1 Source : Fuller W.A., Introduction to Statistical Time series, John Wiley, 1976
100
Chapitre 3 / Cointégration et modèle à correction d’erreur

3.3 Test de Dickey-Fuller Augmenté

Les hypothèses du test de Dickey-Fuller Augmenté sont :

H0 : le processus X est non stationnaire


H1 : le processus X est stationnaire

Pour effectuer le test, on compare la valeur de ADF (Augmented Dickey-


Fuller Test Statistic) à celle de CV (Test Critical Value).

La règle de décision est la suivante :

-- Si la valeur de ADF est inférieure à CV, l’hypothèse de non


stationnarité de la série est rejetée. Le processus X est stationnaire.

-- Si la valeur de ADF est supérieure ou égale à CV, l’hypothèse de


non stationnarité de la série n’est pas rejetée. Le processus X n’est
pas stationnaire.

3.4 Test de Phillips Perron

Ce test est construit sur une correction non paramétrique des


statistiques de Dickey-Fuller pour prendre en compte les erreurs
hétéroscédastiques.

Pour exécuter le test, il est nécessaire de définir le nombre de retards l


(troncature de Newey-West) estimé en fonction du nombre
2/9
d’observations n, l  4(n/100) .

Les hypothèses du test de Philips-Perron sont :

H0 : le processus X est non stationnaire


H1 : le processus X est stationnaire

101
Chapitre 3 / Cointégration et modèle à correction d’erreur

Pour effectuer le test, on compare la valeur de PP (Phillips-Perron Test


Statistic) à celle de CV (Test Critical Value).
La règle de décision du test est identique à celle de la procédure de
Dickey-Fuller Augmenté.

-- Si la valeur de PP est inférieure à CV, l’hypothèse de non


stationnarité de la série est rejetée. Le processus X est stationnaire.

-- Si la valeur de PP est supérieure ou égale à CV, l’hypothèse de non


stationnarité de la série n’est pas rejetée. Le processus X n’est pas
stationnaire.

3.5 Règle de décision des tests de stationnarité avec la probabilité


critique

Sur les logiciels, les statistiques des tests ADF et PP sont assorties de
leurs probabilités critiques.

On compare la valeur de la probabilité critique (p-valeur ou p-value) des


tests au seuil statistique alpha.

La règle de décision des tests de stationnarité est :

-- Si la valeur de la probabilité critique est supérieure au seuil alpha,


l’hypothèse de non stationnarité n’est pas rejetée. Le processus n’est
pas stationnaire.

-- Si la valeur de la probabilité est inférieure ou égale au seuil alpha,


l’hypothèse de non stationnarité est rejetée. Le processus est
stationnaire.

102
Chapitre 3 / Cointégration et modèle à correction d’erreur

Exercice 2 : Tests de racine unité de Dickey-Fuller Augmenté et


de Phillips-Perron

Considérons la série annuelle du produit intérieur brut (notée pib) d’un


pays africain sur la période 1981 à 2018.
Les données sont reportées dans le tableau 1.

Tableau 1
Produit intérieur brut (en millions de dollars).
Données annuelles, 1980-2018

années pib années pib


1981 391 2000 707
1982 461 2001 791
1983 485 2002 993
1984 623 2003 988
1985 449 2004 905
1986 535 2005 968
1987 477 2006 1027
1988 500 2007 920
1989 548 2008 1003
1990 618 2009 1067
1991 634 2010 1257
1992 562 2011 1509
1993 625 2012 1578
1994 606 2013 1593
1995 591 2014 1673
1996 693 2015 2170
1997 761 2016 2017
1998 701 2017 2161
1999 673 2018 2541

1. Représenter graphiquement la variable log(pib).

2. Tester au seuil 5%, la stationnarité de la série log(pib) en utilisant


les méthodes de :

2.1 Dickey-Fuller Augmenté (ADF) ;

2.2 Phillips-Perron (PP).

103
Chapitre 3 / Cointégration et modèle à correction d’erreur

Solution avec Eviews

1. Représentation graphique de la série log(pib)

line log(pib)

La représentation graphique de la variable log(pib) est donnée dans


la figure ci-après.

LOG(PIB)
8.0

7.6

7.2

6.8

6.4

6.0

5.6
1985 1990 1995 2000 2005 2010 2015

L’évolution de la série log(cons) indique que le processus semble non


stationnaire.

2. Tests de stationnarité

Pour les tests ADF et PP, nous employons la stratégie séquentielle


des tests de racine unité.

3.1 Test de Dickey-Fuller Augmenté

Nous effectuons le test sur la variable en niveau.


H0 : la variable log(pib) est non stationnaire
H1 : la variable log(pib) est stationnaire

104
Chapitre 3 / Cointégration et modèle à correction d’erreur

Procédure Eviews pour effectuer le test ADF


modèle [3] avec tendance et avec terme constant

Cliquer Quick → Series statistics → Unit Root Test


Series name : Saisir log(pib) → OK
Test type : Choisir Augmented Dickey-Fuller
Test for unit root in : Choisir level
Include in test equation : Choisir Trend and intercept
Lag lenght : Choisir Automatic selection (Schwarz info Criterion) → OK

Augmented Dickey-Fuller Test Equation


Dependent Variable: D(LOG(PIB))
Included observations: 37 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

LOG(PIB(-1)) -0.300463 0.138652 -2.167032 0.0373


C 1.801484 0.821586 2.192691 0.0353
@TREND("1981") 0.014021 0.006065 2.311919 0.0270

Nous testons d’abord la significativité du coefficient de la variable


temporelle @TREND("1981"), par la méthode de Student.

Nous ne pouvons pas interpréter la probabilité critique (2,72%) calculée


directement selon la loi de Student. Nous devons nous référer à la table
statistique de Dickey-Fuller fournie en fin d’ouvrage.
La valeur lue à 5% sur le modèle [3] est 3,25.

Comme le ratio de Student (2,31) est inférieur à 3,25, nous ne rejetons


pas l’hypothèse nulle. Le coefficient b est égal à 0.

Selon la stratégie séquentielle de test nous estimons le modèle [2].

105
Chapitre 3 / Cointégration et modèle à correction d’erreur

Augmented Dickey-Fuller Test Equation


Dependent Variable: D(LOG(PIB))
Included observations: 37 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

LOG(PIB(-1)) 0.006162 0.042861 0.143769 0.8865


C 0.009212 0.288460 0.031936 0.9747

Sur la table de Dickey-Fuller, la valeur lue à 5% sur le modèle [2] est


2,97. Comme le ratio de Student (0,03) est inférieur à 2,07, nous ne
rejetons pas l’hypothèse nulle. Le coefficient c est égal à 0.

Selon la stratégie séquentielle de test nous estimons le modèle [1].

Le résultat du test ADF est donné dans le tableau suivant :

Null Hypothesis: LOG(PIB) has a unit root


Exogenous: None
Lag Length: 0 (Automatic - based on SIC, maxlag=9)

t-Statistic Prob.*
Augmented Dickey-Fuller test statistic 2.566883 0.9968
Test critical values: 1% level -2.628961
5% level -1.950117
10% level -1.611339

*MacKinnon (1996) one-sided p-values.

Comme la probabilité critique du test de Dickey-Fuller Augmenté


(99,68%) est supérieure à 5%, nous ne rejetons pas l’hypothèse de non
stationnarité de la variable log(pib).

Conclusion : la variable log(pib) est non stationnaire en niveau.

La mise en œuvre de la stratégie séquentielle nous conduit à retenir


un modèle sans tendance et sans terme constant pour la série log(pib).

106
Chapitre 3 / Cointégration et modèle à correction d’erreur

2.2 Test de Phillips-Perron

Nous effectuons le test sur la variable en niveau.

H0 : la variable log(pib) est non stationnaire


H1 : la variable log(pib) est stationnaire

Procédure Eviews pour effectuer le test de Phillips-Perron


modèle [3] avec tendance et avec terme constant

Cliquer Quick → Series statistics → Unit Root Test


Series name : Saisir log(pib) → OK
Test type : Choisir Phillips-Perron
Test for unit root in : Choisir level
Include in test equation : Choisir Trend and intercept
Bandwidth /Automatic selection : Choisir Newey-West Bandwidth
→ OK

Phillips-Perron Test Equation


Dependent Variable: D(LOG(PIB))
Method: Least Squares
Sample (adjusted): 1982 2018
Included observations: 37 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

LOG(PIB(-1)) -0.300463 0.138652 -2.167032 0.0373


C 1.801484 0.821586 2.192691 0.0353
@TREND("1981") 0.014021 0.006065 2.311919 0.0270

La mise en œuvre de la stratégie séquentielle nous conduit à retenir


un modèle sans tendance et sans terme constant pour la série log(pib).

107
Chapitre 3 / Cointégration et modèle à correction d’erreur

Null Hypothesis: LOG(PIB) has a unit root


Exogenous: None
Bandwidth: 18 (Newey-West automatic) using Bartlett kernel

Adj. t-Stat Prob.*

Phillips-Perron test statistic 4.909307 1.0000


Test critical values: 1% level -2.628961
5% level -1.950117
10% level -1.611339

*MacKinnon (1996) one-sided p-values.

Comme la probabilité critique du test de Phillips-Perron (100%) est


supérieure à 5%, nous ne rejetons pas l’hypothèse de non stationnarité
de la variable log(pib).

4. Variables intégrées d’ordre d


4.1 Opérateurs décalage et différence
4.1.1 Opérateur décalage

L’opérateur décalage L est défini par :

Li X t = X t − i ,  i  0
On a :
LX t = X t − 1 et L2X t = X t − 2

4.1.2 Opérateur différence

On a
Xt − Xt − 1 = Xt − LXt = (1 − L)X t = ΔXt

L’opérateur Δ =1− L est appelé opérateur différence première.

ΔX t = X t − X t −1

108
Chapitre 3 / Cointégration et modèle à correction d’erreur

L’opérateur Δ 2 = (1 − L) 2 est appelé opérateur différence seconde.

Δ 2X t = (1 − L) 2 X t = (1 − 2L + L2 )X t

= X t − 2LX t + L2X t
= X t − 2X t − 1 + X t − 2

4.2 Notion d’intégration


4.2.1 Intégration

On appelle variable intégrée d’ordre d une variable X t telle que sa


différence d-ième est stationnaire ;

Notation :

X t → I(d) qui signifie que la variable X t est intégrée d’ordre d.

4.2.2 Quelques définitions

Définition 1 : Une variable stationnaire est dite intégrée d’ordre 0

X t → I(0)
Définition 2 : Une variable est intégrée d’ordre 1 si sa différence
première est stationnaire.

X t → I(1) si ΔX t → I(0)

Définition 3 : Une variable est intégrée d’ordre 2 si sa différence


seconde est stationnaire.

X t → I(2) si Δ 2 X t → I(0)

109
Chapitre 3 / Cointégration et modèle à correction d’erreur

Remarque 4 :

Dans la pratique, on a rarement un ordre d’intégration supérieur ou égal


à 3.
La plupart des séries sont intégrées d’ordre un c’est à dire qu’elles
sont non stationnaires en niveau mais stationnaires en différence
première.

4.2.3 Etapes de la détermination de l’ordre d’intégration d’une


variable

La détermination de l’ordre d’intégration d’une variable est essentielle


dans la plupart des études économétriques.

Les étapes de la détermination de l’ordre d’intégration se présentent


comme suit :

Etape 1 : Test de stationnarité sur la variable en niveau

H0 : la variable X est non stationnaire en niveau


H1 : la variable X est stationnaire en niveau

-- Si on rejette H0, alors la variable X est stationnaire en niveau. La


variable X est intégrée d’ordre 0.

-- Si on ne rejette pas H0, alors la variable X est non stationnaire en


niveau. On passe à l’étape 2.

Etape 2 : Test de stationnarité sur la différence première de la variable

H0 : la différence première de X est non stationnaire


H1 : la différence première de X est stationnaire

110
Chapitre 3 / Cointégration et modèle à correction d’erreur

-- Si on rejette H0, alors la différence première de X est stationnaire.


La variable X est intégrée d’ordre 1.

-- Si on ne rejette pas H0, alors la différence première de X est non


stationnaire. On passe à l’étape 3.

Etape 3 : Test de stationnarité sur la différence seconde de la variable

H0 : la différence seconde de X est non stationnaire


H1 : la différence seconde de X est stationnaire

-- Si on rejette H0, alors la différence seconde de X est stationnaire. La


variable X est intégrée d’ordre 2.

-- Si on ne rejette pas H0, alors la différence seconde de X est non


stationnaire. On passe à l’étape 4.
etc.

Exercice 3 : Détermination de l’ordre d’intégration d’une variable

Considérons la série annuelle du produit intérieur brut (notée pib) d’un


pays africain sur la période 1981 à 2018.

Les données sont identiques à celles de l’exercice 2.

1. Représenter graphiquement la différence première de la variable


log(pib). Commenter.

2. Déterminer l’ordre d’intégration de la variable log(pib) en utilisant le


test de stationnarité de Phillips-Perron.

111
Chapitre 3 / Cointégration et modèle à correction d’erreur

Solution avec Eviews

1. Graphique de la différence première de la variable log(pib)

line d(log(pib))

.3

.2

.1

.0

-.1

-.2

-.3

-.4
1985 1990 1995 2000 2005 2010 2015

D(LOG(PIB)) MOY

Nous pouvons remarquer que cette série a une tendance constante et


que les fluctuations semblent représentatives d’une série stationnaire.

2. Détermination de l’ordre d’intégration de la série log(pib)

La variable log(pib) est non stationnaire en niveau (cf. Exercice 2),


Nous effectuons le test sur sa différence première.

H0 : la différence première de log(pib) est non stationnaire


H1 : la différence première de log(pib) est stationnaire

Nous mettons en œuvre de la stratégie séquentielle des tests de racine


unité.

112
Chapitre 3 / Cointégration et modèle à correction d’erreur

Procédure Eviews pour effectuer le test de Phillips-Perron sur la


différence première de log(pib)
Option : modèle [3] avec tendance et avec terme constant

Cliquer Quick → Series statistics → Unit Root Test


Series name : Saisir log(pib) → OK
Test type : Choisir Phillips-Perron
Test for unit root in : Choisir 1st difference
Include in test equation : Choisir Trend and intercept
Bandwidth : Choisir Automatic selection (Newey-West Bandwidth)
→ OK

Phillips-Perron Test Equation


Dependent Variable: D(LOG(PIB),2)
Included observations: 36 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

D(LOG(PIB(-1))) -1.322922 0.162202 -8.156008 0.0000


C 0.014893 0.040982 0.363395 0.7186
@TREND("1981") 0.002454 0.001852 1.325273 0.1942

Nous testons d’abord la significativité du coefficient de la variable


temporelle @TREND("1981"), par la méthode de Student.

Nous ne pouvons pas interpréter la probabilité critique (2,72%) calculée


directement selon la loi de Student. Nous devons nous référer à la table
statistique de Dickey-Fuller.

La valeur lue à 5% sur le modèle [3] est 3,25.


Comme le ratio de Student (1,325) est inférieur à 3,25, nous ne rejetons
pas l’hypothèse nulle. Le coefficient b est égal à 0.

Selon la stratégie séquentielle de test nous estimons le modèle [2].

113
Chapitre 3 / Cointégration et modèle à correction d’erreur

Phillips-Perron Test Equation


Dependent Variable: D(LOG(PIB),2)
Included observations: 36 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

D(LOG(PIB(-1))) -1.303276 0.163310 -7.980380 0.0000


C 0.061817 0.020864 2.962842 0.0055

Sur la table de Dickey-Fuller, la valeur lue à 5% sur le modèle [2] est


2,97. Comme le ratio de Student (2,963) est inférieur à 2,97, nous ne
rejetons pas l’hypothèse nulle. Le coefficient c est égal à 0.

Selon la stratégie séquentielle de test nous estimons le modèle [1].

Le résultat du test PP est donné dans le tableau suivant :

Null Hypothesis: D(LOG(PIB)) has a unit root


Exogenous: None
Bandwidth: 3 (Newey-West automatic) using Bartlett kernel

Adj. t-Stat Prob.*

Phillips-Perron test statistic -6.670346 0.0000


Test critical values: 1% level -2.630762
5% level -1.950394
10% level -1.611202

*MacKinnon (1996) one-sided p-values.

Comme la probabilité critique du test est nulle, nous rejetons l’hypothèse


au seuil de 5%.
La variable log(pib) est stationnaire en différence première.

Conclusion : La variable log(pib) est intégrée d’ordre un.

114
Chapitre 3 / Cointégration et modèle à correction d’erreur

4.3 Propositions

Proposition 1 : La somme d’une variable I(0) et d’une variable I(1) est


I(1).

Proposition 2 : Si X t → I(d) alors aX t + b → I(d) avec a et b non


nuls.

Proposition 3 : Toute combinaison linéaire de variables I(0) est I(0).

Proposition 4 : Toute combinaison linéaire de variables I(d) est


généralement I(d) mais peut être d’un ordre d’intégration plus faible.

Proposition 5 : Toute combinaison linéaire de variables d’ordres


d’intégration différents est généralement intégrée à l’ordre le plus élevé.

5. Cointégration et modèle à correction d’erreur

L’analyse de la cointégration, présentée par Granger (1983) et Engle et


Granger (1987), est considérée par beaucoup d’économistes comme un
des concepts nouveaux les plus importants dans le domaine de
l’économétrie et de l’analyse des séries temporelles.

L’idée qu’une relation d’équilibre de long terme puisse être définie


entre variables pourtant individuellement non stationnaires est à la base
de la théorie de la cointégration.

La théorie de la cointégration permet d’étudier des séries non


stationnaires mais dont une combinaison linéaire est stationnaire.

Elle permet ainsi de spécifier des relations stables à long terme tout en
analysant conjointement la dynamique de court terme des variables
considérées.

115
Chapitre 3 / Cointégration et modèle à correction d’erreur

5.1 Définition de la cointégration

Si X t et Yt sont deux séries I(d) , alors en général la combinaison


linéaire Z t :

Zt = Yt − βXt
est aussi I(d) .

Cependant, il est possible que Z t ne soit pas I(d) mais I(d − b) où b

est un entier positif (0  b  d) .

En d’autres termes, la variable Z t est intégrée d’un ordre inférieur à


l’ordre d’intégration des deux variables considérées.

Dans ce cas, X t et Yt sont dites cointégrées, ce que l’on note :

(X t , Yt ) → CI(d, b)

β est le paramètre de cointégration et le vecteur (1, −β ) est le


vecteur de cointégration.

Le cas le plus étudié correspond à d = b = 1 . Ainsi, deux séries non


stationnaires [I(1)] sont cointégrées s’il existe une combinaison linéaire
[I(0)] de ces séries.

Sauf indication contraire, c’est à ce dernier phénomène que nous référons


en employant le terme cointégration.

La théorie de la cointégration est souvent utilisée en macroéconomie


pour tester diverses hypothèses de parité du pouvoir d’achat, pour
étudier la relation entre consommation et revenu.

116
Chapitre 3 / Cointégration et modèle à correction d’erreur

Cette théorie est aussi utilisée pour formuler des modèles de demande
de monnaie, pour examiner des relations entre taux de change de
divers pays, pour étudier les liens entre taux d’intérêt à court et long
termes ou les relations entre les indices de bourses internationales, etc.

Remarque 5 :

Cette définition de la cointégration pour deux variables se généralise à un


nombre quelconque de séries, mais le vecteur de cointégration n’est
plus unique.

5.2 Tests de cointégration

La présence d’une relation d’équilibre entre des variables est testée


formellement à l’aide de procédures statistiques, dont les plus utilisées
sont celles de Engle-Granger (1987), Johansen (1988, 1991) et Pesaran-
Shin-Smith (2001)

Les hypothèses nulles des trois tests de cointégration sont celles de


la non cointégration.

Les tests de cointégration de Engle-Granger et de Johansen ne sont


valables que si toutes les variables sont du même ordre d’intégration.

Si les variables sont d’ordres d’intégration différents [par exemple I(0) et


I(1)], alors on doit utiliser le test de cointégration aux bornes de
Pesaran-Shin-Smith (2001).

117
Chapitre 3 / Cointégration et modèle à correction d’erreur

5.2.1 Test de Engle et Granger

Une condition nécessaire d’utilisation de ce test est que toutes les


variables doivent être du même ordre d’intégration. Ce test est appelé
test en deux étapes.

Considérons une variable Y endogène et trois séries explicatives


X1 , X 2 et X 3 .

Nous voulons tester l’hypothèse de cointégration en supposant que les

variables log(Y), log(X 1 ), log(X 2 ) et log(X 3 ) sont intégrées d’ordre 1.


La stratégie en deux étapes de Engle et Granger est la suivante :

Première étape : Estimation de la relation de long terme

On estime par la méthode des moindres carrés ordinaires la relation de


long terme :

Log(Yt ) = α 0 + α1Log(X1t ) + α 2 Log(X 2t ) + α 3Log(X 3t ) + ε t

Le résidu e t issu de cette régression est :

e t = Log(Yt ) − α̂0 − α̂1Log(X1t ) − α̂ 2Log(X2t ) − α̂3Log(X3t )

Seconde étape : Test de stationnarité sur les résidus du modèle de


long terme (relation statique)

Pour que la relation de cointégration soit acceptée, le résidu e t doit

être stationnaire. La stationnarité du résidu est testée à l’aide des tests


de racine unité.

Ce test de cointégration est basé sur des résidus estimés et non sur
des vraies valeurs observées. Afin d’interpréter les résultats, il convient
d’utiliser les tables des valeurs critiques de Engle et Yoo (1987) ou de
Mc Kinnon (1991).

118
Chapitre 3 / Cointégration et modèle à correction d’erreur

La règle de décision est :

-- Si la statistique ADF estimée est inférieure à la valeur tabulée au


seuil alpha, l’hypothèse nulle de non stationnarité est rejetée. Les résidus
de la relation statique sont stationnaires : les variables sont cointégrées.

-- Si la statistique ADF estimée est supérieure ou égale à la valeur


tabulée au seuil alpha. Les résidus de la relation statique ne sont pas
stationnaires : les variables ne sont pas cointégrées.

5.2.2 Test de cointégration de Johansen

Johansen (1988) propose des estimateurs du maximum de vraisemblance


pour tester la cointégration des séries.
Il effectue un test de rang de cointégration.

La règle de décision est la suivante :

-- Si le rang de cointégration est égal à zéro, l’hypothèse nulle de non


cointégration n’est pas rejetée. Les variables ne sont pas cointégrées.

-- Si le rang de cointégraton est supérieur ou égal à un, l’hypothèse nulle


de non cointégration est rejetée. Les variables ne sont pas cointégrées.

5.2.3 Test de cointégration de Pesaran-Shin-Smith

Le test de Pesaran-Shin-Smith est basé sur l’estimation d’un modèle


autorégressif à retards échelonnés (ARDL).

Les modèles autorégressifs à retards échelonnés (ARDL) sont des


modèles dynamiques qui s’écrivent sous la forme :

119
Chapitre 3 / Cointégration et modèle à correction d’erreur

Yt = μ + a1Yt −1 + a 2Yt − 2 ++ a p Yt − p + b0X t + b1X t −1

+ b 2X t − 2 ++ bq Yt −q + ε t

ou encore
p q
Yt = μ +  a j Yt − j +  b i Xt − j + εt
j =1 i=0

Le test de Pesaran-Shin-Smith (2001) s’effectue en deux étapes :

Etape 1 : Déterminer le modèle ARDL optimal

Etape 2 : Utiliser la statistique de Fisher pour tester la cointégration.

La règle de décision est la suivante :

-- Si la statistique de Fisher est > aux bornes supérieures I(1) alors les
variables sont cointégrées.

-- Si la statistique de Fisher est < aux bornes inférieures I(0) alors les
variables ne sont pas cointégrées.

-- Si bornes inférieures < Statistique de Fisher < bornes supérieures alors


on ne peut pas conclure.

120
Chapitre 3 / Cointégration et modèle à correction d’erreur

Exercice 4 : Tests de cointégration

Cas où les variables sont du même ordre d’intégration

Considérons les deux séries annuelles suivantes : la série des


consommations (notée cons) et la série des revenus (notée rev) des
ménages d’un pays africain sur la période 1990 à 2016.

Les données sont reportées dans le tableau 2.

Tableau 2
Consommation et revenu (en millions de dollars).
Données annuelles, 1990-2016

années cons rev années cons rev


1990 498,862 630,708 2003 686,424 854,187
1991 521,993 645,063 2004 698,984 870,797
1992 532,135 657,002 2005 705,079 862,178
1993 545,285 667,379 2006 713,027 880,128
1994 565,188 686,968 2007 722,645 900,846
1995 571,335 700,661 2008 735,66 910,706
1996 578,288 712,381 2009 742,434 932,575
1997 590,678 726,148 2010 761,831 965,841
1998 608,939 742,901 2011 784,774 998,188
1999 626,034 758,647 2012 809,594 1038,805
2000 644,033 791,63 2013 829,032 1060,116
2001 659,551 821,95 2014 849,422 1073,064
2002 677,454 843,966 2015 862,503 1081,666
2016 881,853 1106,74

Nous considérons les séries exprimées en logarithme et notées


respectivement LCONS et LREV.
Les séries LCONS et LREV sont intégrées d’ordre 1.

121
Chapitre 3 / Cointégration et modèle à correction d’erreur

1. Représenter graphiquement les séries LCONS et LREV.

2. Tester au seuil 5%, l’hypothèse de cointégration des variables LCONS


et LREV en utilisant la méthode de Johansen.

Solution avec Eviews

1. Représentations graphiques des séries log(cons) et log(rev)

Iine log(cons) log(rev)

7.1
7.0
6.9
6.8
6.7
6.6
6.5
6.4
6.3
6.2
90 92 94 96 98 00 02 04 06 08 10 12 14 16

LCONS LREV

Les deux séries semblent exhiber une tendance commune à la hausse


sur l’ensemble de la période.

Ces deux séries sont non stationnaires et, du fait de leur apparente
évolution similaire, il est légitime de s’intéresser à l’étude de la cointégration.

2. Test de cointégration de Johansen

H0 : les variables log(cons) et log(rev) ne sont pas cointégrées


H1 : les variables log(cons) et log(rev) sont cointégrées

Le logiciel Eviews propose 5 options pour le test de Johansen.

122
Chapitre 3 / Cointégration et modèle à correction d’erreur

-- Si toutes les 5 options ne rejettent pas l’hypothèse nulle de non


cointégration , alors les variables ne sont pas cointégrées.

-- Si au moins une option rejette l’hypothèse nulle de non cointégration,


alors les variables sont cointégrées.

Nous devons d’abord déterminer le nombre de décalages à utiliser pour


le test de Johansen.
Pour cela, on doit estimer un modèle vectoriel autorégressif (VAR).

2.1 Détermination du nombre de décalages du test de Johansen

Nous devons déterminer le nombre de décalages optimal du modèle


VAR.

Après l’estimation des paramètres du modèle VAR

Cliquer sur View → Lag structure → Lag Lenght Criteria

→ Lag to include : Saisir 4

→ OK

VAR Lag Order Selection Criteria


Endogenous variables: LOG(REV) LOG(CONS)
Exogenous variables: C
Sample: 1990 2020
Included observations: 23

Lag LogL LR FPE AIC SC HQ

0 88.55616 NA 1.85e-06 -7.526623 -7.427884 -7.501790

1 159.5280 123.4293* 5.48e-09* -13.35026* -13.05404* -13.27576*


2 162.9789 5.401426 5.81e-09 -13.30251 -12.80882 -13.17835
3 163.6577 0.944414 7.95e-09 -13.01371 -12.32254 -12.83988
4 165.8037 2.612544 9.81e-09 -12.85250 -11.96385 -12.62900

* indicates lag order selected by the criterion


123
Chapitre 3 / Cointégration et modèle à correction d’erreur

LR Sequential modified LR test statistic (each test at 5% level)


FPE Final prediction error
AIC Akaike information criterion
SC Schwarz information criterion
HQ Hannan-Quinn information criterion

Le nombre de décalages retenu pour tous les critères est la valeur 1.

2.2 Option 1 du test de Johansen

Nous effectuons d’abord l’option 1.

Procédure Eviews pour effectuer l’option 1 du test de cointégration


de Johansen

Quick → Group Statistics → Johansen Cointegration Test


Series List : Saisir log(cons) log(rev) → OK

Lag 1 1 → nombre de décalages = 1

124
Chapitre 3 / Cointégration et modèle à correction d’erreur

Cointegration Test Specification : Choisir l’option 1)


(Assume No deterministic trend in data : No intercept or trend in CE or
test VAR)
Lag intervals : Saisir 1 1 → Cliquer sur OK

Sample (adjusted): 1992 2016


Included observations: 25 after adjustments
Trend assumption: No deterministic trend
Series: LOG(CONS) LOG(REV)
Lags interval (in first differences): 1 to 1
Unrestricted Cointegration Rank Test (Trace)
Hypothesized Trace 0.05
No. of CE(s) Eigenvalue Statistic Critical Value Prob.**
None * 0.360414 16.19211 12.32090 0.0107
At most 1 * 0.181883 5.018744 4.129906 0.0298
Trace test indicates 2 cointegrating eqn(s) at the 0.05 level
* denotes rejection of the hypothesis at the 0.05 level
**MacKinnon-Haug-Michelis (1999) p-values

Au seuil 5%, le rang de cointégration est égal à 2.


Les variables LCONS et LREV sont cointégrées.

2.3 Test de Johansen avec l’option « Summary »

L’option « Summary » donne les résultats des 5 options.

Johansen Cointegration Test Summary


Sample: 1990 2016
Included observations: 25
Series: LOG(CONS) LOG(REV)
Lags interval: 1 to 1
Data Trend: None None Linear Linear Quadratic
Test Type No Intercept Intercept Intercept Intercept Intercept
No Trend No Trend No Trend Trend Trend
Trace 2 1 0 0 0
*Critical values based on MacKinnon-Haug-Michelis (1999)

125
Chapitre 3 / Cointégration et modèle à correction d’erreur

Pour la statistique Trace, deux options sur cinq rejettent la non


cointégration.
Les variables log(cons) et log(rev) sont cointégrées.

Exercice 5 : Test de cointégration aux bornes de Pesaran/Shin/Smith

Cas où les variables sont d’ordres d’intégration différents

On dispose pour un pays africain et sur la période 1988 à 2017, des


séries macroéconomiques investissement (INV), produit intérieur brut (PIB)
et taux d’intérêt (TXINT).
Les données annuelles sont reportées dans le tableau ci-après.

Tableau - Investissement, PIB et Taux d’intérêt réel


Années INV PIB TXINT
1988 158 1090 3.5
1989 202 1255 5.5
1990 275 1414 5.5
1991 289 1906 8
1992 264 1933 8
1993 287 1979 8
1994 316 2209 8
1995 314 2751 8
1996 350 2987 10.5
1997 317 2479 10.5
1998 316 2583 12.5
1999 317 2480 10.5
2000 300 2337 10.5
2001 270 2579 10.5
2002 429 3763 8.5
2003 574 4600 8.5
2004 633 4980 9.5
2005 548 4626 11
2006 787 5698 11
2007 708 5500 11
2008 894 6027 12.5

126
Chapitre 3 / Cointégration et modèle à correction d’erreur

2009 765 5431 10.5


2010 676 3642 10
2011 748 4476 7.5
2012 859 4651 6.5
2013 789 4387 6.5
2014 866 4646 6.25
2015 905 4752 5.75
2016 867 4371 6.5
2017 925 4620 6.5

Les données des variables INV et PIB sont exprimées en millions de


dollars.

La variable TXINT est exprimée en pourcentage.

1. Saisir les données.

2. Représenter graphiquement les variables log(inv), log(pib) et log(txint).

3. Déterminer l’ordre d’intégration des variables log(inv), log(pib) et


log(txint) en utilisant les tests de stationnarité de Dickey-Fuller
Augmenté, Phillips-Perron et Kwiatkowski-Phillips-Schmidt-Shin.

4. Tester l’hypothèse de cointégration des variables log(inv), log(pib) et


log(txint).

Solution avec Eviews

1. Saisir les données.

Cliquer sur File → New → Workfile


Frequency : Choisir Annual
Start date : Saisir 1988
End date : Saisir 2020
→ OK

127
Chapitre 3 / Cointégration et modèle à correction d’erreur

Ensuite

Saisir data inv pib txint

Valider par la touche entrée () du clavier


Saisir les données en validant par la touche () du clavier

2. Représentations graphiques des variables log(inv), log(pib) et log(txint).

line log(inv)

LOG(INV)
7.00
6.75
6.50
6.25
6.00
5.75
5.50
5.25
5.00
88 90 92 94 96 98 00 02 04 06 08 10 12 14 16

Nous pouvons remarquer que cette série a une tendance croissante


et que les fluctuations semblent représentatives d’une série non
stationnaire.

line log(pib)

128
Chapitre 3 / Cointégration et modèle à correction d’erreur

LOG(PIB)
8.8

8.4

8.0

7.6

7.2

6.8
88 90 92 94 96 98 00 02 04 06 08 10 12 14 16

Nous pouvons remarquer que cette série a une tendance croissante


et que les fluctuations semblent représentatives d’une série non
stationnaire.

line log(txint)

2.6

2.4

2.2

2.0

1.8

1.6

1.4

1.2
88 90 92 94 96 98 00 02 04 06 08 10 12 14 16

LOG(TXINT) MOY

Nous pouvons remarquer que cette série a une tendance constante et


que les fluctuations semblent représentatives d’une série stationnaire.

129
Chapitre 3 / Cointégration et modèle à correction d’erreur

3. Détermination de l’ordre d’intégration des variables log(inv), log(pib) et


log(txint)
La mise en œuvre des différents tests de stationnarité pour chaque série
aboutit aux résultats donnés dans le tableau ci-dessous.

Variables Ordre d’intégration


log(inv) I(1)
log(pib) I(1)
log(txint) I(0)

Il ressort de ce tableau que :


-- les variables log(inv) et log(pib) sont non stationnaires en niveau mais
stationnaires en différences premières. Ces variables sont intégrées
d’ordre un.

-- la variable log(txint) est stationnaire en niveau. Cette variable est


intégrée d’ordre 0.

4. Test de cointégration

Comme les variables log(inv), log(pib) et log(txint) sont intégrées à des


ordres différents, le test de cointégration de Johansen n’est pas valable.
Nous utilisons le test de cointégration aux bornes de Pesaran/Shin/Smith
(2001).

Le test de Pesaran s’effectue en deux étapes :

Etape 1 : Déterminer le modèle ARDL optimal

Etape 2 : Utiliser la statistique de Fisher pour tester la cointégration.

130
Chapitre 3 / Cointégration et modèle à correction d’erreur

4.1 Estimation du modèle ARDL optimal

Cliquer sur Quick → Estimation Equation


→ Method : Choisir ARDL

On obtient la fenêtre suivante :

Dynamic Specification : Saisir log(inv) log(pib) log(txint)

Choisir Automatic selection

Dependant variable : Choisir 1 pour Max lags

Regressors : Choisir 1 pour Max lags

Trend specification : Choisir 3. Constant

→ Cliquer sur OK

131
Chapitre 3 / Cointégration et modèle à correction d’erreur

L’estimation des paramètres du modèle ARDL (1,0,0) optimal est donné


dans le tableau ci-dessous.

Dependent Variable: LOG(INV)


Method: ARDL
Sample (adjusted): 1989 2017
Included observations: 29 after adjustments
Maximum dependent lags: 1 (Automatic selection)
Model selection method: Akaike info criterion (AIC)
Dynamic regressors (1 lag, automatic): LOG(PIB) LOG(TXINT)

Fixed regressors: C
Number of models evalulated: 4
Selected Model: ARDL(1, 0, 0)

Variable Coefficient Std. Error t-Statistic Prob.*

LOG(INV(-1)) 0.410036 0.079449 5.161002 0.0000


LOG(PIB) 0.669654 0.097506 6.867830 0.0000
LOG(TXINT) -0.427663 0.079725 -5.364225 0.0000
C -0.841860 0.366414 -2.297567 0.0302

R-squared 0.969711
F-statistic 266.7934 Durbin-Watson stat 2.478805
Prob(F-statistic) 0.000000

*Note: p-values and any subsequent tests do not account for model selection

4.2 Modèle optimal avec le graphique du critère d’information de Akaike

Après l’estimation du modèle ARDL(1,0,0)

Cliquer sur View → Model Selection Summary

→ Criteria graph

132
Chapitre 3 / Cointégration et modèle à correction d’erreur

Akaike Information Criteria


-1.66
-1.68
-1.70
-1.72
-1.74
-1.76
-1.78
-1.80
-1.82
ARDL(1, 0, 0)

ARDL(1, 0, 1)

ARDL(1, 1, 0)

ARDL(1, 1, 1)

4.3 Test de cointégration aux bornes de Pesaran

H0 : les variables log(inv), log(pib) et log(txint) ne sont pas cointégrées


H1 : les variables log(inv), log(pib) et log(txint) sont cointégrées

Après l’estimation du modèle ARDL(1,0,0)

Cliquer sur View → Coefficient Diagnostics

→ Long Run Form and Bounds Test

133
Chapitre 3 / Cointégration et modèle à correction d’erreur

Null Hypothesis: No
F-Bounds Test levels relationship

Test Statistic Value Signif. I(0) I(1)

Asymptotic: n=1000

F-statistic 20.21848 10% 3.17 4.14


k 2 5% 3.79 4.85
2.5% 4.41 5.52
1% 5.15 6.36

Tableau : Résultat du test de cointégration de Pesaran (2001)

Variables log(inv) , log(pib), log(txint)


F-stat calculée 20,218
Seuils critiques Bornes inférieures Bornes supérieures
10% 3.17 4.14
5% 3.79 4.85
2.5% 4.41 5.52
1% 5.15 6.36

La valeur de la statistique de Fisher est égale à 20,218.


Comme la statistique de Fisher est supérieure aux valeurs des bornes
supérieures, on rejette l’hypothèse nulle de non cointégration.

Les variables log(inv), log(pib) et log(txint) sont cointégrées.

5.3 Modèle à correction d’erreur

Le modèle à correction d’erreur présente une propriété remarquable qui


a été démontrée par Granger en 1983.
Un ensemble de variables cointégrées peut être mis sous forme d’un
modèle à correction d’erreur dont toutes les variables sont stationnaires
et dont les coefficients peuvent être estimés par les méthodes de
l’économétrie classique sans risque de corrélations fortuites.

134
Chapitre 3 / Cointégration et modèle à correction d’erreur

Le résultat connu sous le nom de théorème de représentation de


Granger, valide de façon générale la démarche du modèle à correction
d’erreur pour une classe importante de variables.

Il existe deux versions du modèle à correction d’erreur : le modèle en


une étape de Hendry et le modèle en deux étapes de Engle et Granger.

Considérons l’exemple précédent de la variable endogène Y et des trois

séries explicatives X1 , X 2 et X 3 .

Nous supposons que les variables log(Y), log(X 1 ), log(X 2 ) et log(X 3 )


sont cointégrées.

Modèle 1 : Modèle de Hendry

Le modèle de Hendry est de la forme :

d(LYt ) = β 0 + β1 d(LX1t ) + β 2 D(LX 2t ) + β3 D(LX3t ) + β 4 LYt − 1

+ β5 LX1 t − 1 + β 6 LX 2 t − 1 + β 7 LX3 t − 1 + u t

avec

LY = Log (Y); LX1 = Log(X1); LX2 = Log(X2); LX3 = Log (X3)

d est l’opérateur de différence première défini par :

d(Xt ) = X t − X t − 1

Les coefficients β1, β 2 et β 3 représentent la dynamique de court


terme et les coefficients β 5 , β 6 et β 7 caractérisent l’équilibre de
long terme.

Le coefficient β 4 est le coefficient de correction d’erreur, il doit être


inférieur à l’unité et négatif.

135
Chapitre 3 / Cointégration et modèle à correction d’erreur

Le coefficient de correction d’erreur indique la vitesse d’ajustement de


la variable endogène Y pour retourner à l’équilibre de long terme suite
à un choc.

Le coefficient β 0 représente la constante du modèle.

Les élasticités de court terme de Y par rapport aux variables

X1, X2 et X3 sont respectivement β1, β 2 et β 3

Les élasticités de long terme Y par rapport aux variables :

X1, X2 et X3 sont respectivement β5 β β


− , − 6 et − 7 .
β4 β4 β4

Modèle 2 : Modèle de Engle-Granger

Pour le modèle de Engle et Granger, on procède en deux étapes.

Etape 1 : Estimation de la relation de long terme par la méthode des


moindres carrés ordinaires

LYt = â 0 + â1 LX1t + â 2 LX 2t + â 3 LX3t + e t

Etape 2 : Estimation de la relation du modèle dynamique (court terme)


par la méthode des moindres carrés ordinaires

d(log(LYt ) = β0 + β1 d (LX1t ) + β2 d (LX2t ) + β3d (LX3t ) + β4 et − 1 + εt

β 4 est le coefficient de correction d’erreur, il doit être négatif et


significativement différent de 0.

136
Chapitre 3 / Cointégration et modèle à correction d’erreur

Exercice 6 : Estimation d’un modèle à correction d’erreur

Considérons les données de l’exercice 5 relatives aux séries consommation


(cons) et revenu (rev).
Les données annuelles sont disponibles de 1990 à 2016.
Les variables log(cons) et log(rev) sont cointégrées.

1. On se propose d’estimer le modèle à correction d’erreur de type


Hendry suivant (estimation en une étape) :

d(log(cons t )) = β 0 + β1 d (log(rev t )) + β 2 log (const − 1)


+ β3 log(rev t − 1) + u t

où log est le logarithme népérien et d est l’opérateur différence


première défini par :
d(Xt ) = X t − X t − 1

1.1 Estimer par la méthode des moindres carrés ordinaires les


paramètres du modèle de type Hendry;

1.2 Le modèle à correction d’erreur de Hendry est-il valable ?

1.3 Donner une interprétation économique du coefficient de correction


d’erreur β 2 ;

1.4 Interpréter économiquement les élasticités de court et de long


termes.

2. On se propose d’estimer le modèle à correction d’erreur de type


Engle-Granger (estimation en deux étapes) .

d(log(const )) = λ 0 + λ1 d (log(rev t )) + λ 2 e t − 1 + u t

137
Chapitre 3 / Cointégration et modèle à correction d’erreur

2.1 Estimer par la méthode des moindres carrés ordinaires les


paramètres du modèle à correction d’erreur de type Engle-Granger.

2.2 Le modèle à correction d’erreur de Engle-Granger est-il valable ?

Solution avec Eviews

1. Modèle de Hendry

1.1 Estimation des paramètres du modèle de Hendry

L’estimation des paramètres par la méthode des moindres carrés


ordinaires se fait par l’instruction suivante :

LS d(log(cons)) c d(log(rev)) log(cons(-1)) log(rev(-1))

Les résultats de l’estimation sont donnés dans le tableau suivant :

Dependent Variable: D(LOG(CONS))


Method: Least Squares
Included observations: 26 after adjustments
Variable Coefficient Std. Error t-Statistic Prob.
C 0.172218 0.048563 3.546257 0.0018
D(LOG(REV)) 0.469091 0.102903 4.558585 0.0002
LOG(CONS(-1)) -0.446765 0.096058 -4.650981 0.0001
LOG(REV(-1)) 0.408418 0.090379 4.518949 0.0002

R-squared 0.655289 0.021911


F-statistic 13.94052 Durbin-Watson stat 1.700999
Prob(F-statistic) 0.000026

Les paramètres estimés sont :

β̂ 0 = 0,172 ; β̂1 = 0,469 ; β̂ 2 = − 0,447 ; β̂ 3 = 0,408

138
Chapitre 3 / Cointégration et modèle à correction d’erreur

1.2 Validité du modèle de Hendry

Le coefficient β 2 (force de rappel vers l’équilibre) est le coefficient de


correction d’erreur.
Nous testons d’abord la significativité du coefficient de correction
d’erreur par la méthode de Student.

Nous avons le problème de test suivant :

H 0 : β 2 = 0 contre H1 :β 2 = 0

La probabilité critique associée au test (0,0001) est inférieure à 1%,


nous rejetons l’hypothèse nulle. Le coefficient de correction d’erreur
β 2 est significativement différent de 0.

On constate que le coefficient associé à la force de rappel est

négatif (− 0,447) et significativement différent de zéro au seuil statistique


de 1% . Le modèle à correction d’erreur est valable.

Il existe donc bien un mécanisme à correction d’erreur : à long terme


les déséquilibres entre les consommations et les revenus se
compensent de sorte que les deux séries ont des évolutions similaires.

1.3 Interprétation du coefficient de correction d’erreur

β 2 représente la vitesse à laquelle tout déséquilibre entre les niveaux


désiré et effectif des consommations est résorbé dans l’année qui suit
tout choc.

β̂2 = − 0,447 → on arrive à ajuster 44,7% du déséquilibre entre les


niveaux désiré et effectif des consommations.

139
Chapitre 3 / Cointégration et modèle à correction d’erreur

44,7% des effets d’un choc intervenu une année donnée est résorbé
dans l’année qui suit tout choc.

Ainsi, les chocs sur les consommations des ménages du pays se


corrigent-ils à 44,7% par l’effet de « feed back ».

En d’autres termes, un choc constaté au cours d’une année est


entièrement résorbé au bout de deux années et 3 mois (1/0,447 = 2,24
année).

1.4 Elasticités de court et de long termes

1.4.1 L’estimation de l’élasticité de court terme des consommations


par rapport aux revenus est :

β̂1 = 0,469
Si les revenus des ménages du pays augmentent de 10%, alors leurs
consommations à court terme augmentent de 4,69%, toutes choses
égales par ailleurs.

1.4.2 L’estimation de l’élasticité de long terme des consommations par


rapport aux revenus est :

β̂3
− = 0,408 = 0,913
β̂ 2 0,447

Si les revenus des ménages du pays augmentent de 10%, alors leurs


consommations à long terme augmentent de 9,13%, toutes choses
égales par ailleurs.

140
Chapitre 3 / Cointégration et modèle à correction d’erreur

2. Modèle de Engle-Granger

2.1 Estimation du modèle à correction d’erreur en deux étapes de type


Engle-Granger

Etape 1 : Estimation par les moindres carrés ordinaires (MCO) de la


relation de long terme

log(cons t ) = â + b̂ log(rev t ) + e t

LS log(cons) c log(rev)

Dependent Variable: LOG(CONS)


Method: Least Squares
Sample: 1990 2016
Included observations: 27

Variable Coefficient Std. Error t-Statistic Prob.


C 0.179517 0.089370 2.008690 0.0555
LOG(REV) 0.940946 0.013276 70.87386 0.0000

R-squared 0.995048

Les paramètres estimés sont â = 0,179 et b̂ = 0,941

Après l’estimation des paramètres de la relation de long terme, on


récupère les résidus par l’instruction Eviews suivante :

genr erreur = resid

Etape 2 : Estimation de la relation du modèle dynamique (court terme)

d(log(const )) = λ 0 + λ1 d (log(rev t )) + λ 2 e t − 1 + u t

e t = log(cons t ) − 0,179 − 0,941log(rev t )

141
Chapitre 3 / Cointégration et modèle à correction d’erreur

L’estimation des paramètres de la relation du modèle dynamique (court


terme) se fait par l’instruction suivante :

LS d(log(cons)) c d(log(rev)) erreur(-1)

Les résultats de l’estimation du modèle Engle-Granger par la méthode


des moindres carrés ordinaires sont donnés dans le tableau suivant :

Dependent Variable: D(LOG(CONS))


Method: Least Squares
Included observations: 26 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.


C 0.011460 0.002600 4.408627 0.0002
D(LOG(REV)) 0.477530 0.107676 4.434882 0.0002
ERREUR(-1) -0.440239 0.100547 -4.378450 0.0002

R-squared 0.604589
F-statistic 17.58365 Durbin-Watson stat 1.502007
Prob(F-statistic) 0.000023

Les paramètres estimés sont :

λ̂ 0 = 0,011 ; λ̂1 = 0,447 ; λ̂ 2 = − 0,440

2.2 Validité du modèle de Engle-Granger

λ̂ 2 = − 0,44 est l’estimation du coefficient de correction d’erreur.

Nous testons d’abord la significativité du coefficient de correction


d’erreur par la méthode de Student.

Nous avons le problème de test suivant :

H 0 : λ 2 = 0 contre H1 : λ 2 = 0

142
Chapitre 3 / Cointégration et modèle à correction d’erreur

Comme la probabilité critique associée au test (0,0002) est inférieure à


1%, nous rejetons l’hypothèse nulle.

Le coefficient de correction d’erreur λ 2 est significativement différent de


0.

On constate que le coefficient associé à la force de rappel est

négatif (− 0,44) et significativement différent de zéro au seuil statistique


de 1% .

Le modèle à correction d’erreur de Engle-Granger est valable.

Conclusion

L’intérêt de la théorie de la cointégration est qu’elle fournit une


méthode d’analyse des séries temporelles non stationnaires en évitant
le problème des régressions fallacieuses (spurious regressions) mis en
évidence par Granger et Newbold (1974).

De plus, grâce aux modèles à correction d’erreur, la théorie de la


cointégration permet de modéliser simultanément les dynamiques de
long terme et de court terme des séries temporelles.

143

Vous aimerez peut-être aussi