Rsa 1998 46 3 89 0 PDF

R EVUE DE STATISTIQUE APPLIQUÉE
P IERRE H AMMAD
PAP N GOM
Test d’ajustement et test de choix fondés sur une
distance informationnelle généralisée
Revue de statistique appliquée, tome 46, no 3 (1998), p. 89-107
<http://www.numdam.org/item?id=RSA_1998__46_3_89_0>
© Société française de statistique, 1998, tous droits réservés.

L’accès aux archives de la revue « Revue de statistique appliquée »
(http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi-
tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti-
lisation commerciale ou impression systématique est constitutive d’une in-
fraction pénale. Toute copie ou impression de ce fichier doit contenir
la présente mention de copyright.
Article numérisé dans le cadre du programme

Numérisation de documents anciens mathématiques
http://www.numdam.org/
Rev. Statistique Appliquée, 1998, XLVI (3),89
FONDÉS
TEST D’AJUSTEMENT ET TEST DE CHOIX
SUR UNE DISTANCE INFORMATIONNELLE GÉNÉRALISÉE
Pierre Hammad, Pap Ngom

Laboratoire de Mathématiques Appliquées, Université d’Aix-Marseille, Espace Forbin,
15-19 allée Claude Forbin, 13627 Aix-en-Provence
RÉSUMÉ
On choisit d’appuyer ce travail sur une mesure de discrimination Or, entre deux
distributions de probabilité, construite à partir d’une information de type Sharma et Mittal
(1977), pour développer d’abord un test d’ajustement, puis un test de choix entre deux modèles
paramétriques. On tente ensuite d’apprécier le degré de performance de ces tests par rapport à
ceux du khi-deux et de Kolmogorov-Smimov dans le premier cas, et la méthode de Vuong et
Wang dans le deuxième cas.

Mots-clés : information généralisée, estimation, test d’hypothèses, simulation par Monte
Carlo.
ABSTRACT
We choose to base this work on a discrimination measure Or, between two probability
distributions, obtained through information-type measure of Sharma and Mittal (1977) in order
to developp at first a test for goodness of fit, afterwards a test of parametric model choice. We
tryto estimate the degree of performance in terms of power about these statistical tests with
regards to Chi-square and Kolmogorov-Smirnov at first, and Vuong and Wang method in the
second case.
Keywords : generalized information, estimation, hypothesis test, Monte Carlo simulation.
Introduction
L’essentiel des tests d’adéquation d’un modèle à un échantillon se fondent sur

des statistiques suivant asymptotiquement une loi du khi-deux. On sait que cette
méthode, basée par Pearson sur un regroupement des données en M classes et
sur un calcul d’une «distance» entre proportion empirique et fréquence théorique,
a été confortée par la suite par de nombreux auteurs dont Watson (1959), Moore
(1978,1986) par exemple.

Le rapprochement entre théorie de l’information et théorie de l’estimation et
tests (Hammad 1987) justifie que l’on s’inspire, par exemple, d’autres distances pour
90 P HAMMAD, P. NGOM
certains types de tests. On peut citer les travaux de D. Morales et Menendez (1994)
qui ont proposé comme base générale une (h, 0) -divergence et tenté une application
pour les tests d’ajustement, de prédiction et d’homogénéité.
Dans le même ordre d’idées, il nous a paru intéressant de sélectionner un type
particulier de mesure de discrimination Or entre deux distributions et d’utiliser son
comportement asymptotique pour des tests d’adéquation dans le cadre de modèles
paramétriques. Le choix de Ar est dicté par un certain nombre de ses propriétés et
notamment la recherche du test le plus puissant en fonction du paramètre r. Une
comparaison de ce test avec ceux plus classiques du khi-deux et de Kolmogorov-
Smimov souligne en outre son efficacité.
Par ailleurs, dans la recherche d’un test de choix entre distributions, il est
fréquent de s’appuyer sur le critère AIC de Akaike (1973), qui consiste, dans le
cas de modèles paramétriques, à choisir le modèle fournissant le maximum de
la log-vraisemblance pénalisée d’une quantité égale au nombre de paramètres :
AI C =
Ln(n) - p, où Ln désigne la log-vraisemblance du modèle, p la dimension
du vecteur de paramètres 03B8 et l’estimateur de B. Un handicap majeur lié à l’utilisation
de ce critère est qu’il ne précise pas le seuil de confiance que l’on peut accorder au
modèle retenu.
Pour tenir compte du niveau de signification inhérente à toute décision statis-
tique, Vuong et Wang (1993) proposent l’usage d’un test asymptotiquement normal
lorsque la sélection de modèle est fondée sur des statistiques de type Pearson.
De façon analogue à l’approche de Vuong et Wang, nous suggérons, dans
une deuxième partie, d’appuyer le problème du test de choix entre deux modèles
paramétriques sur une statistique construite à partir de la distance Ai/2 et nous

établissons une comparaison, selon la loi suivie par les observations, entre les deux
modèles.
1. Estimateur de la mesure Ar
1.1. Définitions et hypothèses
C’est à Rényi (1966) que l’on doit une première généralisation des mesures
d’information, introduite à partir de la mesure suivante de proximité entre deux
distributions P et Q.
Plus tard, Sharma et Mittal (1977) ont basé cette notion sur une mesure à deux
paramètres, incluant celle de Rényi comme cas limite, en posant :
TEST D’AJUSTEMENT ET TEST DE CHOIX 91
D;, «information» correspondant au cas r s dans (2), a été largement étudiée

=
par plusieurs auteurs. Pour des développements plus généraux, on pourra se référer
aux contributions - entre autres - de Mathaï et Rathie (1975), Tanéj a (1979) ou encore
Hammad (1987).
L’habituelle symétrie recherchée dans l’utilisation de ces critères de proximité
requiert que l’on travaille plutôt à partir d’une distance de type Jeffreys (Voir Rényi
(1966)), ici généralisée et déduite de (2) :
C’est autour de cette mesure 03B4r[P, Q], et de son estimateur (défini ultérieure-
ment) que nous proposons une méthode de test d’ajustement d’une série d’observa-
tions à un modèle paramétrique donné.
La mise en oeuvre d’une telle procédure de test passe par quelques hypothèses
de base dont nous rappelons l’essentiel.
Hypothèse (A1):
Les observations Xi, i 1, 2,..., sont supposées i.i.d, avec une distri-
=
bution commune H. L’espace d’échantillonnage 039E est partitionné en M classes

El, E2,..., EM, deux à deux disjointes.
Considérons un modèle Ho = {H(x,03B8) ; x E 0 e Q c R k1 et faisons
l’hypothèse (Ai) que le vecteur des probabilités associées à H est de la forme :
avec :
Hypothèse (A2) :
On suppose que hi (0) vérifie les conditions de régularité classiques :
(i) le support de H03B8 est indépendant de tout x
(ii) les dérivées partielles suivantes existent et sont finies :
(iii) la matrice d’information de Fisher
est définie positive.

92 P HAMMAD, P. NGOM
Considérons un échantillon de taille n et El, E2,..., EM la partition en M

classes qui lui est associée. On peut calculer la probabilité observée relative à chaque
classe Ei, en posant :
avec
Pour évaluer l’écart entre les fréquences observées et les probabilités théoriques,
(le paramètre 03B8 étant supposé inconnu), on propose d’utiliser la mesure d’information
0394r[f, h(03B8)] basée sur (3), où f E(f). La statistique associée à cette mesure sera
=
définie par r, obtenue en remplaçant 03B8 par l’ estimateur 03B8.

On posera donc :
Examinons, à présent, comment se comporte la loi régissant cet estimateur.
1.2. Comportement asymptotique de r.
On situera l’estimateur de 03B8 dans la classe des estimateurs vérifiant tradition-

nellement le principe de normalité asymptotique en ce sens que :
où 03A9(03B8) est l’inverse d’une matrice inversible.

Dans le cas précis où est l’estimateur du maximum de vraisemblance de 0,
on a Ç2(0) = I-1(03B8) où 1(0) désigne la matrice d’information de Fisher. La loi
asymptotique de Or sera alors donnée par le théorème qui suit :
Théorème 1 :
Soit r[f, h(O)] l’estimateur de 0394r[f, h(03B8)] obtenu en remplaçant 03B8 par
l’estimateur 03B8 vérifiant (7).
On pose,
où
avec pour expression de r2 :
où À = (r - 1)-1 et où 03A9(03B8)ij représente le terme général de la matrice 03A9(03B8).

La démonstration reposesur un développement limité de Taylor de la fonction
1jJ(O) = 0394r[f, h(03B8)] de 0 à l’ordre 1 pour (i) et à l’ordre 2 pour (ii) (voir
autour
D. Morales et al. (1994) pour une démonstration d’une version plus générale de ce
théorème).
2. Application aux tests d’adéquation

Nous proposons, dans cette section, une procédure de test d’adéquation à partir
de 0394r, pour ensuite tenter de l’interpréter par rapport aux tests habituels.
2.1. Ajustement à un modèle donné
Soient f (f1,f2,
=
fM) et h(03B8) = (hl (0), h2 (0),
..., hM(03B8)) les vecteurs
...,
de probabilité définis à partir de (4), (5) correspondant respectivement aux

et
fréquences empirique et théorique du modèle associées à la partition considérée.
Les hypothèses à tester sont formulées comme suit :
On considère, pour résoudre ce problème de test, la statistique
afin d’estimer l’écart entre la distribution empirique et la loi du modèle.

Sous Ho, r a tendance d’après (9) à prendre de «petites valeurs», de sorte
que, si l’on se fixe un niveau de signification a, la fonction de test est définie de la
manière suivante :
94 P HAMMAD, P NGOM
La valeur de la constante Ca résulte du théorème 1 (précédent) en vertu duquel,

sous l’hypothèse nulle, la loi de rn r suit asymptotiquement une loi du khi-deux. On
a alors :
où ~2k(03B1) est la valeur du khi-deux pour laquelle la probabilité de dépassement est

égale à a.
Sous l’hypothèse alternative, la distribution asymptotiquement normale de
y’"iï Or permet d’exprimer la puissance sous la forme :
où ~(.) désigne la fonction de répartition de la loi normale centrée réduite.

Le test ainsi obtenu est asymptotiquement convergent, au sens de Fraser :
Ce résultat tient au fait que, dans (10), Ca tend vers 0 si n tend vers l’infini, et
qu’en outre dans (11), A, étant strictement positive, (Ca - 0394r[f, h(03B8)]) est négatif
dès que n est assez élevé.
L’expression (12) est la traduction d’un risque de seconde espèce asymptoti-
quement nul.
On tente à présent de se faire une idée du degré de performance de ce test en
le comparant, par exemple, aux tests traditionnels du khi-deux et de Kolmogorov-
Smirnov.
2.2 Comparaison des propriétés des tests

Pour comparer la précision ou l’exactitude de résultats relatifs à des tests
asymptotiques, on dispose en général de deux méthodes respectivement fondées sur
des procédures d’approximation ou bien sur des simulations. Parce que la première
méthode conduit souvent à des calculs analytiques compliqués, on choisit ici de
comparer les performances de ces tests en procédant à des simulations par la méthode
de Monte Carlo .
Considérons une expérience de Monte Carlo 1, dans laquelle N réalisations
de 0394r, du khi-deux, et de Kolmogorov-Smirnov sont générées en utilisant un
processus de génération des données (PGD) incluant l’hypothèse nulle comme
cas particulier, et suivant par exemple une loi exponentielle exp(1/03B8), de densité
f(x, 03B8) = 1 03B8exp(-x 03B8)1R+(x).

1 Tous les calculs dans cet article ont été faits à partir de Gauss Version 3.1
On pose :
On suppose qu’on désire tester l’hypothèse nulle : 00 =

1, et que Lir est définie
par la relation (9) précédente.
Compte tenu du rôle joué par l’origine (valeur modale) et par l’unité (va-
leur moyenne), on partitionnera l’espace des observations en trois classes, (ce qui
représente le nombre minimum de classes, puisqu’il y a un seul paramètre à estimer
dans l’expression de la densité f (x, 0)) ainsi délimitées :
La statistique de Kolmogorov Kn est basée sur la distribution empirique :
à partir de laquelle :
Fo représentant la fonction de répartition théorique de référence.

On choisit ici une taille expérimentale d’échantillon égale à 100 et un nombre
de répliques N fixé à 5000. Les résultats de la simulation basée sur ces différentes
statistiques sont interprétés d’abord à partir des p-valeurs, puis des valeurs de la
puissance, ce pour chacun des tests considérés.
e
Comparaison des p-valeurs
Une comparaison des probabilités de rejet sous l’hypothèse nulle, effectuée de
façon traditionnelle, consiste à tabuler les résultats obtenus pour quelques valeurs
standards du niveau de signification a (1 %, 5 % ou 10 %).
On notera déjà, dans ce tableau, la croissance des probabilités de rejet (sous
Ho) relatives à r en fonction de r, probabilités dont les valeurs sont de toutes façons
supérieures aux valeurs nominales de départ.
Une interprétation plus synthétique (vraie quel que soit a) peut être obtenue
graphiquement en utilisant la méthode introduite par Davidson & Mackinnon (1994).
Cette méthode repose principalement sur l’estimation de la fonction de répartition
empirique des p-valeurs correspondant au test utilisé. Considérons, par exemple, une
expérience de Monte Carlo dans laquelle N réalisations d’une statistique S sont
générées par un PGD. A chacune des N répliques de la simulation, on obtient une
valeur sj (1 j N) de S et donc une valeur pj de la p-valeur donnée par :
où Fs représente la fonction de répartition asymptotique de S.

96 P. HAMMAD, P. NGOM
TABLEAU 1
Comparaison entre niveaux de signification nominaux
et réponses obtenues dans le cas d’une loi exponentielle.
L’estimateur F de la distribution empirique F des p-valeurs, moyennes des

fonctions indicatrices 1(pjx), s’écrit :
pour chaque point x dans [0, 1].

Lorsque la distribution utilisée pour déterminer les p-valeurs pj correspond à
la loi exacte de la statistique S, on a alors, en prenant l’espérance mathématique de
F dans (13) :
Dans ce contexte précis, F(x) - traduit la différence entre le niveau de

x
signification estimé par F(x) et le niveau nominal x. On peut alors tracer (figure 1) la
courbe correspondante donnant (F(x) - x) en fonction de x. Pour des raisons liées
aux difficultés de calcul des fractiles de la loi de Kolmogorov, nous nous limiterons
ici aux statistiques 03941/2, Ai, Â2, A3 et celle du khi-deux.
La figure 1 montre, comme l’on pouvait si attendre, compte tenu du tableau 1,
que la distance du khi-deux fournit les résultats les plus proches des p-values
nominales. On constate, par ailleurs, que l’ensemble des courbes en figure 1 se
comportent globalement de façon analogue (surtout pour
surclassant les autres.
et Ai/2 Ai),
celle du X2
FIGURE 1
Graphe de ((x) - x) en fonction de x, pour n = 100
e
Comparaison des puissances
Pour une meilleure appréciation des propriétés de ces statistiques, considérons
leur comportement en termes de puissance; dans le cas de 0394r, la puissance résultera
de l’expression :
Le tableau qui suit établit la comparaison de ces puissances pour différents tests
(basés sur le X2 et Kolmogorov).
La puissance du test fondé sur Lir dépend évidemment de r et il apparaît
intéressant de se faire une idée de son comportement par rapport à ce paramètre.
C’est ce qu’un examen du tableau 2 permet de faire à travers le choix (justifié) d’un
ensemble de quatre valeurs de r : {0.5; 1; 2; 3}. On note une croissance monotone de
la puissance avec r. Ainsi, pour un niveau de signification de 5 % , la puissance du
test du khi-deux, lorsque E 1.4, est égale à 73.10 % alors qu’elle est de 76.90 %
=
pour Ai/2, de 81.70 % pour Li2 et 82.10 % pour A3. En comparaison, la fréquence
de rejet est de 90.50 % pour le test de Kolmogorov.
Même si la puissance liée à Ay. croît avec r, le cas Ai/2 semble privilégié
à plus d’un titre. C’est d’abord ce qu’illustre la figure 1 lorsque l’on s’intéresse
à une comparaison des p-valeurs. Ensuite, la construction même de
Ai/2 présente
TABLEAU 2
Valeurs de la puissance en fonction du paramètre 03B5
et de la statistique utilisée.
l’avantage d’une propriété métrique qui en fait une vraie distance pour laquelle on
constate que :
avec l’encadrement :
Parmi les mesures connues de «type»

A 1/2, on peut citer par exemple, celles de
Bhattacharya (1943) et de Matusita (1951, 1967), respectivement définies, pour deux
distributions p et q, par :
B[p, q] comme M[p, q] possèdent les propriétés d’une vraie métrique et, de toute
évidence, on a de plus :
ce qui entraîne par conséquent, pour les trois distances B, M et 03941/2, des propriétés
asymptotiques analogues.
TEST DAJUSTEMENT ET TEST DE CHOIX 99
3. Test de sélection de modèles
La recherche d’un test pour choisir une distribution parmi deux distributions
s’appuie traditionnellement sur la méthode de Akaike (1973) ou celle souvent mieux
adaptée de Vuong et Wang (1993) dont la base, dans le dernier cas, est la distance du
khi-deux.
Par comparaison, on suggère ici une procédure pour déterminer, entre deux
modèles paramétriques Ho et G7r, celui qui s’adapte le mieux à la loi empirique d’une
série d’observations donnée. On se basera pour cela sur les mesures d’information
de type 03941/2 servant de mesure de divergence entre le modèle H03B8 ou G7r et les
observations.
Les fonctions f, h et g désignent respectivement la fréquence empirique, la loi
théorique du modèle H03B8 et celle de G03C0. Les estimateurs de 0 et de 1r vérifient la
relation (7).
Soient Ai/2[/? h(03B8)] et 03941/2[f, g(03C0)] les estimateurs respectifs de Ai/2[/, h(03B8)]
et 03941/2[f, g(03C0)].
On considère les hypothèses suivantes :
L’hypothèse (i) signifie que les modèles Ho et Gjr sont équivalents; (ii) traduit
le fait que G7r est meilleur que H03B8 et (iii) suggère de choisir H03B8 plutôt que G7r’
La résolution de ce problème de choix entre H03B8 et G7r sera fondée sur la
statistique
qui estime
Sous l’hypothèse nulle Ho, la loi asymptotique de Dn est donnée par une version
du théorème de Vuong-Wang (1993) :
Théorème 2 :
Si 0 et 1r représentent respectivement les E. M. V de 6 et 7r , on a (avec la

notation ci-dessus de Dn) :
Dans le cadre présent, l’expression de la variance E2 associée à la statistique

Dn, déterminée moyennant
est un développement limité de
Taylor à l’ordre 1 des
fonctions Âi/2[/,
h(03B8)] et 1/2[f, g(03C0)].
Posons :
On obtient alors :
Par différence des relations (18) et (19) :
En posant :
on obtient :
et comme = R1n - R2n ~ 0 quand n tend vers l’infini, on en déduit que les deux
Rn
variables aléatoires Dn - Dn et Ct(03B8 , 03C0)
)
ont asymptotiquement la même
distribution, autrement dit :
avec
où
puisque et ’8 sont des variables aléatoires centrées.

3.1. Règle de décision associée à la statistique Dn
Nous allons nous appuyer sur l’inégalité triangulaire que vérifie la métrique
Ai/2 pour un encadrement de Dn . En effet :
soit :
D’autre part :
ce qui entraîne :
Posons :
En multipliant (22) par n et (23) par - n, et en remplaçant ensuite B et 7r
par leurs estimateurs respectifs 0 et 7r, on obtient en fait :
Pour réaliser le test de choix entre h et g, on peut envisager une règle de décision
définie comme suit, pour un niveau de signification supposé égal a :
il y a équivalence entre h et g si :
-
-
on décide en faveur de h lorsque :
on décide en faveur de g si :
03A32 représentant la variance de la statistique Dn et Za/2 le quantile (1 - 03B1/2) de la

loi normale centrée réduite.
3.2. Exemples d’application
On propose ici une comparaison entre la statistique Dn[h(O), g(7r)], construite

avec
Ai/2 n[h(03B8),
et g(03C0)], obtenue en fonction de la statistique de Pearson (voir
Vuong et Wang 1993). Ces statistiques sont définies comme suit :
n[f, h( 0)] désignant la distance du khi-deux entre la fréquence empirique f et la

distribution théorique h.
A titre d’illustration, des simulations par Monte Carlo ont été mises en oeuvre à
partir de quelques distributions, afin de comparer la méthode de Vuong et Wang avec
la procédure que nous avons proposée. On se limitera ici, à trois types de lois dont
les densités de probabilité sont définies sur :
- un intervalle [a, b],
- l’ensemble R+
-
l’ensemble R.
Le nombre de répliques utilisé pour construire les distributions empiriques est
N = 5000 et la taille des échantillons considérés varie entre 70 et 800. Le niveau de
signification retenu est de 5 %.
3.2.1. Cas de deux distributions définies sur [0, 1]

On veut sélectionner un modèle parmi deux distributions (une loi Bêta et une loi
uniforme), sur la base d’une série d’observations obtenues à partir de deux processus
de génération des données (PGD) Fi et Y2 de densités respectives f1 et f2 :
Afin d’espérer des résultats tangibles, il est nécessaire de pouvoir raisonnable-

ment discerner les deux distributions; on choisira à cet effet les valeurs p = 1 et
q = 2 et l’on regroupera les données en trois classes Ci =

[0, 0.2[; C2 =
[0.2, 0.8[
et C3 =
[0.8, 1].
On obtient les tableaux suivants :
TABLEAU 3
PGD : Yi - Be(1, 2)
TABLEAU 4
PGD : Y2 - U[o, 1]
3.2.2. Cas de deux distributions définies sur R+
Envisageons le problème qui consiste à choisir, par exemple, entre une distri-
bution exponentielle exp(0) de paramètre 03B8 et une loi Gamma r(p, a) de paramètres
(p, a), de densités respectives :
Nous supposerons dans ce qui suit que les estimateurs de 03B8 et oz sont obtenus
la
par méthode MV.
Pour des raisons de calcul, on donnera une valeur entière à p, la valeur 2 par
exemple. Par ailleurs, pour espérer ici obtenir des résultats significatifs, on prendra
dans (26) 0 = 0.707 et dans (27) a = 1, de telle sorte que les données issues
de ces deux lois conduisent à la même variance, atténuant ainsi «l’écart» entre les
distributions choisies. Les observations seront réparties en trois classes :
Dans le cas présent, nous générons les échantillons à partir de deux processus
de génération des données :
TABLEAU 5
PGD :Y3 - exp(0.707)
TABLEAU 6
PGD : Y4 ~ 0393[2, 1]
3.2.3 Cas de deux distributions définies sur R

On veut choisir entre une distribution de Laplace 03BE(03B1, 03BB) (ou loi exponentielle
double) et une loi normale N[m, 03C32]. On considère les PGD Y5 et Y6 suivants :
Nous supposerons les observations issues de populations ayant même moyenne,

m = a 0 et, pour simplifier, on prendra a = À
= = 1. On pose CI =] - ~, -2[;
C2 =
[-2, 2[ et C3 =
[2, +oo [, comme partition associée aux observations.
On obtient les résultats ci-dessous :
TABLEAU 7
PGD : Y5 ~ 03BE(0, 1)
TABLEAU 8
PGD : Y6 - N[0, 1]
Dans le tableau 3, le test fondé sur la statistique du khi-deux donne des résultats
sensiblement proches de celui fondé sur la mesure Dn. D’autre part, dans les tableaux
4, 5, 6 et 7, les résultats sont nettement meilleurs lorsque l’on considère le test obtenu
à partir de Dn .
En revanche, dans le tableau 8, on notera que la méthode associée à Kn semble
préférable dès que la taille de l’échantillon devient suffisamment grande . En effet,
sur la base de 500 observations par exemple, la bonne décision se traduit par une
probabilité d’acceptation de l’ordre de 96.40 % pour Kn

et de 91.20 % pour Dn.
Conclusion
Nous avons, dans cet article, tenté d’utiliser une distance informationnelle de
type Rényi, pour des tests aussi bien d’ajustement que de choix de modèles. Pour
en cerner l’efficacité, nous avons en parallèle, comparé nos résultats dans les deux
situations avec ceux fournis par les tests classiques du khi-deux ou de Kolmogorov. De
cette tentative informationnelle et de cette comparaison, on retiendra essentiellement
ce qui suit :
e
pour le testd’ajustement, à travers le critère des p-valeurs, les distances
Al/2 et Ai (très proches l’une de l’autre) sont, parmi les 0394r, les plus efficaces
mais s’avèrent moins performantes que le khi-deux (le test de Kolmogorov n’a pas
été ici pris en compte en raison de difficultés de calcul évidentes). Avec le critère
«puissance», à partir de certaines valeurs du paramètre c, Or quel que soit r est
préférable au khi-deux, le test de Kolmogorov s’avérant cependant meilleur;
e
pour le test de choix de modèle, on s’est limité, en le justifiant, à comparer
Ai/2 le khi-deux au travers des statistiques Dn et Kn données en (24) et (25).
et
Il apparaît, d’après les résultats obtenus, qu’aucune des deux statistiques de test
considérées ici n’est systématiquement plus performante que l’autre (tableaux 3 et
8). Cependant, dans de nombreux cas, le test basé sur Ai/2 engendre une meilleure
puissance (tableaux 4, 5, 6 et 7).
On retiendra enfin que dans le cadre des petits échantillons (pour les échantillons
de grande taille, ces statistiques de test sont équivalentes), les résultats obtenus, en
plus de la simplicité de calcul de 03941/2, plaident en faveur de cette distance dans
plusieurs situations.
Références
[1] AKAIKE H. (1973). «Information theory and Extension of the Likelihood Ratio
Principe», Proceedings of the second International Symposium of Information
theory, ed. By. Pietrov, B.N and Csaki, F. Budapest : Akademiai Kiado, pp. 257-
281.
[2] BHATTACHARYYA A. (1943). «On a measure of divergence between two
statistical populations defined by their probability distributions », Bull. Calcutta
Math.Soc., 35, 99-109.
[3] DAVIDSON R., J.G. MACKINNON (1994). «Graphical methods for investiga-
ting the size and Power of hypothesis tests», Documents de travail G.R.E. Q.A.M
n° 94A23 Juin.
[4] HAMMAD P. (1987). «Information, Systèmes et distributions», Editions Cujas,
Paris.
[5] MATUSITA K. (1951). «On theory of décision functions», Ann. Inst. Statist.
Math., 3, 17-35.
[6] MATUSITA K. (1967). «On the notion of affinity of several distributions and
some of its applications», Ann. Inst. Statist. Math. , 19, 181-192.
[7] MORALES D., PARDO L., Salicrù M., Menendez M.L. (1992). «A test of
independance based on the (r, s)-directed divergence», Tamkang Journal of
Mathematics, Vol. 23, n° 2, Summer.
[8] MORALES D., PARDO L., SALICRÙ M. and MENENDEZ M.L. (1994).
«Asymptotic properties of divergence statistics in a stratified random sampling
and its applications to test statistical hypotheses», Journal of Statitical Planning
and Inference, 38, p. 201-222 North-Holland.
[9] MOORE D.S. (1978). «Chi-Squared Tests», in statudies in statistics, ed. by
HoGG , R.V. Volume, The Mathemical Association of America.
[10] MOORE D.S. (1986). «Test of Chi-Squared type», ed. D’Agostino R.B and
Stephens M.A.
[11] MATHAI A.M. and RATHIE P.N. (1975). «Basic Concepts of Information
Theory and Statistics», Wiley, New York.
[12] PEARSON K. (1990). «On the criterion that a given System of deviation from
the probable in the case of a correlated System of Variables is Such that it can
be reasonably supposed to have Arisen from Random Sampling», The London,
Edinburgh and Dublin Philosophical Magazine and Journal of Science, 50,
pp. 157-175.
[13] A. RENYI (1966). Calcul des probabilités (avec un appendice sur la théorie de
l’information)», Dunod, Paris.
[14] SHARMA B.D. and MITTAL D.P. (1977). «New nonadditive measures of
entropy for discrete probability distributions», J. Math. Sci. , 10, 28-40.
[15] TANEJA I.J. (1979). « Some Contributions to Information Theory I ( A survey) :
On Measures of Information», J. Comb., Inform. Sys. Sci. 4(4), 253-274.
[16] VUONG Q.H. (1989). «Likelihood Ratio tests for model Selection and non-
nested Hypotheses », Econometrica, 57, pp. 257-306.
[17] VUONG Q.H. and W. WUANG (1993). «Selecting Estimated Models using
Chi-Square Statistics», Annales d’économie et de Statistique, 30, pp. 143-164.
[18] WATSON G.S. (1959). «Some Recent Results in Chi-Square Goodness-of-Fit
Tests», Biometrics, 15, pp. 440-468.

Rsa 1998 46 3 89 0 PDF

Transféré par

Droits d'auteur :

Formats disponibles

Rsa 1998 46 3 89 0 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rsa 1998 46 3 89 0 PDF

Transféré par

Droits d'auteur :

Formats disponibles

R EVUE DE STATISTIQUE APPLIQUÉE

© Société française de statistique, 1998, tous droits réservés.

Article numérisé dans le cadre du programme

Pierre Hammad, Pap Ngom

Wang dans le deuxième cas.

Keywords : generalized information, estimation, hypothesis test, Monte Carlo simulation.

L’essentiel des tests d’adéquation d’un modèle à un échantillon se fondent sur

(1978,1986) par exemple.

paramétriques sur une statistique construite à partir de la distance Ai/2 et nous

D;, «information» correspondant au cas r s dans (2), a été largement étudiée

bution commune H. L’espace d’échantillonnage 039E est partitionné en M classes

(iii) la matrice d’information de Fisher

est définie positive.

Considérons un échantillon de taille n et El, E2,..., EM la partition en M

définie par r, obtenue en remplaçant 03B8 par l’ estimateur 03B8.

Examinons, à présent, comment se comporte la loi régissant cet estimateur.

1.2. Comportement asymptotique de r.

On situera l’estimateur de 03B8 dans la classe des estimateurs vérifiant tradition-

où 03A9(03B8) est l’inverse d’une matrice inversible.

asymptotique de Or sera alors donnée par le théorème qui suit :

avec pour expression de r2 :

où À = (r - 1)-1 et où 03A9(03B8)ij représente le terme général de la matrice 03A9(03B8).

2. Application aux tests d’adéquation

2.1. Ajustement à un modèle donné

de probabilité définis à partir de (4), (5) correspondant respectivement aux

On considère, pour résoudre ce problème de test, la statistique

afin d’estimer l’écart entre la distribution empirique et la loi du modèle.

La valeur de la constante Ca résulte du théorème 1 (précédent) en vertu duquel,

où ~2k(03B1) est la valeur du khi-deux pour laquelle la probabilité de dépassement est

où ~(.) désigne la fonction de répartition de la loi normale centrée réduite.

2.2 Comparaison des propriétés des tests

f(x, 03B8) = 1 03B8exp(-x 03B8)1R+(x).

On suppose qu’on désire tester l’hypothèse nulle : 00 =

La statistique de Kolmogorov Kn est basée sur la distribution empirique :

Fo représentant la fonction de répartition théorique de référence.

où Fs représente la fonction de répartition asymptotique de S.

L’estimateur F de la distribution empirique F des p-valeurs, moyennes des

pour chaque point x dans [0, 1].

Dans ce contexte précis, F(x) - traduit la différence entre le niveau de

Parmi les mesures connues de «type»

3. Test de sélection de modèles

Si 0 et 1r représentent respectivement les E. M. V de 6 et 7r , on a (avec la

Dans le cadre présent, l’expression de la variance E2 associée à la statistique

Par différence des relations (18) et (19) :

distribution, autrement dit :

puisque et ’8 sont des variables aléatoires centrées.

En multipliant (22) par n et (23) par - n, et en remplaçant ensuite B et 7r

par leurs estimateurs respectifs 0 et 7r, on obtient en fait :

03A32 représentant la variance de la statistique Dn et Za/2 le quantile (1 - 03B1/2) de la

3.2. Exemples d’application

On propose ici une comparaison entre la statistique Dn[h(O), g(7r)], construite

n[f, h( 0)] désignant la distance du khi-deux entre la fréquence empirique f et la

3.2.1. Cas de deux distributions définies sur [0, 1]

Afin d’espérer des résultats tangibles, il est nécessaire de pouvoir raisonnable-

q = 2 et l’on regroupera les données en trois classes Ci =

3.2.2. Cas de deux distributions définies sur R+

3.2.3 Cas de deux distributions définies sur R

Nous supposerons les observations issues de populations ayant même moyenne,

On obtient les résultats ci-dessous :