Exo Statmath
Exo Statmath
Exo Statmath
EXERCICES
25 novembre 2005
2
I Modèles paramétriques 5
I.1 Énoncés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
I.2 Corrections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3
4 TABLE DES MATIÈRES
Chapitre I
Modèles paramétriques
I.1 Énoncés
Exercice I.1.
Reprenant la suite de 0 et de 1 donnée en cours (Chapitre Modèle paramétrique)
considérez séparément les deux sous-suites de longueur 50 (première ligne, deuxième ligne).
On adopte le modèle selon lequel les observations sont toutes indépendantes, suivant une loi
de Bernoulli de paramètre pa pour la première ligne et une loi de Bernoulli de paramètre p b
pour la deuxième ligne.
5
6 CHAPITRE I. MODÈLES PARAMÉTRIQUES
Exercice I.2.
On observe n variables aléatoires X i indépendantes toutes régies par une loi exponentielle de
paramètre θ ∈]0, +∞[. Pn
1. Ecrivez le modèle statistique correspondant. Démontrez que i=1 Xi est une statis-
tique exhaustive. Rappelez quelle est sa loi.
2. On veut estimer la valeur commune des E θ (Xi ) ; rappelez l’expression de cette espérance
mathématique en fonction de θ. Donnez toutes les justifications auxquelles vous pouvez penser
à l’aide du cours pour utiliser ici l’estimateur empirique X = n1 ni=1 Xi ; calculez son risque
P
quadratique.
3. On veut estimer θ. Pensez-vous que l’estimateur auquel conduit naturellement l’étude
faite en 2 soit sans biais ? Pour préciser ce point, et calculer le biais éventuel, utilisez la
propriété : si une v.a. Y suit la loi Gamma de paramètre (a, θ) (notée dans le cours G a,θ ),
E(Y r ) est défini pour a + r > 0 et vaut Γ(a+r)
θ r Γ(a) ; en particulier, si a > 1, pour r = −1, on
obtient E( Y1 ) = θ
a−1 .
6. On utilise un modèle bayésien, en prenant pour probabilité a priori la loi Gamma G b,η .
Démontrez que la probabilité a posteriori est G b+n,η+nm . En déduire l’estimateur bayésien de
θ. Que retrouve-t-on approximativement pour de ”grandes” tailles d’échantillon ?
7. En quoi les études précédentes auraient-elles été modifiées si on avait observé n v.a. de
loi Gamma de paramètre (a, θ), avec a connu ?
4
Exercice I.3.
On observe n variables aléatoires X i indépendantes toutes régies par la loi uniforme sur l’in-
tervalle [0, θ], U0,θ (voir R.5.7). θ (> 0) est inconnu.
2. On veut estimer θ.
a. Trouvez l’estimateur par maximum de vraisemblance ; est-il sans biais ? sinon, comment le
”corriger” pour le ”débiaiser” (en conservant le fait qu’il s’agit d’un estimateur fondé sur la
statistique exhaustive mise en évidence en 1) ? Calculez les risques quadratiques de ces deux
estimateurs et comparez les.
b. Trouvez
P un estimateur sans biais de θ fondé non sur Y = sup(X 1 , . . . , Xn ) mais sur
X = n1 ni=1 Xi . Comparez son risque quadratique avec ceux des estimateurs étudiés en a.
Exercice I.4.
(Cet exercice est extrait de la session d’examen de juin 2002 du module de Statistique et
Analyse des données de l’ENPC. Il était acompagné d’un extrait de tables de la fonction de
répartition de lois de Poisson, fourni ici en Annexe)
On effectue n observations (x1 , . . . , xn ) indépendantes à valeurs entières positives ou
nulles, supposées toutes suivre une même loi de Poisson de paramètre inconnu θ, loi notée P θ .
Exercice I.5.
( Cet exercice est extrait de la session d’examen de rappel (septembre 2002) du module de
Statistique et Analyse des données de l’ENPC. Son corrigé n’est pas fourni dans ce fascicule.)
(α − 1)β α−1
fα,β (x) = 1[β,∞[(x) ,
xα
où 1[β,∞[ désigne la fonction indicatrice de l’intervalle [β, ∞[.
1.a. Donnez une application de (R∗+ )n dans (R∗+ )2 qui soit un résumé exhaustif des ob-
servations.
2. Le paramètre d’échelle β est ici supposé connu ; sans perte de généralité on le prendra
égal à 1 (ceci revient à remplacer chaque x i par xβi ).
a. Démontrez (ou admettez) que, si la variable aléatoire (v.a.) X suit la loi de Pareto
de paramètres α et 1, la loi de ln X (logarithme népérien de X) est la loi exponentielle de
paramètre α − 1.
b. Rappelez quelle est la loi de ni=1 Yi quand les Yi sont des v.a. indépendantes et toutes
P
de loi exponentielle de paramètre α − 1.
Exercice I.6.
(Cet exercice est extrait de la session d’examen de juin 2003 du module de Statistique et
Analyse des données de l’ENPC)
Exercice I.7.
1. Ecrire la densité de la loi de la variable alatoire X = θY , où θ > 0 et Y suit la loi du χ 2 à
k degrés de liberté.
2. On effectue n observations (x1 , . . . xn ) selon la loi de paramètre θ considérée à la question
précédente.
a. Donner une statistique exhaustive à valeurs dans R + .
b. Donner un estimateur sans biais de θ fondé sur cette statistique exhaustive.
c. Retrouvez les résulats de a et b sans utiliser l’expression de la densité de la loi commune
des Xi mais en utilisant la définition de la loi χ 2 (k).
3. Dire, en quelques lignes, comment se présente dans ce modèle un test de l’hypothèse
nulle θ ≤ 0 contre l’hypothèse alternative θ > 0.
4
10 CHAPITRE I. MODÈLES PARAMÉTRIQUES
I.2 Corrections
Exercice I.1 .
1. Les v.a. Xi (1 ≤ i ≤ 50) sont indépendantes et de loi de Bernoulli de paramètre
1 P50
pa . Donc la v.a. moyenne empirique X̄a = 50 i=1 Xi est l’estimateur par maximum
de vraisemblance de pa . Comme ∀pa ∈ [0, 1], Epa [X̄a ] = pa , l’estimateur est sans biais.
Comme (LFGN) Ppa -p.s. limn→∞ X̄a = pa , l’estimateur est convergent. On peut vérifier
grâce au TCL qu’il est asymptotiquement normal, de variance asymptotique p a (1 − pa ).
L’estimation de pa vaut ici x̄a = 0, 08. De même l’estimation de pb vaut x̄b = 0, 14.
Chaque v.a. Xi (1 ≤ i ≤ 50) a pour variancePpa (1 − pa ). Donc, les v.a. Xi étant
indépendantes, la v.a. X̄a a pour variance 5012 50 1
i=1 pa (1 − pa ) = 50 pa (1 − pa ), dont
1
l’estimateur du maximum de vraisemblance est 50 X̄a (1 − X̄a ) . D’où l’estimation de
1 1
l’écart-type de X̄a : [ 50 x̄a (1 − x̄a )]1/2 . (La v.a. 50 X̄a (1 − X̄a ) n’est pas un estimateur
1
sans biais de la variance, ni non plus 50 X̄a (1 − X̄a )1/2 un estimateur sans biais de
l’écart-type de X̄a . En revanche, il s’agit d’estimateurs convergents.)
1
Numériquement, on a ici : [ 50 x̄a (1 − x̄a )]1/2 = 0.052. De même l’estimation de l’écart-
1
type de X̄b est [ 50 x̄b (1 − x̄b )]1/2 = 0.063. 0,06.
L’approximation étant dû au fait que la vraie loi de qX̄a −pa a été remplacée par la
pa (1−pa )
50
loi limite normale centrée réduite.
De même l’I.C., au niveau de confiance 1 − α, pour p b est :
r
x̄b (1 − x̄b )
[x̄b ± φ1− α2 ].
50
Voici deux exemples de résultats numériques (la précision sur les bornes se limitant à
2 chiffres après la virgule en raison de l’approximation normale) :
Niveau de confiance α φ1− α2 I.C. pour pa I.C. pour pb
Dans les deux cas ci-dessus (1 − α = 0.95 et 1 − α = 0.90), les I.C. pour p a et pb ont
une intersection non vide. Les longueurs des intervalles de confiance diminuent quand α
augmente (et donc le niveau de confiance diminue) ; elles tendent vers 0 quand α tend
vers 1 (situation limite où l’estimation par intervalle se réduit à l’estimation ponctuelle,
avec donc une probabilité égale à 1 d’affirmer un résultat faux). Ces I.C. auront donc
une intersection vide pour α assez grand (niveau de confiance assez faible), c’est-à-dire,
puisqu’ici x̄a < x̄b , si α est tel que
r r
x̄a (1 − x̄a ) x̄b (1 − x̄b )
x̄a + φ1− α2 < x̄b − φ1− α2
50 50
c’est-à-dire :
x̄b − x̄a
φ1− α2 < q q ,
x̄a (1−x̄a ) x̄b (1−x̄b )
50 + 50
soit ici
φ1− α2 < 1.04
ou encore, comme par définition φ1− α2 = Φ−1 (1 − α2 ) (où Φ−1 est la fonction réciproque
de le fonction de répartition de la loi normale centrée réduite)
α
1− = 0.85
2
c’est-à-dire enfin
1 − α < 0.70 .
C’est donc au niveau de confiance (très mauvais) de 0.70 (ou pire) que les intervalles
de confiance pour pa et pb sont d’intersection vide.
3. Test de l’hypothèse H0 = {pa = pb } contre H1 = {pa 6= pb }.
Les v.a. X̄a et X̄b ont respectivement pour lois approchées les lois normales N (p a , σa2 )
1 1
et N (pb , σb2 ), où σa2 = 50 pa (1 − pa ) et σb2 = 50 pb (1 − pb ) ; comme X̄a et X̄b sont
indépendantes, la différence X̄a − X̄b a pour loi N (pa − pb , σa2 + σb2 ) .
Sous l’hypothèse nulleP H0 (notons p = pa = pb la valeur commune du paramètre) on
1 50
a aussi σa2 = σb2 = 50 2
i=1 p(1 − p) (notons σ cette valeur commune) et donc la loi
1
de X̄a − X̄b est N (0, 2σ ), qu’on approche par N (0, 2s2 ), où s2 = 50
2 x̄(1 − x̄), avec
1 P 100 1
x̄ = 100 i=1 xi = 2 (x̄a + x̄b ) ; en effet, sous l’hypothèse nulle, toutes les v.a. X i (où
1 ≤ i ≤ 100) sont de même loi de Bernoulli de paramètre p.
En revanche, sous l’hypothèse alternative, l’espérance de la loi de X̄a − X̄b est non nulle ;
il est donc naturel de bâtir un test où le rejet de l’hypothèse nulle s’effectue si |x̄ a − x̄b |
est assez élevé, c’est-à-dire si |x̄ a − x̄b | > c, où c est adapté au niveau de signification
choisi.
Sous l’hypothèse nulle, la loi de X̄√ a −X̄b
2S
(où S 2 = 501
X̄(1 − X̄)) est approximativement
c
N (0, 1) et donc on approxime √2s par φ1− α2 , quantile d’ordre 1 − α2 de N (0, 1)
√
Ici, numériquement, x̄a − x̄b = −0.12 et 2s = 0, 08 ; donc :
– si α = 0.05, φ1− α2 = 1.96 d’où c = 0.08 × 1.96 = 0.16 ; comme 0.12 < 0.16, il n’y a
pas de rejet de l’hypothèse nulle ;
12 CHAPITRE I. MODÈLES PARAMÉTRIQUES
– si α = 0.10, φ1− α2 = 1.65 d’où c = 0.08 × 1.65 = 0, 13 ; ici encore 0.10 < 0.13, donc
il n’y a pas de rejet de l’hypothèse nulle.
Envisageons d’autres valeurs de α : il √ y aurait rejet de l’hypothèse nulle, à partir des
données observées x̄a − x̄b = −0.12 et 2s = 0.08, si
α 0.12
φ1− α2 = Φ−1 (1 − )≤ = 1.5
2 0.08
autrement dit
α
1−
≤ Φ(1.25) = 0.93
2
ou encore α ≥ 0.14. En d’autres termes la p-valeur associée aux observations est 0.14.
C’est donc avec un risque énorme que l’on rejetterait ici l’hypothèse nulle.
4. Il est évident que constater une intersection vide entre les I.C. pour p a et pb ”donne
envie” de conclure que ces deux paramètres sont différents. Demandons nous donc si,
au moins approximativement, conclure ainsi à partir de l’intersection vide des I.C.
au niveau de confiance 1 − α revient au même que rejeter, par un test au niveau de
signification α0 , l’hypothèse nulle H0 = {pa = pb }. La première méthode (intersection
des I.C.) rejette H0 si |x̄a − x̄b | > φ1− α2 (sa + sb ) et la seconde (test) si |x̄a − x̄b | >
√
φ1− α0 2s où, rappelons le,
2
1 1 1
s2a = x̄a (1 − x̄a ) , s2b = x̄b (1 − x̄b ) et s2 = x̄(1 − x̄) .
50 50 50
Or sous l’hypothèse nulle on a les égalités approximatives x̄ a ∼ x̄b ∼ x̄, d’où x̄a +
x̄b ∼ 2x̄. √
Donc les deux méthodes conduisent approximativement aux mêmes rejets si
φ1− α0 = 2φ1− α2 . (La différence sur le calcul des niveaux de rejet provient du fait que
2
pour la méthode des I.C. on s’intéresse à une precision des estimations de p a et de pb ,
alors que pour le test on s’intéresse à une précision sur l’estimation de p a − pb .)
5. L’article ne précise pas d’où viennent ces ”estimations”, et on comprend mal l’emploi
du futur dans ce texte (...souffriront ..., ... on observera...). Admettons que l’étude ait
porté sur 2 échantillons de 10 000 femmes chacun (ce qui représente des échantillons très
gros, mais accessibles par des enquêtes épidémiologiques à grande échelle) et demandons
nous pour quelles valeurs du niveau de signification la différence observée entre ces deux
échantillons permettrait de conclure significativement à une différence, induite par la
prise du THS, entre les probabilités de développer un cancer du sein.
On se trouve dans la situation étudiée en 3) avec ici : n = 10000, x̄ a = 0.0450, x̄b =
0.0458, d’où √
|x̄a − x̄b | = 0.0008 , x̄ = 0.0454 , s2 = 4.33.10−6 , 2s = 2.94.10−3
et enfin
|x̄a −x̄b |
√
2s
= 0.27.
Vu la taille des échantillons, l’approximation, sous l’hypothèse nulle H 0 = {pa = pb },
de la loi de |X̄√
a −X̄b |
2S
par la loi normale centrée réduite est excellente.
La p-valeur est ici la probabilité qu’une réalisation de la loi normale centrée réduite
dépasse en valeur absolue 0.27. Elle vaut 0.394. C’est donc avec un risque énorme
(presque “4 chances sur 10”) que l’on rejetterait ici l’hypothèse nulle. En particulier le
I.2. CORRECTIONS 13
rejet ne serait permis pour aucun des niveaux de signification couramment pratiqués.
Ceci met donc gravement en cause la pertinence des conclusions rapportées par cet
article, et l’extrapolation aux 10 millions d’américaines suivant ce type de traitement
paraı̂t sans fondement.
On peut se demander de quelle taille (supposée commune) n devraient être les deux
échantillons (femmes traitées et femmes témoins) pour que des valeurs de x̄ a et x̄b
égales à celles observées ici conduisent à conclure à une différence significative, au seuil
de signification usuel de 0.05. Il faudrait que :
|x̄ − x̄b |
qa ≥ 1.96
2x̄(1−x̄)
n
c’est-à-dire
2x̄(1 − x̄)
n ≥ (1, 96)2
(x̄a − x̄b )2
soit ici
2 × 0.0454 × 0.9546
n ≥ (1.96)2 ' 520300 .
(0.0008)2
Sauf information contraire, on peut douter que l’étude ait été menée sur deux échantillons
d’effectifs aussi élevés. Précisons d’ailleurs que la suite de l’article du Monde, même si
elle ne présente pas l’analyse statistique que nous venons de faire, est assez réservée ;
en particulier elle explique pourquoi cette étude américaine ne peut s’appliquer au cas
de la France (différence de nature dans la composition des hormones substitutives) et
cite à l’appui de cette critique des positions d’autorités médicales françaises.
N
Exercice I.2 .
1. Le modèle ; une statistique exhaustive
On en déduit une densité, par rapport à la mesure de Lebesgue sur R n , de la suite finie
(X1 , . . . , Xn ), composée de v.a. indépendantes et de même loi exponentielle de paramètre θ :
n
!
X
n
pn (x1 , . . . , xn , θ) = θ exp −θ xi 1[0,+∞[n (x1 , . . . , xn ) .
i=1
La loi de Y est (résultat classique de calcul des probabilités) le loi Gamma de paramètres
n et θ, de densité
θ n y n−1
y 7→ exp(−θy)1[0,+∞[ (y)
(n − 1)!
.
2. Estimation de l’espérance mathématique des X i
1 Pn
Pour tout i, on a Eθ (Xi ) = θ d’où : ∀θ > 0 Eθ ( n1 i=1 Xi ) = 1θ .
Donc, comme c’est toujours le cas pour des observations i.i.d. dont la loi commune ad-
met une espérance mathématique finie, la moyenne empirique des éléments de l’échantillon
observé fournit une estimation sans biais de cette espérance mathématique.
1 Pn
On note X n = n i=1 Xi .
L’application `n (x, .) , de R∗+ dans R est dérivable ; sa dérivée est θ 7→ nθ − ni=1 xi , qui
P
s’annulle pour θ = Pnn xi , dont on vérifie que c’est bien un maximum de ` n (x, .). Donc
i=1
1
l’estimateur du maximum de vraisemblance de θ est Xn
. On en déduit que l’estimateur du
1
maximum de vraisemblance de est X n . θ
N.B. Le fait de se limiter à des observations strictement positives n’est pas gênant car,
quel que soit θ, la probabilité de l’évènement [∀i X i > 0] est égale à 1.
Le risque quadratique de cet estimateur est, comme pour tout estimateur sans biais, sa
variance :
n n
!
1X 1 X 1 n 1
Varθ Xi = 2 Varθ (Xi ) = 2 2 = 2 ,
n n n θ nθ
i=1 i=1
3. Estimation du paramètre θ
1 Pn n
L’estimateur du maximum de vraisemblance de θ est, on vient de le voir, Xn
= Xi
.
i=1
Mais cet estimateur n’a ”aucune raison” d’être sans biais. En effet, ce n’est que pour les
applications affines qu’on sait que le caractère sans biais ”passe bien” : si une v.a. Y estime
sans biais une certaine fonction φ(θ) du paramètre, alors aY + b estime sans biais aφ(θ) + b.
De fait ici (voir 1) ni=1 Xi suit la loi Gamma G(n, θ) dont on sait que le moment d’ordre
P
θ
−1 est n−1 . Donc Eθ ( X1 ) = nEθ ( Pn 1 Xi ) = n−1
n
θ (et non pas θ qui serait nécessaire pour
n i=1
que cet estimateur soit sans biais).
1
Le biais de Xn
en tant qu’estimateur de θ est Eθ ( X1 )−θ = θ
n−1 ; il est strictement positif :
n
1 1
on dit que Xn
est biaisé par excès ; il tend vers 0 quand n tend vers l’infini : on dit que Xn
est un estimateur asymptotiquement sans biais de θ.
4. Tests
Pour tester cette hypothèse nulle, qu’on va plutôt écrire P[ 1θ = 1], contre l’hypothèse alter-
native [ 1θ 6= 1], il est naturel de procéder au rejet si x n = n1 ni=1 xi , estimation sans biais de
1
θ , est assez loin de 1, autrement dit si x n < c1 ou xn > c2 , avec c1 < 1 < c2 , ces valeurs c1
et c2 étant à adapter au niveau de signifiation adopté pour le test.
Or, sous l’hypothèse nulle, la v.a. 2nX n = 2 ni=1 Xi suit la loi du χ2 à 2n degrés de
P
liberté. On doit choisir c1 et c2 de sorte que P1 ([X n ∈ / [c1 , c2 ]]) = α ce qui s’écrit aussi
P1 (2nX n ∈ / [2nc1 , 2nc2 ]]) = α. Pour des raisons de symétrie, on prend respectivement pour
2nc1 et 2nc2 le quantile d’ ordre α2 et le quantile d’ ordre 1 − α2 de la loi du χ2 à 2n degrés
de liberté.
Pour tester cette hypothèse nulle, qu’on va plutôt écrire P [ 1θ ≥ 1], contre l’hypothèse alter-
native [ θ < 1], il est naturel de procéder au rejet si x n = n ni=1 xi , estimation sans biais de
1 1
1
θ , est assez petit, autrement dit si xn < c, cette valeur c vérifiant, pour θ = 1 (valeur frontière
entre l’hypothèse nulle et l’hypothèse alternative) P 1 ([X n < c]) = α ; alors, a fortiori, pour
tout θ ≤ 1, on a Pθ ([X n < c]) ≤ α ; en effet la famille des lois Gamma de paramètre de
taille n fixé, c’est-à-dire (G(n, θ)) θ∈R∗+ , est stochastiquement décroissante : si on note G n,θ la
fonction de répartition de G(n, θ), on a, si θ < θ 0 , pour tout x > 0, Gn,θ (x) < Gn,θ0 (x).
De manière analogue à l’étude faite en a ci-dessus, on établit que 2nc est le quantile
d’ordre α de la loi du χ2 à 2n degrés de liberté.
5. Intervalle de confiance
Pour tout θ, la loi de la v.a. θ ni=1 Xi est G(n, 1), qui ne dépend plus de θ et peut donc
P
nous servir de ”pivot” pour construire un intervalle de confiance. En effet, si on note γ n, α2 et
γn,1− α2 les quantiles d’ordre α2 et 1 − α2 de G(n, 1), on a :
n
X
∀θ Pθ ([γn, α2 ≤ θ Xi ≤ γn,1− α2 ]) = 1 − α
i=1
autrement dit :
γn, α γn,1− α
∀θ Pθ [ Pn 2 ≤ θ ≤ Pn 2 ] =1−α .
i=1 Xi i=1 Xi
γn, α γn,1− α
L’intervalle de confiance, au niveau de confiance 1 − α, est donc [ Pn 2
, Pn 2 ].
i=1 xi i=1 xi
Exemple : utilisant les lectures de tables déjà faites en 4.a ci-dessus, on obtient que, au
niveau de confiance 0, 95 (donc pour α = 0, 05) on a :
- si n = 15, γ15 , 0,025 = 8, 40 et γ15 , 0,975 = 23, 50,
- si n = 30, γ30 , 0,025 = 20, 02 et γ30 , 0,975 = 41, 44.
6. Modèle bayésien
I.2. CORRECTIONS 17
On rappelle (voir 1) que, par rapport à la mesure de Lebesgue sur R n+ , on peut prendre
pour densité, en l’observation (x 1 , . . . , xn ) (tous ≥ 0)
n
!
X
pn (x1 , . . . , xn , θ) = θ n exp −θ xi ;
i=1
η b b−1
gb,η (θ) = θ exp(−ηθ) .
Γ(b)
La densité du couple (θ, (x1 , . . . , xn )), par rapport à la mesure de Lebesgue sur R ∗+ × Rn+ ,
est donc le produit :
n
!!
η b b+n−1 X
(θ, (x1 , . . . , xn )) 7→ pn (x1 , . . . , xn , θ)gb,η (θ) = θ exp −θ η + xi .
Γ(b)
i=1
La densité marginale
Z +∞
hb,η (x1 , . . . , xn ) = pn (x1 , . . . , xn , θ)gb,η (θ)dθ
0
n’a pas besoin d’être calculée maintenant ; nous importe P essentiellement la densité a posteriori,
étant observé (x1 , . . . , xn ), qui est, en remplaçant ni=1 xi par nxn :
7. Observation de n v.a. i.i.d. de loi Gamma de paramètre (a, θ), avec a connu
La somme de ces n v.a. est encore exhaustive et de loi Gamma de paramètre (na, θ) ; donc
toute l’étude menée ci-dessus reste valable, en y remplaçant n par na.
N
La loi uniforme sur [0, θ] admet pour densité, par rapport à la mesure de Lebesgue sur R,
l’application fθ définie par :
1
fθ (x) = 1[0,θ] (x) ,
θ
18 CHAPITRE I. MODÈLES PARAMÉTRIQUES
où 1[0,θ] désigne la fonction indicatrice de l’intervalle [0, 1]. Sa fonction de répartition, F θ ,
vérifie :
- si x < 0, Fθ (x) = 0,
- si 0 ≤ x ≤ θ, Fθ (x) = xθ ,
- si θ < x, Fθ (x) = 1.
Les v.a. Xi étant indépendantes, la loi de (X 1 , . . . , Xn ) admet pour densité, par rapport
à la mesure de Lebesgue sur Rn , l’application fθn définie par :
n
Y 1
fθn (x1 , . . . , xn ) = 1[0,θ] (xi ) ,
θ
i=1
autrement écrit
1
fθn (x1 , . . . , xn ) = 1 (sup(x1 , . . . , xn ))1[0,+∞] (inf(x1 , . . . , xn )) .
θ n [0,θ]
Donc, par la méthode de Halmos-Savage (aussi dite ”de factorisation”), il apparaı̂t que la
v.a. réelle Y = sup(X1 , . . . , Xn ) est une statistique exhaustive dans ce modèle. Ce résultat
est cohérent avec l’intuition : la seule signification concrète du paramètre θ étant qu’il borne
supérieurement les valeurs observables, une fois connue la valeur de la plus grande des obser-
vations, celles qui lui sont inférieures n’apportent aucune information complémentaire sur θ.
Donc :
- si y < 0, Fθ,n (y) = 0,
yn
- si 0 ≤ y ≤ θ, Fθ,n (y) = θn ,
- si θ < y, Fθ,n (y) = 1.
Il en résulte
R θ élémentairement que :
Eθ (Y ) = θnn 0 y.y n−1 dy = n+1 n
θ,
Rθ
Eθ (Y 2 ) = θnn 0 y 2 .y n−1 dy = n+2
n
θ2 ,
2 2 n 2
Varθ (Y ) = Eθ (Y ) − (Eθ (Y )) = (n+2)(n+1) 2θ .
2. Estimation du paramètre
I.2. CORRECTIONS 19
n
Le maximum est atteint en y (et vaut θ ). L’estimateur par maximum de vraisemblance
est donc la v.a. Y .
N.B. Cette situation, où le maximum est atteint en un point en lequel la vraisemblance
n’est pas continue (et donc a fortiori pas dérivable) met en évidence la nocivité du ”réflexe”
qui consisterait à effectuer systématiquement la recherche du maximum par annulation de la
dérivée.
On constate que E(Y ) < θ . L’estimateur m.v. est donc ici biaisé inférieurement, ce qui
était prévisible puisque Y prend presque sûrement des valeurs strictement inférieures à θ.
d’où ici :
n 1 2
RY (θ) = θ 2 [ 2
+ 2
]= θ2 .
(n + 2)(n + 1) (n + 1) (n + 2)(n + 1)
Le risque quadratique de Z, estimateur sans biais, est :
n+1 2 n+1 2 n 1
RZ (θ) = Varθ (Z) = ( ) Varθ (Y ) = ( ) θ2 = θ2 .
n n (n + 2)(n + 1)2 n(n + 2)
On vérifie que, pour tout n > 1, on a : ∀θ R Z (θ) < RY (θ) : Z est meilleur que Y au sens
du risque quadratique.
Pn Pn
b. Pour tout i, on a E(Xi ) = θ2 ; donc E( n2 i=1 Xi ) = θ. Autrement dit U = 2
n i=1 Xi
est un estimateur sans biais de θ.
4 4 θ2 θ2
RU (θ) = Varθ (U ) = n Var θ (X 1 ) = = .
n2 n 12 3n
Cet estimateur est bien plus mauvais que Z (et même Y ) ; asymptotiquement, son risque
quadratique est de l’ordre de n1 alors que ceux de Y et Z sont de l’ordre de n12 ; ces mauvaises
performances ne sont pas étonnantes puisqu’il ne se factorise pas à travers la statistique ex-
haustive.
20 CHAPITRE I. MODÈLES PARAMÉTRIQUES
3. Tests
a. Hypothèse nulle [θ ≤ 1]
Il apparaı̂t donc naturel de rejeter l’hypothèse nulle [θ ≤ 1] quand θ est assez grand. Au
niveau de signification α, la région de rejet est donc ]c, +∞[, où P 1 ([Y > c]) = α ; en d’autres
termes, c est le quantile d’ordre 1 − α de la loi de Y pour la valeur frontière (égale à 1) du
paramètre .
c vérifie : F1,n (c) = cn = 1 − α ; donc c = (1 − α)1/n .
b. Hypothèse nulle [θ = 1]
Selon les mêmes considérations qu’en a ci-dessus, il apparaı̂t naturel de rejeter l’hypothèse
nulle [θ = 1] (l’hypothèse alternative, dire bilatérale, étant [θ 6= 1]) quand y est trop faible
ou trop élevé ; la région de non-rejet (en y) est donc de la forme [c 1 , c2 ], où c1 et c2 vérifient :
P1 ([c1 ≤ Y ≤ c2 ]) = 1 − α. Pour des raisons de symétrie, on prend pour c 1 le quantile d’ordre
α α
2 et pour c2 le quantile d’ordre 1 − 2 de la loi de Y pour la valeur 1 du paramètre. Donc
c1 = ( α2 )1/n et c2 = (1 − α2 )1/n . On remarque que 1 est dans la région de rejet, ce qui pouvait
être attendu : si la plus grande valeur observée est égale à 1, c’est que la borne supérieure
des valeurs observables, θ, est strictement plus grande que 1.
4. Intervalle de confiance
Exercice I.4 .
1. Le modèle ; une statistique exhaustive.
Les observations étant indépendantes et de même loi de Poisson P θ , où θ > 0 la probabilité
d’observer (x1 , . . . , xn ) ∈ Nn est :
n n xi n
−θ θ 1
Y Y Pn Y
−nθ xi
Pθ ({xi }) = e =e θ i=1
xi ! xi !
i=1 i=1 i=1
(on convient que 00 = 1 et, comme 0z = 0 si z > 0, on obtient comme loi P0 la probabilité
de Dirac en 0).
On retrouve (voir VII.2 Lois de variables aléatoires remarquables), la loi multinomiale M y,p ,
où p est la suite de longueur n dont tous les éléments sont égaux à n1 .
2. Estimation
Notons, comme il est traditionnel en calcul des probabilités,PX i la v.a. résultant en l’ob-
servation xi . On sait que, pour tout θ, Eθ (Xi ) = θ (et donc Eθ ( ni=1 Xi ) = nθ). Il en résulte
que n1 ni=1 Xi est un estimateur sans biais de θ, fondé sur la statistique exhaustive mise en
P
évidence à la question précédente. C’est l’estimateur dit moyenne empirique.
Vérifions que c’est un estimateur par maximum de vraisemblance (dit aussi ici, puis-
qu’il s’agit de lois discrètes, estimateur par maximum de probabilité). A (x 1 , . . . , xn ) fixé,
l’application définie sur R∗+ par :
n
−nθ
Pn
xi
Y 1
θ 7→ e θ i=1
xi !
i=1
22 CHAPITRE I. MODÈLES PARAMÉTRIQUES
admet son maximum (s’il existe et est unique) au même point que
n
X
θ 7→ −nθ + ( xi ) log(θ) .
i=1
On constate P(calcul élémentaire par annulation de la dérivée) que ce maximum est unique et
atteint en n1 ni=1 xi .
Cet estimateur étant sans biais, son risque quadratique est égal à sa variance. Or la
variance d’une loi de Poisson est, comme son espérance mathématique, égale à son paramètre.
On a donc
n
1X 1 θ
Varθ ( Xi ) = 2 n.θ =
n n n
i=1
Cette variance tend vers 0 quand la taille n de l’échantillon tend vers l’infini, ce qui assure
que l’estimateur de la moyenne empirique est consistant en loi (et en probabilité) ; autrement
dit la loi de cet estimateur de θ tend en probabilité vers la vraie valeur du paramètre quand
n tend vers l’infini.
3. Test
L’indication fournie dans l’énoncé exprime que les lois de Poisson sont telles que, plus θ
est élevé, plus la probabilité de prendre de grandes valeurs (formellement : la probabilité de
dépasser une valeur fixée) est élevée. On dit que les lois de Poisson sont stochastiquement
croissantes en fonction de leur paramètre.
Ceci incite, si on dispose d’un estimateur de θ, à rejeter une hypothèse nulle du type θ ≤ θ 0
(contre l’hypothèse alternative θ > θ 0 ) quand l’estimation de θ est strictement supérieure à
une valeur frontière c, qui doit être déterminée en fonction de la taille n (ici 15), de la borne
supérieure de l’hypothèse nulle θ 0 (ici 1) et du seuil de signification α (ici 0, 01).
Comme, si θ = 1, 15
P
i=1 Xi suit la loi de Poisson de paramètre 15, la première de ces deux
conditions équivaut à F15 (d) ≥ 0, 99 , où Fλ désigne la fonction de répartition de la loi de
Poisson de paramètre λ. On remarque que, si θ < 1, on a a fortiori F 15θ (d) > 0, 99 (et donc
la probabilité de rejet à tort de l’hypothèse nulle strictement inférieure à 0,01), ceci résultant
du fait que les lois de Poisson sont stochastiquement strictement croissantes en fonction de
leur paramètre.
La lecture de la table
P de la loi de Poisson de paramètre 15 conduit au résultat : d = 25.
Comme on a observé ni=1 xi = 26, on rejette l’hypothèse nulle θ ≤ 1.
Remarque : nous avons ici détaillé la construction du test maisPn il n’est pas indispensable
de déterminer la valeur de d pour s’assurer que l’observation de i=1 xi = 26 conduit au rejet
I.2. CORRECTIONS 23
de l’hypothèse
Pn nulle ; il est clair que 26 est dans la région de rejet du fait que la probabilité
que i=1 xi ≥ 26 (c’est-à-dire 1 − F15 (26 − 1) = 0, 0062) est inférieure ou égale à 0,01.
N
Exercice I.5 .
Non fournie.
N
Exercice I.6 .
a. Exhaustivité
La densité de la loi de n v.a. indépendantes toutes régies par la loi de paramètre (α, β)
est donnée par :
n
(n)
Y
n
∀x = (x1 , . . . , xn ) ∈ R , fα,β (x1 , . . . , xn ) = 1[α,+∞[ (xi )βe−β(xi −α)
i=1
n
!
X
= β n 1[α,+∞[ ( inf xi ) exp −β( xi − nα) .
1≤i≤n
i=1
On en déduit, en appliquant le P
théorème de factorisation de Halmos-Savage, que la statistique
bidimensionnelle (inf 1≤i≤n Xi , ni=1 Xi ) est exhaustive.
et admet alors clairement un maximum global en inf 1≤i≤n xi , où elle vaut
n
X
g(β) = β n exp[−β( (xi − inf xi ))].
1≤i≤n
i=1
Pour rechercher le max global de pn (x; α, β) il suffit de maximiser dans un second temps
la fonction g(β) ou ln g(β). En se placant
P en dehors du cas (qui est de probabilité nulle quelle
que soit la valeur du paramètre) où ni=1 (xi − inf 1≤i≤n xi ) = 0 (ce qui signifie que tous les
xi sont égaux), on considère l’application
n
X
ln g : β 7→ n ln β − β (xi − inf xi ).
1≤i≤n
i=1
24 CHAPITRE I. MODÈLES PARAMÉTRIQUES
n
Un calcul simple montre que cette application atteint son maximum en β = Pn .
(x
i=1 i − inf 1≤i≤n xi )
L’estimateur du maximum de vraisemblance du couple (α, β) est donc :
n
(α̂n , β̂n ) = ( inf Xi , Pn ).
1≤i≤n i=1 (Xi − inf 1≤i≤n Xi )
On retrouve pour l’espérance l’estimateur usuel (moyenne empirique) ; par contre l’esti-
mateur de la variance diffère de celui utilisé en première question.
d. Cette question étant libre, nous nous contentons ici de critiquer les estima-
teurs de maximum de vraisemblance obtenus à la question b .
Il est aisé de voir que si (Y1 , . . . , Yn ) sont des v.a. indépendantes de même loi exponentielle
de paramètre 1, alors inf 1≤i≤n Yi suit la loi exponentielle de paramètre n. En effet :
Donc ici inf 1≤i≤n Yi est de loi exponentielle décalée de paramètre (α, βn) ; il en résulte que
1 1
Eα,β (inf 1≤i≤n Xi ) = α + nβ . Le biais de l’estimation de α vaut nβ et n’est donc pas connu de
nous. Nous n’avons donc pas obtenu une technique nous permettant de modifier l’estimateur
proposé pour le débiaiser.
N
Exercice I.7 .
Non fournie N
Chapitre II
II.1 Énoncés
Exercice II.1.
On s’interroge sur la comparaison des tailles moyennes des garçons et des filles de 6 ans dans
une population ; pour cela on a pris comme échantillon, jugé représentatif de cette tranche
d’âge, une classe d’école primaire (niveau CP en France), et on a observé :
– 16 garçons : moyenne 126,5 cm, écart-type 12,9 cm
– 15 filles : moyenne 136,9 cm, écart-type 11,9 cm.
On admet que la distribution des tailles dans chacune des sous-populations (garçons, filles)
suit une loi gaussienne.
1. Donner des intervalles de confiance pour les tailles moyennes des garcons et des filles.
2. Donner un intervalle de confiance pour l’écart type de la taille des garçons. Même
question pour les filles.
3. Les écarts-types observés permettent-ils de déduire que les variances des deux popula-
tions sont différentes ?
4. Sur la base de la réponse à la question précédente, on suppose que la variance est la
même dans les deux populations. Par ailleurs, au vu de cet échantillon, un observateur
avance l’opinion : dans la population, la taille moyenne des filles dépasse de plus de 2
cm celle des garçons.
Les données confirment-elles significativement, au niveau α = 0.05, cette opinion ? (au-
trement dit quelle est la conclusion, au niveau α = 0.05, du test de l’hypothèse nulle :
dans la population, la taille moyenne des filles dépasse de moins de 2 cm celle des
garçons ?).
4
Exercice II.2.
On souhaite tester, pour une chaı̂ne de magasins, les politiques de publicité suivantes :
A : aucune publicité
B : tracts distribués dans le voisinage
C : tracts distribués et annonces dans les journaux.
25
26 CHAPITRE II. MODÈLE LINÉAIRE GAUSSIEN
On suppose que les observations pour chaque groupe sont gaussiennes, de moyennes µ A , µB ,
µC et de même variance σ 2 .
1. Donner l’estimateur de σ 2 pour ce modèle. Proposer un test de niveau 5% pour l’hypo-
thèse nulle “il n’existe aucune différence entre les politiques de publicité”.
2. Tester l’hypothèse “µA = µC ” contre “µA 6= µC ” au niveau 5%. Evaluer approximati-
vement la p-valeur.
4
Exercice II.3.
Avec les données ci-dessous, on considère les modèles de régression suivants :
Yk = β + γ log(xk ) + εk
Yk = β + γxk + εk ,
où les εk sont des v.a. gaussiennes indépendantes et centrées de variance σ 2 .
x 1 2 3 4 5 6 7 8
Y 0.39 1.06 0.89 1.15 1.56 1.77 0.94 0.98
x 9 10 11 12 13 14 15 16
Y 1.9 1.59 1.26 1.68 1.25 1.8 1.77 1.72
1. Dans chacun de ces modèles, proposer une estimation sans biais pour σ 2 , γ et β.
2. Effectuer un test de “γ = 0” contre “γ 6= 0” pour ces modèles. On donnera à chaque
fois la p-valeur.
3. Discuter de la valeur respective des deux modèles : Lequel choisir ?
4
Exercice II.4.
(Cet exercice est extrait de la session d’examen de septembre 2002 du module de Statistique
et Analyse de données de l’ENPC)
Un industriel fait appel à un statisticien pour le problème suivant : une même fabrica-
tion s’effectue sur quatre machines différentes ; un indicateur numérique de la qualité de la
production peut être observé sur chaque pièce produite ; l’industriel désire savoir s’il y a un
”effet machine” sur la qualité.
II.1. ÉNONCÉS 27
Exercice II.5.
La durée d’une maladie semble liée au nombre de bactéries dans l’organisme et à la température
du patient lors de son admission à l’hôpital. On détermine pour n = 10 malades leur décompte
en milliers de bactéries, Φ1 , et leur température Φ2 , et on observe la durée Y de persistance
des symptômes de la maladie en jours :
Φ1 Φ2 Y
8 37.6 29
7 39.2 29
4 38.5 19
6 37.4 23
9 38.1 32
7 39.1 28
8 39.0 30
3 37.8 18
8 38.2 30
7 39.1 31
1. On propose tout d’abord un modèle (noté vectoriellement)
Y = α1n + βΦ1 + ε,
où 1n est un vecteur de 1 de taille n, et ε est un n-échantillon de N (0, σ 2 ). Donner des
estimateurs sans biais de α, β, σ 2 . Proposez un test de la pertinence de ce modèle au
niveau 5% (autrement dit de la significativité du régresseur) ; qu’en concluez-vous ?
2. On propose ensuite le modèle
Y = γ1n + β1 Φ1 + β2 Φ2 + ε.
Donner des estimateur sans biais de γ, β 1 , β2 , σ 2 . Tester, au niveau 5%, l’hypothèse
“β2 = 0” contre “β2 6= 0” (attention, ce modèle est assez lourd à traiter numériquement ;
il peut être plus pratique d’effectuer les calculs sous Scilab).
28 CHAPITRE II. MODÈLE LINÉAIRE GAUSSIEN
110 Φ1 Φ2 Y
Φ1 67 481
Φ2 384 2574.9 14749.72
Y 269 1884 10341.4 7465
4
Exercice II.6.
Une ville veut mettre en place un réseau d’alerte à la pollution par l’ozone. Elle met en concur-
rence 3 appareils de détection et leur fait prendre à chacun 20 mesures, dans des conditions
identiques de faible pollution. Voici les résultats obtenus, en micro-grammes d’Ozone par
mètre cube d’air (moyennés sur une heure).
Appareil 1 23,5 38,7 31,5 26,9 42,0 40,5 29,6 22,2 45,3 42,4
22,3 36,9 28,2 41,1 36,4 45,5 41,6 52,9 41,0 27,7
Appareil 2 22,1 36,9 30,1 25,3 40,2 39,0 27,8 21,0 43,4 40,4
21,2 35,0 26,6 39,7 35,0 43,5 40,0 50,8 39,2 26,2
Appareil 3 10,8 43,7 28,8 18,1 51,1 48,4 23,5 08,4 58,2 51,6
09,0 39,6 20,8 50,1 39,6 58,5 50,6 74,6 49,1 20,1
1. Compte tenu des avis des experts sur la variabilité naturelle des teneurs en ozone, le
cahier des charges de l’appel d’offres exigeait : en situation de faible pollution (inférieure à
80), la précision de l’appareil doit assurer un écart-type de la loi des mesures inférieur ou
égal à 10 micro-grammes d’ozone par mètre cube d’air .
a. Pour chacun des appareils, testez, au seuil 0,05, l’hypothèse que l’appareil satisfait à
cette clause du cahier des charges. On admettra pour cela que, pour chaque appareil, les 20
mesures suivent une même loi normale et sont indépendantes.
Les étudiants qui le désirent pourront utiliser les résultats intermédiaires suivants (où x i,j ,
où 1 ≤ i ≤ 3 et 1 ≤ j ≤ 20) désigne la mesure numéro j faite avec l’appareil numéro i :
20
X 20
X 20
X
x1,j = 716, 2 x2,j = 683, 4 x3,j = 754, 6
j=1 j=1 j=1
20
X 20
X 20
X
x21,j = 27104, 72 x22,j = 24741, 78 x23,j = 35332, 32
j=1 j=1 j=1
b. Le choix d’une autre valeur du seuil, plus faible (test plus sévère) ou plus forte (test
moins sévère) changerait-il certaines des conclusions retenues à la sous-question précédente ?
Si oui, pouvez-vous donner des indications sur les valeurs du seuil qui conduiraient à de telles
modifications ?
2. Seuls les appareils 1 et 2 restent en concurrence. L’étude menée en question 1 justifie
de considérer que leurs lois (toujours supposées normales) ont même variance. On veut savoir
s’il y a une différence significative entre les résultats qu’ils fournissent. Aucune indication
II.1. ÉNONCÉS 29
supplémentaire ne nous ayant été fournie à ce stade sur les conditions de recueil des mesures,
cela signifie qu’on veut tester l’hypothèse µ 1 = µ2 , où µi (avec i égal à 1 ou à 2) désigne
l’espérance mathématique de la loi des observations faites avec l’appareil i. Sur la base du
tableau de mesures fourni précédemment, effectuez ce test au seuil 0,05.
3. On nous indique que les mesures ont été effectuées pendant 20 jours consécutifs, à la
même heure (de 9h. à 10h. du matin), les 3 appareils ayant été posés côte à côte. L’indice
j désignant alors le jour, il y a lieu de considérer qu’il s’agit de mesures appariées, la ”vraie
pollution” pouvant varier de jour en jour. Reprendre avec cette indication nouvelle le test,
au seuil 0,05, d’identité de comportement des appareils 1 et 2, autrement dit tester que les
variables aléatoires, toutes de loi gaussienne et de même variance , (X 1,j − X2,j ), ont leurs
espérances mathématiques nulles.
Les étudiants qui le désirent pourront utiliser le résultat intermédiaire suivant :
20
X
(x1,j − x2,j )2 = 55, 26
j=1
330,5 345,8 336,4 351,0 345,8 355,2 351,3 363,3 350,5 336,0
a. A quels seuils (parmi ceux que vous pouvez lire sur les tables fournies) ces résultats
conduisent-ils à l’acceptation de l’hypothèse µ = 340 (qui exprime que ce type d’appareil
détecte bien le pic de pollution à sa vraie valeur) ?
Les étudiants qui le désirent pourront utiliser les résultats intermédiaires suivants :
10
X 10
X
x4,j = 3465, 8 x24,j = 1202063, 36
j=1 j=1
b. Estimez la probabilité qu’un appareil de type 1 conduise, si la vraie pollution est 340,
à une ”fausse alarme de mesures restrictives”, c’est-à-dire affiche un résultat supérieur à 360.
4
30 CHAPITRE II. MODÈLE LINÉAIRE GAUSSIEN
Exercice II.7.
Les données de taux d’équipement des ménages pour un certain produit sont reproduites
dans le tableau suivant :
i (année) 1 2 3 4 5 6 7 8 9 10
Yi (en %) 2.9 4.4 6.0 8.4 11.8 14.6 18.3 24.1 30.8 40.0
On souhaite ajuster les données sur une courbe logistique i.e. de la forme :
1
y(t) =
1 + b e−at
On note :
1 − Yi
Xi = ln ( )
Yi
On choisit un modèle de régression de la forme :
On note σ 2 = E(ε2i )
1. Vérifier que ce modèle permet d’ajuster (Y 1 , . . . , Yn ) sur une courbe logistique de pa-
ramètre a et b.
2. Calculer les estimations de α et β et le coefficient de détermination R 2 de la régression.
3. Calculer une estimation sans biais de σ 2 et des intervalles de confiance pour β et α.
4. En déduire des estimations et des intervalles de confiance pour a et b.
5. Effectuer un test de (a = 0) contre (a 6= 0) pour ce modèle.
4
II.2. CORRECTIONS 31
II.2 Corrections
Exercice II.1 .
1. C’est l’application directe de l’IC pour la moyenne d’un échantillon gaussien dont la
variance inconnue est estimée par la variance empirique (version sans biais). La loi
√
utilisée est donc celle de Student (Chapitre III, § 2.3), et l’IC est X̄ ± tn−1,1−α/2 S/ n.
Le niveau n’étant pas précisé, on propose de prendre 95% de niveau de confiance, soit
α = 5%.
– Pour les garçons, on a observé (X 1 , . . . , XnG ) i.i.d. de N (µG , σG 2 ). la table donne
(n − 1)S 2
P χ2n−1,α/2 < < χ 2
n−1,1−α/2 = 1 − α,
σ2
Si on prend α = 0.05 (IC de niveau de confiance 95%), on trouve pour les garçons
σG ∈ [9.53; 19.97] et pour les filles σF ∈ [8.71; 18.77].
3. On souhaite tester H0 : “σG 2 = σ 2 ” contre H : “σ 2 6= σ 2 ” (test bilatéral). Ce test
F 1 G F
n’est pas donné dans le chapitre III. On sait les estimateurs appropriés pour σ G 2 et σ 2
F
2 2
sont SG et SF dont les valeurs numériques des racines sont données. Les lois de ces
2 /σ 2 ∼ χ2 (n − 1) (et idem
estimateurs sont accessibles via la normalisation (n G − 1)SG G G
pour les filles). Elles dépendent chacune de la vraie valeur de la variance, mais sous
H0 : σ G2 = σ 2 = σ 2 inconnu, donc le rapport des deux χ 2 (indépendants) normalisés
F
élimine le paramètre inconnu et suit une loi de Fisher. On choisit comme numérateur
par exemple l’estimateur qui a donné la plus grande valeur :
SG2
∼ F (nG − 1, nF − 1) sous H0 ,
SF2
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
Exercice II.2 .
C’est le modèle d’ANOVA à 1 facteur qui est ici la politique de publicité. C’est donc une
application directe du cours. les moyennes et écarts-types empiriques empiriques par groupe,
ainsi que la connaissance des effectifs des groupes (n A = nB = nC = 6) suffisent à faire les
calculs.
1. L’estimateur de σ 2 pour le modèle linéaire est
3
2 ||X − XE ||2 2
X
σ̂ = , avec ||X − XE || = (ni − 1)Si2 = 3110.8,
n−3
i=1
Exercice II.3 .
Il s’agit de comparer deux modèles de régression possibles, l’un sur le régresseur X =
(x1 , . . . , xn ), l’autre sur le régresseur Z = (log(x 1 ), . . . , log(xn )). C’est l’observation du nuage
de points du modèle Y = β + γX qui a suggéré l’essai de l’autre modèle.
2 2
1.8 1.8
1.6 1.6
1.4 1.4
1.2 1.2
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 1 2 3 0 5 10 15 20
(1) Il s’agit de modèles de régression simples, cas traité complètement dans le cours, § 4.
Les matrices des régresseurs sont M 1 = [1 n Z] (modèle logarithmique) et M 2 = [1 n X]. Les
estimateurs de (β, γ, σ 2 ) pour chacun des modèles sont
2 2
1.8 1.8
1.6 1.6
1.4 1.4
1.2 1.2
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 1 2 3 0 5 10 15 20
(2) Il s’agit du test de H0 : “le régresseur n’a pas d’effet”, test de Fisher de statistique
||YE − Ȳ 1n ||2
F = ∼ F (1, n − 2) sous H0 .
||Y − YE ||/(n − 2)
Le calcul donne les Fisher et p-valeurs suivantes :
M 1 : F1 = 17.22, p1 = 0.001
M 2 : F2 = 11.42, p2 = 0.005
Dans les deux cas, on rejette clairement H 0 pour tout niveau classique : il faudrait en M2
un niveau plus petit que 0.005 (non pratiqué sauf exception) pour ne pas rejeter l’hypothèse
nulle.
34 CHAPITRE II. MODÈLE LINÉAIRE GAUSSIEN
(3) Comme les deux modèles sont significatifs, on peut les comparer d’une part avec le
critère du plus grand Fisher (i.e. de la plus petite p-valeur), d’autre part avec le critère du
coefficient de détermination R 2 . Ici pour le modèle logarithmique, R 12 = 55.2% de variation
expliquée, et pour le modèle M 2, R 22 = 44.9%. Pour les deux critères, le modèle logarithmique
est donc préférable.
N
Exercice II.4 .
(2) La table d’analyse de la variance peut être constituée de la manière suivante en fonction
du paramètre n.
Variabilité SS DF MS Fisher
Interclasse 1, 14 3 0, 38 f = 0, 17(n − 4)
2, 28
Intraclasse 2, 28 n−4
n−4
Totale 165.82 n−1
Sous l’hypothèse H0 d’égalité des moyennes la statistique de Fisher suit une loi de Fisher
F(3, n − 4). Pour α = 0, 05, on rejette l’hypothèse H 0 si f > F3;n−4;0,05 , soit n > ν(n) avec
F3;n−4;0,05
ν(n) = 4 + .
0, 17
D’après la table des quantiles de la loi de Fisher- Snedecor, on peut remarquer que si
n = 5, on a F3;1;0,05 = 215, 71 et ν(5) = 1273, donc on accepte H 0 alors que si n −→ +∞,
ν(+∞) a une valeur finie donc on rejette H 0 .
On peut traduire cela par le fait que si n est petit on a pas assez d’observations, donc d’in-
formation pour rejeter l’hypothèse H 0 alors que si n −→ +∞ on a au contraire l’information
complète sur les paramètres et on accepte H 0 uniquement si les 4 moyennes empiriques sont
égales.
On en déduit qu’il existe une valeur critique n c telle que pour n < nc on accepte H0 et
pour n ≥ nc on rejette H0 .
Exercice II.6 .
II.2. CORRECTIONS 35
1.a. Les estimations sans biais de l’espérance mathématique et de la variance pour chacun
des trois appareils sont les suivantes :
1 P20 P20 2
On calcule m = 20 j=1 yj = m1 − m2 = 1, 64 puis j=1 yj = 55, 26, d’où l’estimation
sans biais de la variance de la loi commune des y j , ŝ2 = 0, 0773 (attention : ce n’est pas le
même ŝ2 qu’en question 2).
36 CHAPITRE II. MODÈLE LINÉAIRE GAUSSIEN
√
On en déduit z = 20 m ŝ = 26, 38 que l’on compare au quantile supérieur d’ordre 0,025
de la loi de Student à 19 degrés de liberté, qui vaut 2,093. On constate que 26, 38 > 2, 093 et
donc ici on rejette très nettement, au seuil 0,05, l’hypothèse d’identité de loi des appareils 1 et
2. On pouvait s’y attendre car dans les 20 couples de valeurs, celle enregistrée par l’appareil
1 est toujours supérieure à celle enregistrée par l’appareil 2 (la différence variant entre 1,1 et
2).
4.a. Pour tester l’hypothèse que l’espérance mathématique de la loi des enregistre-
ments lors du pic de pollution vaut 340, on calcule les estimateurs sans biais de l’espérance
mathématique et de la variance,√c’est-à-dire m = 346, 58 et s 2 = 98, 49 .
√
On en déduit n |m−340|s = 10 |346,58−340|
9,92 = 2, 10.
Considérons les quantiles supérieurs de la loi de Student à 9 degrés de liberté. La valeur
calculée 2,10 se situe entre celui d’ordre 0,05 (qui vaut 1,833) et celui d’ordre 0,025 (qui
vaut 2,262). Donc, parmi les valeurs du seuil α classiques, celles supérieures ou égales à 0,10
conduisent au rejet de l’hypothèse µ = 340 et celles inférieures ou égales à 0,05 conduisent
au non-rejet de cette hypothèse.
4.b. On estime la loi des observations par la loi normale d’espérance mathématique
346,58 et de variance 98,49 (donc d’écart-type 9,92). Φ désignant la fonction de répartition
de la loi normale centrée réduite, la probabilité de dépasser 360 est donc estimée par :
360 − 346, 58
1 − Φ( ) = 1 − Φ(1, 35) = 1 − 0, 9115 = 0, 0885
9, 92
Exercice II.7 . 1. On a :
1 − y(t)
h(t) = ln( ) = ln b − at
y(t)
Donc la courbe logistique est transformée par l’application h, en une droite : l’ajustement
à la courbe logistique devient une régression linéaire sur les données transformés par h avec
α = −a et β = ln b.
2. Les estimateurs de α et β, ainsi que les variances de ces 2 estimateurs sont explicités dans
le polycopié en 4.2. On obtient : α̂ = −0.332 ; β̂ = 3.763. Le coefficient de détermination
vaut : R2 = 0.9973
3. L’estimation sans biais de la variance vaut : σ̂ 2 = 3.1 10−3
On en déduit : V (α̂) = 3.79 10−5 et V (β̂) = 1.5 10−3 .
Au niveau 95% , on obtient les intervalles de confiances :
Fisher p-valeur
2906 0.000
On rejette évidemment l’hypothèse (a=0).
N
38 CHAPITRE II. MODÈLE LINÉAIRE GAUSSIEN
Chapitre III
Modèles discrets
III.1 Énoncés
Exercice III.1.
On a croisé 2 types de plantes, différant par deux caractères ; le premier prend les valeurs A
et a, le second prend les valeurs B et b. On s’est assuré de l’homogénéité des plantes de la
première génération : pour chaque type de plante, chacun des deux phénotypes représente
la moitié de l’échantillon sur lequel on effectue les croisements. On s’interroge sur le modèle
suivant :
- A est dominant et a est récessif,
- B est dominant et b est récessif.
Par les lois de Mendel ce modèle conduirait, à la seconde génération, pour les 4 phénotypes
AB , Ab , aB et ab, à des probabilités égales respectivement à 9/16 , 3/16 , 3/16 et 1/16.
Or, à partir d’un échantillon de 160 plantes, on a observé des effectifs respectifs de 100 ,
18 , 24 et 18.
2. Que pouvez-vous dire (à l’aide de la table de quantiles de la loi du χ 2 fournie à l’appui
de ce cours) sur la p-valeur associée au résultat observé (autrement dit en dessous de quelle
valeur pour α = 0, 05 ce résultat ne conduit pas au rejet du modèle proposé) ?
3. Reprendre la question 1 dans le cas où l’expérience aurait porté sur deux fois moins
de plantes, soit 80, et conduit aux effectifs respectifs de 50, 9, 12 et 9 (c’est-à-dire les mêmes
proportions que dans l’expérience initiale).
4
Exercice III.2.
On se propose de comparer les réactions produites par deux vaccins B.C.G. désignés par A
et B. Un groupe de 348 enfants a été divisé par tirage au sort en deux séries qui ont été
vaccinées, l’une par A, l’autre par B. La réaction a été ensuite lue par une personne ignorant
le vaccin utilisé. Les résultats figurent dans le tableau suivant :
39
40 CHAPITRE III. MODÈLES DISCRETS
On désire tester l’hypothèse selon laquelle les réactions aux deux vaccins sont de même
loi.
1. Expliquez pourquoi cette situation relève d’un test du χ 2 d’indépendance.
2. Les effectifs observés permettent-ils d’effectuer le test ? Si non, procédez aux opérations
nécessaires sur ces données, puis effectuez le test au niveau de signification α = 0, 05. Discutez
selon le choix d’autres valeurs de α.
4
Exercice III.3.
Nous disposons des résultats d’une enquête réalisée auprès de 200 femmes américaines mariées
sur leur activité. Parmi les questions, deux vont nous intéresser pour cet exercice. La première,
notée A, est la suivante : Avez-vous une activité professionnelle actuellement ? alors que la
seconde, notée B, est : Avez-vous des enfants de moins de deux ans ? . L’objectif de cette
étude est de savoir si la présence d’enfants très jeunes influe sur le fait d’avoir une activité
professionnelle.
1. Testez (en discutant sur le niveau de signification choisi) l’hypothèse selon laquelle les
deux variables sont indépendantes ? Indication : on utilisera le test du χ 2 d’indépendance
(chapitre 3, section 1).
2. Testez (en discutant sur le niveau de signification choisi) l’hypopthèse selon laquelle,
dans la population totale, les proportions de femmes exerçant une activité professionnelle
sont égales parmi celles qui ont des enfants de moins de deux ans et celles qui n’en ont pas ?
Indication :on utilisera le test de comparaison des proportions dans deux grands échatillons
appariés (chapitre 3, section 3).
3. On désire modéliser le fait d’avoir une activité professionnelle (la variable à expliquer)
par la présence d’enfants de moins de deux ans (la variable candidate à l’explication). Pour
cela on choisit d’effectuer une régression logistique (chapitre 3, section 2). Mais ici la variable
candidate à l’application est qualitative (alors que dans le modèle général de la régression
logistique elle est numérique). On doit donc adopter un codage arbitraire pour cette variable,
par exemple 0 pour ”pas d’enfant de moins de 2 ans” et 1 pour ”présence d’au moins un
enfant de moins de 2 ans” (ou bien respectivement -1 et 1).
a) Justifiez le choix de la régression logistique en montrant que le codage n’aura aucun
effet sur le test statistique.
III.1. ÉNONCÉS 41
Exercice III.4.
On désire étudier la répartition des naissances suivant le type du jour de semaine (jours
ouvrables ou week-end) et suivant le mode d’accouchement (naturel ou par césarienne). Les
données proviennent du “National Vital Statistics Report” et concernent les naissances aux
USA en 1997.
On note pJ,N la probabilité qu’un bébé naisse un jour ouvrable et sans césarienne, p W,N la
probabilité qu’un bébé naisse un week-end et sans césarienne, p J,C la probabilité qu’un bébé
naisse un jour ouvrable et par césarienne, p W,C la probabilité qu’un bébé naisse un week-end
et par césarienne.
1. Rappeler l’estimateur du maximum de vraisemblance de
3. On désire savoir s’il existe une évolution significative dans la répartition des naissances
par rapport à 1996. À l’aide d’un test du χ2 , pouvez-vous accepter ou rejeter l’hypothèse
p = p0 , où p0 correspond aux données de 1996 ? On donne les valeurs suivantes pour
p0 :
Naissances Naturelles Césariennes
J.O. 60.5 % 17.0 %
W.E. 18.9 % 3.6 %
42 CHAPITRE III. MODÈLES DISCRETS
Exercice III.5.
On souhaite vérifier la qualité du générateur de nombres aléatoires d’une calculatrice scienti-
fique. Pour cela, on procède à 250 tirages dans l’ensemble {0, . . . , 9} et on obtient les résultats
suivants :
x 0 1 2 3 4 5 6 7 8 9
N (x) 28 32 23 26 23 31 18 19 19 31
III.2 Corrections
Exercice III.1 . 1. On va procéder à un test du χ 2 . Les ”effectifs théoriques” sous
l’hypothèse à tester (selon les notations du polycopié ce sont les valeurs n.p 0j , où 1 ≤ j ≤ 4)
sont respectivement 90, 30, 30 et 10, d’où le calcul de la distance du χ 2 :
χ23,0,95 = 7, 815.
On a 13, 51 > 7, 815 donc l’hypothèse nulle est rejetée (on dit que la différence entre la
répartion observée et la répartion théorique est ”significative” au niveau 0,05).
2. La table fournie avec ce cours nous montre que 13,51 est compris entre les quantiles
d’ordres 0,09 et 0,009 de la loi du χ2 à 3 degrés de liberté. Donc on sait que :
- si α ≥ 0, 01 on est conduit au rejet de l’hypothèse nulle,
- si α ≤ 0, 001 on n’est pas en situation de rejeter l’hypothèse nulle.
3. La conservation de toutes les proportions (théoriques et observées), avec division de
l’effectif par 2, conduit à diviser aussi par 2 la valeur calculée de la statistique du χ 2 , qui
vaut donc maintenant 6,75. Cette valeur est inférieure à 7,815 et cette fois on ne peut rejeter
l’hypothèse nulle au niveau 0,05.
N
Exercice III.2 .
1. Reprenons les notations du cours sur le test de χ 2 d’indépendance (chapitre IV, 2.).
Nous observons ici 348 v.a. i.i.d. X i = (Yi , Zi ), où les Yi sont à valeurs dans un ensemble
à 2 éléments (les 2 vaccins) et les Z i sont à valeurs dans un ensemble à 4 éléments (les 4
réactions). Le paramètre est donc de la forme p = (p j,h )1≤j≤k,1≤h≤m .
Pm
Si on pose pour tout j (1 ≤ j ≤ 2) qj = h=1 pj,h et, pour tout h (1 ≤ h ≤ 4) ,
Pk
rh = j=1 pj,h , les qj caractérisent la loi commune des v.a. Y i et les rh caractérisent la loi
commune des v.a. Zi ; ces lois sont appelées aussi première et seconde lois marginales des
Xi .
Considérons les deux hypothèses suivantes :
2. Les effectifs, dans la colonne ”abcès”, sont trop faibles (inférieurs à 5) pour que l’on
puisse appliquer le test du χ2 dont on rappelle qu’il a une justifiction asymptotique. On va
donc regrouper les modalités 3 et 4 de la variable ”réaction” (ce qui est raisonnable vu la
proximité de leurs interprétations). On obtient le tableau modifié :
On dresse alors un tableau comprenant dans chaque case (j, h) (avec désormais 1 ≤ h ≤ 3),
l’une au dessus de l’autre, les deux valeurs suivantes :
• l’estimation par m.v. de pj,h sans faire l’hypothèse d’indépendance, c’est-à-dire la proportion
n
de couples (j, h) observée dans l’échantillon (notée nj,h dans le cours),
• l’estimation par m.v. de pj,h sous l’hypothèse d’indépendance, c’est-à-dire le produit des
proportions, observées dans l’échantillon, de modalités j pour le vaccin et de modalités h
n0j n00
h
pour la réaction, après regroupement (notée n dans le cours).
On remarque par ailleurs que 8,81 est compris entre les quantiles d’ordres 0,98 et 0,99
de la loi du χ2 à 2 degrés de liberté ; donc, au niveau de signification 0,01, l’hypothèse
d’indépendance n’aurait pu être rejetée.
N
Exercice III.3 .
Non fournie. N
Exercice III.4 .
1. L’estimateur du maximum de vraisemblance, p̂, de p est le vecteur des fréquences
empiriques. On a donc p̂ = (0, 606; 0, 186; 0, 173; 0, 035).
III.2. CORRECTIONS 45
(p̂J,N − p̂J p̂N )2 (p̂W,N − p̂W p̂N )2 (p̂J,C − p̂J p̂C )2 (p̂W,C − p̂W p̂C )2
ζn = n + + + .
p̂J p̂N p̂W p̂N p̂J p̂C p̂W p̂C
3. Ici on teste l’hypothèse simple p = p 0 , avec p0 = (0, 605; 0, 189; 0, 17; 0, 036). Le nombre
de degrés de liberté de ce test du χ 2 d’adéquation est 4 − 1 = 3 (voir le polycopié).
La statistique du χ2 est
!
(p̂J,N − p0J,N )2 (p̂W,N − p0W,N )2 (p̂J,C − p0J,C )2 (p̂W,C − p0W,C )2
ζn = n + + + .
p0J,N p0W,N p0J,C p0W,C
Exercice III.5 .
Non fournie N
46 CHAPITRE III. MODÈLES DISCRETS
Chapitre IV
IV.1 Énoncés
Exercice IV.1.
Des pharmacologues étudient l’effet d’une nouvelle molécule chez l’homme. Ils pensent que
cette molécule permettrait l’augmentation de certains globules blancs appelés neutrophiles.
Pour leur étude, ils disposent d’un groupe de 24 volontaires, parmi lesquels 12 sont effective-
ment traités par la nouvelle molécule et 12 reçoivent un placebo. On mesure la quantité (en
milliers par millimètre cube) de ces neutrophiles pour chacun des 24 individus :
gp traité 4.8 4.5 4.4 5.0 4.9 5.1 5.3 5.3 5.4 5.5 5.6 5.3
gp témoin 4.6 4.9 4.2 4.6 4.5 4.3 4.5 5.0 5.2 5.3 5.4 5.2
On supposera que les volontaires sont choisis au hasard dans un large groupe, et que, si la
molécule a un effet, il est nécessairement dans le sens d’une augmentation des neutrophiles.
1. En listant clairement les hypothèses que vous faites, proposez d’abord un test de Student
(aux niveaux 1% et 5%) pour répondre à la question ”y a-t-il une augmentation significative
de neutrophiles chez les sujets traités ?”. Commentez vos résultats.
D’autres chercheurs se posent la même question mais ils ne disposent que de 12 individus
pour leur étude. Ils décident donc de traiter tout le groupe et de mesurer la quantité de
neutrophiles, pour chaque patient, avant et après le traitement. Ils obtiennent les résultats
suivants :
avant traitement 4.2 4.3 4.5 4.5 4.5 4.6 4.9 5.0 5.2 5.2 5.3 5.4
après traitement 4.4 4.6 4.8 4.9 5.0 5.1 5.3 5.3 5.3 5.4 5.5 5.6
47
48 CHAPITRE IV. TESTS NON PARAMÉTRIQUES
4. Proposez, pour ces nouvelles données, un test non paramétrique pour répondre à la
question des pharmacologues.
4
Exercice IV.2.
On dispose de 10 résultats de simulation de la loi uniforme sur l’intervalle [0, 1] (obtenus par
usage d’un ordre RANDOM sur un ordinateur ou calculatrice) :
0.134 0.628 0.789 0.905 0.250 0.563 0.790 0.470 0.724 0.569
A l’aide d’un test de Kolmogorov au niveau 0.20, étudiez si cet échantillon conduit à
rejeter l’hypothèse nulle selon laquelle ”le tirage a bien eu lieu selon la loi uniforme [0, 1]”
(en l’occurence, le rejet serait bien sûr une conclusion erronnée).
4
Exercice IV.3.
Un statisticien s’est perdu en pleine brousse. Dans le but de construire un ballast avec des
cailloux, il doit choisir entre deux carrières celle dont les cailloux sont les plus durs. Pour
déterminer quel est le plus dur de deux cailloux, il ne dispose que d’un seul moyen : les
frotter l’un contre l’autre. Soit n le nombre d’expériences qu’il réalise (portant chaque fois
sur des couples de cailloux distincts), et N + le nombre d’entre elles qui donnent un caillou
plus dur pour la première carrière.
1. Sous l’hypothèse H0 : “il n’y a pas de différence entre les carrières”, quelle est la loi
de N + ? Quelle est sa loi ”asymptotique”, lorsque n tend vers l’infini ? On supposera que
n+ > n/2 ; le statisticien pense donc qu’il devrait choisir la première carrière.
2. En admettant que n est “assez grand” (précisez le sens de cette expression), déduisez-en
un test non paramétrique simple pour tester H 0 contre H1 : ”la première carrière contient
des cailloux plus durs que la deuxième”. Ce test est connu sous le nom de “test des signes”.
3. Comment peut-on utiliser un test des signes pour tester l’égalité des lois de deux
échantillons appariés (cas de la question 4 de l’exercice 1 par exemple) ? Quel inconvénient
a-t-il par rapport au test de Wilcoxon ?
Exercice IV.4.
Une étude de marketing vise à révéler si la présence d’une étiquette sur une bouteille de
champagne influe sur son appréciation par les consommateurs. On effectue donc des tests
de consommation : 271 dégustateurs sont invités à noter sur une échelle de 1 à 11 deux
champagnes supposés différents (1 est la moins bonne note et 11 la meilleure). Il s’agit en
fait du même vin mais servi, dans un ordre aléatoire, par une bouteille sans étiquette pour
l’un et par une bouteille avec étiquette pour l’autre.
Les résultats vous sont présentés de la manière suivante : on effectue pour chaque consom-
mateur la différence entre la note du champagne sans étiquette et celle du champagne avec
IV.1. ÉNONCÉS 49
Exercice IV.5.
L’étude de N = 688 familles ayant 7 enfants s’est traduite par la distribution suivante :
nb de garçons 7 6 5 4 3 2 1 0
nb de filles 0 1 2 3 4 5 6 7
nb de familles 8 38 106 190 188 110 40 8
Exercice IV.6.
1. On considère l’échantillon i.i.d. suivant, pour lequel la loi commune des observations est
supposée de densité continue inconnue :
−0.35 −0.15 −0.14 0.28 −0.60 0.75 −1.80 0.35 0.17 1.33 −0.40 −2.31 −0.82 −1.05
En vous inspirant de la construction du test de Wilcoxon vue en cours, proposez un test non
paramétrique de l’hypothèse : ”la densité de Z est symétrique par rapport à zéro”.
2. On considère l’échantillon i.i.d. suivant, pour lequel la loi commune des observations
est supposée admettre une fonction de répartition continue et strictement croissante :
4.65 4.86 4.40 3.20 5.17 4.60 4.18 4.85 5.28 5.75 5.35 6.33 2.69 3.95
Exercice IV.7.
Sur un échantillon de femmes on a mesuré les rythmes cardiaques suivants :
66 74 69 76 72 73 75 67 68
50 CHAPITRE IV. TESTS NON PARAMÉTRIQUES
58 76 82 74 79 65 74 86
Comparez les deux distributions à l’aide d’un test non paramétrique. Indication : on
pourra utiliser un est de Kolmogorov-Smirnov à deux échantillons.
4
IV.2. CORRECTIONS 51
IV.2 Corrections
Exercice IV.1 . 1. Il
s’agit de savoir si la différence entre les données du groupe traité et celles du groupe témoin
est due au hasard, ou si elle provient de l’action de la molécule. On utilise dans un premier
temps une approche paramétrique, avec un test unilatère de Student. On se place donc dans
le cadre d’un modèle linéaire gaussien. Les hypothèses nécessaires sont :
– On modélise par une loi normale la loi du nombre de neutrophiles dans la population,
les paramètres de cette loi pouvant éventuellement être modifiés par le traitement.
– Homoscédasticité (même variance en présence ou en absence de traitement).
– Indépendance des données au sein de chaque groupe et entre les deux groupes.
On reprend les notations utilisées dans le chapitre 2. Dans ce cadre, les données du premier
groupe suivent une loi N (µ1 , σ 2 ) et celles du second groupe une loi N (µ 2 , σ 2 ). L’hypothèse à
tester est donc H0 : ”µ1 = µ2 ” contre ”µ1 > µ2 ”.
On effectue le test décrit en détail dans le cours (chap 2, 2.5) , dans lequel la statistique de
Student sous H0 est :
√
(X 1 −X 2 ) n1 +n2 −2
T =√ √ ∼ t(n1 + n2 − 2)
(n1 −1)S12 +(n2 −1)S22 1/n1 +1/n2
Avec n1 = n2 = 12, la zone de rejet de H0 pour le niveau α est ici : [T > t22,α ]
On calcule les statistiques usuelles du modèle linéaire gaussien :
On trouve alors :
T = 1.75
On voit que pour un niveau de confiance de 5%, le test de Student conduit à rejeter
l’hypothèse H0 alors que pour un test à 1%, il conduit à l’accepter. Il ne permet donc pas de
conclusion ”franche”. De plus, des hypothèses fortes ont été faites alors qu’elles ne sont pas
acquises : on ne sait rien de la réelle distribution des données qui sont peut-être loin de la
normalité. De même, rien ne laisse penser que l’hypothèse d’homoscédasticité est raisonnable
(rarement le cas en pharmacologie). Ces limites du test de Student nous conduisent à proposer
un test non paramétrique.
2. Nous effectuons maintenant un test unilatère de Mann-Whitney pour ces deux échantillons
non appariés. Il s’agit donc de tester H 0 : ”la molécule n’a pas d’effet sur la quantité de neu-
trophiles” contre H1 : ”la molécule tend à augmenter la quantité de neutrophuiles” Ce test
ne nécessite plus d’hypothèse de normalité sur les données, ni celle d’homoscédasticité. Il faut
par contre garder celle d’indépendance des données, ce qui paraı̂t raisonnable.
Calculons la statistique de Mann-Whitney. On classe les données suivant leur rang :
52 CHAPITRE IV. TESTS NON PARAMÉTRIQUES
d’où, avec les notations du cours (R x1 désignant ici la somme des rangs des sujets traités),
et en utilisant l’approximation normale (taille de l’échantillon supérieure à 10) :
n1 (n1 +1)
Ux1 ,x2 = Rx1 − 2
n n
Ux ,x − 12 2
V = q 1 2
n1 n2 (n1 +n2 +1)
∼ N (0, 1)
12
On trouve ici que Rx1 = 178 , Ux1 ,x2 = 100 , V = 1.61. Or, nous sommes dans le cadre
d’un test unilatère dont la zone de rejet est de la forme [V > φ α ] où φα est le quantile d’ordre
(1 − α) de la loi normale centrée réduite. Les tables donnent : φ 5% = 1.64 et φ1% = 2.32, et
donc on ne peut dans aucun cas conclure à un effet significatif du traitement.
On voit sur cet exemple qu’un test non paramétrique est plus conservateur qu’un test pa-
ramétrique dans la mesure où le rejet de l’hypothèse H 0 nécessite que les données contredisent
plus nettement H0 .
3. Nous avons toujours deux échantillons de même taille, mais contrairement à la question
précédente, ils sont appariés : le facteur ”individu” peut influer sur la valeur mesurée.
Toutes les différences sont positives, la statistique T + s’obtient donc ici comme la somme
de la dernière colonne du tableau, on obtient : T + = 78. Nous pouvons encore utiliser l’ap-
proximation normale :
n(n+1)
T +−
V = q 4
n(n+1)(2n+1)
∼ N (0, 1)
24
on trouve V = 3.06. La zone de rejet a ici la même forme que pour le test de Mann-Whitney,
puisque l’on procède à un test unilatère et que T + devient grand sous H1 . Ainsi, V se trouve
dans les zones de rejet [V > 1.64] et [V > 2.32] pour les deux niveaux de confiance 5% et 1%.
On conclut cette fois à un effet de la molécule. Les résultats et la conclusion trouvés sont
franchement différents de ceux de la question 2., alors que les différences entre les données
avec et sans traitement ne sont pas plus grandes. La différence cruciale réside donc ici dans
l’appariement des données. Il réduit la différence entre les données due à la variabilité entre
les individus. La différence constatée est donc ”plus facilement attribuable” à un effet de la
molécule que dans le cas sans appariemment.
N
Exercice IV.2 .
54 CHAPITRE IV. TESTS NON PARAMÉTRIQUES
Ce graphique représente :
- la fonction de répartition F de la loi uniforme sur [0, 1] (en pointillés)
- la fonction de répartition empirique F x de l’échantillon x (en trait plein)
Il y apparait que la distance maximale entre elles est atteinte à gauche en 0.470 (3ème
valeur) et vaut 0.470 − 0.2 = 0.270. Or, pour n = 10, le quantile d’ordre 0.8 de la loi de
Kolmogorov de paramètre 10 vaut 0.322. Il n’est pas dépassé par la valeur observée, il n’y a
donc pas rejet de l’hypothèse nulle.
Autre manière de calculer
la valeur
de la statistique de Kolmogorov :
L’application t 7−→ Fx (t) − F (t) est maximale en l’une des valeurs observées ; on les
ordonne par ordre croissant :
0.134 ; 0.250 ; 0.470 ; 0.563 ; 0.569 ; 0.628 ; 0.724 ; 0.789 ; 0.790 ; 0.905
i 1 2 3 4 5 6 7 8 9 10
yi − i−1 0.134 0.150 0.270 0.263 0.169 0.128 0.124 0.089 0.010 0.005
10
y i − i 0.034 0.050 0.170 0.163 0.069 0.068 0.024 0.011 0.110 0.095
10
N
Exercice IV.3 .
1. Sous H0 , N + suit une loi binomiale B(n, 1/2), puisqu’il s’agit alors d’une somme de n
v.a. de Bernoulli indépendantes et de paramètre 1/2. Lorsque n tend vers l’infini, la loi de N +
tend vers une loi normale (d’après le théorème de la limite centrale) d’espérance E(N + ) = n2
et de variance V (N + ) = n(1/2)(1 − 1/2) = n4 .
2. On veut maintenant tester H0 : “il n’y a pas de différence entre les carrières”, contre
H1 : ”la première carrière contient des cailloux plus durs que la deuxième”. Il est clair que
sous H1 , N + tend à être significativement plus grand que n2 . On peut donc proposer de rejeter
N +− n
H0 au niveau α pour des N + tels que √n 2
> φα , où φα est le quantile d’ordre (1 − α) de la
4
loi normale centrée réduite. Cette approximation normale est valide, avec une précision jugée
en général satisfaisante, si n( 21 )(1 − 12 ) ≥ 5, c’est-à-dire n ≥ 20. Ce test non paramétrique
très simple ne requiert aucune hypothèse sur la forme du modèle. Il est adapté à ce genre de
situation où l’on ne dispose pas de deux échantillons appariés complets mais seulement de
leur comparaison paire par paire.
3. Dans les situations où l’on dispose des données chiffrées pour deux échantillons ap-
pariés, on peut se ramener au cas précédent en ne considérant que le signe des différences
entre les valeurs de chaque paire. Si X 1 et X2 sont les deux échantillons appariés, on note
Z = signe(X1 − X2 ), constitué de “ + ” et de “ − ”. Le test se base alors uniquement sur Z
et est indépendant des valeurs quantitatives prises par X 1 et X2 . L’hypothèse H0 devient ”il
y a autant de chances d’observer un signe “ + ” qu’un signe “ − ”, et le même test des signes
s’applique avec N + = nombre de signes “ + ” (d’où le nom de test des signes).
IV.2. CORRECTIONS 55
Ce test semble intuitivement moins efficace que le test de Wilcoxon qui exploite, lui, à la
fois le signe et la valeur des différences. Le test des signes exploite donc moins d’information
que le test de Wilcoxon. En pratique, on observe en effet que le test de Wilcoxon est très
souvent bien plus puissant que le test des signes, surtout pour de petits échantillons. En
revanche, la théorie montre que la différence des puissances tend à s’annuler quand la taille
n des échantillons tend vers l’infini. Il est donc préférable de n’utiliser ce test des signes que
lorsque l’on ne dispose pas des données chiffrées des deux échantillons à comparer.
N
Exercice IV.1 .
1. Le protocole d’étude permet de mesurer les préférences de chaque consommateur. De
plus, l’ordre de dégustation des champagnes est aléatoire pour chaque consommateur, car
sinon, la dégustation du premier pourrait influer sur l’appréciation du second. Ainsi, le re-
cueil des deux notes fournit deux échantillons appariés : nous pouvons effectuer un test de
Wilcoxon avec les données fournies par l’étude (la décimale sur la somme des rangs provient
de l’application de la règle du rang moyen). Néanmoins, on constate que le nombre d’ex-aequo
est relativement élevé, ceci pouvant provenir du fait que l’échelle de notation n’est pas utilisée
entièrement, ou bien que les dégustateurs sont de véritables experts.
Dans notre cas, on trouve s = −13, 7 ce qui nous conduit à rejeter fortement H 0 pour tous
les niveaux de signification usuels. En effet −13, 7 est inférieur à tous les quantiles inférieurs
d’ordres 0, 05 , 0, 01 , 0, 001 . . . de la loi normale centrée réduite ; autrement dit la p-valeur
associée à cette observation est Φ(−13, 7) où Φ désigne comme il est usuel la fonction de
répartition de la loi normale centrée réduite ; il s’agit d’une valeur extrêmement faible : la
table de Φ donnée dans le polycopié nous apprend que Φ(−10) = 7, 6 × 10 −24 .
Il faut cependant rester très critique sur ces résultats numériques, au vu du grand nombre
d’ex-aequo qui induit forcément une erreur non négligeable dans les calculs. Une autre manière
simple de procéder, plus élémentaire mais peut-être plus prudente dans ce cas, consiste à
réaliser un test des signes, à la manière de l’exercice précédent. Dans ce cadre, sous H 0 , le
nombre n+ = 14 de différences strictement positives est une réalisation d’une loi binomiale
B(n, p), avec n = 271 − 80 = 191 et p = 1/2, et pour laquelle on peut encore utiliser
l’approximation normale. On trouve donc sous H 0 :
N + − 191/2
S0 = p ∼ N (0, 1)
191/4
avec s0 = −11, 8. Cela ne change pas notre conclusion.
N
Exercice IV.5 .
Non fournie. N
Exercice IV.6 .
Non fournie N
Exercice IV.7 .
Non fournie. N
Chapitre V
V.1 Énoncés
Exercice V.1.
Objectif
Il s’agit de “résumer” ce tableau de données à l’aide d’une ACP, afin de tenter d’expliquer
les habitudes de consommation des ménages.
57
58 CHAPITRE V. ANALYSE DES DONNÉES
Il est important de souligner que les individus ne sont pas anonymes dans cette étude,
ils ont un sens en terme de CSP et de nombre d’enfants. Il est, pour cette raison, important
de repérer les individus par leurs identifiants sur les plans factoriels. Ainsi, si c’est possible,
on tâchera de repérer des tendances à la consommation de certains produits en fonction de
la CSP, ou du nombre d’enfant. On pourra aussi essayer de repérer des “classes” homogènes
d’individus le long des axes, et d’interpréter ces classes en terme des nouveaux caractères.
Statistiques descriptives
Voici les statistiques descriptives élémentaires pour les 7 variables :
On peut aussi réaliser une étude descriptive des liens entre les 7 caractères à l’aide de la
matrice des coefficients de corrélation empiriques :
Éléments de l’ACP
On réalise une ACP non normée sur ces données, i.e. on ne réduit pas les variables. Ceci
revient à effectuer la diagonalisation de la matrice de variances-covariances.
Question 3. Pourquoi est-ce raisonnable dans cet exemple ?
On obtient les résultats suivants :
2.5
1.5
0.5
0
1 2 3 4 5 6 7
V1 V2 V3 V4 V5 V6 V7
Pain -0.0728 0.5758 0.4040 0.1140 -0.1687 0.6737 0.0678
Légume -0.3281 0.4093 -0.2917 0.6077 0.4265 -0.1828 -0.2348
Fruit -0.3026 -0.1001 -0.3402 -0.3965 0.5682 0.4320 0.3406
Viande -0.7532 -0.1082 0.0681 -0.2942 -0.2848 -0.0011 -0.4987
Volaille -0.4653 -0.2439 0.3809 0.3299 -0.0645 -0.2076 0.6503
Lait -0.0911 0.6316 -0.2254 -0.4135 -0.2366 -0.4390 0.3498
Vin 0.0588 0.1444 0.6599 -0.3068 0.5705 -0.3005 -0.1741
MA5
MA5
EM5
200 100
MA4 CA3
CA2
100 CA5 50
CA4 MA4
EM4
EM4 MA2
Axe 2
Axe 3
MA3
0 EM3 0 MA3
-100 -50
MA2 EM5
CA2 EM3
EM2
CA3
-200 CA4 -100
CA5
EM2
-300 -150
-1000 -500 0 500 1000 -1000 -500 0 500 1000
Axe 1 Axe 1
Fig. V.2 – Projections des individus dans le plan principal 1–2 (gauche) et dans le plan 1–3
(droite).
60 CHAPITRE V. ANALYSE DES DONNÉES
MA2 0.9874
EM2 0.9285
CA2 0.6618
MA3 0.9979
EM3 0.9781
CA3 0.9801
MA4 0.9818
EM4 0.6168
CA4 0.9709
MA5 0.8124
EM5 0.9271
CA5 0.9786
0.5 0.5
Le W P
Vo
0 Vi 0 Vi
F
Vo FLe L
-0.5 -0.5
-1 -1
-1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1
Exercice V.2.
Présentation du problème
La pollution de l’eau, de l’air, ... est un des problèmes les plus importants dans le domaine
de l’environnement. De nombreuses études relatives à ce type de problème font appel à la
Statistique et permettent de répondre à différentes questions sensibles telles que : ”Est-ce que
la pollution a un impact sur le taux de mortalité ?”, ”Peut-on construire un indicateur de
pollution ?”, ou encore ”Y a t-il des lieux qui se comportent différemment face à la pollution ?”.
Pour cela, sur un échantillon de 40 villes des Etats-Unis en 1960, 11 mesures ont été
relevées, en plus du taux de mortalité :
- TMR (nombre de décès pour 10000 durant un an)
- GE65 : pourcentage (×10) de la population des 65 ans et plus,
- LPOP : logarithme (en base 10 et ×10) de la population,
- NONPOOR : pourcentage de ménages avec un revenu au dessus du seuil de pauvreté,
- PERWH : pourcentage de population blanche,
- PMEAN : moyenne arithmétique des relevés réalisés deux fois par semaine de particules
suspendues dans l’air (µg /m3 ×10),
- PMIN : plus petite valeur des relevés réalisés deux fois par semaine de particules sus-
pendues dans l’air (µg /m3 ×10),
- PMAX : plus grande valeur des relevés réalisés deux fois par semaine de particules sus-
pendues dans l’air (µg /m3 ×10),
- SMEAN : moyenne arithmétique des relevés réalisés deux fois par semaine de sulfate
(µg /m3 ×10),
- SMIN : plus petite valeur des relevés réalisés deux fois par semaine de sulfate (µ g /m3 ×10),
- SMAX : plus grande valeur des relevés réalisés deux fois par semaine de sulfate (µ g /m3 ×10),
- PM2 : densité de population par mile carré (×0.1).
Étude descriptive
Le premier réflexe lorsque que l’on étudie des données est de les regarder, notamment à
l’aide de quelques statistiques descriptives sur l’ensemble des variables, comme ci-dessous :
La figure suivante visualise la distribution empirique de chaque variable sous forme d’un
histogramme. La discrétisation a été réalisée automatiquement sans volonté d’optimisation
de largeur des barres et de nombre d’individus par pas de discrétrisation.
Les vecteurs propres associés aux deux premières composantes sont les suivants :
Question 7 : Pour chaque composante principale, calculer quelques corrélations avec les
variables actives.
Question 9 : Calculer quelques coordonnées d’individus sur le plan 1-2, notamment pour
la ville de Jersey City (à droite sur l’axe 1). Les calculs devront être détaillés, le tableau des
coordonnées des individus permettant de vérifier les résultats obtenus.
68 CHAPITRE V. ANALYSE DES DONNÉES
prin2
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
- - - - 0 0 0 0 1
1 0 0 0 . . . . .
. . . . 0 2 5 7 0
0 7 5 2 0 5 0 5 0
0 5 0 5
prin1
Fig. V.7 – Cercle des corrélations du plan 1-2
Variables u1 u2 u3 u4
GE65 0.2253 -0.4941 0.1536 0.1301
LPOP 0.2904 0.0764 0.0069 -0.5397
NONPOOR 0.3101 -0.3327 0.2062 -0.2514
PERWH 0.2130 -0.4736 0.3829 0.2105
PMEAN 0.3191 0.3596 0.4071 0.0596
PMIN 0.2851 0.3201 0.1658 -0.3970
SMAX 0.3990 0.0319 -0.0324 0.1428
SMEAN 0.4325 0.0759 -0.2481 0.0564
SMIN 0.3249 0.0035 -0.4321 0.3636
PM2 0.2914 0.0536 -0.4224 0.0846
PMAX 0.0599 0.4166 0.4078 0.5101
Prin2
4
3
2
1
0
-1
-2
-3
-4 -3 -2 -1 0 1 2 3 4 5 6
Prin1
Exercice V.3.
On considère le tableau de données suivant concernant 10 villes françaises (Origine des
données : Météofrance).
70 CHAPITRE V. ANALYSE DES DONNÉES
CITY C1 C2 C3 C4
PROVIDEN 1.8271 -1.0266 0.4432 -0.2295
JACKSON -3.3231 1.0784 -2.2568 -0.3177
JOHNSTOW 1.3756 1.0548 1.2606 1.9276
JERSEY C 5.611 0.1215 -3.5828 1.5539
HUNTINGT -0.7598 -0.2651 0.2703 0.514
DES MOIN 0.8042 0.1352 2.1204 0.2342
DENVER -0.2578 -0.4623 1.4198 -1.3648
READING 0.1717 -1.7851 0.7404 0.6743
TOLEDO 0.8333 -0.9909 -0.3021 -0.0977
FRESNO -1.2631 0.0885 1.0768 0.1012
MEMPHIS -2.4293 1.4315 -1.205 -1.0873
YORK 2.649 -0.2639 0.0785 2.9008
MILWAUKE 1.8552 -0.1379 0.5936 -0.2777
SAVANNAH -2.5916 1.2797 -1.7274 -0.2167
OMAHA -0.7302 -1.2026 0.6377 -0.6178
TOPEKA -1.5805 -1.4507 0.706 -0.3972
COLUMBUS 1.9036 0.3068 -0.8873 -0.6442
BEAUMONT -2.2797 0.1997 -0.927 -0.5426
WINSTON -1.2556 2.0396 0.621 -0.4992
DETROIT 1.677 0.9454 -0.0967 -1.7003
EL PASO -0.5239 1.7006 0.8574 0.7087
MACON -2.8437 3.1563 1.3595 2.4874
ROCKFORD -0.857 -1.7641 0.0598 -0.2275
JACKSON -1.4774 -1.9564 -0.1284 -0.0905
FALL RIV -0.3776 -2.1686 0.2342 1.0331
BOSTON 2.8581 -0.7814 0.6782 -0.9519
DAYTON 0.2914 0.4553 1.0194 -0.5328
CHARLOTT -1.2087 1.618 -0.4007 -0.6774
MIAMI -1.8682 -1.5371 -1.0872 -0.9446
BRIDGEPO 2.4437 -1.6104 -1.8443 0.7919
SIOUX FA -1.7527 -1.1038 1.339 1.5509
CHICAGO 3.7796 1.5897 0.583 -1.869
SOUTH BE -0.2093 -1.6265 -0.566 0.4442
NORFOLK -1.4551 1.5556 -1.6232 -0.2894
CLEVELAN 3.1351 1.455 0.5516 -0.9822
AUSTIN -3.0075 -0.9877 -0.9295 0.4448
KNOXVILL -1.1495 0.5485 0.1277 1.0644
INDIANAP 2.2722 1.4201 0.8783 -1.0799
NASHVIL 0.7372 1.192 -0.5604 0.738
SEATTLE -1.0237 -2.2513 0.4685 -1.5316
CITY CT R1 CT R2 CT R3 CT R4 CT R
PROVIDEN 0.0199 0.0143 0.0038 0.0011 0.018
JACKSON 0.0658 0.0157 0.0973 0.0022 0.0448
JOHNSTOW 0.0113 0.015 0.0798 0.0293
JERSEY C 0.2454 0.0519 0.1332
HUNTINGT 0.0034 0.001 0.0014 0.0057 0.0113
DES MOIN 0.0039 0.0002 0.0859 0.0012 0.0165
DENVER 0.0004 0.0029 0.0385 0.04 0.0111
READING 0.0002 0.0431 0.0105 0.0098 0.0112
TOLEDO 0.0041 0.0133 0.0017 0.0072
FRESNO 0.0095 0.0001 0.0222 0.0002 0.0083
MEMPHIS 0.0352 0.0277 0.0278 0.0254 0.0288
YORK 0.0418 0.0009 0.0001 0.1807 0.0471
MILWAUKE 0.0205 0.0003 0.0067 0.0017 0.0116
SAVANNAH 0.04 0.057 0.001 0.0283
OMAHA 0.0032 0.0196 0.0078 0.0082 0.0071
TOPEKA 0.0149 0.0285 0.0095 0.0034 0.0181
COLUMBUS 0.0216 0.0013 0.015 0.0089 0.0159
BEAUMONT 0.031 0.0005 0.0164 0.0063 0.0173
WINSTON 0.0094 0.0563 0.0054 0.02
DETROIT 0.0168 0.0121 0.0002 0.0621 0.0191
EL PASO 0.0016 0.0391 0.0141 0.0108 0.0199
MACON 0.0482 0.1347 0.0353 0.1329 0.0757
ROCKFORD 0.0044 0.0421 0.0001 0.0011 0.0121
JACKSON 0.0518 0.0003 0.0002 0.0174
FALL RIV 0.0009 0.0636 0.001 0.0229 0.0183
BOSTON 0.0487 0.0083 0.0088 0.0195 0.0289
DAYTON 0.0005 0.0028 0.0199 0.0067
CHARLOTT 0.0087 0.0354 0.0031 0.0099 0.0136
MIAMI 0.0208 0.032 0.0192 0.0255
BRIDGEPO 0.0356 0.065 0.0135 0.0393
SIOUX FA 0.0183 0.0165 0.0343 0.0517 0.022
CHICAGO 0.0852 0.0342 0.0065 0.075 0.0504
SOUTH BE 0.0003 0.0358 0.0061 0.0042 0.012
NORFOLK 0.0126 0.0327 0.0504 0.0018 0.0199
CLEVELAN 0.0586 0.0286 0.0058 0.0207 0.0318
AUSTIN 0.0539 0.0132 0.0165 0.0042 0.0281
KNOXVILL 0.0079 0.0041 0.0003 0.0243 0.0115
INDIANAP 0.0308 0.0273 0.0147 0.025 0.0248
NASHVIL 0.0032 0.0192 0.006 0.0117 0.0137
SEATTLE 0.0062 0.0686 0.0504 0.0241
Numéro Ville X1 X2 X3 X4
1 Biarritz 1474 1921 7.6 19.7
2 Brest 1157 1757 6.1 15.6
3 Clermont 571 1899 2.6 19.4
4 Lille 612 1641 2.4 17.1
5 Lyon 828 2036 2.1 20.7
6 Marseille 533 2866 5.5 23.3
7 Nice 868 2779 7.5 22.7
8 Paris 624 1814 3.4 19.1
9 Perpignan 628 2603 7.5 23.8
10 Strasbourg 719 1696 0.4 19.0
Moyenne 801 2101 4.5 20.0
Ecart-type 285 442 2.51 2.51
On a effectué une Analyse en Composantes Principales sur les données normalisées, dont les
résultats sont rassemblés en annexe.
- B - Classification
On décide de conserver uniquement les coordonnées des 2 caractères principaux. Le tableau
des distances euclidiennes entre les villes se trouve dans l’annexe. On choisit comme stratégie
d’aggrégation la stratégie du minimum.
1. Déterminer la classification ascendante hiérarchique .
2. Expliciter la classification en 3 classes associée.
Annexe
74 CHAPITRE V. ANALYSE DES DONNÉES
Matrice de corrélation
1.0000 −0.2178 0.4709 −0.3047
−0.2178 1.0000 0.6026 0.8925
R=
0.4709
0.6026 1.0000 0.4039
−0.3047 0.8925 0.4039 1.0000
Valeurs propres et vecteurs propres
—-—-——*1-—*9 Biarritz 1 0
—-—-——*2-—*8 Brest 2 2.10 0
—-—-——*3-—*7 Clermont 3 3.74 2.93 0
—-—-——*4-—*6 Lille 4 3.86 2.50 1.10 0
—-—-——*5-—*5 Lyon 5 3.19 2.90 1.10 1.86 0
—-—-——*6-—*4 Marseille 6 4.27 4.53 2.93 3.92 2.74 0
—-—-——*7-—*3 Nice 7 3.12 3.83 3.25 4.07 2.84 1.45 0
—-—-——*8-—*2 Paris 8 3.43 2.57 0.43 0.97 1.20 3.04 3.20 0
—-—-——*9-—*1 Perpignan 9 3.72 4.25 3.08 4.00 2.89 1.07 1.03 3.06 0
—-—-——*10-— Strasbourg 10 3.95 3.06 1.13 1.17 1.29 3.81 4.06 1.27 4.00 0
1 2 3 4 5 6 7 8 9 10
V.1. ÉNONCÉS 75
Representation de la projection
3
Nice
−1
Brest
−2
Biarritz
−3
−3 −2 −1 0 1 2 3
axe1
76 CHAPITRE V. ANALYSE DES DONNÉES
Exercice V.4.
On donne la description d’une analyse appelée “le canidé de Jussac”, effectuée sur des données
réelles ; on fournit à ce propos des résultats de calculs de statistique descriptive et des éléments
sur une analyse en composantes principales normée.
Le crâne d’un animal préhistorique appartenant à la famille des canidés a été découvert il
y a quelques années, dans la région de Jussac (Auvergne). L’une des questions que se posaient
les scientifiques était de savoir si cet animal se rapprochait plus d’un chien ou d’un loup.
On a mesuré six grandeurs caractéristiques sur des crânes chiens de même taille que celle
de l’animal inconnu (berger allemand, lévrier, doberman,. . . ), et sur des crânes de loups.
Type X1 X2 X3 X4 X5 X6
Chien 129 064 95 17.5 11.2 13.8
Chien 154 074 76 20.0 14.2 16.5
Chien 170 087 71 17.9 12.3 15.9
Chien 188 094 73 19.5 13.3 14.8
Chien 161 081 55 17.1 12.1 13.0
Chien 164 090 58 17.5 12.7 14.7
Chien 203 109 65 20.7 14.0 16.8
Chien 178 097 57 17.3 12.8 14.3
Chien 212 114 65 20.5 14.3 15.5
Chien 221 123 62 21.2 15.2 17.0
Chien 183 097 52 19.3 12.9 13.5
Chien 212 112 65 19.7 14.2 16.0
Chien 220 117 70 19.8 14.3 15.6
Chien 216 113 72 20.5 14.4 17.7
Chien 216 112 75 19.6 14.0 16.4
Chien 205 110 68 20.8 14.1 16.4
Chien 228 122 78 22.5 14.2 17.8
Chien 218 112 65 20.3 13.9 17.0
Chien 190 093 78 19.7 13.2 14.0
Chien 212 111 73 20.5 13.7 16.6
Chien 201 105 70 19.8 14.3 15.9
Chien 196 106 67 18.5 12.6 14.2
Chien 158 071 71 16.7 12.5 13.3
Chien 255 126 86 21.4 15.0 18.0
Chien 234 113 83 21.3 14.8 17.0
Chien 205 105 70 19.0 12.4 14.9
Chien 186 097 62 19.0 13.2 14.2
Chien 241 119 87 21.0 14.7 18.3
Chien 220 111 88 22.5 15.4 18.0
Chien 242 120 85 19.9 15.3 17.6
Loup 199 105 73 23.4 15.0 19.1
Loup 227 117 77 25.0 15.3 18.6
Loup 228 122 82 24.7 15.0 18.5
Loup 232 123 83 25.3 16.8 15.5
Loup 231 121 78 23.5 16.5 19.6
Loup 215 118 74 25.7 15.7 19.0
Loup 184 100 69 23.3 15.8 19.7
Loup 175 094 73 22.2 14.8 17.0
Loup 239 124 77 25.0 16.8 27.0
Loup 203 109 70 23.3 15.0 18.7
Loup 226 118 72 26.0 16.0 19.4
Loup 226 119 77 26.5 16.8 19.3
Jussac 210 103 72 20.5 14.0 16.7
78 CHAPITRE V. ANALYSE DES DONNÉES
Statistiques descriptives
Voici les statistiques descriptives élémentaires pour les 6 variables. On donne les moyennes
et écarts-type pour l’ensemble des observations à l’exception de celle correspondant au crâne
inconnu, puis par groupe (chiens et loups).
N.B. L”écart-type calculé ici est à chaque fois la racine carrée de l’estimation sans biais
de la variance pour la population population concernée.
On peut aussi réaliser une étude descriptive des liens entre les 6 caractères à l’aide de la
matrice des coefficients de corrélation empiriques :
LCB LMS LBM LP LM LAM
LCB 1.0000 0.9608 0.3486 0.6145 0.7196 0.5877
LMS 0.9608 1.0000 0.2001 0.6606 0.7356 0.5948
LBM 0.3486 0.2001 1.0000 0.3699 0.3502 0.3547
LP 0.6145 0.6606 0.3699 1.0000 0.8934 0.7629
LM 0.7196 0.7356 0.3502 0.8934 1.0000 0.7895
LAM 0.5877 0.5948 0.3547 0.7629 0.7895 1.0000
Sorties de l’ACP
On réalise une ACP normée sur ces données, à l’exception de l’observation correspondant
au crâne inconnu que l’on garde comme élément supplémentaire. On obtient les résultats
suivants :
3.5
2.5
1.5
0.5
0
1 2 3 4 5 6
Matrice des vecteurs propres : la colonne V j (où 1 ≤ j ≤ 6), donne les 6 composantes
du j-ème vecteur propre normé (ceux-ci étant classés selon l’ordre décroissant des valeurs
propres auxquelles ils sont associés).
Composante V1 V2 V3 V4 V5 V6
1 0.4313 0.2285 -0.5285 -0.1056 0.0462 0.6850
2 0.4305 0.3807 -0.3924 -0.0125 -0.2018 -0.6891
3 0.2280 -0.8880 -0.3756 0.0212 -0.0034 -0.1336
4 0.4389 -0.0663 0.3969 0.5262 -0.5821 0.1723
5 0.4600 0.0206 0.2730 0.3073 0.7815 -0.0912
6 0.4153 -0.0971 0.4400 -0.7854 -0.0873 -0.0049
Axe 3
C C C C
−1 0 C
C C
C C
C CC L
C C
C C
−0.5 C C L
−2 C
C C
C C
−1 C
C
−3
C
−1.5
C
C
−4 −2
−4 −2 0 2 4 6 −4 −2 0 2 4 6
Axe 1 Axe 1
Fig. V.10 – Projections des individus dans le plan principal 1–2 (gauche) et dans le plan 1–3
(droite) ; C=chien, L=loup, ? =crâne de Jussac.
80 CHAPITRE V. ANALYSE DES DONNÉES
0.5 0.5
LMS LAM
LP
Composante 2
Composante 3
LCB LM
0 LM 0
LP
LAM
LBM LMS
LCB
−0.5 −0.5
LBM
−1 −1
−1 −0.5 0 0.5 1 −1 −0.5 0 0.5 1
Composante 1 Composante 1
alternative “le caractère LM a tendance à prendre de plus grandes valeurs pour les loups que
pour les chiens”.
N.B. Vous direz vous-même s’il y a lieu ici d’utiliser l’approximation normale de la loi de
Mann-Whitney.
b. Si en question 4.b vous avez rejeté l’hypothèse de normalité, pouvez-vous avancer des
arguments, relatifs au contexte expérimental (ou à la suite des observations sur les chiens)
permettant une interprétation de cette circonstance ?
c. Au choix du candidat.
4
V.2. CORRECTIONS 83
V.2 Corrections
Exercice V.1 .
Dans cet énoncé, seules les statistiques descriptives élémentaires et la matrice de corrélation
sont fournies (pas d’histogrammes ni de scatterplots). Les variables, toutes exprimées dans
la même unité, sont assez homogènes, avec des moyennes s’échelonnant entre 358 et 1887 et
des écart-types comparables.
que l’éboulis des valeurs propres, permettent de conclure que 2 ou 3 axes sont suffisants pour
résumer respectivement 96.5% et 98.5% de l’inertie. On pourrait dans un premier temps se
contenter de 2 axes, puis rajouter le troisième si l’interprétation réalisée sur le plan principal
(axes 1 et 2) n’est pas complète ou pas assez satisfaisante .
On constate sur le cercle (1–2) que le premier caractère est très fortement corrélé (de
manière négative) avec les variables (Viande, Volaille, Fruit), et également très corrélé avec
Légumes. On retrouve ici notre premier groupe constitué grâce à la matrice de corrélation.
Le second caractère est, lui, très corrélé avec le second groupe (Pain, Lait), et pratiquement
non corrélé avec (Viande, Volaille, Fruit).
Le Vin est faiblement corrélé avec ces 2 premiers nouveaux caractères. Ceci suggère de
construire le cercle (1–3) sur lequel on voit que le troisième caractère peut être interprété
comme l’axe de la consommation de Vin ; cet axe est de plus pratiquement non corrélé avec
notre premier groupe de variables.
On peut interpréter le premier axe factoriel comme l’axe des “produits de consommation
chers”, par opposition au second axe factoriel qui peut être vu comme l’axe des produits “de
consommation courante”, et bon marchés.
Il faut aussi, pour l’interprétation des plans factoriels, garder présent à l’esprit le fait
que le premier caractère est corrélé de manière négative avec le groupe des “produits chers”.
Ceci signifie que des individus situés très à gauche sur le premier axe factoriel (coordonnées
négatives) sont de forts consommateurs de produits chers (plus que la moyenne des individus).
De même, des individus situés très à droite sur cet axe sont de faibles consommateurs de
produits chers (toujours relativement au barycentre, le “ménage moyen”).
L’axe 2 s’interprétera, lui, conformément à l’intuition : des individus situés très en haut
de l’axe sont de forts consommateurs de Pain et de Lait, et inversement.
Sur cet exemple, les contributions ne sont pas fournies. Nous allons donc simplement
interpréter les plans factoriels (le lecteur pourra les calculer en réalisant l’ACP avec le pro-
gramme Scilab utilisé en TP et compléter le commentaire).
Sur le premier plan factoriel (plan principal, axes factoriels 1–2), les qualités de représentation
des individus sont toutes raisonnables. On remarque d’abord une classification assez nette
en les différentes catégories socio-professionnelles (CSP). On peut ainsi délimiter trois classes
“convexes” représentant les groupes des CA, des EM et des MA (ceci signifie qu’aucun indi-
vidu de l’un des groupes de CSP n’est “au milieu” d’un groupe d’une autre CSP).
On peut aussi remarquer que ces 3 groupes de CSP se répartissent le long du premier
axe en, de gauche à droite, CA, puis EM, puis MA (la séparation en EM et MA étant moins
nette). Ceci s’interprète comme le fait que les CA sont de plus gros consommateurs des
produits qualifiés de “chers” (caractère 1), que les EM sont à peu près dans la moyenne et
que les MA sont de faibles consommateurs de ces produits. Il n’y a pas une telle répartition
le long de l’axe 2 : des représentants des 3 CSP sont présents aussi bien dans les grandes que
les petites valeurs de l’axe 2.
V.2. CORRECTIONS 85
On peut aussi s’intéresser à la répartition des nombres d’enfants par ménages, puisque
cette information est aussi présente dans les “noms” des ménages. On remarque par exemple
que les classes de CSP EM et MA sont ordonnées par nombre d’enfants croissants le long de
l’axe 2 (ce n’est pas vrai pour les CA, bien que CA5 soit tout de même le plus en haut de l’axe
2 pour cette classe de CSP). Ceci s’interprète naturellement par le fait que les familles ayant
plus d’enfants sont de plus gros consommateurs de produits “de base” tels que Pain et Lait
(cf. cercle de corrélation 1–2), à la fois pour des raisons économiques (les MA sont d’ailleurs
légèrement au-dessus des EM sur l’axe 2) et pour des raisons alimentaires (les enfants sont
en principe plus consommateurs de Lait que les adultes).
Le plan factoriel (1–3), sur lequel apparaı̂t l’axe associé à la consommation de Vin, ne
permet pas de tirer de conclusions claires en terme de liens avec les CSP ou le nombre
d’enfants.
N
Exercice V.2 .
Non fournie. N
Exercice V.3 .
- A - Analyse en composantes principales
3. L’inertie sur les 2 premiers axes représente 93.3% de l’inertie totale. On a donc une
information suffisante pour analyser les données.
L’axe C1 est fortement corrélé avec l’ensoleillement et la température en Juillet : on
sépare le long de cet axe des villes dont l’ensoleillement et la température en Juillet
sont les plus faibles (à gauche) et celles qui sont les plus chaudes en Juillet et les plus
ensoleillées (à droite). En particulier on distingue bien les trois villes méditerranéennes
détachées sur la droite (Nice, Marseille, Perpignan).
Sur l’axe C2 , c’est la hauteur des précipitations qui est prépondérante avec une corrélation
fortement négative : les villes les plus pluvieuses sont vers le bas et les villes les moins
pluvieuses vers le haut. On peut notamment remarquer vers le bas deux villes atlan-
tiques très pluvieuses : Brest et Biarritz.
86 CHAPITRE V. ANALYSE DES DONNÉES
0.8
0.6
0.4
temp−juil
0.2
duree−sol
axe2
−0.2
−0.4
−0.6
temp−janv
−0.8
haut−prec
−1
−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1
axe1
V.2. CORRECTIONS 87
0.022 −2.632
CO21 (Biarritz) = = 0.00 et CO22 (Biarritz) = = 0.95
7.27 7.27
On peut remarquer que l’axe 2 contient 95% de l’information sur Biarritz et que cette
ville contribue à près de la moitié de l’inertie de cet axe.
5. Pour l’axe 1 les contributions des villes méditerranéennes est significatives (62.4% de
l’inertie de l’axe pour ces 3 villes) et on peut noter que 94% de l’information sur Nice
et Perpignan est contenue dans l’axe 1. Pour l’axe 2, outre Biarritz, c’est Brest dont la
contribution à l’inertie de cet axe est la plus importante (22.7% de l’inertie de l’axe).
D’autre part ces deux axes contiennent plus de 90% de l’information sur chacune des
villes sauf Paris (87.5%) et surtout Lyon (seulement 38.6% de l’information) qui est la
seule ville mieux représentée par les axes 3 et 4, que par les axes 1 et 2.
- B - Classification
2. Le regroupement en trois classes est obtenu à l’itération 7. Les trois classes sont :
A5 ={Marseille, Perpignan, Nice }
88 CHAPITRE V. ANALYSE DES DONNÉES
Exercice V.4 .
Non fournie.
N