SI Cours 0809

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 55

P OLYTECH ’L ILLE

D ÉPARTEMENT G.I.S.
2008-2009

Statistiques inférentielles
Julien JACQUES
http ://math.univ-lille1.fr/∼jacques/
2
Table des matières

1 Statistique descriptive 7
1.1 Un exemple de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Variables uni-dimensionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Les différents types de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Résumés numériques de variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3 Représentation graphique pour variable quantitatives . . . . . . . . . . . . . . . . . . . . . 9
1.2.4 Représentation graphique pour variables qualitatives . . . . . . . . . . . . . . . . . . . . . 12
1.3 Variables multi-dimensionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 Liaison entre deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.2 Liaison entre une variable quantitative et une variable qualitative . . . . . . . . . . . . . . . 14
1.3.3 Liaisons entre deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 Echantillonnage 17
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Fonction de répartition empirique, statistiques d’ordre . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2 Statistique d’ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Moments empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 Définition des moments empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Etude de la statistique X̄ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.3 Etude de la statistique V 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.4 Cas des échantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.5 Application : carte de contrôle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Estimation 23
3.1 Qualité d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Estimateur exhausif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3 Estimation sans biais de variance minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.5 Estimation par intervalles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.5.1 Rappel sur les lois du χ2 , de Student et de Fisher-Snedecor . . . . . . . . . . . . . . . . . . 27
3.5.2 Intervalle de confiance sur l’espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.5.3 Intervalle de confiance sur la variance d’une loi normale . . . . . . . . . . . . . . . . . . . 29
3.5.4 Intervalle de confiance sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.5.5 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6 Un peu de culture sur l’estimation statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6.1 Estimation bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6.2 Estimation robuste : cas de la valeur centrale d’une distribution symétrique . . . . . . . . . 32
3.6.3 Estimation fonctionnelle : estimation de la densité . . . . . . . . . . . . . . . . . . . . . . 32

3
4 Tests statistiques 35
4.1 Introduction : test sur l’espérance d’une loi normale de variance connue . . . . . . . . . . . . . . . 35
4.2 Théorie des tests paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.1 Vocabulaire des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.2 Probabilité d’erreur et risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.3 Choix optimal de la statistique de test et de la région de rejet . . . . . . . . . . . . . . . . . 37
4.2.4 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.5 p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3 Tests sur un paramètre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3.1 Test sur la moyenne d’une population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3.2 Test sur la variance d’une population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3.3 Test sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4 Tests de comparaison d’échantillons indépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.1 Cas de deux échantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.2 Echantillons non gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.3 Tests de comparaison de deux proportions, pour de grands échantillons . . . . . . . . . . . 42
4.5 Analyse de variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5.1 Analyse de variance à un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5.2 Analyse de variance à deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6 Tests d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.6.1 Quelques méthodes empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.6.2 Ajustement graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.6.3 Test d’ajustement du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.6.4 Test du χ2 de comparaison de k échantillons de données qualitatives . . . . . . . . . . . . . 47

5 La régression linéaire simple 49


5.1 Le coefficient de corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2 Le modèle théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.3 Estimation des paramètres sur des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.4 Tests sur le modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.4.1 Tests de la nullité des paramètres du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.4.2 Test de la qualité de la régression : analyse de variance de la régression . . . . . . . . . . . 52
5.4.3 Test de non corrélation des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.4.4 Prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.4.5 Influence des observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Avant propos

Ce support de cours de statistique inférentielle est destiné aux étudiants de 3ème année du département Génie
Informatique et Statistique de Polytech’Lille.
Ce manuel n’est pas un cours en lui même, car il ne contient que les définitions et théorèmes vu en cours. Les
démonstrations, exercices et applications vus en cours, indispensables à la compréhension de ce cours, ne figurent
pas dans ce manuel.

5
6 TABLE DES MATIÈRES
Chapitre 1

Statistique descriptive

1.1 Un exemple de données


Le jeu de données GermanCredit.data, disponible en ligne, comporte des renseignements sur 1000 clients
d’une banque allemande, chaque client étant décrit par 20 variables. Ce jeu de données sera utilisé pour illustrer les
notions de ce chapitre. Le tableau 1.1 contient la description des 20 variables.

1.2 Variables uni-dimensionnelles


1.2.1 Les différents types de variables
Les variables que l’on rencontre en statistique peuvent être de différentes natures :

Définition 1.2.1. – une variable est quantitative si ses valeurs sont mesurables. Elle peut être continue (R) ou
discrète (N).
– une variable est qualitative si ses valeurs ne sont pas des valeurs numériques, mais des caractéristiques,
appelées modalités.
– une variable qualitative est dite ordinale si ses valeurs sont naturellement ordonnées (mention au bac, ap-
préciation, classe d’âge...). Dans le cas contraire elle est dite nominale (sexe, couleur des cheveux...).

Exercice. Définir le type de chacune des variables dans l’exemple GermanCredit.data.

1.2.2 Résumés numériques de variables quantitatives


Soit x1 , . . . , xn un jeu de données quantitatives.

Caractéristiques de tendance centrale

La moyenne arithmétique est définie par


n
1X
x̄ = xi .
n i=1

Attention, cette quantité est très sensible aux valeurs extrêmes.


Beaucoup moins sensible aux extrêmes, la médiane q2 est la valeur qui partage le jeu de données, rangé dans l’ordre
croissant x1 ≤ x2 ≤ . . . ≤ xn (ou décroissant), en deux parties égales. Si n est impair la médiane sera x n+1 , sinon
2
x n +x n +1
ce sera par convention 2 2 2 . La fonction de répartition vaut 0.5 en la médiane : F (q2 ) = 0.5.
Lorsque les données sont entières, on utiliser parfois le mode qui est la valeur la plus fréquente.

7
8 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

numero nom de la variable valeur


1 état du compte chèque (en DM) A11 : < 0
A12 : ∈ [0, 200[
A13 : ≥ 200 ou versement des salaires pendant au moins un an
A14 : pas de compte chèque
2 durée en mois du crédit ∈N
3 historique des crédits A30 : pas de crédit / tous remboursés
A31 : tous les crédits dans la banque remboursés
A32 : crédits en cours
A33 : retard de paiement dans le passé
A34 : compte critique / crédit existant dans d’autre banque
4 but du crédit A40 : voiture neuve
A41 : voiture occasion
A42 : équipement / fourniture
A43 : radio / télévision
A44 : appareils ménagers
A45 : réparation
A46 : éducation
A47 : vacances
A48 : recylcage
A49 : professionnel
A410 : autre
5 montant du crédit (en DM) ∈R
6 montant de l’épargne (en DM) A61 : < 100
A62 : ∈ [100, 500[
A63 : ∈ [500, 100[
A64 : ≥ 1000
A65 : inconnu
7 ancienneté dans le travail actuel (an) A71 : sans emploi
A72 : < 1
A73 : ∈ [1, 4[
A74 : ∈ [4, 7[
A75 : ≥ 7
8 taux d’apport ∈R
9 état marital A91 : homme divorcé / séparé
A92 : femme divorcé / séparé / mariée
A93 : homme célibataire
A94 : homme marié / veuf
A95 : femme célibataire
10 autre demandeurs / garants A101 : aucun
A102 : co-demandeur
A103 : garant
11 durée d’habitation ∈N
dans la résidence actuelle (an)
12 biens A121 : immobilier
A122 : si pas A121 : placement (assurance vie ou part dans la banque)
A123 : si pas A121 et A122 : voiture ou autre, non compris dans la variable 6
A124 : inconnu
13 âge (an) ∈N
14 autre demande de crédits A141 : banque
A142 : magasins
A143 : aucun
15 situation dans la résidence actuelle A151 : locataire
A152 : propriétaire
A153 : occupant à titre gratuit
16 nombre de crédits dans la banque ∈N
17 emploi A171 : sans emploi / non qualifié - étranger
A172 : non qualifié - non étranger
A173 : emploi qualifié / fonctionnaire
A174 : gestion / indépendant / emploi hautement qualifié / haut fonctionnaire
18 nombre de personnes pouvant ∈N
rembourser le crédit
19 téléphone A191 : aucun
A192 : oui, enregistré au nom du client
20 travailleur étranger A201 : oui
A202 : non
1.2. VARIABLES UNI-DIMENSIONNELLES 9

Caractéristiques de dispersion

L’étendue, ou intervalle de variation est la différence entre les deux valeurs extrêmes : xmax − xmin .
Les 1er et 3ème quartiles q1 et q3 sont définis par F (q1 ) = 0.25 et F (q3 ) = 0.75. L’intervalle inter-quartile
[q1 , q3 ] contient donc 50% des données.
Bien que l’intervalle inter-quartile soit moins sensible aux valeurs extrêmes que l’étendue, il n’est pas très souvent
utilisé. On utilise plus souvent la variance s2 et sa racine carré s l’écart-type :
n n
1X 1X 2
s2 = (xi − x̄)2 = x − x̄2
n i=1 n i=1 i

L’écart-type s’exprime dans la même unité que les données.


Le coefficient de variation exprime le rapport x̄s .

Caractéristiques de forme

Elles permettent de situer la distribution observée par rapport à une distribution gaussienne.
Le coefficient d’asymétrie γ1 (skewness) est nul pour une distribution symétrique :

1
Pn
n i=1 (xi − x̄)3
γ1 = .
s3

Un γ1 positif indique une distribution décalée vers la gauche avec une queue de distribution étendue vers la droite.
Le coefficient d’applatissement γ2 (kurtosis) vaut 3 pour une distribution gaussienne :

1
Pn
n i=1 (xi − x̄)4
γ2 =
s4

Si la distribution est plus applatie qu’une gaussienne, le coefficient d’applatissement sera supérieur à 3.
Attention : certains logiciels et/ou auteurs soustraient 3 à γ2 pour le comparer directement à 0.

1.2.3 Représentation graphique pour variable quantitatives


Boîte à moustaches ou box plot

Une boîte à moustaches (figure 1.1) rèsume la série de données à l’aide des caractéristiques suivantes :
– la mediane est le trait centré au milieu de la boîte,
– la boîte est formée par les 1er quartile q1 et 3ème quartile q3 ,
– les moustaches sont les limites de l’intervalle défini par [q1 − 1.5(q3 − q1 ), q3 + 1.5(q3 − q1 )],
– les ◦ représentent les valeurs extrêmes non contenues dans l’intervalle précédent.
Cette représentation permet également de comparer facilement la distribution de différentes variables, ou encore
de la même variable pour différentes modalités d’une autre variable (figure 1.2). On remarque ainsi que parmi les
clients de la banque allemande les femmes divorcées, spéarées ou mariées ainsi que les hommes mariés ou veufs
sont généralement moins agés que les hommes célibataires, divorcés ou séparés.

Histogramme

Un histogramme est un graphique en barres verticales accolées obtenu après découpage en classes des données.
La surface de chaque barre est proportionnelle à la fréquence de la classe. Pour des classes de même largeur, c’est
la hauteur de la barre qui est proportionnelle à la fréquence de la classe. La surface de l’ensemble des barres vaut 1.
L’histogramme d’une série de données peut s’apparenter à la courbe de densité d’une variable aléatoire. Ainsi, sa
visualisation permet d’avoir un avis sur la nature de la distribution des données. Par exemple (figure 1.3), la variable
âge ne semble pas suivre une loi normale.
Attention : sur un histogramme figurent en ordonnées des fréquences et non pas des effectifs !
10 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

70
60
50
40
30
20

F IG . 1.1 – Boîte à moustaches illustrant la distribution des âges des clients.


70
60
50
40
30
20

A91 A92 A93 A94

F IG . 1.2 – Boîte à moustaches illustrant la distribution des âges des clients suivant les différents statut maritaux.

La fonction de répartition empirique


Analogue à la fonction de répartition d’une variable aléatoire, la fonction de répartition empirique d’une série de
données est définie par :
nx
Fn (x) =
n
1.2. VARIABLES UNI-DIMENSIONNELLES 11

Histogram of data[, 13]

0.04
0.03
Density

0.02
0.01
0.00

20 30 40 50 60 70

data[, 13]

F IG . 1.3 – Histogramme des âges des clients.

où nx = #{xi : xi < x, 1 ≤ i ≤ n} est le nombre de données inférieures à x.

ecdf(x)
1.0
0.8
0.6
Fn(x)

0.4
0.2
0.0

20 30 40 50 60 70 80

F IG . 1.4 – Fonction de répartition empirique des âges des clients.


12 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

1.2.4 Représentation graphique pour variables qualitatives


Les données qualitatives ordinales sont généralement représentées sous la forme de camemberts (pie-chart,
figure 1.5) ou diagramme en barres horizontales (figure 1.6). On utilisera des diagrammes en barres verticales
lorsque les variables sont qualitatives nominales.

A92

A91

A94

A93

F IG . 1.5 – Diagrammes en cammebert des situations maritales des clients.


A94
A93
A92
A91

0 100 200 300 400 500

F IG . 1.6 – Diagrammes en barres des situations maritales des clients.


1.3. VARIABLES MULTI-DIMENSIONNELLES 13

1.3 Variables multi-dimensionnelles


Nous nous intéressons dans cette section à l’étude simultanée de deux variables, avec comme objectif de mettre
en évidence une évolution simultanée de ces deux variables.

1.3.1 Liaison entre deux variables quantitatives


L’étude graphique du nuage de point représentant les deux variables x et y d’intérêts permet de mettre en
évidence un certain lien entre les variables :
– une liaison linéaire positive ou négative,
– une liaison non linéaire,
– une absence de liaison,
– ou encore des structures de liaison plus particulières (absence de liaison en moyenne mais pas en dispersion).
On devine sur l’exemple bancaire (figure 1.7) une liaison linéaire linéaire positive entre la durée et le montant du
crédit.
15000
10000
data[, 5]

5000
0

10 20 30 40 50 60 70

data[, 2]

F IG . 1.7 – Représentations du montant du crédit en fonction de sa durée.

L’indice de liaison utilisé est le coefficient de corrélation linéaire, défini par :


sxy
ρxy =
sx sy
où sx et sy sont les écart-types des variables x et y, et où sxy est la covariance entre x et y, définie par :
n n
1X 1X
sxy = (xi − x̄)(yi − ȳ) = xi yi − x̄ȳ
n i=1 n i=1

Le coefficient de corrélation est symétrique et prend ses valeurs entre −1 et +1.


Attention : une absence de corrélation linéaire entre deux variables ne signifie pas leur indépendance !

Lorsque le nombre p de données quantitatives est supérieur à 2 on travaille avec des matrices de variance
de taille p × p, composées des variances sur la diagonale et des covariances en dehors de la diagonale. On parle
14 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

également de la même façon de matrices de corrélation.

Il arrive fréquement que l’on constate une corrélation étonnante entre deux variables. Ce phénomène arrive
lorsque la corrélation est en fait due à une troisième variable. On cite souvent l’exemple du nombre de maladies
mentales (x) corrélé positivement avec le nombre de posted de radio (y), corrélation pûrement fictive étant en fait
due à une troisième variable non aléatoire, le temps (t). Pour remédier à ce phénomène on utilise le coefficient de
corrélation partielle (ou conditionnel) :

ρxy − ρxt ρyt


ρxy·t = q
(1 − ρ2xt )(1 − ρ2yt )

1.3.2 Liaison entre une variable quantitative et une variable qualitative


On a déjà vu sur la figure 1.2 comment il est possible d’illustrer la liaison entre une variable qualitative et
une variable quantitative en représentant côte à côte des boites à moustaches pour chaque modalité de la variable
qualitative.
Soit x la variable qualitative à R modalités, et y la variable quantitative. Notons n1 , . . . , nR les effectifs de chaque
modalité au sein du jeu de données observé, ȳ1 , . . . , ȳR et s21 , . . . , s2R les moyennes et variances de y pour chaque
modalité de x, et ȳ et s2 les moyenne et variance globales de y.
On montre alors que la variance de y peut se décomposer de la façon suivante :

R R
1X 1X
s2 = nj (ȳj − ȳ)2 + nj s2j
n j=1 n j=1
| {z } | {z }
s2E :variance inter (between) ou expliquée s2R :variance intra (within) ou résiduelle

On peut alors définir comme indice de liaison le rapport de corrélation :


r
s2E
sy|x = .
s2

1.3.3 Liaisons entre deux variables qualitatives


Soient deux variables qualitatives pouvant prendre respectivement R et C valeurs : x1 , . . . , xR et y1 , . . . , yC .
Les données de ce type sont présentées dans un tableau dans lequel les modalités de x figurent en ligne et celles
de y en colonne, et qui contient dans chaque case les effectifs conjoints nrc . Un tel tableau est appelé table de
contingence :

y1 ··· yc ··· yC sommes


x1 n11 ··· n1c ··· n1C n1·
.. .. .. .. ..
. . . . .
xr nr1 ··· nrc ··· nrC nr·
.. .. .. .. ..
. . . . .
xR nR1 ··· nRc ··· nRC nR·
sommes n·1 ··· n·c ··· n·C n

TAB . 1.2 – Table de contingence

Les nr· et n·c sont les marges, ou effectifs marginaux, en lignes et en colonnes.
On appelle r-ème profil-ligne l’ensemble des fréquences de la variables y conditionnelles à la modalités xr de x :
nr1 nrc nrC
{ ,··· , ,··· , }.
nr· nr· nr·
1.3. VARIABLES MULTI-DIMENSIONNELLES 15

De même on définit le c-ème profil-colonne :


n1c nrc nRc
{ ,··· , ,··· , }.
n·c n·c n·c
Lorsqu’aucune liaison n’existe entre les deux variables qualitatives, tous les profils-lignes sont égaux entre eux,
ainsi que tous les profils-colonnes. On a ainsi
nr· n·c
nrc = ∀1 ≤ r ≤ R, 1 ≤ c ≤ C.
n
La mesure de la liaison entre les deux variables se fait en évaluant l’écart à cette situation de non liaison, par l’indice
suivant :
R X C 2 " R C #
2
X nrc − nr·nn·c X X n2
rc
χ = nr· n·c =n −1
r=1 c=1 n n n
r=1 c=1 r· ·c

Le χ2 est toujours positif ou nul, et il est d’autant plus grand que la liaison est forte. Malheureusement cet indice
dépend des dimensions R et C ainsi que de l’effectif total n. D’autres indicateurs sont alors utilisés comme :
2
– le Φ2 = χn qui dépend encore de C et de R,
– le C de Cramer s
Φ2
C=
inf (R, C) − 1
qui est compris entre 0 et 1,
– le T de Tschuprow s
Φ2
T =
(R − 1)(C − 1)
qui est compris entre 0 et 1 et est inférieur au C de Cramer.

Cas des variables ordinales


Lorsque les variables sont ordinales, on travaille souvent sur les rangs associés. Les données x1 , . . . , xn sont rem-
placées par leur rang r1 , . . . , rn dans un classement par ordre croissant.
On utilise alors simplement comme indice de liaison entre deux variables ordinales le coefficient de corrélation
linéaire entre leurs rangs, appelé coefficient de corrélation des rangs de Spearman.
Remarque : Les rangs peuvent également être utilisés lorsque les variables sont quantitatives.
Ces notions seront l’objet du cours de Statistiques Non Paramétriques en GIS4.
16 CHAPITRE 1. STATISTIQUE DESCRIPTIVE
Chapitre 2

Echantillonnage

La problématique de l’inférence statistique consiste, à partir d’un échantillon de données provenant d’une
population de loi de probabilité inconnue, à déduire des propriétés sur la population : quelle est sa loi (problème
d’estimation, chapitre 3), comment prendre une décision en contrôlant au mieux le risque de se tromper (problème
de test, chapitre 4).

2.1 Introduction
Un échantillonnage correspond à des tirages indépendants et équiprobables d’individus au sein de la population.
On associe alors à chaque individu i une variable aléatoire Xi , dont on observe une seule réalisation xi .
Définition 2.1.1. Un échantillon x1 , . . . , xn est la réalisation d’un n-uplet (X1 , . . . , Xn ) où les Xi sont des va-
riables aléatoires indépendantes et identiquement distribuées (même loi).
Par simplicité nous employons régulièrement le terme échantillon pour signifier à la fois l’échantillon d’obser-
vations x1 , . . . , xn et le n-uplet aléatoire (X1 , . . . , Xn ).
Il est fréquent de caractériser un échantillon par des quantités telle que la moyenne, variance, etc. Ces quantités sont
elles-mêmes des variables aléatoires fonction de X1 , . . . , Xn .
Définition 2.1.2. Une statistique T est une variable aléatoire fonction (mesurable) de X1 , . . . , Xn .

2.2 Fonction de répartition empirique, statistiques d’ordre


2.2.1 Fonction de répartition empirique
Définition 2.2.1. La fonction de répartition empirique Fn (x) d’un échantillon (X1 , . . . , Xn ) est la proportion des
n variables X1 , . . . , Xn inférieures à x.
C’est une variable aléatoire, en tant que fonction des variables aléatoires X1 , . . . , Xn . A un échantillon d’obser-
vations x1 , . . . , xn correspond une réalisation de cette fonction aléatoire, qui est une fonction en escalier de sauts
1/n.
Exercice. Tracer la fonction de répartition empirique du 5-échantillon de la loi uniforme sur [0, 1] suivant :
0.56, 0.66, 0.72, 0.19, 0.34
Théorème 2.2.1 (Glivenko-Cantelli). Soit Fn la fonction de répartition empirique d’un échantillon (X1 , . . . , Xn )
où les Xi ont pour fonction de répartition F . Alors
p.s.
– ∀x ∈ R, Fn (x) −→ F (x)
p.s.
– ||Fn − F ||∞ −→ 0
Preuve. Le premier point est démontré en cours, le second point est admis. Pour un rappel sur les différents modes
de convergence d’une suite de variables aléatoires, se reporter à l’annexe 5.4.5.
Le second point de ce théorème nous assure que pour une taille assez grande d’échantillon, la fonction de
répartition théorique peut être approximée par la fonction de répartition empirique.

17
18 CHAPITRE 2. ECHANTILLONNAGE

2.2.2 Statistique d’ordre


Soit X1 , . . . , Xn un échantillon de fonction de répartition F (x) et de densité f (x). Soit (Y1 , . . . , Yn ) la version
ordonnée croissante de l’échantillon X1 , . . . , Xn . Soient Hk (x) et hk (x) les fonctions de répartitions et de densité
de Yk .
On peut montrer les propriétés suivantes sur les deux extrêmes Y1 = inf Xi et Yn = sup Xi :
Proposition 2.2.1.

H1 (y) = 1 − (1 − F (y))n
h1 (y) = n(1 − F (y))n−1 f (y)
Hn (y) = (F (y))n
h1 (y) = n(F (y))n−1 f (y)

Ces propriétés nous permettent de détecter des valeurs aberrantes (trop petite ou trop grande) dans un échan-
tillon.
Exercice. (i) Quelle est la probabilité qu’une observation d’une variable aléatoire de loi N (µ, σ 2 ) dépasse µ +
3σ ?
(ii) Et parmi un échantillon de taille 100, quelle est la probabilité d’avoir une telle observation ?
(iii) Parmi un échantillon de taille 100 de loi N (0, 1), quelle valeur ne doit pas être dépassée avec une probabilité
de 99.9% ?

2.3 Moments empiriques


Soit (X1 , . . . , Xn ) un échantillon, dont la loi admet pour espérance µ et pour variance σ 2

2.3.1 Définition des moments empiriques


Définition 2.3.1. On appelle moyenne empirique de l’échantillon (X1 , . . . , Xn ) la statistique X̄ définie par :
n
1X
X̄ = Xi .
n i=1

Définition 2.3.2. On appelle variance empirique de l’échantillon (X1 , . . . , Xn ) la statistique V 2 définie par :
n
1X
2
V = (Xi − X̄)2 .
n i=1

De façon plus général, on appelle moment centré empirique d’ordre k la statistique Mk définie par
n
1X
Mk = (Xi − X̄)k .
n i=1

2.3.2 Etude de la statistique X̄


On montre facilement (exercice) que :

σ2
E[X̄] = µ et V (X̄) = .
n
Nous verrons plus tard que la première propriété fait de X̄ un estimateur sans biais de l’espérance µ de la population.
On peut montrer également que les coefficients d’asymétrie (skewness) et d’aplatissement (kurtosis) de X̄ sont
respectivement
γ1 γ2 − 3
γ1 (X̄) = √ et γ2 (X̄) = 3 +
n n
2.3. MOMENTS EMPIRIQUES 19

où γ1 et γ2 sont les coefficients d’asymétrie 1 et d’aplatissement 2 de la loi de l’échantillon.


Avant d’énoncer les lois des grands nombres, on peut remarquer que :
n→∞
– comme V (X̄) −→ 0 on a E[(X̄ −µ)2 ] → 0 et donc X̄ converge en moyenne quadratique vers µ l’espérance
de la loi de l’échantillon,
n→∞ n→∞
– γ1 (X̄) −→ 0 et γ2 (X̄) −→ 3 ce qui traduit la normalité asymptotique de X̄.

Lois des grands nombres


L’application de la loi forte des grands nombres au cas d’un échantillon (i.i.d.) asure que
p.s.
X̄ −→ µ

Remarque : la loi faible assure la convergence en probabilité.


De plus, il découle du théorème central-limite que

X̄ − µ L
√ −→ N (0, 1)
σ/ n

Application 1 : sondage éléctoral


Considérons le sondage d’une population visant à déterminer la proportion p d’électeurs votant pour un certain
candidat C. Nous supposons (ce qui n’est pas nécessairement le cas dans la réalité) que les différents sondeurs
agissent indépendemment, aléatoirement et ne relève pas l’identité des personnes sondées.
Soit Xi la variable aléatoire qui vaut 1 si le sondé i déclare voter pour C et 0 sinon. Soit n le nombre
Pn de personnes
interrogées. La fréquence empirique de personnes déclarant voter pour C n’est autre que X̄ = n1 i=1 Xi .
Les variables (X1 , . . . , Xn ) constituent un échantillon de loi de Bernoulli de paramètre p. Ainsi, si n est grand, le
théorème central limite nous permet de considérer que X̄ suit une loi normale de moyenne p et de variance p(1−p) n .

Exercice. On suppose avoir sondé 1000 personnes, et que 300 ont déclaré voter pour C.
Sachant que la probabilité pour qu’une variable aléatoire de loi normale centrée réduite appartienne à [−1.96, 1.96]
est de 0.95, donner un intervalle (de confiance) auquel la variable aléatoire X̄ a 95% de chance d’appartenir.

Réponse : IC(p)95% = [0.2716, 0.3284]

2.3.3 Etude de la statistique V 2


On peut montrer en exercice que la statistique V 2 peut s’écrire sous la forme suivante
n
1X 2
V2 = X − X̄ 2 .
n i=1 i

La loi des grands nombres nous assure que


p.s.
V 2 −→ σ 2 ,
mais
n−1 2
E[V 2 ] =
σ .
n
La preuve de cette dernière égalité est un exercice intéressant.
Contrairement à la statistique X̄, V 2 sera un estimateur biaisé de la variance de la population : il la sous-estime
n
légérement. Dans un objectif d’estimation, on préférera alors à V 2 l’estimateur S 2 = n−1 V 2 qui lui est sans biais.
2
La variance de V est :
n−1
V (V 2 ) = [(n − 1)µ4 − (n − 3)σ 4 ].
n3
E[(X−µ)3 ]
1. le coefficient d’asymétrie ou skewness est définit pour une variable aléatoire X de moyenne µ et de variance σ2 par γ1 = σ3
,
et est nul si la loi de X est symétrique
E[(X−µ)4 ]
2. le coefficient d’aplatissement ou kurtosis est définit par γ2 = σ4
, vaut 3 si la loi de X est normale et est supérieur à 3 si sa
densité est plus aplatie qu’une gaussienne
20 CHAPITRE 2. ECHANTILLONNAGE

Enfin, un théorème limite nous assure que la statistique V 2 converge en loi vers une loi normale :

V 2 − n−1 σ2 L
p n −→ N (0, 1)
V (V 2 )

µ4 −σ4
A noter que lorsque n → ∞, on a l’équivalence V (V 2 ) ∼ n , d’où l’approximation suivante :

V 2 − σ2 L
p −→ N (0, 1)
µ4 − σ 4

Propriété 2.3.1. La corrélation entre X̄ et V 2 est :


µ3
ρ(X̄, V 2 ) = q
n−3 4
σ µ4 − n−1 σ

Démonstration en exercice (indication : on supposera sans perte de généralité que µ = 0).


Ainsi, la corrélation entre X̄ et V 2 est nulle si et seulement si µ3 = 0, ce qui est le cas des distributions symétriques.
Attention, cela n’implique nécessairement pas leur indépendance.

2.3.4 Cas des échantillons gaussiens


Lorsque l’échantillon (X1 , . . . , Xn ) est issu d’une loi normale, la statistique X̄ suit alors une loi normale en
tant que combinaison linéaire de variables normales (plus besoin de théorème asymptotique).
En partant de l’égalité Xi − µ = Xi − X̄ + X̄ − µ, on peut décomposer V 2 sous la forme :
n
1X
V2 = (Xi − µ)2 − (X̄ − µ)2 ,
n i=1
n
d’où, en multipliant par σ2 :
n
X Xi − µ 2 n X̄ − µ
( ) = 2 V 2 + ( σ )2
i=1
σ σ √
n

En appliquant le théorème de Cochran sur les formes quadratiques à cette décomposition, on en déduit les deux
théorèmes suivants.
n 2
Théorème 2.3.1. (X1 , . . . , Xn ) est un échantillon gaussien =⇒ σ2 V ∼ χ2n−1 .
Théorème 2.3.2. X̄ et V 2 sont indépendants ⇐⇒ (X1 , . . . , Xn ) est un échantillon gaussien.
X̄−µ
Application : nous verrons dans le chapitre 4 que la statistique √σ est utilisée pour tester la moyenne µ d’une
n
population.
X̄−µ
X̄ − µ √σ
n X̄ − µ √
T = =q = n−1
√V nV 2 V
n−1 (n−1)σ2

La statistique T suit alors une loi de Student à n − 1 degré de liberté.


Comme il arrive souvent en pratique que σ soit également inconnue, ce résultat est très utile car il ne dépend pas de
σ.
X̄−µ √
Remarquons également que puisque V 2 = n−1 2
n S , T peut aussi s’écrire T = S n.

2.3.5 Application : carte de contrôle


Les cartes de contrôles sont une des applications industrielles les plus importantes de la théorie de l’échantillon-
nage. Introduite par Shewart dès 1931, elles permettent de suivre l’évolution d’une production et d’en détecter les
dérives.
Plaçons nous dans le cas de la production d’une pièce mécanique, et intéressons nous au poids des pièces produites.
Le procédé de fabrication est soumis à un certain nombre de variations : aléatoire intrinséque (ce que l’on modélise
2.3. MOMENTS EMPIRIQUES 21

généralement par une loi normale), erreur de mesure, dérive du processus (déréglage de la machine)...
Dans un cas normal de fonctionnement, le poids X d’une pièce est donc supposé suivre une loi N (µ0 , σ02 ), où µ0
et σ0 sont deux valeurs nominales négociées entre le client et le producteur.
On prélève à différents temps de production un échantillon de n pièces, et on reporte sur la carte 2.1 la valeur de X̄
ainsi obtenue.

µ0

times

F IG . 2.1 – Carte de contrôle sur la moyenne

La ligne centrale correspond à une production parfaitement réglée. Les deux limites de contrôles sont fixées à
µ0 ± 3 σn0 . Si un point sort des limites, il faudra intervenir sur la production pour chercher d’où vient le problème.
Une telle carte de contrôle est généralement associée à une carte sur S, fonctionnant de la même façon. Et il en
existe encore beaucoup d’autres.
22 CHAPITRE 2. ECHANTILLONNAGE
Chapitre 3

Estimation

Soit un échantillon X1 , . . . , Xn de variables indépendantes et identiquement distribuées, d’espérance µ et de


variance σ 2 .
L’estimation consiste à donner une valeur approchée à une caractéristique d’une population, à partir d’un échan-
tillon d’observations issus de cette population. Nous nous intéressons dans ce cours uniquement à l’estimation de
paramètres de la population (moments...). L’estimation fonctionnelle (estimation de densité, fonction de répartition,
fonction de survie...) n’est pas abordée.

Nous avons étudié au paragraphe précedent les deux statistiques X̄ et S 2 . Les lois des grands nombres nous
assure que les valeurs x̄ et s2 de ces statistiques pour un échantillon donné sont de bonnes estimations de la moyenne
µ et la variance σ 2 de la population :
p.s. p.s.
X̄ −→ µ et S 2 −→ σ 2

De même la fréquence empirique f d’un évenement est une bonne estimation de sa probabilité p.
Les variables aléatoires X̄, S 2 et F sont des estimateurs de µ, σ 2 et p.

Définition 3.0.3. On appelle estimateur d’un paramètre θ d’une population, toute fonction

Tn = f (X1 , . . . , Xn )

Un estimateur est une variable aléatoire (c’est une fonction de variable aléatoire).
Il est cependant possible d’utiliser plusieurs estimateurs pour une même quantité (pour une distribution sym-
métrique, la médiane est également un estimateur de µ). Nous allons donc présenter dans le paragraphe suivant les
qualités d’un estimateur.

3.1 Qualité d’un estimateur


La première qualité que l’on attend d’un estimateur est qu’il converge vers le paramètre qu’il estime, lorsque la
taille de l’échantillon tend vers l’infini.

Définition 3.1.1. Un estimateur Tn est faiblement consistant s’il converge en probabilité vers θ quand n tend vers
l’infini
n→∞
∀ǫ > 0 P (|Tn − θ| ≥ ǫ) −→ 0

Un estimateur Tn est fortement consistant s’il converge presque-sûrment vers θ quand n tend vers l’infini
 
P lim Tn = θ = 1
n→∞

Une seconde qualité est l’absence de biais d’un estimateur.

Définition 3.1.2. On appelle biais d’un estimateur la quantité E[Tn ] − θ

23
24 CHAPITRE 3. ESTIMATION

On parle alors d’estimateur sans biais, biaisé ou asymptotiquement sans biais.

Exemple. Que dire des estimateurs X̄, V 2 et S 2 ?

On mesure également la précision d’un estimateur Tn par l’erreur quadratique moyenne E[(Tn − θ)2 ], qui se
décompose sous la forme

E[(Tn − θ)2 ] = V (Tn ) + (E[Tn ] − θ)2

Ainsi, de deux estimateurs sans biais, le plus performant sera celui de variance minimale. Nous chercherons donc
généralement à utiliser des estimateurs sans biais de variance minimale.

Exemple. On peut montrer que lorsque µ est connue, l’estimateur V 2 est meilleur que S 2 .

Exercice. Proposer 2 estimateurs pour le paramètre d’une loi de Poisson et determiner le meilleur.

3.2 Estimateur exhausif


Un échantillon X1 , . . . , Xn contient une certaine information vis-à-vis d’un paramètre inconnu θ de la popula-
tion. Une statistique Tn résumant l’information contenue dans l’échantillon, il sera très important de ne pas perdre
d’information : c’est cette qualité que l’on nomme l’exhausitvité.

On appelle vraisemblance du paramètre θ la fonction


Qn
f (xi ; θ) si les Xi sont continues
L(x1 , . . . , xn ; θ) = { Qi=1
n
i=1 P (Xi = xi ; θ) si les Xi sont discrètes

où f (.; θ) est la densité de la variable aléatoire X1 .

Soit Tn une statistique fonction de X1 , . . . , Xn de loi g(t, θ) (densité dans le cas continu, P (T = t) dans le cas
discret).

Définition 3.2.1. La statistique T est exhaustive si

L(x1 , . . . , xn ; θ) = g(t, θ)h(x1 , . . . , xn ).

En d’autre terme, elle est exhaustive si la loi de l’échantillon sachant T = t ne dépend pas de θ

Cela veut dire que si T est connue, l’échantillon n’apportera plus aucune autre information supplémentaire sur
θ.
Pn
Exemple. Pour la loi normale de moyenne connue µ, la statistique T = i=1 (Xi − µ)2 est exhaustive pour σ 2 .

Théorème 3.2.1 (de Darmois). Soit X1 , . . . , Xn un échantillon dont le domaine de définition de la loi ne dépend
pas de θ. Une condition nécessaire et suffisante pour que l’échantillon admette une statistique exhaustive est que la
densité soit de la forme :

f (x, θ) = exp[a(x)α(θ) + b(x) + β(θ)]

Une telle densité est dite de la P


famille exponentielle. Pn
n
Si de plus l’application x1 → i=1 a(xi ) est bijective et C 1 alors T = i=1 a(Xi ) est une statistique exhaustive
particulière.
Qn
Exemple. Montrer que T = ln i=1 Xi est une statistique exhaustive pour une loi Gamma de paramètre θ inconnu,
dont la densité est
xθ−1
f (x) =
Γ(θ)e−x
Exercice. Donner des statistiques exhaustives pour les lois de Bernoulli, exponentielle et normale (avec soit la
variance connue, soit la moyenne).
3.3. ESTIMATION SANS BIAIS DE VARIANCE MINIMALE 25

La notion d’exhaustivité renseigne sur le pouvoir d’une statistique à véhiculer l’information contenue dans
un échantillon vis-à-vis d’un paramètre inconnu θ que l’on cherche à estimer. La quantité d’information sur le
paramètre apportée par l’échantillon s’exprime elle par l’information de Fisher.
Définition 3.2.2. On appelle quantité d’information de Fisher In (θ) apportée par un n-échantillon sur le paramètre
θ la quantité suivante (si elle existe) :
" 2 #
∂lnL
In (θ) = E
∂θ

Théorème 3.2.2. Si le domaine de définition de la loi de l’échantillon ne dépend pas de θ, on a :


 2 
∂ lnL
In (θ) = −E
∂θ2
Propriété 3.2.1. (i) Si le domaine de définition de la loi de l’échantillon ne dépend pas de θ, In (θ) = nI1 (θ)
(ii) Si la loi de l’échantillon est une loi normale de variance connue, (θ = µ), alors I1 (θ) = σ12
 2 
(iii) en notant IT (θ) = E ∂lng(t,θ) ∂θ l’information de Fisher apportée par la statistique T , avec g(t, θ) la
densité de T , on a IT (θ) ≤ In (θ). On a égalité si T est exhaustive, et réciproquement si le domaine de
définition de la loi de l’échantillon est indépendant de θ.
La propriété 1 dit que chaque observation a la même importance, ce qui n’est pas le cas lorsque le domaine de
définition dépend de θ, comme pour une loi uniforme sur [0, θ], où la plus grande valeur de l’échantillon apporte
plus d’information que les autres sur θ.
La propriété 2 nous assure l’information apporté par une observation est d’autant plus grande que la dispersion est
petite.

3.3 Estimation sans biais de variance minimale


Nous avons vu précédement que les deux qualités les plus importantes pour un estimateur étaient d’être sans
biais, et de variance minimale. Il existe un certain nombre de théorèmes facilitant la recherche d’un tel estimateur.
Théorème 3.3.1 (Unicité). S’il existe un estimateur de θ sans biais de variance minimale, il est unique presque
sûrement.
Théorème 3.3.2 (Rao-Blackwell). Soit T un estimateur sans biais de θ et U une statistique exhaustive pour θ.
Alors T ∗ = E[T |U ] est un estimateur sans biais de θ au moins aussi bon que T (d’un point de vue variance).
Théorème 3.3.3. S’il existe une statistique exhaustive U , alors l’unique estimateur T de θ sans biais de variance
minimale ne dépend que de U .
Définition 3.3.1. Une statistique U est complète si E[h(U ) = 0] ∀θ ⇒ h = 0p.s.
Théorème 3.3.4 (Lehmann-Scheffé). Si T ∗ est un estimateur sans biais de θ dépendant d’une statistique exhaustive
complète U alors T ∗ est l’unique estimateur sans biais de variance minimale. En particulier si l’on dispose d’un
estimateur T sans biais de θ, T ∗ = E[T |U ].
Exemple. Le nombre de bug informatique par semaine d’un logiciel donné suit une loi de Poisson de paramètre
λ. On cherche à évaluer la probabilité de n’avoir aucune panne pendant une semaine P (X = 0) = e−λ . Que
proposez-vous ?
Le résultat suivant nous indique une borne à laquelle ne peut être inférieure la variance d’un estimateur.
Théorème 3.3.5 (Inégalité de Fréchet-Darmois-Cramer-Rao). Si le domaine de définition de la loi de l’échantillon
ne dépend pas de θ, tout estimateur T vérifie
1
V (T ) ≥
In (θ)
et si T est un estimateur sans biais de h(θ)
[h′ (θ)]2
V (T ) ≥
In (θ)
26 CHAPITRE 3. ESTIMATION

Définition 3.3.2. Un estimateur qui atteint la borne de Cramer-Rao est dit efficace. Autrement dit, un estimateur
est efficace s’il n’est pas possible de trouver un estimateur sans biais de variance plus faible.

Théorème 3.3.6 (efficacité). – la borne de Cramer-Rao ne peut être atteinte que si la loi de l’échantillon est
de la famille exponentielle :
f (x, θ) = exp[a(x)α(θ) + b(x) + β(θ)]

– dans ce cas il n’existe qu’une seule fonction du paramètre θ (à une transformation linéaire près) qui puisse
être estimée efficacement, c’est
β ′ (θ)
h(θ) = − ′
α (θ)

L’estimateur de h(θ) est alors


n
1X
T = a(Xi )
n i=1

et la variance minimale est


h′ (θ)
V (T ) =
nα′ (θ)

Exemple. Donner un estimateur de l’écart-type d’une loi normale de moyenne.

La recherche d’estimateur sans biais de variance minimale passe donc par la recherche d’estimateur exhaustif.
Or cette recherche peut ne pas aboutir. La méthode du maximum de vraisemblance permet néanmoins d’obtenir de
bons estimateurs.

3.4 Méthode du maximum de vraisemblance


Cette méthode consiste à recherche le paramètre θ qui maximise la fonction de vraisemblance L(x1 , . . . , xn ; θ).
L’estimateur du maximum de vraisemblance (EMV) est donc solution de l’équation de vraisemblance


lnL(X1 , . . . , Xn ; θ) = 0
∂θ

Un certain nombre de propriété nous prouve l’intérêt de cette estimateur.

Propriété 3.4.1. (i) S’il existe une statistique exhaustive U , alors l’EMV en dépend.
(ii) Si θ̂ est l’EMV, f (θ̂) est l’EMV de f (θ)
(iii) Il existe une suite θ̂n de racines de l’équation de vraisemblance qui converge presque sûrement vers θ. de
plus, il existe un rang à partir duquel le maximum est atteint.
L 1
(iv) θ̂n −→ N (θ, In (θ) ).

La dernière propriété nous assure que l’EMV est asymptotiquement efficace. Il est donc important d’avoir un
échantillon important pour utiliser cette estimateur.
Lorsque le modèle comporte plusieurs paramèteres θ1 , . . . , θp , il sera nécessaire de résoudre le système d’équation
simultanées

lnL = 0 ∀1 ≤ i ≤ p
∂θi

Remarque 3.4.1. – L’équation de vraisemblance n’a pas nécessairement une unique racine.
– La solution de l’équation de vraisemblance n’est pas toujours calculable analytiquement. Dans ce cas, des
algorithmes de recherche de maximum (de type Newton) peuvent être utilisés.
3.5. ESTIMATION PAR INTERVALLES 27

3.5 Estimation par intervalles


Il est souvent plus intéressant de donner une estimation d’un paramètre d’intérêt sous la forme d’un intervalle,
associé à une certaine probabilité d’être dans cet intervalle, plutôt que de donner une estimation ponctuelle de ce
paramêtre.

Exemple. Sondages éléctoraux.

Considérons un estimateur T de θ dont on connait la loi de probabilité. On prendra bien entendu le meilleur
estimateur possible, dès lors que sa loi est connue. Connaissant la loi de T qui dépend de θ, pour une valeur estimée
t de θ il est possible de déterminer un intervalle tel que :

P (θ ∈ [t1 (t, α), t2 (t, α)]) = 1 − α.

Ainsi, la vraie valeur (inconnue) du paramètre θ sera dans l’intervalle [t1 (t, α), t2 (t, α)] avec une probabilité 1 − α.
On dit que [t1 (t, α), t2 (t, α)] est un intervalle de confiance de niveau 1 − α, que l’on note IC1−α (θ).
A contrario, le risque α est la probabilité pour que l’intervalle de confiance ne comprenne pas θ.

Remarque 3.5.1. (i) l’intervalle de confiance est fonction de l’estimation t de θ,


(ii) l’intervalle de confiance est également fonction de α. Plus α est petit, plus le niveau de confiance est grand,
et donc plus l’intervalle s’élargit.
(iii) lorsque la taille de l’échantillon grandit, l’estimateur T étant convergeant la variance V (T ) diminue, et
l’intervalle se rétrécit.

Soit a et b les bornes d’un intervalle de confiance IC1−α (θ) de niveau de confiance 1 − α pour le paramètre θ.
On a :
p(a ≤ θ ≤ b) = 1 − α et donc p(θ < a) + p(θ > b) = α
En posant α = α1 + α2 , il existe une infinité de choix possibles pour α1 et α2 , et donc de choix pour a et b. Nous ne
considérerons que le cas d’un intervalle bilatéral à risques symétriques, pour lesquels le risque est partagé en deux
parts égales α1 = α2 = α2 . Néanmoins, il arrive en pratique que l’on s’intéresse à des risque unilatéraux, mais nous
en parlerons plus en détail dans le chapitre 4 sur les tests statistiques.
Après quelques rappels sur les principales lois de probabilités dont nous aurons besoin, nous décrivons les
intervalles de confiance les plus classiques. Mais faut garder à l’esprit que ce ne sont pas les seuls, et que dès lors
que l’on connait la loi de l’estimateur, il est possible de donner un intervalle de confiance.

3.5.1 Rappel sur les lois du χ2 , de Student et de Fisher-Snedecor


Définition 3.5.1. Soient U1 , . . . , Un une suite de variables aléatoires normales centrées
Pp réduites indépendantes.
On appelle loi du khi-deux à n degrés de liberté χ2n la loi de la variable aléatoire i=1 Ui2

L’espérance et la variance d’une variable aléatoire de loi χ2n sont :

E[χ2n ] = n et V (χ2n ) = 2n

La densité d’une variable aléatoire de loi χ2n est :


n
x 2 −1 − x
f (x) = n e
2 1I
{x>0}
Γ( n2 )2 2
R∞
où Γ(a) = 0
e−x xa−1 dx

Définition 3.5.2. Soient X et Y deux variables aléatoires indépendantes de lois du χ2n et χ2p . On appelle loi de
Fisher de paramètres n et p, notée Fn,p , la loi de la variable
X
n
F = Y
.
p
28 CHAPITRE 3. ESTIMATION

Définition 3.5.3. Soient U une variable aléatoire normale centrée réduite et X une variable aléatoire de loi du
χ2n , indépendante de U . On appelle loi de Student à n degrés de liberté, notée tn , la loi de la variable aléatoire
Tn = √UX
n

L’espérance et la variance d’une variable aléatoire de loi tn sont :


n
E[Tn ] = 0 si n > 1 et V (tn ) = si n > 2
n−2

3.5.2 Intervalle de confiance sur l’espérance


Intervalle de confiance sur l’espérance d’une loi normale avec variance connue
Soit X ∼ N (µ, σ 2 ) avec σ connu. Le meilleur estimateur de µ est X̄. Comme X est de loi normale,

X̄ − µ
T = ∼ N (0, 1).
√σ
n

En prenant des risques symétriques, on peut lire dans les tables les quantiles u α2 et u1− α2 de la loi normale centrée
réduite d’ordres respectifs α2 et 1 − α2 , tels que :

p(u α2 ≤ T ≤ u1− α2 ) = 1 − α

ou encore
α
p(T ≤ u α2 ) = p(T ≥ u1− α2 ) = .
2
La notion de quantile est définie de la façon suivante :
Définition 3.5.4. pour une variable aléatoire continue X, le nombre qα tel que

p(X < qα ) = α,

est le quantile d’ordre α de la loi de X.


Ces quantiles sont notés de différentes façons : uα pour la loi normale, tnα pour la loi de Student à n degrés de
liberté, χnα pour la loi du χ2n , etc.
La figure 3.1 illustre la définition de ces quantiles.

0.5

0.45

0.4

0.35

0.3

0.25

0.2

0.15

0.1 α α
2 2
0.05

0
−4 −3 u−2α −1 0 1 u21−α 3 4
2 2

α α
F IG . 3.1 – quantiles d’ordre 2 et 1 − 2 de la loi normale centrée réduite

Comme la loi normale est symétrique, on a la propriété suivante :

u1− α2 = −u α2 . (3.1)
3.5. ESTIMATION PAR INTERVALLES 29

Ces quantiles sont donnés par les tables statistiques. Par exemple, pour α = 0.05, pour lequel on obtient u α2 =
−1.96.
D’après (3.1),
p(u α2 ≤ T ≤ u1− α2 ) = 1 − α,
peut s’écrire
p(u α2 ≤ T ≤ −u α2 ) = 1 − α,
d’où on tire
σ σ
p(X̄ + u α2 √ ≤ µ ≤ X̄ − u α2 √ ) = 1 − α,
n n
d’où l’intervalle de confiance :
σ σ
IC1−α (µ) = [X̄ + u α2 √ , X̄ − u α2 √ ].
n n
Pour une réalisation numérique x1 , ..., xn du n-échantillon X1 , ..., Xn , on obtient l’intervalle de confiance sur m au
niveau de confiance 1 − α :
σ σ
IC1−α (µ) = [x̄ + u α2 √ , x̄ − u α2 √ ]. (3.2)
n n

qui donne pour α = 0.05 :


σ σ
[x̄ − 1.96 √ , x̄ + 1.96 √ ]
n n

Intervalle de confiance sur l’espérance d’une loi normale avec variance inconnue
Si la variance σ 2 est inconnue, on utilise a sa place son meilleur estimateur S 2 .
Comme on sait que σn2 V 2 suit une loi du χ2 à n − 1 degrés de liberté, n−1 2 n 2
σ2 S σ2 V aussi.
La statistique que l’on utilise est donc
X̄ − µ
Tn−1 = S .

n−1

En remarquant qu’elle s’écrit


X̄−µ
√σ
n
Tn−1 = r
n−1 2
σ2
S
n−1

on trouve qu’elle suit une loi de Student à n − 1 degrés de liberté, comme rapport d’une loi normale centrée réduite
sur la racine d’un χ2 divisé par son degré de liberté.
Comme précédemment, on obtient l’intervalle de confiance :

S S
IC1−α (µ) = [x̄ + tn−1, α2 √ , x̄ − tn−1, α2 √ ],
n n
α
où tn−1 est le quantile d’ordre 2 de la loi de Student à n − 1 degrés de liberté.

Si la loi de X n’est pas une loi normale


Dans ce cas, lorsque la taille de l’échantillon n est supérieure ou égale à 20, le théorème central limite nous
permet d’utiliser le fait que X̄ suit une loi normale, et donc les résultats précédents sont applicables.

3.5.3 Intervalle de confiance sur la variance d’une loi normale


Intervalle de confiance sur la variance d’une loi normale lorsque µ est connue
Comme µ est connue, le meilleur estimateur de la variance est la statistique :
Pn
2 (Xi − µ)2
Vµ = i=1 .
n
30 CHAPITRE 3. ESTIMATION
P 2
Or, (Xσi 2−m) = σn2 Vµ2 suit une loi du χ2 à n degrés de liberté en tant que somme de n carrés de loi normale
centrée réduite indépendantes.
Il est possible d’obtenir un intervalle de confiance sur σ 2 , en fixant le niveau de confiance 1 − α dans l’inégalité :
n 2
P (χ2n, α2 ≤ V ≤ χ2n,1− α2 ) = 1 − α,
σ2 µ
α α
où χ2n, α et χ2n,1− α les quantiles d’ordre 2 et 1 − 2 de la loi du χ2 à n degrés de liberté.
2 2
L’intervalle est alors :
nVµ2 nVµ2
IC1−α (σ 2 ) = [ 2 , ]
χn,1− α χ2n, α
2 2

On obtient une estimation numérique de cet intervalle en remplaçant Vµ2 par sa valeur sur le n-échantillon de X
obtenu par expérience.

Intervalle de confiance sur la variance d’une loi normale lorsque µ est inconnue
Si µ est inconnue, on utilise l’estimateur de σ 2 :
Pn
(Xi − X̄)2
S 2 = i=1 .
n−1
n−1 2
La propriété qui nous assure que σ2 S suit un loi du χ2n−1 nous permet de construire l’intervalle de confiance :

(n − 1)S 2 (n − 1)S 2
IC1−α (σ 2 ) = [ , ],
χ2n−1,1− α χ2n−1, α
2 2

et donc, en remplaçant S 2 par sa valeur s2 sur le n-échantillon obtenu par expérience :

(n − 1)s2 (n − 1)s2
IC1−α (σ 2 ) = [ , ].
χ2n−1,1− α χ2n−1, α
2 2

Remarque 3.5.2. Ces intervalles de confiance ne sont valable que pour une loi normale. Il n’est pas possible
d’étendre ces résultats au cas d’autre loi comme pour les intervalles de confiance sur la moyenne.

3.5.4 Intervalle de confiance sur une proportion


Nous supposons que la proportion p d’individus présentant un certain caractère C au sein d’une population est
inconnue. Le meilleur estimateur de p est la fréquence empirique F , que l’on peut définir par :
Pn
Xi
F = X̄ = i=1 ,
n
où X est une v.a. de Bernoulli de paramètre p, défini par :

1 si l’individu i possède la caractère C
Xi =
0 sinon.
Pn
Comme X suit une loi de Bernoulli B(p), nF = i=1 Xi suit une loi binomiale B(n, p).
Si n est faible, on utilisera les tables de la loi binomiale (ou des abaques).
Si n est suffisamment grand, de sorte que np > 5 et n(1 − p) > 5, on peut considérer (loi des grands nombres) que
Pn p(1−p)
i=1 Xi suit une loi normale N (np, np(1 − p)), d’où F suit une loi normale N (p, n ), et donc T = qFp(1−p)
−p

n
suit une loi N (0, 1).
On obtient alors, en fonction des quantiles p(u α2 ≤ T ≤ −u α2 ) = 1 − α, l’intervalle de confiance sur p :
r r
p(1 − p) p(1 − p)
IC1−α (p) = [F + u α2 , F − u α2 ].
n n
3.6. UN PEU DE CULTURE SUR L’ESTIMATION STATISTIQUE 31

Cet intervalle recouvre p avec la probabilité 1 − α, mais il est toutefois inopérant puisque ses bornes dépendent de
p. En pratique, il existe trois façons d’obtenir l’intervalle de confiance. Nous retiendrons celle qui remplace p par
son estimateur F .
Ainsi, on obtient l’intervalle de confiance sur la proportion p en fonction de la valeur f de F sur notre échantillon :
r r
f (1 − f ) f (1 − f )
IC1−α (p) = [f + u α2 , f − u α2 ].
n n

3.5.5 Récapitulatif
Intervalle de confiance d’une moyenne

IC1−α (µ)

loi normale ou n ≥ 20

σ 2 connue σ 2 inconnue
[x̄ + u α2 √σn , x̄ − u α2 √σn ] [x̄ + tn−1, α2 √Sn , x̄ − tn−1, α2 √Sn ]

Intervalle de confiance d’une variance

IC1−α (σ 2 )

loi normale
µ connue µ inconnue
nVµ2 nVµ2 2 2
[ χ2n,1− α
, α ] [ χ(n−1)s
2 , (n−1)s
χ2
]
χ2n , 2 n−1,− α
2
α
n−1,
2
2

Intervalle de confiance d’une proportion

IC1−α (p)
np > 5 et n(1 − p) > 5
q q
[f + u α2 f (1−f
n
)
, f − u α
2
f (1−f )
n ]

3.6 Un peu de culture sur l’estimation statistique


3.6.1 Estimation bayésienne
Le point de vue bayésien suppose que les paramètres θ de la loi des observations X1 , . . . , Xn sont également
des variables aléatoires.
La densité g(θ) de θ est la loi a priori de θ.
La densité conditionnelle des observations Xi sachant θ estQf (xi |θ).
n
La vraisemblance (conditionnelle) est L(x1 , . . . , xn ; θ) = i=1 f (xi |θ).
La loi conjointe des observations et du paramètre (X1 , . . . , Xn , θ) est

f (x1 , . . . , xn , θ) = L(x1 , . . . , xn ; θ)g(θ).

On définit également la loi a posteriori du paramètre θ connaissant les observations :

L(x1 , . . . , xn ; θ)g(θ)
g(θ|X1 = x1 , . . . , Xn = xn ) = R .
R
L(x1 , . . . , xn ; θ)g(θ)dθ
32 CHAPITRE 3. ESTIMATION

Application : estimation bayésienne de la moyenne d’une loi normale de variance connue On suppose que la
loi de l’échantillon conditionnellement à µ est N (µ, σ 2 ), et que la loi a priori de µ est également une loi normale
N (µ0 , σ02 ).
Le calcul de la loi a posteriori donne une loi normale d’espérance et de variance :

σ2 2 σ2 σ02
n µ0 + σ0 X̄ n
E[θ|X1 , . . . , Xn ] = σ 2 2
et V (θ|X1 , . . . , Xn ) = σ2
n + σ0 n + σ02

L’estimateur bayesien de µ, qui est l’espérance a posteriori est donc une moyenne pondérée de l’espérance a priori
et de la moyenne empirique des observations.
Introduisons le concept de précision, comme l’inverse de la variance. La précision a priori sur µ est η1 = σ12 et sur la
0
+η2 X̄
moyenne empirique elle est η2 = σn2 . On voit alors que E[θ|X1 , . . . , Xn ] = η1 ηµ10+η2
et V (θ|X11,...,Xn ) = η1 + η2 .
L’estimateur bayesien de µ est donc la moyenne pondérée des deux estimations (a priori et empirique) pondérées
par leur précision. Si l’information a priori est très précise, les observations n’auront peu d’influence dans l’estima-
teur bayésien. Au contraire si la précision a priori tend vers 0 ou si n tend vers l’infini, l’estimateur bayésien est
l’estimateur classique X̄
Cette application fonctionne très bien car la loi a posteriori se calcule facilement. Mais pour des lois quel-
conques, les calculs sont généralement beaucoup plus compliqué, et la loi a posteriori doit être estimé par des
algorithmes spécifiques.
La statistique bayésienne peut être vu comme un raffinement de la statistique classique, mais le choix de la loi a
priori peut être très problématique et reste toujours subjectif. Néanmoins, pour les problèmes statistique dans les-
quels on dispose de peu de données (fiabilité de systèmes très rarements défaillant par exemple), l’incorporation
d’une information a priori (« jugement d’epxert ») peut s’avérer très intéressante.

3.6.2 Estimation robuste : cas de la valeur centrale d’une distribution symétrique


L’estimation x̄ de l’espérance µ d’une distribution symétrique est très sensibles à des valeurs extrêmes « aber-
rantes ».
Lorsque des valeurs aberrantes sont présentes (ou soupçonnées), un estimateur robuste de l’espérance peut être
utilisé : la moyenne tronquée d’ordre α, qui est la moyenne arithmétique obtenue en éliminant de l’échantillon les
αn plus grandes et plus petites valeurs. Une valeur généralement recommandée est α = 15%.
La médiane est le cas extrême de cet estimateur pour α = 50%, et est très robuste.
Au lieu d’éliminer les αn plus grandes valeurs, il est également possible de toutes les fixer à la plus grande valeur
conservées : c’est ce qu’on appelle la « winzorization ».
D’autre approche existent également, comme celle des M -estimateurs, qui consistent à chercher une estimation
µ qui minimise une fonction du type
n  
X xi − µ
h
i=1
s
où s est une estimation robuste de la dispersion. Toute une famille d’estimateur est ainsi définie en fonction du
choix de h. Pour h(x) = −lnf (x), avec f la densité des données, on retrouve les estimateurs du maximum de
vraisemblance.

3.6.3 Estimation fonctionnelle : estimation de la densité


La connaissance de la densité d’une variable aléatoire donne une information très importante. En l’absence
de tout modèle paramétrique donné, nous présentons ici quelque méthodes d’estimations de densité : on parle
d’estimation fonctionnelle, ou non paramétrique.
On cherche généralement une estimation fˆn de la densité f minimisant l’erreur quadratique moyenne intégrée :
Z 
M ISE = E (fˆn (x) − f (x))2 dx .
R

La première approximation « rustique »de la densité est l’histogramme. L’histogramme est un graphique en baton,
n
dont la hauteur pour une classe j est proportionnelle à la proportion de point observé dans cette classe nj (où nj
est le nombre de points dans la classe et n est le nombre de points total). Si la longueur de l’intervalle vaut h, la
3.6. UN PEU DE CULTURE SUR L’ESTIMATION STATISTIQUE 33

n
hauteur est alors nj h1 , de sorte à ce que l’air totale des « batons »soit égale à 1.
Cet estimateur discontinue s’améliore lorsque l’on fait tendre vers 0 la largeur h de chaque intervalle, et que l’on
fait tendre vers l’infini le nombre de points par classe. Mais en pratique le nombre de points est fini, et cet estimateur
discontinue n’est pas le meilleur estimateur pour une fonction continue.
Une première amélioration est la méthode de la fenêtre mobile : on construit autour de chaque x une fenêtre
[x − h2 , x + h2 ], et on estime comme pour l’histogramme la fonction de densité en x par fˆn (x) = nnh xh
où nxh est le
nombre de points tombant dans la fenêtre de largeur h autour de x. Néanmoins cet estimateur reste discontinu.
La méthode du noyau de Parzen généralise la méthode précédente en estimant la fonction de répartiton en x par :
n  
1 X x − xi
fˆn (x) = K
nh i=1 h

où K est la fonction noyau.


La méthode de la fenêtre mobile est un cas particulier avec K(x) = 1I[−1/2,1/2] (x). En choisissant des fonctions
noyau continu, l’estimateur devient lui aussi une fonction continue. Ce n’est pas le choix du noyau qui est le
plus important pour obtenir une bonne estimation, mais le choix de la largeur de fenêtre h : plus h est petit, plus les
fluctuations sont importantes, plus h est grand, plus le lissage est important. Tout l’intérêt sera de trouver le meilleur
compromis.
34 CHAPITRE 3. ESTIMATION
Chapitre 4

Tests statistiques

On distingue différentes catégories de tests :


– les tests paramétriques ont pour objet de tester une certaine hypothèse relative à un ou plusieurs paramètres
d’une variable aléatoire de loi spécifiée (généralement supposée normale). Lorsque le test est toujours valide
pour des variables non gaussiennes, on dit que le test est robuste (à la loi).
– les tests non paramétriques qui portent sur la fonction de répartition de la variable aléatoire, sa densité...
– les tests libres (distributions free) qui ne supposent rien sur la loi de probabilité de la variable aléatoire étudiée
(et qui sont donc robuste). Ces tests sont souvent non paramétriques, mais pas toujours.
Dans ce cours, nous classons les tests en fonction de leur fonctionnalité :
– Tests sur un paramètre
– Tests de comparaison d’échantillons (dont l’analyse de variance)
– Tests d’ajustement
Les tests étudiés seront pour la plupart paramétrique. Les tests non paramétriques seront vu dans le cours de statis-
tique non paramétrique en GIS4.

4.1 Introduction : test sur l’espérance d’une loi normale de variance connue
Soit un échantillon (X1 , ..., Xn ) de loi N (µ, σ 2 ), avec µ inconnue et σ 2 connue. On cherche à tester si l’espé-
rance µ est égale ou non à une valeur de référence µ0 :

H0 : µ = µ0 contre H1 : µ 6= µ0

Sous l’hypothèse H0 , la statistique suivante suit une loi N (0, 1)

X̄ − µ0
T = .
√σ
n

Ainsi, si H0 est vraie, la valeur de cette statistique pour l’échantillon observé devrait appartenir à l’intervalle
[u α2 , u1− α2 ] avec la probabilité 1 − α. Ce qui revient à dire que la réalisation de X̄ appartient à l’intervalle
σ σ
[µ0 + u α2 √ , µ0 + u1− α2 √ ]
n n
avec une probabilité de 1 − α.
Ainsi, si l’observation x̄ de X̄ n’est pas dans cet intervalle on décide de rejeter l’hypothèse H0 . Le risque de se
tromper en rejetant H0 est α.

4.2 Théorie des tests paramétriques


4.2.1 Vocabulaire des tests
Un test est un procédé qui permet de trancher entre deux hypothèses, au vu des résultats d’un échantillon : on
teste une hypothèse nulle contre une hypothèse alternative. L’hypothèse nulle H0 est l’hypothèse que l’on veut

35
36 CHAPITRE 4. TESTS STATISTIQUES

contrôler. Elle est généralement de forme simple


H0 : θ = θ 0
où θ0 est une valeur donnée du paramètre. Le choix de cette hypothèse est fait de manière conservative : si on
test un médicament, on prendra H0 l’hypothèse où le médicament n’a pas d’effet. C’est également souvent la plus
importante des deux hypothèses. L’hypothèse alternative H1 est quant à elle généralement composite :
H1 : θ ∈ Θ 1
où Θ1 est une partie de R non réduite à un élément. Cette hypothèse se ramène souvent à un des cas suivants :
θ < θ0 , θ > θ0 (test unilatéraux) ou θ 6= θ0 (test bilatéral).
Exemple (Importance du choix des hypotèses). Considérons le test des hypothèses suivantes :
– hypothèse H0 : le patient doit être hospitalisé,
– hypothèse alternative H1 : le patient ne doit pas être hospitalisé.
L’erreur de première espèce consiste à ne pas hospitaliser un patient qui en avait besoin. Cette erreur est très grave,
puisqu’elle peut conduire au décès du patient. Le risque de deuxième espèce, qui consiste à hospitaliser un patient
qui n’en avait pas besoin peut s’avérer moins grave.
Pour l’exemple du médicament, l’erreur de première espèce consiste à mettre sur le marché un médicament qui n’a
pas d’effet.
Suivant la justesse de la décision prise à l’issue du test, on est en présence de 4 cas de figure (tableau 4.1).
XX
XXX Vérité
XX H0 H1
Décision XXX
H0 conclusion correcte erreur de deuxième espèce
H1 erreur de première espèce conclusion correcte

TAB . 4.1 – Erreurs associés à un test

4.2.2 Probabilité d’erreur et risque


On associe aux erreurs de première et deuxième espèces les probabilités (risques) associées (tableau 4.2). Le
niveau de confiance du test est la probabilité 1 − α de ne pas rejeter à raison H0 . Le risque de première espèce α
est le risque de rejeter H0 à tort. Le risque de deuxième espèce β est le risque de conserver H0 à tort.
XXX
Vérité
XX
XXX H0 H1
Décision XX
H0 niveau de confiance 1 − α risque β
H1 risque α 1−β

TAB . 4.2 – Risques associés à un test

En pratique il est d’usage de fixer le risque α : 5%, 1%, 10%. Ainsi, on contrôle le risque associé à l’erreur de
première espèce, qui nous l’avons vu est l’erreur la plus grave. Choisir un risque α trop petit va conduire à ne rejeter
que très rarement H0 (si on ne la rejette pas on ne risque pas de la rejeter à tort). Au contraire, choisir un risque trop
grand va conduire à n’accepter que très rarement α.
Le risque β se déduit alors par le calcul, si la loi sous H1 est connue. Il varie en sens contraire de α. Ainsi, en
diminuant le risque α, on augmente le risque β. On définit alors la puissance du test par 1 − β, qui correspond à la
probabilité de rejeter H0 à raison.
Le choix d’un test sera donc le résultat d’un compromis entre risque de premier espèce et puissance du test.

Une fois que l’on a fixé raisonnablement α, il faut choisir une variable de décision, qui doit apporté le maximum
d’information sur le problème posé, et dont la loi sera différente selon que H0 ou H1 est vraie. La loi sous H0 doit
être connue. On définit alors la région critique W qui est l’ensemble des valeurs de la variable de décision qui
conduisent à rejeter H0 au profit de H1 . Sa forme est déterminée par la nature de H1 , et sa détermination exacte est
donnée par p(W |H0 ) = α. La région d’acceptation est son complémentaire W̄ .
4.2. THÉORIE DES TESTS PARAMÉTRIQUES 37

4.2.3 Choix optimal de la statistique de test et de la région de rejet


Le choix de la statistique de test et de la région de rejet est fait de sorte à maximiser la puissance du test 1 − β
pour un risque de première espèce α fixé.
Plaçons nous dans le cadre d’un test entre hypothèses simples :

H0 : θ = θ0 contre H1 : θ = θ1

Neyman et Pearson (1933) ont montré que le test du rapport de vraisemblance est le test le plus puissant au
niveau de confiance α.
Théorème 4.2.1 (Neyman et Pearson). La région critique optimale est définie par les points x = (x1 , . . . , xn )
vérifiant
L(x, θ1 )
W = {x : > cα }
L(x, θ0 )
La constante cα , qui dépend de α, est determinée par α = Pθ0 (x ∈ W ).

0.25

0.2

0.15

0.1

0.05
β α
0 m
−10 −5 0 k0 m15 10

F IG . 4.1 – illustration de la règle de décision

Exemple. Reprenons le test d’introduction, où (X1 , ..., Xn ) est de loi normale de variance σ 2 connue et d’espérance
µ inconnue, avec cette fois une hypothèse alternative simple :

H0 : µ = µ0 contre H1 : µ = µ1 .

On suppose µ0 < µ1 . La vraisemblance de l’échantillon gaussien s’écrit


1 1
Pn 2
L(x, µ) = √ e− 2σ2 i=1 (xi −µ)

(σ 2π)n
d’où le rapport de vraisemblance
n
!
L(x, θ1 ) 1 X 2 2
= exp 2(µ1 − µ0 )xi − n(µ1 − µ0 )
L(x, θ0 ) 2σ 2 i=1

L(x,θ1 ) 2
Ainsi, L(x,θ 0)
> cα est équivalent à x̄ > log(cα ) n(µ1σ−µ0 ) + µ1 +µ
2
0
= C, où la constante C est determinée
Pµ0 (x ∈ W ) = Pµ0 (x̄ > C) = α. La région critique optimale du test de Neyman-Pearson est donc
σ
W = {x : x̄ > µ0 + u1−α √ }
n
et on retombe bien sur le test « intuitif »de l’introduction.
Dans le cas où l’hypothèse alternative est composite (θ ∈ Θ1 ), la puissance du test est fonction de θ : 1 − β(θ)
est appelée la fonction puissance du test.
Un test est dit uniformément le plus puissant (UPP) si quelque soit la valeur de θ appartenant à l’hypothèse
alternative, sa puissance est supérieure à celle de tout autre test.
38 CHAPITRE 4. TESTS STATISTIQUES

Exemple. On a vu précédemment pour le test H0 : µ = µ0 contre H1 : µ = µ1 > µ0 que la région critique ne


dépend pas de µ1 , et qu’elle est donc la même pour tout µ1 > µ0 . Le test est donc UPP pour H0 : µ = µ0 contre
H1 : µ > µ0 .
Si cette fois µ1 < µ0 , on obtient encore un test UPP H0 : µ = µ0 contre H1 : µ < µ0 , mais différent du précédent.
Il n’existe donc pas de test UPP pour H0 : µ = µ0 contre H1 : µ 6= µ0 .

4.2.4 Résumé
La démarche de construction d’un test est la suivante :
– choix de H0 et H1 ,
– détermination de la variable de décision,
– allure de la région critique en fonction de H1 ,
– calcul de la région critique en fonction de α,
– calcul de la valeur expérimentale de la variable de décision,
– conclusion : rejet ou acceptation de H0 .

4.2.5 p-value
En pratique, plutôt que de calculer la région critique en fonction de α, on préfère donner un seuil critique α∗ ,
appelée p-value, qui est la plus grande valeur de α conduisant à ne pas rejeter H0 . Cette information permet au
lecteur de conclure à l’acceptation de H0 pour tout risque de première espèce α ≤ α∗ , et à son rejet pour tout
α > α∗ .

4.3 Tests sur un paramètre


Nous pouvons maintenant présenter les différents tests statistique classiques, obtenus par la méthode de Neyman-
Pearson.

4.3.1 Test sur la moyenne d’une population


Soit un n-échantillon (X1 , ..., Xn ) issu d’une population de moyenne µ et de variance σ 2 . Nous supposons que
au moins l’une des deux conditions suivantes est satisfaite :
– la population est de loi normale,
– l’échantillon est de taille n suffisament grande (n ≥ 20).

Test H0 : µ = µ0 contre H1 : µ 6= µ0 lorsque σ 2 est connue


La statistique de test est
X̄ − µ0
U= .
√σ
n

Sous H0 , cette statistique suit une loi normale centrée réduite d’après les conditions précédentes (via le théorème
centrale limite si seule la seconde condition est satisfaite).
La région critique, définie par |U | > k, se traduit par |X̄ − µ0 | > −u α2 √σn , où u α2 est le quantile de la loi normale
centrée réduite d’ordre α2 .
Ainsi,

on rejette H0 si |x̄ − µ0 | > −u α2 √σn .

Remarque 4.3.1 (Calcul de la p-value). Pour ce test, on rejette H0 dès que |x̄−µ
√σ
0|
> −u α2 . La p-value est la valeur
n
 
critique α∗ de α telle que |x̄−µ
√σ
0|
= −u α∗ , d’où α∗ = 2Φ − |x̄−µ
√σ
0|
avec Φ la fonction de répartition de la loi
n 2 n
normale centrée réduite. Ainsi, dès que l’on choisi un risque α plus grand que α∗ , on a −u α∗ > −u α2 et donc on
2
|x̄−µ0 |
rejette H0 . Au contraire, si le risque est plus petit, on aura cette fois √σ = −u α∗ < −u α2 et on conserve H0 .
n 2
4.3. TESTS SUR UN PARAMÈTRE 39

Remarque 4.3.2 (Test unilatéraux). Si le test est unilatéral, H0 : µ = µ0 contre H1 : µ < µ0 , on rejette H0 si la
vraie valeur de µ est trop éloignée inférieurement de µ0 , ce qui se traduit par x̄ < µ0 + u α2 √σn .
Si le test est H0 : µ = µ0 contre H1 : µ > µ0 , on rejette H0 si x̄ > µ0 − u α2 √σn .

Test H0 : µ = µ0 contre H1 : µ 6= µ0 lorsque σ 2 est inconnue

Dans ce cas la variance σ 2 est estimée par son estimateur V 2 . La statistique de test est

X̄ − µ0
T =
√V
n−1

X̄−µ0
qui suit une loi de Student à n − 1 degré de liberté. En effet puisque √σ suit une loi normale centrée réduite, et
n
2
nV
comme σ2 suit une loi du χ2 à n − 1 degré de liberté, le rapport

X̄−µ0
√σ
n
q =T
nV 2
√ σ2
n−1

suit une loi de Student à n − 1 degré de liberté.


Sachant que V 2 = n−1 2
n S , la statistique du test peut également s’écrire :

X̄ − µ0
T = .
√S
n

La conclusion du test devient alors

on rejette H0 si |x̄ − µ0 | > −tn−1, α2 √sn ,

Pn 2
α i=1 (xi −x̄)
où tn−1, α2 est le quantile d’ordre 2 de la loi de Student à n − 1 degrés de liberté, et s2 = n−1 .

4.3.2 Test sur la variance d’une population


Soit un n-échantillon (X1 , ..., Xn ) issu d’une population de loi normale, de moyenne µ et de variance σ 2 . La
normalité est indispensable pour ce test sur la variance.

Test H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 , moyenne µ connue

Lorsque la moyenne est connue, la statistique Σ2 est la meilleure estimation de la variance (cf. exercice en TD) :
n
1X
Σ2 = (Xi − µ)2 .
n i=1

n 2
Sous l’hypothèse H0 , comme l’échantillon est gaussien, σ02
Σ suit une loi du χ2n (en tant que somme de carrés de
N (0, 1)). Ainsi,

1 Pn σ02 2 σ02 2
on rejette H0 si Σ2 = n i=1 (xi − µ)2 < n χn, α où si Σ2 > n χn,1− α ,
2 2

où χ2n, α et χ2n,1− α sont les quantiles d’ordre α2 et 1− α2 de la loi de χ2 à n degrés de liberté. Attention, contrairement
2 2
à la loi de Student et à la loi normale, la loi du χ2 n’est pas symétrique.
40 CHAPITRE 4. TESTS STATISTIQUES

Test H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 , moyenne µ inconnue

Lorsque la moyenne est inconnue, on la remplace par son estimateur X̄. La variance est alors estimée par
n−1
1 X
S2 = (Xi − X̄)2 et la statistique du test
n − 1 i=1

n−1 2
S
σ02

suit une loi du χ2 à n − 1 degrés de liberté.


La conclusion du test est alors la suivante :

1
Pn σ02 σ02
on rejette H0 si S 2 = n−1 i=1 (xi − x̄)2 < 2
n−1 χn−1, α ou si S 2 > 2
n−1 χn−1,1− α .
2 2

Test unilatéraux sur la variance

Test H0 : σ 2 = σ02 contre H1 : σ 2 > σ02


– si la moyenne µ est connue
σ02 2
on rejette H0 si Σ2 > n χn,1−α .
– si la moyenne µ est inconnue
σ02
on rejette H0 si S 2 > 2
n−1 χn−1,1−α .

Test H0 : σ 2 = σ02 contre H1 : σ 2 < σ02


– si la moyenne µ est connue
σ02 2
on rejette H0 si Σ2 < n χn,α .
– si la moyenne µ est inconnue
σ02
on rejette H0 si S 2 < 2
n−1 χn−1,α .

4.3.3 Test sur une proportion


Dans la population étudiée, une proportion p des individus possèdent un certain caractère C. On se propose de
comparer cette proportion p à une valeur de référence p0 .
On considère un échantillon d’individus de taille n de cette population. La variable aléatoire P Xi égale à 1 si l’in-
dividu i posséde le caractère C suit une loi de Bernoulli B(p), et le nombre d’individus ni=1 Xi possédant ce
caractère suit une loi binomiale B(n, p).
Si nPest suffisamment grand, de sorte que np > 5 et n(1 − p) > 5, on peut considérer (loi P des grands nombres)
que ni=1 Xi suit une loi normale N (np, np(1 − p)), d’où la fréquence empirique F = n1 ni=1 Xi suit une loi
normale N (p, p(1−p)
n ). Si n est trop petit, le test est construit sur la loi binomiale, et on peut utiliser les abaques.

Test H0 : p = p0 contre H1 : p 6= p0

La statistique du test est donc la fréquence empirique F qui suit sous H0 une loi N (p0 , p0 (1−p
n
0)
).

q
p0 (1−p0 )
on rejette H0 si |f − p0 | > u1− α2 n .

Test unilatéraux sur une proportion


q
p0 (1−p0 )
Test H0 : p = p0 contre H1 : p > p0 On rejette H0 si f > −uα n + p0 .
4.4. TESTS DE COMPARAISON D’ÉCHANTILLONS INDÉPENDANTS 41
q
p0 (1−p0 )
Test H0 : p = p0 contre H1 : p < p0 On rejette H0 si f < uα n + p0 .

Exemple. Sur un échantillon de 200 individus d’une commune, 45% sont favorables à l’implantation d’un centre
commercial. Ceci contredit-il l’hypothèse qu’un habitant sur deux y est favorable ?
On test H0 : p = 0.5 contre H1 : p 6= 0.5 avec un risque α = 0.05, d’où u1− α2 = 1.96. On rejette H0 si
q
2
|f − 0.5| > 1.96 0.5 200 ≃ 0.07, or ici |f − 0.5| = 0.05 donc on ne rejette pas H0 , un habitant sur deux est bien
favorable à l’implantation du centre commercial.

4.4 Tests de comparaison d’échantillons indépendants


L’objectif de cette section est de dire si deux échantillons indépendants sont issus d’une même population ou
non. Voici quelques exemples d’application :
– les rendements journaliers de deux usines d’un même groupe sont-ils semblables ?
– les ventes par semaine de deux actions sont-elles similaires ?
On formule le problème de la façon suivante : on observe deux échantillons (X1,1 , ..., X1,n1 ) et (X2,1 , ..., X2,n2 ),
indépendants et de fonction de répartition F1 (x) et F2 (x). Le test exact revient à tester l’égalité de ces fonctions de
répartitions :
H0 : F1 (x) = F2 (x) contre H1 : F1 (x) 6= F2 (x)
mais en pratique, on se contente de tester l’égalité des moyennes (µ1 , µ2 ) et variances (σ12 , σ22 ).

4.4.1 Cas de deux échantillons gaussiens


Si les variances sont connues, ce qui n’arrive que rarement en pratique, la statistique de test utilisée pour
tester H0 : µ1 = µ2 contre H1 : µ1 6= µ2 repose sur la différence entre les estimateurs des moyennes des deux
échantillons :
X̄1 − X̄2 − (µ1 − µ2 )
T = q 2 ,
σ1 σ22
n1 + n2

qui suit, sous H0 , une loi normale centrée réduite.


Ainsi, on rejettera H0 si s
σ12 σ2
|x̄1 − x̄2 | > −u α2 + 2.
n1 n2
Dans le cas le plus courant, les variances sont inconnues. On doit alors tester dans un premier temps si elles sont
égales ou non (test de Fisher) avant de pouvoir effectuer le test de comparaison des moyennes (test de Student).

Test de comparaison des variances de Fisher


Nous testons
H0 : σ12 = σ22 contre H1 : σ12 6= σ22 .
D’après les résultats de la théorie de l’échantillonnage :

n1 V12 n2 V22
∼ χ2n1 −1 et ∼ χ2n2 −1 .
σ12 σ22

Ainsi, sous l’hypothèse H0 que σ12 = σ22 , la statistique du test F suivante suit une loi de Fisher Fn1 −1,n2 −1 :

n1 V12
n1 −1 S12
F = = (4.1)
n2 V22 S22
n2 −1

Cette variable de décision s’interprétre comme le rapport des estimateurs de σ12 et σ22 . Elle doit donc ne pas être trop
différentes de 1 si H0 est vérfiée. En pratique on mets toujours au numérateur la plus grande des deux quantités, ou
autrement dit on suppose que S12 > S22 (sinon on permute les indices).
La région de rejet sera donc de la forme T > k avec k plus grand que 1 :
42 CHAPITRE 4. TESTS STATISTIQUES

n1 V12
n1 −1
on rejette H0 si n2 V 2
> fn1 −1,n2 −1,1−α ,
2
n2 −1

où fn1 −1,n2 −1,1−α est le quantile de la loi de Fisher-Snedecor Fn1 −1,n2 −1 d’ordre 1 − α.

Test de comparaison des moyennes de Student avec variances égales


Nous testons
H0 : µ1 = µ2 contre H1 : µ1 6= µ2 ,
en supposant les variances égales σ12 = σ22 = σ 2 .
On a pour i = 1, 2 :
ni Vi2 σ2
∼ χ2ni −1 et X̄i ∼ N (µi , ).
σ2 ni
Ainsi, la statistique
X̄1 − X̄2 − (µ1 − µ2 )
T = r  ,
(n1 −1)V12 +(n2 −1)V22 1 1
n1 +n2 −2 n1 + n2

suit une loi de Student à n1 + n2 − 2 degrés de liberté. D’où la conclusion :


r  
(n1 −1)v12 +(n2 −1)v22 1 1
on rejette H0 si |x̄1 − x̄2 | > −tn1 +n2 −2, α2 n1 +n2 −2 n1 + n2 .

Remarque 4.4.1 (Tests unilatéraux de comparaison de moyennes).


r Le test unilatéral H0 : µ1 = µ2 contre H1 :
 
(n1 −1)v12 +(n2 −1)v22 1 1
µ1 < µ2 , conduit au rejet de H0 si x̄1 − x̄2 < tn1 +n2 −2,α n1 +n2 −2 n1 + n2

Test de comparaison des moyennes avec variances différentes Lorsque les échantillons sont de grandes tailles
(> 20), le test de Student reste encore approximativement valable.
Pour de petits échantillons, l’approximation d’Aspin-Welch consiste à utiliser le test de Student avec un degré de
liberté non plus égal à n1 + n2 − 2 mais égal à l’entier le plus proche de :

v12
1 n1 −1
n= (1−c)2
où c = v12 v22
c2
n1 −1 + n2 −1 n1 −1 + n2 −1

4.4.2 Echantillons non gaussiens


2
Théoriquement, le test de la variance de Fisher n’est plus valable car la statistique nV σ2 ne suit plus une loi
du χ2 . Néanmoins, le test de comparaison de moyennes de Student étant relativement robuste à un changement
dans la loi des échantillons, il est possible de l’utiliser pour comparer les moyennes des deux échantillons, que les
variances soit égales ou non, si les tailles d’échantillons sont suffisament grandes (au minimum 20 observations par
échantillons).
Un certain nombre de tests non paramétriques peuvent également être utilisés dans le cas non gaussien, dont le plus
connu est le test de Wilcoxon-Mann-Withney.

4.4.3 Tests de comparaison de deux proportions, pour de grands échantillons


Deux populations possèdent des individus ayant un certain caractère, en proportion p1 et p2 . L’objet du présent
test est de tester :
H0 : p1 = p2 = p contre H1 : p1 6= p2
On relève dans deux échantillons de tailles n1 et n2 les proportions f1 et f2 d’individus ayant ce caractère. Les
tailles sont supposées suffisament grandes (ni pi > 5 et ni (1 − pi ) > 5 pour i = 1, 2).
4.5. ANALYSE DE VARIANCE 43

Ainsi les lois des fréquences empirique F1 et F2 peuvent être approximées par des lois normales, d’où la statistique
du test
F1 − F2
U= q ,
p(1 − p)( n11 + n12 )

qui suit une loi normale centrée réduite sous H0 .


Si p est inconnue on la remplace par son estimation

n1 f 1 + n2 f 2
p̂ = .
n1 + n2

La région critique sera alors déterminée par |U | > u1− α2 = −u α2 , d’où


q
on rejette H0 si |fˆ1 − fˆ2 | > u1− α2 p̂(1 − p̂)( n11 + 1
n2 ).

4.5 Analyse de variance


L’anayse de variance a pour objectif d’évaluer l’effet de variables qualitatives (facteurs) sur une variable nu-
mérique. Elle consiste à comparer les moyennes de plusieurs échantillons, chaque échantillon correspondant à un
niveau différent des facteurs.

4.5.1 Analyse de variance à un facteur


On dispose de K échantillons de tailles n1 à nK correspondant chacun à un niveau différent du facteur A :
– X11 , X12 , . . . , X1n1 correspondant au niveau A1 du facteur A,
– X21 , X22 , . . . , X2n2 correspondant au niveau A2 du facteur A,
– ...
1 2 nK
– XK , XK , . . . , XK correspondant au niveau AK du facteur A.
On suppose que le facteur A influe uniquement la moyenne des échantillons et non sur leur dispersion. Ainsi, chaque
échantillon est supposé suivre une loi normale N (µk , σ).
Le problème est donc de tester

H0 : µ1 = . . . = µK = µ contre H1 : ∃1 ≤ i, j ≤ J t.q. µi 6= µj .

Pour cela on appelle X̄k la moyenne empirique de l’échantillon k et X̄ la moyenne empirique globale :
nk K K nk
1 X 1 X 1 XX
X̄k = Xi et X̄ = X̄k = Xki ,
nk i=1 k K n i=1
k=1 k=1

PK
où n = k=1 nk .
En remarquant que Xki − X̄ = Xki − X̄k + X̄k − X̄, on montre facilement la formule d’analyse de variance :
K nk K nk K
1 XX 1 XX 1X
(Xki − X̄)2 = (Xki − X̄k )2 + nk (X̄k − X̄)2
n n n
k=1 i=1 k=1 i=1 k=1
| {z } | {z } | {z }
2
ST 2
SR 2
SA

qui représente la décomposition de la variance totale ST2 en la variance SA 2


due au facteur A (variance inter-
2
groupe) plus la variance résiduelle SR (ou variance intra-groupe).
PK Pnk PK n V 2
En remarquant que SR 2
= n1 k=1 nk Vk2 où Vk2 = n1k i=1 (Xki − X̄k )2 , on montre que σn2 SR
2
= k=1 kσ2 k suit
nk Vk2
une loi du χ2 à n − K degrés de liberté, car chaque σ2 suit une loi du χ2 à nk − 1 degrés de liberté.
2
nST
De même, sous H0 cette fois, σ2 suit une loi du χ à n − 1 degrés de liberté (car ST2 est la variance d’un n-
2
2
nSA
échantillon de loi N (µ, σ)) et σ2 suit une loi du χ2 à K − 1 degrés de liberté (car SA
2
peut être vue comme la
variance du K-échantillon (X̄1 , . . . , X̄K )).
44 CHAPITRE 4. TESTS STATISTIQUES

L’équation de l’analyse de variance revient alors à χ2n−1 = χ2K−1 + χ2n−K , ce qui permet en outre de conclure via
2 2
le théorème de Cochran que SA et SR sont indépendantes.
La statistique du test est donc
2
SA
K−1
F = 2
SR
n−K
qui suit sous H0 une loi de Fisher-Snedecor FK−1,n−K , et on rejette l’hypothèse H0 si la statistique T est supérieur
au quantile de la loi FK−1,n−K d’ordre 1 − α.

Comparaison des moyennes deux à deux


Rejeter H0 permet de dire que toutes les moyennes ne sont pas égales. Il peut cependant être intéressant de tester
l’égalité des moyennes deux à deux.
Pour cela, on effectue un test de comparaison mutliple des moyennes (pour 1 ≤ k, k ′ ≤ K) :
H0 : µk = µk′ .
Un résultat du à Scheffé montre que
 q r 
1 1
p |X̄k − X̄k′ − (µk − µk′ )| ≤ SR (K − 1)fK−1,n−K,1−α + =1−α
nk nk ′
où fK−1,n−K,1−α est le quantile de la loi de Fisher de paramètre K − 1 et n − K d’ordre 1 − α.
On rejette donc l’hypothèse d’égalité des moyennes µk et µk′ si
q r
1 1
|X̄k − X̄k′ | > SR (K − 1)fK−1,n−K,1−α + .
nk nk ′
Remarque. Attention, l‘égalité des moyennes n’est pas transitive.

4.5.2 Analyse de variance à deux facteurs


L’objectif de l’analyse de variance à deux facteurs consiste à étudier les liens éventuels entre une variable
continue X et deux facteurs A et B à J et K niveaux.
On note :
– Xjk la variable X observée pour les j-ème et k-ème valeurs respectives des facteurs A et B,
– Xijk la variable aléatoire correspondant à la i-ème observation de Xjk ,
– njk le nombre d’observations Xijk ,
P PJ PJ PK
– nj. = K k=1 njk , n.k = j=1 njk et n = j=1 k=1 njk .

On suppose que Xjk ∼ N (µjk , σ 2 ).


Dans le modèle le plus général pour la moyenne µjk , on suppose qu’elle peut s’écrire comme une somme d’un
terme constant et de termes dépendants du facteur A, du facteur B et de l’interaction entre les facteurs A et B :
µjk = µ + αj + βk + γjk , (4.2)
P P P P
avec les contraintes d’unicité k αk = j βj = k γjk = j γjk = 0.
On considère les moyennes suivantes :
njk J K J K njk
1 X 1 X 1 X 1 XXX
X̄.jk = Xijk , X̄..k = X̄.jk , X̄.j. = X̄.jk et X̄... = Xijk .
njk i=1 n.k j=1 nj. nJK j=1 i=1
k=1 k=1

ainsi que les sommes des carrés suivantes :


J X njk
K X J K
X X X
SST = (Xijk − X̄... )2 , SSA = nj. (X̄.j. − X̄... )2 , SSB = n.k (X̄..k − X̄... )2 ,
j=1 k=1 i=1 j=1 k=1
J X
K J X njk
K X
X X
SSAB = njk (X̄.jk − X̄.j. − X̄..k + X̄... )2 , et SSR = (Xijk − X̄.jk )2 ,
j=1 k=1 j=1 k=1 i=1
4.6. TESTS D’AJUSTEMENT 45

où SST est la somme des carrés totale, SSA est la somme des carrés relatifs au facteur A, SSB est la somme des
carrés relatifs au facteur B, SSAB est la somme des carrés relatifs à l’interaction entre les facteurs A et B et SSR
est la somme des carrés résiduels.
J X K Xnjk
X
2 2
En remarquant que que l’on peut écrire SST = Xijk − nX̄... , on obtient l’équation d’analyse de la
j=1 k=1 i=1
variance à deux facteurs :
SST = SSA + SSB + SSAB + SST
Comme en analyse de variance à un facteur, sous l’hypothèse H0 : αj = 0, les quantités SSA et SSR suivent à σ 2
près des lois du χ2 indépendantes à J − 1 et n − JK degrés de liberté. La statistique suivante est donc de loi de
Fisher de paramètres J − 1 et K − 1 :

SSA/(J − 1)
FA = .
SSR/(n − JK)

De même, sous les hypothèses respectives H0 : βk = 0 et H0 : γjk = 0, les statistiques

SSB/(K − 1) SSAB/(K − 1)(J − 1)


FB = et FAB =
SSR/(n − JK) SSR/(n − JK)

suivent des lois de Fisher de paramètres K − 1 et n − JK pour FB , (K − 1)(J − 1) et n − JK pour FAB .


Ainsi, on peut donc tester l’existence des effets principaux des deux facteurs et de leur interaction en comparant ces
statistiques aux quantiles de la loi de Fisher : si les valeurs observées de ces statistiques sont supérieures au quantile
de la loi de Fisher d’ordre 1 − α on concluera à un effet significatif.
On présente usuellement l’analyse de variance sous la forme du tableau suivant

Facteur Somme degrés de carré F


des carrés liberté moyen
SSA/(J−1)
A SSA J −1 SSA/(J − 1) FA =
SSR/(n−JK)
SSB/(K−1)
B SSB K −1 SSB/(K − 1) FB = SSR/(n−JK)
Interaction AB SSAB (J − 1)(K − 1) SSAB/(K − 1)(J − 1) FAB = SSAB/(K−1)(J−1)
SSR/(n−JK)
Résidu SSR n − JK SSR/(n − JK)
Total SST n−1

P P P P
Estimation des effets Sous les hypothèses de contraintes k αk = j βj = k γjk = j γjk = 0, les
paramètres αj , βk et γjk de la décomposition (4.2) de µjk peuvent être estimés par les relations suivantes :

αj = x̄.j. − x̄... , βk = x̄..k − x̄... et γjk = x̄.jk − x̄.j. − x̄..k + x̄...

4.6 Tests d’ajustement


Les tests d’ajustement ont pour but de vérifier si échantillon provient ou non d’une certaine loi de probabilité
connue.
Nous allons dans un premier temps présenter quelques méthodes empiriques qui permettent de s’orienter vers une
distribution, puis nous présenterons un test non paramétrique d’ajustement : le test du χ2 .

4.6.1 Quelques méthodes empiriques


La forme de l’histogramme La forme de l’histogramme construit sur l’échantillon de données peut nous aider à
avoir une idée de la distribution de la variable aléatoire dont il est issu. Par exemple, un histogramme symétrique
nous orientera par exemple vers une loi normale, de Cauchy, de Student...
46 CHAPITRE 4. TESTS STATISTIQUES

La nature du phénomène Suivant le phénomène étudié, il sera possible d’orienter son choix. Si on s’intéresse
à une variable de comptage, on pourra penser à une loi de Poisson, pour une durée de vie on pensera à une loi
exponentielle ou à une loi de Weibull... .

Utilisation des moments On sait que pour une loi de Poisson, la moyenne est égale à la variance. Pour une loi
exponentielle la moyenne est égale à l’écart-type. Pour une loi normale le coefficient d’applatissement (kurtosis)
est égal à 3 et le coefficient d’asymétrie (skewness) est nul.

4.6.2 Ajustement graphiques


Pour un certain nombre de lois de probabilité, une transformation fonctionnelle permet de représenter la courbe
de la fonction de répartition par une droite :

Loi exponentielle Pour X ∼ E(λ), on a p(X > x) = exp(−λx) d’où ln(1 − F (x)) = −λx. En rangeant
dans l’ordre croissant les données xi de l’échantillon, l’estimation de la fonction de répartition qu’est la fonction
effectif <xi = i−1 pour x < x ≤ x . Ainsi, les points de coordon-
de répartition empirique
i−1
 s’écrit Fe (xi ) = n n i i+1
nées xi ; log(1 − n ) sont approximativement alignés le long d’une droite dont la pente fournit une estimation
graphique de λ.

Loi normale Si X est une variable gaussienne de moyenne µ et de variance σ 2 :


x−µ
p(X < x) = Φ( )
σ
où Φ est la fonction de répartition de la loi normale centrée réduite.
Pour chaque valeur xi de la variable X, on peut calculer p(X < xi ), et en déduire le quantile ui d’ordre p(X < xi )
tel que Φ(ui ) = p(X < xi ).
Si la variable est gaussienne, les points de coordonnées (xi , ui ) sont alignés sur la droite d’équation u = x−µ
σ ,
appelée droite de Henry. On compare donc les valeurs des quantiles de la loi empirique xi au quantiles de la loi
normale centrée réduite ui .
Les fonction qqplot et qqnorm sont disponibles sous R.

4.6.3 Test d’ajustement du χ2


Soit une variable aléatoire X discrète ou discrétisée, c’est à dire divisée en K classes de probabilités p1 , p2 , ..., pK
sous une certaine loi L(θ).
Soit un échantillon de cette variable fournissant les effectifs empiriques aléatoires N1 , N2 , ..., NK dans chacune
de ces classes. Ces effectifs empiriques Ni sont des variables aléatoires d’espérance npi . Nous appelerons effectifs
théoriques les quantités npi .
Le test du χ2 a pour but de tester :

H0 : X suit la loi de probabilité L(θ),


et consiste à comparer les effectifs théoriques et empiriques.
Pour cela on introduit la variable D2 définie par :
K
X (Ni − npi )2
D2 = ,
i=1
npi

et qui est asymptotiquement distribué, lorsque n → ∞, comme une loi du χ2 à K − 1 degrés de liberté.
La variable D2 pouvant être interprétée comme une mesure de l’écart aléatoire entre les effectifs empirique et
théorique, le test du χ2 consite à rejetter H0 si la valeur d2 de D2 sur l’échantillon est trop grande :

on rejette H0 si d2 > χ2K−1,1−α .


4.6. TESTS D’AJUSTEMENT 47

Si des estimations sont nécessaires


Pour faire le test du χ2 , il est nécessaire de savoir quelle est la loi à tester, c’est-à-dire quelle est sa nature (normale,
Poisson...), mais aussi quels sont ses paramètres. Il est donc souvent nécessaire d’estimer ces paramètres.
Par exemple, pour tester une hypothèse de normalité, on teste la loi N (x̄, s2 ), où x̄ et s2 sont les estimations des
paramètres de la loi. Soit l le nombre d’estimations indépendantes effectuées.
Le nombre de degrés de liberté du χ2 utilisé dans le test devra alors être K − l − 1.

Effectif minimal d’une classe


La propriété qui assure que D2 suit une loi du χ2 suppose que chaque classe a un effectif théorique npi supérieur
à 5. Lors de la construction du test, cette propriété sera à vérifier. Souvent lorsque l’expérience conduit la création
des classes, certaines classes "extrêmes" ne vérifient pas cette propriété. On regroupera alors les classes entre elles
afin de créer des classes plus importantes qui vérifient cette propriété (en regroupant la classe extrême avec celle
qui lui est contigüe, et ainsi de suite... ).
Il ne faudra pas oublier alors d’affecter au nombre de classe K sa nouvelle valeur dans la détermination du nombre
de degré de liberté du χ2 .

Test de Kolmogorov-Smirnov
Le test du χ2 convient très bien aux variables discrètes, qui ne nécessitent aucune discrétisation. Par contre, lorsque
les variables sont continues, on préfère généralement utiliser le test de Kolmogorov-Smirnov.
Ce test utilise la fonction de répartition empirique, définie par Fn (x) = n(x) x où n(x) est le nombre de d’obser-
vations du n−échantillon inférieures ou égales à x. Le test se base alors sur l’écart maximum entre la fonction de
répartition empirique Fn et la fonction de répartition de la loi que l’on veut tester. Bien que cet écart ne suive pas
une loi classique, il en existe des tables statistiques qui permette d’effectuer le test.

4.6.4 Test du χ2 de comparaison de k échantillons de données qualitatives


Ce test, appelé aussi test d’indépendance du χ2 , découle du test d’ajustement du χ2 , c’est pourquoi nous le
présentons ici et non pas dans la section sur les comparaisons d’échantillons. C’est un test non paramétrique de
comparaison de plusieurs échantillons, décrit pas une variable qualitative pouvant prendre r modalités. Les données
sont présentés sous la forme suivante :

modalité 1 modalité 2 ... modalité r total


échantillon 1 n11 n12 n1r n1.
échantillon 2 n21 n22 n2r n2.
..
.
échantillon k n11 n12 n1r n1.
total n.1 n.2 n.r n


– nij estP le nombre d’individus de l’échantillon i possédant la modalité j de la variable qualitative,
r
– ni. = j=1 nij est l’effectif de l’échantillon i,
Pk
– n.j = i=1 nij est le nombre total d’individus ayant la modalité j,
Pk Pr
– n = i=1 j=1 nij est le nombre d’individus total.
Le test consiste à tester H0 : « tous les échantillons proviennent de la même population ».
Si H0 est vrai, cela a un sens de considérer les probabilités p1 , . . . , pr d’avoir les modalités 1, . . . , r de la variable
qualitative. Le test consiste donc, comme pour le test d’ajustement, à comparer les effectifs empiriques nij aux
n
effectifs théoriques ni. pj . Les pj étant inconnues et on les estime par p̂j = n.j .
On construit alors la mesure d’écart suivante :
 
k X r ni. n.j 2 k X r 2
X (n ij − ) X n ij
d2 = n
ni. n.j = n − 1
i=1 j=1 n i=1 j=1
n i. n .j

qui est la réalisation d’une statistique du χ2 à (k − 1)(r − 1) degrés de liberté.


Le test consite donc à rejeter H0 si d2 est trop grand, comme pour un test d’ajustement du χ2 .
48 CHAPITRE 4. TESTS STATISTIQUES
Chapitre 5

La régression linéaire simple

La régression linéaire simple permet de mettre en relation une variable continue Y à expliquer avec une variable
explicative continue X. Nous supposons que les variables X et Y sont aléatoires, non indépendantes.
En supposant que la connaissance de X peut servir à prédire Y , nous cherchons pour une valeur x de X à prévoir
la valeur de Y correspondante. Bien entendu, connaître X ne permet rarement de connaître exactement Y , et nous
supposons que cela permet de connaître la valeur moyenne que devrait prendre Y : E[Y |X = x].
Le postulat de base de la régression linéaire est que E[Y |X = x] est une fonction linéaire de x :

E[Y |X = x] = αx + β

ce qui se traduit aussi par


Y = αX + β + ǫ
où ǫ est une variable aléatoire d’espérance nulle, non corrélé avec X.
A noter que :
– L’espérance conditionnelle E[Y |X] est la fonction f (X) qui minimise l’écart quadratique moyen

E[(Y − f (X))2 ].

– Si (X, Y ) est un vecteur gaussien, on a la relation exacte E[Y |X = x] = αx + β (cf. TD proba).


Remarque. Le théorème de la variance totale V (Y ) = E[V (Y |X)] + V (E[Y |X]) nous assure que V (Y ) ≥
E[V (Y |X)]. Ainsi la connaissance de X = x diminue (en général) la variance de Y . La connaissance de X
diminue l’incertitude sur Y dès lors qu’elle ne sont pas indépendantes.

5.1 Le coefficient de corrélation linéaire


Le coefficient de corrélation linéaire ρXY entre deux variable continues X et Y est défini par :

Cov(X, Y )
ρXY = p .
V ar(X)V ar(Y )

Son estimateur est Pn


i=1 (Xi− X̄)(Yi − Ȳ )
RXY = qP Pn .
n 2 2
i=1 (Xi − X̄) i=1 (Yi − Ȳ )

La statistique suivante
√ RXY
T = n − 2p 2
1 − RXY
qui suit une loi de Student tn−2 permet de tester la nullité du coefficient de corrélation linéaire, en rejettant l’hypo-
thèse nulle ρXY = 0 si la valeur t de cette statistique est trop grande, autrement dit si elle vérifie :

t > tn−2,1− α2 .

49
50 CHAPITRE 5. LA RÉGRESSION LINÉAIRE SIMPLE

5.2 Le modèle théorique


On suppose la relation suivante entre les variables aléatoires X et Y

Y = αX + β + ǫ

qui s’écrit également E[Y |X] = αX + β. En prenant l’espérance, on a

E[E[Y |X]] = E[Y ] = αE[X] + β

d’où
Y − E[Y ] = α(X − E[X]) + ǫ.
En multipliant par X − E[X] de chaque coté et en prenant l’espérance on obtient

E[(Y − E[Y ])(X − E[X])] = αE[(X − E[X])2 ] + E[(X − E[X])ǫ]

qui n’est autre que


Cov(X, Y ) = αV (X) + Cov(X, ǫ).
Comme X et ǫ sont non corrélées, on en déduit
Cov(X, Y )
α=
V (X)
et
Cov(X, Y )
β = E[Y ] − E[X]
V (X)
d’où l’équation de la droite de régression
Cov(X, Y )
Y = E[Y ] + (X − E[X]) + ǫ.
V (X)

5.3 Estimation des paramètres sur des données


En pratique, un jeu de données (xi , yi )i=1,...,n ne respecte jamais exactement le modèle de régression linéaire
5.1. L’objectif est d’estimer les paramètres α et β de sorte à ajuster au mieux le modèle de régression linéaire sur
les données. Dans notre cas de régression linéaire, on cherche la droite qui ajuste au mieux le nuage de points
représentant les données.
Le modèle 5.1 s’écrit en fonction des observations :

yi = αxi + β + ǫi i = 1, . . . , n

Le vecteur des résidus ǫ = (ǫ1 , . . . , ǫn )′ est supposé indépendant de X, et distribué suivant une loi normale d’espé-
rance nulle et de matrice de variance diagonale égale à σ 2 In . L’hypothèse gaussienne nous permettera de faire des
tests sur la qualité de la régression.

L’estimation des paramètres α, β, σ 2 est obtenue en minimisant la somme des écarts entre observations et mo-
dèle (moindres carrés) :
Xn
min (yi − αxi − β)2
α,β
i=1

En plus des notations usuelles pour les estimations de la moyenne et de la variance de X et Y : x̄, s2x , ȳ, s2y , on note
sxy l’estimation de la covariance de X et Y :
n
1 X
sxy = (xi − x̄)(yi − ȳ),
n − 1 i=1

et
sxy
rxy = ,
sx sy
5.4. TESTS SUR LE MODÈLE LINÉAIRE 51

l’estimation du coefficient de corrélation linéaire ρXY entre X et Y .


La minimisation par moindres carrés conduit aux estimations a et b suivantes des paramètres α et β :
sxy
α̂ = ,
s2x
β̂ = ȳ − α̂x̄.

Remarquons que dans le cas où le modèle est exact on retrouve bien les paramètres du modèle théorique.
On montre que ces estimateurs sont :
– des estimateurs sans biais, et de variance minimale parmi les estimateurs fontions linéaires des yi (resp. parmi
tous les estimateurs dans le cas gaussien),
– ces estimateurs sont également les estimateurs du maximum de vraisemblance (lorsque les erreurs sont sup-
posées gaussiennes).
A chaque valeur xi de X correspond donc une valeur prédite ŷi de Y :

ŷi = α̂xi + β̂.

Les résidus calculés sont : ei = ŷi − yi .


La variance résiduelle σ 2 est estimée par :
n
1 X 2
s2ǫ = e .
n − 2 i=1 i

Remarque. L’utilisation du modèle linéaire dépasse le cadre simple d’une relation linéaire entre X et Y . En effet,
de nombreux modèles non linéaires se ramènent facilement au modèle linéaire par des transformations simples :
– le modèle Y = αX β très utilisé en économétrie (élasticité constante de Y par rapport à X) devient un
modèle linéaire en étudiant le logarithme des variables
– le modèle à croissance exponentielle Y = αeβX devient un modèle linéaire en travaillant avec ln(Y )

5.4 Tests sur le modèle linéaire


5.4.1 Tests de la nullité des paramètres du modèle
Sous l’hypothèses de normalités des résidus, les estimateurs A et B des paramètres α et β (dont les estimations
correspondantes ont été notée α̂ et β̂) suivent des lois normales
 
Cov(X, Y ) σ2
A= ∼ N α, ,
V (X) (n − 1)s2x
 
σ2 σ 2 x̄2
B = Ȳ − α̂X̄ ∼ N β, + ,
n (n − 1)s2x

dont on estime la variance en remplaçant σ 2 par son estimation s2ǫ .


On peut montrer que
n−2 2
s ∼ χ2n−2
σ2 ǫ
et que
A−α B−β
q ∼ tn−2 et q ∼ tn−2 .
1 x̄2 1
sǫ n + (n−1)s2x
sǫ (n−1)s2x

Ceci permet donc de construire des intervalles de confiance et de tester la nullité de chacun des deux paramètres. A
noter que le test portant sur A est équivalent au test sur le coéfficient de corrélation linéaire.
Néanmoins, les deux estimateurs n’étant pas indépendants, nous pouvons tester la nullité de l’un ou l’autre des deux
paramètres, mais nous ne pouvons rien en conclure quant à la nullité des deux paramètres. Pour ce faire, un test
basé sur la statistique de Fisher est possible (cf. régression multiple).
52 CHAPITRE 5. LA RÉGRESSION LINÉAIRE SIMPLE

5.4.2 Test de la qualité de la régression : analyse de variance de la régression


Il est d’usage de décomposer la variance totale en la variance expliquée par la régression et la variance résiduelle.
La somme des carrés totale (SST) se décompose en la somme des carrés dues à la régression (SSR) et la somme des
carrés résiduelles (SSE) :
s2xy
(n − 1)s2y = (n − 1) 2 + (n − 2)s2ǫ
s | {z }
| {z x}
| {z }
SST SSE
SSR
2
Le coefficient de détermination R :
s2xy SSR
R2 = ρ2xy = 2 2
=
sx sy SST
exprime le rapport entre la variance expliquée par le modèle de régression et la variance totale.
Sous l’hypothèse H0 de non régression linéaire (α = 0), la statistique suivante

R2 SSR
F = (n − 2) = (n − 2)
1 − R2 SSE
suit une loi de Fisher F1,n−2 .

5.4.3 Test de non corrélation des résidus


Les propriétés de l’estimation par moindres carrés reposent notamment sur l’hypothèse de non corrélation des
résidus.
Le test de Durbin-Watson permet de vérifier que les ǫi ne sont pas corrélés. La statistique utilisée est
Pn
(ei − ei−1 )2
d = i=2Pn 2
i=1 ei

qui doit être proche de 2 si les résidus sont non corrélées. Cette statistique ne suit pas de loi particulière, mais ses
valeurs critiques ont été tabulées.
Il est également intéressant de vérifier l’hypothèse de normalité des résidus par un test classique de normalité.

5.4.4 Prédiction
Pour une valeur donnée x0 de X, on définit deux intervalles de confiance de prédiction à partir de la valeur
prédite ŷ0 = α̂x0 + β̂ :
" s s #
1 (x0 − x̄)2 1 (x0 − x̄)2
IC1−α (E[Y |X = x0 ]) = ŷ0 + tn−2, α2 + ; ŷ0 − tn−2, α2 +
n (n − 1)s2x n (n − 1)s2x
" s s #
1 (x0 − x̄)2 1 (x0 − x̄)2
IC1−α (ŷ0 ) = ŷ0 + tn−2, 2 1 + +
α ; ŷ0 − tn−2, 2 1 + +
α
n (n − 1)s2x n (n − 1)s2x

5.4.5 Influence des observations


Les méthodes d’estimation utilisées sont très sensible à des observations atypique (outliers). Nous allons cités
(sans les définir excplicitement) quelques objets mathématiques permettant de détecter de tels observations :
– résidus standardisés (interne) : les résidus bruts ei n’ayant pas la même variance, on calcule des versions
standardisées ri afin de les rendres comparables.
– résidus studentisés (externe) : une autre standardisation (externe) des résidus permet d’obtenir des résidus
ti suivant une loi de Student. En pratique, une observation sera considérée comme influente (vis-à-vis de son
éloignement à x̄) si son résidu Studendisé dépasse les bornes ±2.
– la distance de Cook mesure l’influence d’une observation sur l’ensemble des prévisions. On la compare
généralement à la valeur 1.
Annexes

Rappel sur les convergences des suites de variables aléatoires


Soit (Xn ) une suite de variables aléatoires réelles.
Définition 1. La suite (Xn ) converge en probabilité vers une variables aléatoire X si ∀ǫ, η positifs, il existe n0 tel
que
∀n > n0 , P (|Xn − X| > ǫ) < η
Définition 2. La suite (Xn ) converge presque sûrement vers la variable aléatoire X si

P ({ω| lim Xn (ω) 6= X(ω)}) = 0


n→∞

Définition 3. La suite (Xn ) converge en moyenne d’ordre p vers la variable aléatoire X si

E[|Xn − X|p ] → 0

Définition 4. La suite (Xn ) converge en loi vers la variable aléatoire X de fonction de répartition F si en tout
point de continuité de F , la suite Fn des fonctions de répartition de Xn converge vers F
Propriété 1.
p.s.
(Xn ) −→ X ց
P L
(Xn ) −→ X → (Xn ) −→ X
moyenne ordre p
(Xn ) −→ X ր

Loi faible des grands nombres


Soit (X1 , . . . , Xn ) un échantillon indépendant et identiquement distribué, avec E[Xi ] = µ et V (Xi ) = σ 2 <
∞. On a alors
P
X̄ −→ µ

Loi forte des grands nombres


Soit (X1 , . . . , Xn ) un échantillon indépendant et identiquement distribué, avec E[Xi ] = µ < ∞ et V (Xi ) = σ 2
p.s.
X̄ −→ µ

Théorème centrale limite


Soit (X1 , . . . , Xn ) un échantillon indépendant et identiquement distribué, avec E[Xi ] = µ et V (Xi ) = σ 2 <
∞. On a alors
L
X̄ −→ N (0, 1)

53
54 CHAPITRE 5. LA RÉGRESSION LINÉAIRE SIMPLE
Bibliographie

[1] P. Ardilly. Les techniques de sondage. Editions Technip, 2006.


[2] A. Baccini et P. Besse. Exploration statistique, 2007.
Disponible sur http ://www.math.univ-toulouse.fr/b̃esse/pub/Explo_stat.pdf
[3] G. Saporta. Probabilités, analyse de données et statistique. 2ème édition, Editions Technip, 2006.

55

Vous aimerez peut-être aussi