Chapitre 6 - Stat - Desc
Chapitre 6 - Stat - Desc
Chapitre 6 - Stat - Desc
Il arrive quelque fois que deux séries statistiques mesurant deux caractères X et Y d’un échantillon d’une
même population soient liées par une relation dans le sens que les valeurs de l’une peuvent être obtenues à
partir de celles de l’autre à l’aide d’une correspondance. On dira alors que X et Y sont dépendantes. Nous
précisons le sens de cette dépendance et calculons.
I-Séries doubles
Y1 Y2 … Y j .. Ym Effectif marginal
X Y de X i
X ,..., X sont les modalités du caractère X ; Y ,..., Y sont les modalités du caractère Y ,
1 k 1 m
nij l’effectif
partiel du couple X ,Y c’est-à-dire le nombre d’individus de l’échantillon pour lesquels les caractères X et Y
i j
valent respectivement X et Y et
i j
ni. (respectivement n. j )l’effectif marginal de X i (respectivement Y j ) c’est-
à-dire le nombre d’individus pour lesquels X (respectivement Y )vaut X (respectivement Y ) et qui est :
i j
m k k m
ni. nij (respectivement n. j nij ). Par ailleurs, n nij ni. n. j est
j 1 i 1 i, j i 1 j 1
l’effectif total.
1
Exemple 6.1. On étudie le poids X et la taille Y de 100 élèves pris au hasard dans un établissement scolaire.
On a obtenu les données suivantes :
Lire le tableau.
La case de la 3ème Colonne et de 2ème ligne représente le nombre d’élèves qui ont un poids de 55 kg et une taille
de 160 cm c’est-à-dire 7. On note cette valeur n23 : c’est l’effectif partiel de la 2
èmevaleur du caractère poids
On peut s’intéresser uniquement au caractère poids. Par exemple, le nombre d’élèves ayant un poids égal à 55
kg et une taille quelconque est 34. Ceci figure sur la dernière colonne. On note ce nombre n2. 34 . C’est
l’effectif marginal de la 2ème valeur du caractère Poids. Il s’obtient en faisant la somme de tous les termes de la
2ème ligne. On a : n2. n21 n22 ... n25 .
De la même manière on peut seulement s’intéresser au caractère taille. La 2ème valeur 23 de la dernière ligne
donne le nombre d’élèves mesurant 155 cm (avec un poids quelconque). De manière analogue n.2 s’obtient en
faisant la somme de tous les termes de la 2ème colonne :
n.2 n12 n22 ... n42 . On dira que n.2 est l’effectif marginal de la 2 ème valeur du caractère taille.
I.1-Quelques définitions
L’exemple que l’on vient de considérer est typique de ce qu’on appelle une série double ou à deux dimensions
(parce qu’on étudie deux caractères sur un même échantillon).
2
I.1.1-Présentation
nij ni. n. j
f ij fréquence partielle et fi. (respectivement f
.j
) fréquences marginales.
n n n
On vérifie aisément les relations suivantes :
m k k m
f i. f ij ; f. j fij et fij fi. f. j 1
j 1 i 1 i, j i 1 j 1
Calculons par exemple les fréquences partielles et marginales des couples de valeurs de la série double
données par le tableau 6.2 ci-dessous :
Tableau 6.1
On appelle effectif cumulé du couple de valeurs X ,Y le nombre d’individus
i j
Nij de l’échantillon pour
lesquels le caractère X est inférieur ou égal à X i et le caractère Y est inférieur ou égal à Y j . On l’exprime
en fonction des effectifs partiels (effectifs absolus) par la relation :
3
Nij
F . Si i k (respectivement j m ), on a :
ij n
j i
N n.t (respectivement N ns. ) ; et dans ce cas on parlera d’effectif marginal cumulé de Y
ij ij j
t 1 s 1
(respectivement de X i ). On le note alors N. j (respectivement Ni. ). De même, on a la fréquence cumulée
d’une valeur X i ou Y j qui se calcule de manière analogue. On se contentera de le faire sur l’exemple 6.2 qui
suit :
Ce qui donne :
F 0, 03 0, 05 0, 05 0, 07 0, 2
22
b-La fréquence marginale cumulée de la valeur X 60 est la somme des fréquences de tous les couples
3
1 k k 1 m m
X ni. X i fi. X et Y n. jY j f. jY .
n i 1 i n j 1 j
i 1 j 1
Quant aux moyennes conditionnelles, elles sont données par les formules suivantes :
1 k k j 1 m m i
Xj nij X fi X i et Y i nijY f jY j .
j
n. j i 1 i ni. j 1
i 1 j 1
4
I.1.3-Variances marginales et conditionnelles
1 k 2 k 2
var( X ) ni. ( X X ) fi. ( X X ) et
n i 1 i i
i 1
1 m 2 m 2
var(Y ) n. j (Y Y ) f. j (Y y )
n j 1 j j
j 1
1 k 2 k j 2
v (X )
j 2
nij X i X j fi X X j et
n. j i 1 i
i 1
1 m
2 m i 2 2
v (Y ) nij Y j Y j f jY Y j
i ni. j 1 i
j 1
N.B : l’on définit souvent l’indépendance entre deux variables X et Y par l’égalité entre les fréquences
i
conditionnelles f pour i sont fixé.
j
Exemple 6.3. En revenant sur l’exemple 6.1., on peut calculer ces différentes statistiques. Ainsi :
18,150 23,15518,16019,165
et Y 160, 2 .
100
On peut représenter chaque couple de valeurs X i ,Y j par un point M i dans le plan. On obtient un
ensemble de points qu’on appelle nuage de points :
5
Y
On se propose alors de chercher la courbe qui soit la plus proche possible de tous les points M (voir ci-
i
dessous). Lui imposer d’être proche d’un point peut l’éloigner d’autres points. Il s’agit donc de trouver un « juste
milieu » par des méthodes appropriées. La recherche d’une telle courbe est appelée Ajustement de nuage de
points. On peut avoir un ajustement linéaire ou non linéaire.
Ajustement linéaire
Ajustement non linéaire
Le choix de la courbe n’est pas facile, moins encore son calcul. Nous allons, dans le cadre de ce cours
considérer le cas d’une forme linéaire.
6
II.1-Méthodes d’ajustement linéaire
II.1.2-Droite de Mayer
Considérons les n points M dont les coordonnées sont X et Y . On appelle point moyen du nuage défini par
i i j
ces points le point G dont les coordonnées sont les moyenne marginales arithmétiques X et Y .
On peut ranger la série double S de telle sorte que la série des abscisses soit croissante (celle des ordonnées
ne le sera pas forcément). On partage alors S en deux séries doubles S et S ayant toutes les deux le même
1 2
effectif total (plus ou moins un terme). On notera G et G les points moyens associés à S et S
1 2 1 2
respectivement. D’où la définition, la droite de Mayer associée à S est la droite définie par les points G et G .
1 2
Cette droite permet d’ajuster le nuage de points associés à S . On vérifie qu’elle passe par le point moyen G .
S 2,3; 3,6 ; 3,4 ; 4,7 ; 4,5 ; 5,8 ; 6,5 . On partage S en deux séries S et S sont alors :
1 2
G 3,5 et G 5,6 .
1 2
Y
Droite de Mayer
G2
G1
X
Cherchons l’équation de cette droite. On remarque que les points G et G ont des abscisses distinctes.
1 2
L’équation de la droite G G est donc de la forme :
1 2
Y aX b .
Pour déterminer a et b , il suffit d’exprimer le fait que cette droite passe par G et G , c’est-à-dire que les
1 2
coordonnées de ces points vérifient cette équation :
3a b 5
. Un système d’équations à deux inconnues
5a b 6
7
Ce qui donne a 1/ 2 et b 7/ 2 . Finalement G G a pour équation : Y 1/ 2( X 7)
1 2
L’ajustement par la droite de Mayer n’est pas satisfaisant et est peu utilisé dans la pratique. Nous ajusterons
plutôt par la droite des moindres carrés que nous allons introduire dans la partie qui suit.
Considérons les n points M i dans le plan et notons D la droite cherchée. La distance de M i à D est la
mesure du segment M i Hi à Hi est le pied de la perpendiculaire à D passant par M i .
Yi M
i
K H
i i
D aX b
i
X
i
Le calcul de cette distance est relativement compliqué. On calculera plutôt la distance verticale de M i à D .
de la forme :
n
U di2 soit minimale. Une telle droite est appelée la droite des moindres carrés ou droite de régression
i 1
de Y en X . En réalité, tout revient à montrer que a et b existent et sont uniques et rendent U minimale.
aX b Yi
2
Reprenons la quantité U i
i 1
8
n n n n n n
U a 2 X i2 2 X i (Yi b)a (Yi b) 2 a 2 X i2 2a X i (Yi b) (Yi b) 2 .
i 1 i 1 i 1 i 1 i 1 i 1
n n n
Posons X i 1
i
2
, X i (Yi b), (Yi b) 2 avec 0 .
i 1 i 1
Etant donné que nous voulons minimiser la fonction U (a) a 2 a , fonction de a , nous posons les
2
U
conditions de premier ordre qui consistent à poser la dérivée 2 a 2 égale à zéro :
a
U
0 2 a 2 0 a
a
n
X i (Yi b)
a i 1
n
X i 1
i
2
Si on considère cette fois-ci U comme fonction de b et en posant également les conditions de premier ordre, on
a:
1 n 1 n a n
b Yi aX i Yi X i Y a X
n i 1 n i 1 n i 1
(X i X )(Yi Y )
La forme finale de a est : a i 1
n
(X
i 1
i X )2
II.3-Covariance
(X i X )(Yi Y )
Divisant le numérateur et le dénominateur de a i 1
n
par n , on voit bien que le
(X
i 1
i X) 2
1 n
( X i X )(Yi Y )
n i 1
a
1 n
( X i X )2
n i 1
1 n
Le numérateur : ( X i X )(Yi Y ) s’appelle Covariance de X et Y . Elle a le signe de a . Elle peut
n i 1
être positive ou négative contrairement à la variance. Elle peut aussi être exprimée de la manière suivante :
9
1 n
cov( X , Y ) X iYi X Y .
n i 1
cov( X , Y )
a
var( X )
II.4-Corrélation
cov( X , Y )
r
( X ) (Y )
Si r 0 ; pas de corrélation
iii)- r 1 si et seulement si la droite des moindres carrés passe par tous les points M i et dans ce cas on a :
Exemple 6.5
Le tableau suivant indique la production intérieure brute(PIB) par secteur au Cameroun de 1997 à 2003(en
million de FCFA).
10
Année Agriculture et pêche X Industrie et Mines Y
1997 3,72 3,37
1998 3,95 3,57
1999 4,09 3,77
2000 3,65 4,08
2001 13,39 4,44
2002 3,66 4,91
2003 4,12 5,43
La PIB agricole et la PIB industrielle sont alors considérées comme ici comme deux séries statistiques X et Y et
on se propose d’étudier la corrélation pouvant exister entre elles.
Solution.
variables Xi Yi X i2 Yi 2 X iY i
Années
1997 3,72 3,37
1998 3,95 3,57
1999 4,09 3,77
2000 3,65 4,08
2001 13,39 4,44
2002 3,66 4,91
2003 4,12 5,43
r 0, 51 .
2-Droite de régression de Y en X .
Fin du chapitre 6 !
11