CHAP3 Regression Lineaire
CHAP3 Regression Lineaire
CHAP3 Regression Lineaire
A. El Maliki
27 Avril 2022
Semaine 1 2 3 4 5 6 7 8 9 10
NSP 2 5 1 3 4 1 5 3 4 2
Ventes 50 57 41 54 54 38 63 48 59 46
Si cov (X , Y ) > 0, les points qui ont la plus grande influence sur
cov (X , Y ) se trouvent dans les quadrants I et III.
Tendance des variables X et Y à évoluer dans le même sens.
Si cov (X , Y ) < 0, les points qui ont la plus grande influence sur
cov (X , Y ) se trouvent dans les quadrants II et IV.
Y diminue quand X augmente.
Si les points sont repartis de façon uniforme dans les 4 cadrans alors
on a cov (X , Y ) ' 0 =⇒ absence de liaison linéaire.
A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 8 / 31
Étude Simultanée de deux variables quantitatives Interprétation de la covariance
Coefficient de corrélation
Pour éviter les problèmes des unités de mesure ⇒
covariance de variables standardisées. (Standardiser = centrer et réduire)
Le coefficient de corrélation mesure le degré de liaison entre deux variables
cov (x , y )
quantitatives X et Y . Ce coefficient est donné par: rxy =
sx sy
Ce coefficient ne dépend pas du changement d’origine et ni du
changement d’unité de mesure
On peut monter que: −1 ≤ rxy ≤ 1.
Si rxy = 0, on dit que les variables X et Y sont non corrélées
linéairement.
Si |rxy | = 1, les points (xi , yi ), i = 1, · · · , n sont alignés(Y est une
fonction linéaire de X , y = ax + b).
Si |rxy | est proche de 1, on dit qu’il y a une forte corrélation linéaire
entre les variables.
Si rxy > 0.8, les points sont alignés le long d’une droite croissante. Si
rxy < −0.8, les points sont alignés le long d’une droite décroissante.
A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 10 / 31
Étude Simultanée de deux variables quantitatives Exemple: Calcul moyennes, variances, covariances et corrélation
cov (X ,Y )
r= Sx Sy = cov
√(X2 ,Y2 ) = √ 9.9
2∗56.6
' 0.93. Donc on une forte corrélation
Sx Sy
A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 11 / 31
Étude Simultanée de deux variables quantitatives Ajustement linéaire par la méthode des moindres carrés
n
∂( ni=1 (yi − axi − b)2 )
P
X
= 2 (yi − axi − b)(−xi ) = 0
∂a
i=1
n
∂( ni=1 (yi − axi − b)2 )
P
X
= 2 (yi − axi − b)(−1) = 0
∂b
i=1
La droite d’ajustement de Y en X :
Elle s’appelle aussi la droite de régression de Y en X ou encore la droite
des moindres carrées:
ŷ = âx + b̂ où
cov (x , y )
â = (2)
sx2
b̂ = ȳ − âx̄
Exemple
Dans une banque, on considère un échantillon de 12 clients choisis au
hasard. On note X le nombre de chèques émis et Y le nombre de visites à
l’agence, de chaque client durant un trimestre. On obtient:
X 34 42 53 30 50 60 46 57 32 24 36 28
Y 12 14 15 10 15 17 12 14 10 9 11 10
12 12
1 X 1 X
1 Moyennes: x̄ = xi = 41, ȳ = yi = 12.42
12 i=1 12 i=1
12
1 X
Variances: sx2 = x 2 − x̄ 2 = 133.5, sy2 = 5.91
12 i=1 i
12
1 X
2 cov (X , Y ) = xi yi − x̄ ȳ = 26.17
12 i=1
Exemple(suite)
On calcule le coefficient de corrélation
cov (x , y )
rxy = q q = 0.9315.
sx2 sy2
On peut donc conclure qu’il y a une forte corrélation linéaire entre X et Y .
De plus la forme du nuage de points indique qu’il y a une relation linéaire
en X et Y .
La droite d’ajustement de Y en X :
ŷ = âx + b̂ = 0.196x + 4.38
a = covs(x2 ,y ) = 26.17
133.5 = 0.196
(3)
x
b = ȳ − ax̄ = 12.42 − 0.196 ∗ 41 = 4.38.
sŷ2 se2
D’aprè ce qui précède on a 1 = sy2
+ sy2
.
La proportion de variance expliqué par la droite ajustée est donnée
sŷ2
par le coefficient de détermination: R 2 = sy2
2
= rxy
se2
La proportion de variance résiduelle est sy2
= 1 − R2
Coefficient de détermination
On calcule le coefficient de détermination
R 2 = rxy
2 = 0.93152 = 0.868 > 0.8.