CHAP3 Regression Lineaire

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 31

Statistique descriptive bivariée: Régression linéaire

A. El Maliki

Professeur de l’Enseignement Supérieur Habilité


École Nationale de Commerce et de Gestion - Casablanca

27 Avril 2022

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 1 / 31


Sommaire

1 Étude Simultanée de deux variables quantitatives


Liaison entre deux variables quantitatives X et Y
Représentations graphiques:Nuage de points
Coefficient de corrélation: Liaison linéaire entre deux variables
Ajustement linéaire par la méthode des moindres carrés
Qualité de l’ajustement linéaire
Régression linéaire après transformation d’une variable

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 2 / 31


Étude Simultanée de deux variables quantitatives Liaison entre deux variables quantitatives X et Y

Objectif : On cherche à mettre en évidence l’existence d’une relation


entre deux variables quantitatives (continues ou discrètes) X et Y.
Y sera la variable expliquée
X sera la variable explicative.

Exemple: Le tableau suivant regroupe un échantillon de données sur le


nombre de spots publicitaires (NSP) et les ventes par semaine

Semaine 1 2 3 4 5 6 7 8 9 10
NSP 2 5 1 3 4 1 5 3 4 2
Ventes 50 57 41 54 54 38 63 48 59 46

- Produit intérieur brut (PIB) et dépenses de consommation (C) au maroc.


- Données sur des appartements à Casablanca: Y = prix en 106 Dirhams,
X = surface en m2 .
- L’impact du prix du pétrole brut (X ) sur le prix de l’essence (Y ).
- Évaluer dans quelle mesure une modification dans le budget publicitaire
mensuel (X ) affecterait le chiffre d’affaires mensuel (Y ) d’une entreprise.
A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 3 / 31
Étude Simultanée de deux variables quantitatives Liaison entre deux variables quantitatives X et Y

Relation fonctionnelle exacte entre X et Y ?


Y = f (X ), f connue ou non, linéaire ou non.
Corrélation entre X et Y ?
Pas de relation fonctionnelle exacte⇒ tendance
Ajustement linéaire (ou non)
Trouver à partir des données brutes (xi , yi ), i = 1, · · · , n, les
coefficients a et b de la droite d’équation y = ax + b qui résume le
mieux l’ensemble des points
Prévision
Indépendance entre X et Y ?
X et Y n’influent pas l’une sur l’autre.

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 4 / 31


Étude Simultanée de deux variables quantitatives Représentations graphiques:Nuage de points

Diagramme de dispersion (scatter plot)


On appelle nuage de points l’ensemble des points de coordonnées
(xi , yi ), i = 1, · · · , n
Exemple précédent: Chaque cas i (semaine) est représenté par le couple
(point) (xi , yi ). Pour la semaine 1, on a (x1 , y1 ) = (2, 50).

Le nuage de points suggère qu’une droite linéaire peut bien caractériser la


relation entre le nombre de spots et les ventes.
A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 5 / 31
Étude Simultanée de deux variables quantitatives Représentations graphiques:Nuage de points

Diagramme de dispersion (scatter plot)

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 6 / 31


Étude Simultanée de deux variables quantitatives Coefficient de corrélation: Liaison linéaire entre deux variables

Mesure de liaison linéaire:


- Covariance entre X et Y
- Corrélation linéaire
Mesurent la tendance des observations à s’aligner le long d’une droite .

Covariance: moyenne des produits des écarts à la moyenne


La covariance est une mesure de la relation linéaire entre deux variables X
et Y . Cette covariance est définie par: Cas d’un tabeau de données brutes
n n
X 1X
cov (X , Y ) = n1 (xi − x̄ )(yi − ȳ ) = xi yi − x̄ ȳ
i=1
n i=1
Remarques:
La covariance dépend de l’unité de mesure de X et Y .
cov (aX + b, cY + d) = ac · cov (X , Y ),où a, b, c, d ∈ R
q
Inégalité de Cauchy-Schawrz | cov (X , Y ) |≤ Sx Sy = Sx2 Sy2

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 7 / 31


Étude Simultanée de deux variables quantitatives Interprétation de la covariance

Si cov (X , Y ) > 0, les points qui ont la plus grande influence sur
cov (X , Y ) se trouvent dans les quadrants I et III.
Tendance des variables X et Y à évoluer dans le même sens.
Si cov (X , Y ) < 0, les points qui ont la plus grande influence sur
cov (X , Y ) se trouvent dans les quadrants II et IV.
Y diminue quand X augmente.
Si les points sont repartis de façon uniforme dans les 4 cadrans alors
on a cov (X , Y ) ' 0 =⇒ absence de liaison linéaire.
A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 8 / 31
Étude Simultanée de deux variables quantitatives Interprétation de la covariance

Lorsque l’association est forte, Écarts (xi − x̄ ) et (yi − ȳ ):


- tendance à être toujours de même signe, ou
- tendance à être toujours de signes contraires

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 9 / 31


Covariance, coefficient de corrélation: Liaison linéaire entre deux
Étude Simultanée de deux variables quantitatives variables

Coefficient de corrélation
Pour éviter les problèmes des unités de mesure ⇒
covariance de variables standardisées. (Standardiser = centrer et réduire)
Le coefficient de corrélation mesure le degré de liaison entre deux variables
cov (x , y )
quantitatives X et Y . Ce coefficient est donné par: rxy =
sx sy
Ce coefficient ne dépend pas du changement d’origine et ni du
changement d’unité de mesure
On peut monter que: −1 ≤ rxy ≤ 1.
Si rxy = 0, on dit que les variables X et Y sont non corrélées
linéairement.
Si |rxy | = 1, les points (xi , yi ), i = 1, · · · , n sont alignés(Y est une
fonction linéaire de X , y = ax + b).
Si |rxy | est proche de 1, on dit qu’il y a une forte corrélation linéaire
entre les variables.
Si rxy > 0.8, les points sont alignés le long d’une droite croissante. Si
rxy < −0.8, les points sont alignés le long d’une droite décroissante.
A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 10 / 31
Étude Simultanée de deux variables quantitatives Exemple: Calcul moyennes, variances, covariances et corrélation

Exemple sur : X =le nombre de spots publicitaires (NSP) et Y =les


ventes par semaine
On donne les sommes suivantes
n 10
X 1 X
xi = 30, x̄ = xi = 3
i=1
10 i=1
n 10
X 1 X
yj = 510, ȳ = yi = 51
j=1
10 i=1
n 10
X 1 X
xi2 = 110, sx2 = ( x 2 ) − x̄ 2 = 2
i=1
10 i=1 i
n 10
X 1 X
yj2 = 26576, sy2 =( y 2 ) − ȳ 2 = 56.6
j=1
10 i=1 i
P n
i=1 xi yi = 1629,
10
1 X
cov (X , Y ) = ( xi yi ) − x̄ ȳ = 9.9
10 i=1

cov (X ,Y )
r= Sx Sy = cov
√(X2 ,Y2 ) = √ 9.9
2∗56.6
' 0.93. Donc on une forte corrélation
Sx Sy
A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 11 / 31
Étude Simultanée de deux variables quantitatives Ajustement linéaire par la méthode des moindres carrés

On cherche à mesurer une variable dépendante Y en fonction d’une


variable indépendante X :
Y ' f (X )
C’est-à-dire f (X ) est une approximation de la valeur de Y . La fonction la
plus simple à étudier est de la forme d’une droite y = ax + b et qui
approche le mieux les points (xi , yi ).
Pour cela, on définit la distance entre cette droite et les points
d’observations yi : ei2 = (yi − axi − b)2 .
L’une des méthodes qui permet de déterminer cette droite est la méthode
des moindres carrés (MC). Cette méthode consiste à minimiser la somme
des erreurs quadratiques:
n
X n
X
min ei2 = (yi − axi − b)2
a,b
i=1 i=1

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 12 / 31


Étude Simultanée de deux variables quantitatives Ajustement linéaire par la méthode des moindres carrés

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 13 / 31


Étude Simultanée de deux variables quantitatives Ajustement linéaire par la méthode des moindres carrés

Méthode des moindres carrés: Le critère des moindres carrés consiste


de déterminer les réels a et b tels que
n
X n
X
min (yi − axi − b)2 = ei2
a,b
i=1 i=1

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 14 / 31


Étude Simultanée de deux variables quantitatives Ajustement linéaire par la méthode des moindres carrés

les valeurs de a et de b qui permettent de minimiser la distance


Pn 2
i=1 (yi − axi − b) sont déterminées en résolvant le système

n
∂( ni=1 (yi − axi − b)2 )
 P
 X

 = 2 (yi − axi − b)(−xi ) = 0
∂a


i=1
n
∂( ni=1 (yi − axi − b)2 )
P
 X

 = 2 (yi − axi − b)(−1) = 0
∂b


i=1

La solution du système ci-haut est donnée par



 â = cov (x , y )

sx2 (1)
b̂ = ȳ − âx̄

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 15 / 31


Étude Simultanée de deux variables quantitatives Ajustement linéaire par la méthode des moindres carrés

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 16 / 31


Étude Simultanée de deux variables quantitatives Ajustement linéaire par la méthode des moindres carrés

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 17 / 31


Étude Simultanée de deux variables quantitatives Ajustement linéaire par la méthode des moindres carrés

La droite d’ajustement de Y en X :
Elle s’appelle aussi la droite de régression de Y en X ou encore la droite
des moindres carrées: 


 ŷ = âx + b̂ où
 cov (x , y )
â = (2)


 sx2

b̂ = ȳ − âx̄

1 La droite d’ajustement ŷ = âx + b̂ passe par le centre de gravité


G = (x̄ , ȳ )
2 ŷ = âx + b̂ est la valeur prédite par le modèle de la régression linéaire.
3 Le modèle de la régression linéaire est donné par yi = axi + b + ei où
ei désigne un bruit supposé petit.

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 18 / 31


Étude Simultanée de deux variables quantitatives Exemple: Droite de régression

Exemple
Dans une banque, on considère un échantillon de 12 clients choisis au
hasard. On note X le nombre de chèques émis et Y le nombre de visites à
l’agence, de chaque client durant un trimestre. On obtient:

X 34 42 53 30 50 60 46 57 32 24 36 28
Y 12 14 15 10 15 17 12 14 10 9 11 10

12 12
1 X 1 X
1 Moyennes: x̄ = xi = 41, ȳ = yi = 12.42
12 i=1 12 i=1
12
1 X
Variances: sx2 = x 2 − x̄ 2 = 133.5, sy2 = 5.91
12 i=1 i
12
1 X
2 cov (X , Y ) = xi yi − x̄ ȳ = 26.17
12 i=1

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 19 / 31


Étude Simultanée de deux variables quantitatives Exemple: Droite de régression

La représentation graphique du nuage de points est la première étape


essentielle pour déterminer s’il existe ou non une relation linéaire entre X et
Y . Voici le nuage de points (xi , yj ) et la droite d’ajustement (ŷ = âx + b̂):

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 20 / 31


Étude Simultanée de deux variables quantitatives Exemple: Droite de régression

Exemple(suite)
On calcule le coefficient de corrélation
cov (x , y )
rxy = q q = 0.9315.
sx2 sy2
On peut donc conclure qu’il y a une forte corrélation linéaire entre X et Y .
De plus la forme du nuage de points indique qu’il y a une relation linéaire
en X et Y .

La droite d’ajustement de Y en X :

 ŷ = âx + b̂ = 0.196x + 4.38

a = covs(x2 ,y ) = 26.17
133.5 = 0.196
(3)
 x
b = ȳ − ax̄ = 12.42 − 0.196 ∗ 41 = 4.38.

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 21 / 31


Étude Simultanée de deux variables quantitatives Exemple: Droite de régression

- Attention : rx ,y ' 1 et nuage de points pas toujours d’aspect allongé.


- Tracer avant tout le nuage de points avant d’envisager un lien linéaire
entre deux variables

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 22 / 31


Étude Simultanée de deux variables quantitatives Exemple: Droite de régression

Exercice: Pour les nuages de points ci-dessous déterminer:


a. S’il y a corrélation ou non et justifier votre réponse.
b. S’il y a corrélation : i. Déterminer sa nature (si elle est positive ou
négative). ii. Déterminer sa force (si elle est forte ou faible).
iii. Dessiner la droite de régression (et le nuage ou la boîte).

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 23 / 31


Étude Simultanée de deux variables quantitatives Qualité de l’ajustement linéaire

La quantité ei = yi − ŷi = yi − (âxi + b̂) s’appelle le résidu en xi . Elle


correspond à l’erreur commise lors de l’approximation linéaire. On peut
n n n
1X
ei xi = 0 et ȳ = ŷ¯ =
X X
montrer que ei = 0, ŷi
i=1 i=1
n i=1
n
1X
La variance marginale est définie par sy2 = (yi − ȳ )2
n i=1
La variance de régression est la variance des valeurs ajustées:
n
1X
sŷ2 = (ŷi − ȳ )2
n i=1
La variance résiduelle, notée se2 , est donnée par
n n
1X 2 1X
2
se = e = (yi − âxi − b̂)2 .
n i=1 i n i=1
On peut montrer que la variance marginale (totale) est la somme de la
variance de régression et de la variance résiduelle:
sy2 = sŷ2 + se2

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 24 / 31


Étude Simultanée de deux variables quantitatives Qualité de l’ajustement linéaire

On a ei = yi − ŷi = yi − (âxi + b̂),


b̂ = ȳ − âx̄
et ŷ¯ = âx̄ + b̂
n
¯ 1X
Alors on montre que: ȳ = ŷ = ŷi
n i=1
n n Pn Pn
i=1 yi i=1 ŷi
) = n(ȳ − ŷ¯ ) = 0
X X
ei = (yi − ŷi ) = n( −
i=1 i=1
n n
n
X
ce qui implique ei = 0.
i=1
n Pn Pn
X
i=1 (yi − âxi − b̂)xi i=1 (xi yi − âxi2 − ȳ xi + âx̄ xi )
On a ei xi = n =n
i=1
n n
P n Pn
(xi yi ) (xi2 )
= n( i=1
n − x̄ ȳ − â( i=1
n − x̄ 2 ) = n(cov (X , Y ) − âSX2 ) = 0

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 25 / 31


Étude Simultanée de deux variables quantitatives Qualité de l’ajustement linéaire

On veut montrer que sy2 = sŷ2 + se2 .


n
X n
X
On a sy2 = (yi − ȳ )2 = (yi − ŷi + ŷi − ȳ )2
i=1 i=1
n
X n
X n
X
2 2
= (yi − ŷi ) + (ŷi − ȳ ) + 2 (yi − ŷi )(ŷi − ȳ )
i=1 i=1 i=1
Xn Xn
= (ŷi − ȳ )2 + (yi − ŷi )2 = sŷ2 + se2
i=1 i=1
En effet
n
X n
X n
X
2 (yi − ŷi )(ŷi − ȳ ) = 2 ei (ŷi − ȳ ) = 2( (ei âxi + ei b̂ − ei ȳ )
i=1 i=1 i=1
n
X n
X n
X
= 2(â ei xi + b̂ ei − ȳ ei ) = 0
Pn i=1 Pni=1 i=1
i=1 ei = 0 et i=1 ei xi = 0 voir la page précédente.

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 26 / 31


Étude Simultanée de deux variables quantitatives Qualité de l’ajustement linéaire

sŷ2 se2
D’aprè ce qui précède on a 1 = sy2
+ sy2
.
La proportion de variance expliqué par la droite ajustée est donnée
sŷ2
par le coefficient de détermination: R 2 = sy2
2
= rxy
se2
La proportion de variance résiduelle est sy2
= 1 − R2

L’ajustement linéaire est autant meilleur que la proportion de la variance


expliqué par la droite des moindres carrées est proche de 1.
On peut juger qu’on a une forte liaison entre deux variables X et Y si
R 2 ≥ 0.8.
Si R 2 ' 0, on aura une faible liaison entre X et Y .

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 27 / 31


Étude Simultanée de deux variables quantitatives Validation de l’ajustement linéaire

Pour valider l’ajustement linéaire, certaines critères doivent être satisfaites


1 la forme du nuage de points.
2 la valeur du coefficient de corrélation linéaire rxy et le pourcentage de
sŷ2
variance expliquée par la droite des moindres carrés (R 2 = sy2
> 0.8).
3 Les résidus (ei = yi − ŷi , i = 1 · · · , n) doivent fluctuer autour de
l’axe des abscisses de façon aléatoire, et être de faible amplitude (leur
écart-type doit être très inférieur à l’ecart-type de la série yi (
se
sy << 1) ).

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 28 / 31


Étude Simultanée de deux variables quantitatives Qualité d’ajustement: Voir l’exemple précédent sur une banque

Coefficient de détermination
On calcule le coefficient de détermination
R 2 = rxy
2 = 0.93152 = 0.868 > 0.8.

sŷ constitue une part importante (86.8%)de la variance totale sy2


2

Par exemple l’erreur (résidu) au point x3 est


e3 = y3 − yb3 = y3 − (0.196x3 + 4.38) = 15 − (0.196 ∗ 53 + 4.38) = 0.23.
Sur la représenation graphique des résidus ei , on voit que le résidu fluctue
autour de zéro d’une façon aléatoire. De plus on a ssye << 1.
On peut donc conclure qu’il y a une forte liaison entre X et Y .
A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 29 / 31
Étude Simultanée de deux variables quantitatives Régression linéaire après transformation d’une variable

Il arrive que X et Y soient approximativement liés par des relations non


linéaires. Par exemple
1 Y = be aX
1
2 Y = aX +b
3 Y = aX 2 + b
Exemple: si le nuage de points suggère un ajustement de la forme
Y = aX1+b .
On transforme les données en posant zi = y1i , i = 1, · · · , n. Puis on
cherche l’ajustement linéaire de la forme Ẑ = âX + b̂.
Enfin, l’ajustement pour le nuage de points initial est donnée par
Ŷ = âX1+b̂ .
Dans le cas Y = aX 2 + b, on obtient l’ajustement suivant Ŷ = âZ + b̂, ou
zi = xi2 .
Remarque: C’est le nuage de points qui nous guide pour le choix d’un
changement de variable. Ce changement n’est pas toujours possible.

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 30 / 31


Étude Simultanée de deux variables quantitatives Régression linéaire après transformation d’une variable

A. El Maliki (ENCG) Cours SDBivariée 27 Avril 2022 31 / 31

Vous aimerez peut-être aussi