Partie REGRESSION

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 110

Partie 2 : Modèle de

régression linéaire
simple et multiple

1
Sommaire

Introduction

Partie I : Régression linéaire simple

Partie II : Régression linéaire Multiple

Ateliers 1 et 2

2
Introduction
Régression linéaire : technique de modélisation qui
permet de mettre en équation une relation entre une
variable endogène (à expliquer) et n variables
exogènes (explicatives).
Cette technique est couramment utilisée lorsque l’on
souhaite prédire la réalisation d’une variable de type
continue (intervalle ou ratio) à l’aide d’un ensemble de
variables, dits prédicteurs, du même type; des
prédicteurs de type catégoriels pouvant aussi être
considérés.

3
Introduction
La régression linéaire permet de modéliser une relation
entre une variable endogène (ou dépendante) Y et p
variables exogènes (ou indépendantes) X1, X2, …,Xp:

Y = β0 + β1 X1 +K+ βp Xp +ε

• Les βi sont les coefficients que l’on va chercher à estimer.


• ε est la partie aléatoire que l’on ne peut contrôler. On
l’appelle aussi erreur.

4
Introduction
Exemple : on veut représenter la consommation d’un agent
énergétique en fonction de facteurs explicatifs :
La température moyenne sur un mois d’un ménage
L’épaisseur de l’isolation du logement
Cosommation Isolation Température
Gallon/mois (en cm) Moyenne (°F)
1 275,30 3,00 40,00
2 363,80 3,00 27,00
3 164,30 10,00 40,00
4 40,80 6,00 73,00
5 94,30 6,00 64,00
6 230,90 6,00 34,00
7 366,70 6,00 9,00
8 300,60 10,00 8,00
9 237,80 10,00 23,00
10 121,40 3,00 63,00
11 31,40 10,00 65,00
12 203,50 6,00 41,00
13 441,10 3,00 21,00
14 323,00 3,00 38,00
15 52,50 10,00 58,00
5
Introduction
Exemple : consommation énergétique en fonction de la
température moyenne mensuelle et de l’épaisseur de l’isolation du
logement.

Yi = β 0 + β1 X 1i + β 2 X 2 i + ε i

Influence de
Observation i de la Terme constant l’isolation
Consommation
mensuelle
Influence de la
Température Erreur
aléatoire
6
Types de relations

Relation linéaire positive Relation non linéaire

Relation linéaire négative Aucune relation

7
Partie 2.1

R
Régression
égression L
Linéaire
inéaire S
Simple
imple

8
Droite de régression
Yi = β 0 + β1 X i + ε i
Y (Valeur moyenne prédite)

ε i = Erreur β1
La pente

β0
X
Valeurs observées deY
L’intercepte
9
Régression linéaire simple
La relation entre deux variables x et y est décrite par:

y = β 0+ β 1x+ ε
Où β0 et β1 sont deux constantes que l’on cherche à évaluer et
ε est un terme aléatoire que l’on appelle erreur.

Pour estimer β0 et β1 on dispose d’un échantillon (x1,y1),…, (xn,yn)


supposé vérifier:

yi = β0+ β1 xi + εi , pour i =1,2,L, n.

10
Estimation des β : Méthode des MC

Elle consiste à trouver βˆ0 et βˆ1 qui maximisent


minimisent

∑ ( yi − β − β xi
0 1
)2 = ∑ε i2

i i

On note yˆi = βˆ + βˆ xi
0 1
et ei = yi − yˆi
βˆ0 et βˆ1 sont les estimateurs des moindres carrés de
β 0 et β1.

11
Remarques:
La méthode des moindres carrés est une méthode
géométrique. Elle repose sur la seule hypothèse :

«La relation liant les 2 variables x et y est linéaire»

On peut vérifier l’hypothèse de linéarité:


En examinant le nuage de points (xi ,yi).
En testant la corrélation entre x et y.

12
Mise en oeuvre sous SPSS de la RLS
Identification de la liaison linéaire

Exemple:

Une grande agence immobilière souhaite élaborer


un modèle pour prédire le prix de vente d’une
maison à partir de son prix d’achat.

Le fichier « House.sav » contient les données


relatives aux 30 dernières maisons vendues.

13
Rappel : Méthodologie pour l’élaboration de
Modèle de Régression
Oui
Identifier la Qualité de Estimation du Le modèle
l’ajustement modèle
Prévision
liaison linéaire est-il valide?

Non

On change le
modèle

Etape 1 : Identification de la liaison de type linéaire entre Y et les Xi


Etape 2 : Qualité du modèle de régression linéaire
Etape 3 : Estimation de l’équation de régression (des coefficients)
Etape 4 : Validation du modèle (Analyse des résidus)
Etape 5 : Prévision

14
Mise en oeuvre sous SPSS de la RLS
Identification de la liaison linéaire

1ère Étape: Vérification de la linéarité

15
Mise en oeuvre sous SPSS de la RLS
Identification de la liaison linéaire

Diagramme de Dispersion
16
Mise en oeuvre sous SPSS de la RLS
Identification de la liaison linéaire

Diagramme de Dispersion (suite)


17
Mise en oeuvre sous SPSS de la RLS
Identification de la liaison linéaire

Diagramme de Dispersion (suite) 18


Mise en oeuvre sous SPSS de la RLS
Identification de la liaison linéaire

Etude de la corrélation 19
Mise en oeuvre sous SPSS de la RLS
Identification de la liaison linéaire

Corrélations

Prix_Vente Prix_Achat
Prix_Vente Corrélation de Pearson 1 ,962
Sig. (bilatérale) ,000
N 30 30
Prix_Achat Corrélation de Pearson ,962 1
Sig. (bilatérale) ,000
N 30 30

Test de corrélation 20
Identification d’un modèle
Aussi bien le diagramme de dispersion que le test de
corrélation de Pearson suggèrent une relation linéaire entre
le prix de vente (variable dépendante) y et le prix d’achat
(variable indépendante) x:

y = β 0+ β 1x+ ε

21
Mise en oeuvre sous SPSS de la RLS

3ième Étape:

Estimation des paramètres

22
Mise en oeuvre sous SPSS de la RLS
Estimation par les moindres carrés

23
Mise en oeuvre sous SPSS de la RLS
Estimation par les moindres carrés
Coefficients a

Coefficients non Coefficients


standardisés standardisés
Erreur
Modèle
1 (constante)
Prix_A
B
-43,615
1,775
a. Variable dépendante : Prix_V
standard
7,668
,100
Bêta

,959
t
-5,688
17,816 ?
Signification
,000
,000

Bêta = B1*(SX/SY)

Prix_vente = -43,615 + 1,775 * Prix_achat

24
Mise en oeuvre sous SPSS de la RLS
Interprétation

Une pente de 1,775 implique qu’une augmentation d’une


unité en X entraînera une augmentation moyenne de 1,775
unités en Y.

y = -43,615+1,775 x

25
Hypothèses de la RLS
Ajustement vs Inférence
La régression linéaire (simple ou multiple) peut être utilisée
comme méthode :
Descriptive : pour décrire la relation linéaire entre deux
séries de données observées. On parle d’ajustement linéaire
et dans ce cas, les hypothèses requises sont assez
générales:
Hypothèse 1 : La relation entre X et Y doit être linéaire;
Hypothèse 2 : le nombre d’observations doit être supérieur au
nombre de variables;
Hypothèse 3 : les variables exogènes doivent être linéairement
indépendantes.

Inférentielle : Le modèle estimé peut être généralisé à la


population dont est issu l’échantillon.
26
Hypothèses de la RLS
Ajustement vs Inférence
Pour faire de l’inférence statistique (Echantillon ->
Population), il est indispensable de vérifier:

Hypothèse 4 : Normalité et indépendance des Yi


Hypothèse 5 : Homoscedasticité
Hypothèse 6 : Les résidus doivent être Normaux,
indépendants, centrés et non corrélées avec les
variables explicatives.

27
Hypothèses de la RL : Inférence
On suppose que Y1,Y2,…, Yn sont indépendants et pour
chaque i, Yi est N(β0+β1xi,σ2)

Illustration : Yi= β0 + β1X1i+εi


Yi Yi

εi

X1i

28
Mise en oeuvre sous SPSS de la RLS
Inférence

Coefficients a

Coefficients non Coefficients


standardisés standardisés
Erreur
Modèle
1 (constante)
Prix_A
B
-43,615
1,775
a. Variable dépendante : Prix_V
standard
7,668
,100
Bêta

,959
t

?
-5,688
17,816
Signification
,000
,000

29
Mise en oeuvre sous SPSS de la RLS
Inférence

Statistiques permet
d’obtenir l’estimation
des coefficients de
la régression ainsi
que les intervalles
de confiance des
variables exogènes.

30
Mise en oeuvre sous SPSS de la RLS
Inférence
Coefficientsa

Coefficients non Coefficients Intervalle de confiance à


standardisés standardisés 95% de B
Erreur Borne Borne
Modèle B standard Bêta t Signification inférieure supérieure
1 (constante) -43,615 7,668 -5,688 ,000 -59,323 -27,908
Prix_A 1,775 ,100 ,959 17,816 ,000 1,571 1,979
a. Variable dépendante : Prix_V

P-value
Statistique t pour
Estimation Ecart-type estimé de tester la signification
ponctuelle l’estimateur Estimation
par intervalle

|T| > 1.96 ⇒ « signification » de la variable explicative, ou


P-value < 0.05
31
Qualité d’ajustement : Variance expliquée

Partie très importante dans toute procédure statistique de


construction de modèles à partir des données :
Comment le modèle s’ajuste-t-il aux données?
L’étude inclut aussi la détection de violations possibles des
hypothèses requises.
Variance expliquée :
C’est un critère de qualité d’ajustement d’un modèle: Plus on
explique cette variance, meilleure sera la qualité de
représentation des individus par le modèle.
Le coefficient de détermination R² :
R² =
V Yˆ ()
V (Y )
32
Qualité d’ajustement (suite)

Y R2 = 1, R = +1 Y R2 = 1, R= -1
^=b +b X
Yi 0 1 i
^=b +b X
Yi 0 1 i
X X

R 2 = .8, R = +0.9 R2 = 0, R = 0
Y Y

^=b +b X
Y ^=b +b X
Y
i 0 1 i i 0 1 i
X X
33
Mise en oeuvre sous SPSS de la RLS
Identification de la liaison linéaire

3ième Étape: Qualité d’ajustement

34
Qualité d’ajustement

Récapitulatif du modèle b

Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,959a ,919 ,916 3,6273
a. Valeurs prédites : (constantes), Prix_A
b. Variable dépendante : Prix_V
35
Qualité d’ajustement (suite)
Le R2-Ajusté, est davantage utilisé que le R² car
il ne dépend pas du nombre de variables:

p (1 − R )
2
R 2
=R −
2

N − p −1
ajusté

où p est le nombre de variables indépendantes et


N le nombre d’observations.

36
Analyse de la variance (suite)
Yi
Y ∧
∑(Yi - Yi )2
SSE =∑
_ Yˆi = βˆ0 + βˆ1 X i
SST = ∑(Yi - Y)2

∧ _
SSR = ∑(Yi - Y)2
_
Y

X
Xi

∑ (Y ) ( )
N N N

∑ (Y
i=1
i − Y )² =
i=1
i − Y$ i ² + ∑ Y$ i − Y ²
i=1
37
Table de l’anova

H 0 : β i = 0 vs H 1 : β i ≠ 0 pour au moins un i

ANOVAb

Somme
Modèle des carrés ddl Carré moyen F Signification
1 SSR Régression 4206,671 1 4206,671 348,374 ,000a
SSE Résidu 338,105 28 12,075
SST Total 4544,775 29
a. Valeurs prédites : (constantes), Prix_Achat
b. Variable dépendante : Prix_Vente

SSR
F= k ≈ Fk ,n − k −1
SSE (n − k − 1)
38
Valeurs prédites et leurs écarts-types

• Prix de vente moyen de maisons dont la valeur à l’achat


est de 67K.
• Prix de vente d’une maison dont la valeur à l’achat est
de 67K.

Prix_vente prédit = - 43.615+1.775 * 67 = 75.33 K

Même chose. Ce qui diffère c’est l’erreur standard de la


prévision.

39
Valeurs prédites et leurs écarts-types
Prédire une valeur moyenne
L’erreur standard estimée pour la valeur moyenne prédite de Y à X0
est :

1 (X0 − X ) Plus on est éloigné de la


sYˆ = s + moyenne, plus grande sera
n (n − 1) S X2 l’erreur standard.

40
Valeurs prédites et leurs écarts-types
Prédire une nouvelle valeur
Prix de vente d’une maison dont la valeur à l’achat est de 67K?
L’ES estimée pour la valeur prédite de Y à X0 est :

1 (X0 − X )
sYˆ ind = s 1+ +
n (n − 1) S X2

41
Valeurs prédites et leurs écarts-types
Intervalles de prévision

S’en déduisent des erreurs précédentes:

42
Violation des Hypothèses la RL
Normalité de Y
SPSS vous propose
plusieurs outils pour
étudier la normalité de la
variable endogène.
Le test de Kolmogorov-
Smirnov

43
Violation des Hypothèses la RL
Normalité de Y
Test de Kolmogorov-Smirnov à un échantillon

Prix_V
N 30
Paramètres normauxa,b Moyenne 92,495
Ecart-type
12,5189

Différences les plus Absolue ,151


extrêmes Positive ,133
Négative -,151
Z de Kolmogorov-Smirnov ,827
Signification asymptotique (bilatérale)
,502

a. La distribution à tester est gaussienne.


b. Calculée à partir des données.

44
Violation des Hypothèses la RL
Normalité de Y
On dispose également de plusieurs outils graphiques
permettant d’illustrer les tests proposés ci-dessus.
Graphes>Histogrammes ou Graphes>P-P donnent:

45
Violation des Hypothèses la RL
Résidus
En régression, les vrais erreurs εi sont supposés être
indépendants de moyenne 0 et de variance constante σ2.
Si le modèle est approprié pour les données, les résidus
observés :
ei = Yi − Yˆi
devraient avoir un comportement similaire.

46
Analyse des résidus
Vérifier la linéarité

Y Y

X
X
e
e

X X

Non linéaire Linéaire


47
Violation des Hypothèses la RL
Résidus
Variance constante : Cette étude est essentiellement
graphique. On utilise :
le graphe des résidus fonction des X
Le graphe (pred, res).
Si l’hypothèse de linéarité et d’homogénéité de variance
sont vérifiées:
•il ne devrait pas y avoir de relation entre pred et res,
• et les résidus devraient se comporter de manière aléatoire le
long d’une bande autour de 0.
• la variabilité des résidus n’augmente pas en fonction de
l’ampleur des valeurs prévues.
48
Violation des Hypothèses la RL
Résidus

y y

x x
SRE SRE

x x

Hétéroscédasticité Homoscédasticité
49
Violation des Hypothèses la RL
Résidus
En représentant les ei en fonction des Ŷ, on peut
visualiser les variances:

50
Violation des Hypothèses la RL
Résidus

51
Violation des Hypothèses la RL
Résidus

52
Violation des Hypothèses la RL
Analyse des résidus
Après avoir étudié ces premières phases, vous devez
impérativement regarder si certains individus ne sont pas
aberrants et ne risquent pas de fausser l’analyse.

Détection et Traitement des points aberrants

On considère qu’un individu a une variabilité acceptable


dans la mesure où les résidus standardisés sont dans
l’intervalle :]-2,+2[ (95%) ou ]-3,+3[ (99%).
53
Analyse des résidus

54
Analyse des résidus
Diagnostic des observations a

Résidu
Numéro de l'observation standardisé Prix_V Prévision Résidu
7 2,351 93,5 84,971 8,5291
a. Variable dépendante : Prix_V

Valeur atypique

55
Analyse des résidus
Le traitement est très simple. L’objectif est de
neutraliser l’effet de cet individu atypique.

On crée une variable muette qui prendra 1 pour


l’observation 7 et 0 ailleurs. Ainsi, on introduit cette
nouvelle variable en tant que variable explicative.
(Dans notre exemple, la variable indicatrice s’appelle DUM).

L'estimation des nouveaux coefficients est obtenue


en introduisant la variable DUM comme deuxième
variable exogène.
56
Analyse des résidus
Sans Dummy Avec Dummy
Récapitulatif du modèleb
Récapitulatif du modèle b
Erreur
Erreur
standard de standard de
Modèle R R-deux R-deux ajusté l'estimation Modèle R R-deux R-deux ajusté l'estimation
1 ,959a ,919 ,916 3,6273 1 ,967a ,936 ,931 3,2891
a. Valeurs prédites : (constantes), Prix_A a. Valeurs prédites : (constantes), DUM, Prix_A

b. Variable dépendante : Prix_V b. Variable dépendante : Prix_V

a
Coefficients

Coefficients non Coefficients


standardisés standardisés
Erreur
Modèle B standard Bêta t Signification
1 (constante) -46,108 7,016 -6,572 ,000
Prix_A 1,804 ,091 ,974 19,825 ,000
DUM 8,949 3,369 ,131 2,656 ,013
a. Variable dépendante : Prix_V

57
Analyse des résidus
L’observation 7 n’est plus atypique

58
Distribution des résidus

Il est également très


important de vérifier la
normalité des résidus et de
regarder s’ils sont bien
aléatoires.

Le test de Kolmogorov-
Smirnov permet de tester la
normalité des résidus
(standardisés) préalablement
enregistrés:

59
Distribution des résidus

60
Distribution des résidus

Test de Kolmogorov-Smirnov à un échantillon

Standardized
Residual
N 30
Paramètres normauxa,b Moyenne ,0000000
Ecart-type
,96490128

Différences les plus Absolue ,096


extrêmes Positive ,073
Négative -,096
Z de Kolmogorov-Smirnov ,525
Signification asymptotique (bilatérale)
,946

a. La distribution à tester est gaussienne.


b. Calculée à partir des données.

L’hypothèse de normalité est retenue.

61
Distribution des résidus

Là encore l’hypothèse de normalité peut être retenue.


62
L’autocorrélations des erreurs
L’autocorrélations des erreurs : problème souvent
rencontré en économétrie: modèle mal spécifié, manque une
variable explicative primordiale, etc.
60

40

Il n’y a pas de régularité 20

al
évidente dans la suite des

esidu
0

e dR
valeurs des résidus.

ardiz
-20

n
Us n
ta d
-40
0 2 4 6 8 10 12 14 16

Numéro de séquence

∑ (e − e )²
N
t t −1
Durbin et Watson (d) d= t=2
N

∑e
t=2
t
2

Pour ne pas avoir autocorrélation des erreurs, il est nécessaire que


d≈2 .
63
Transformations en régression Linéaire

On a recours à certaines transformations pour

1. Rendre la relation linéaire, ou

2. Remédier au problème d’hétéroscedasticité.

Exemple de transformations courantes:

f(Y )=√ Y ou f(X)=√ X ou les deux .

f(Y )=ln(Y)

64
En résumé :
Construction de Modèles de RL

Etape 1 : Identification de la liaison de type linéaire entre


Y et les Xi
Etape 2 : Qualité du modèle de régression linéaire
Etape 3 : Estimation de l’équation de régression (des
coefficients)
Etape 4 : Validation du modèle (Analyse des résidus)
Etape 5 : Prévision

65
Atelier 1 : Régression linéaire simple

Données : Employés.sav
Variable à expliquer : Salaire actuel
Variable explicative : Salaire d’embauche

66
Partie 2.2

R
Régression
égression L
Linéaire
inéaire M
Multiple
ultiple

67
Sommaire
Introduction

Régression linéaire multiple

Estimation

Illustration des différentes étapes sur un exemple.

Analyse des résidus

68
Introduction
La relation entre p variables Xi et Y est décrite par:

Y = β0 + β1 X1 + K + β p X p + ε
Où β0 , β1, … sont les constantes que l’on cherche à évaluer
et ε est un terme aléatoire que l’on appelle erreur.

Notation vectorielle:
Y1   X 11 L X 1 p   β 1  ε 1 
M =M M M    
   M +M 
Y N   X N 1 L X Np   β p  ε p 

Y = Xβ + ε

69
Introduction (suite)
La méthode des moindres carrés consiste à trouver
^0, ^β1, …, β^p qui minimisent
les paramètres β

Y − β X Euclidienne
Le traitement de la régression multiple exigent les mêmes
hypothèses que pour le traitement d’une régression simple:
•Linéarité,
•linéaire indépendance des colonnes de la matrice X,
• indépendance des Yi,
• normalité et
• homoscedasticité.
70
Modèles de Régression Multiple :
Méthodologie

Identifier la Qualité de Estimation du Le modèle Oui


l’ajustement modèle
Prévision
liaison linéaire est-il valide?

Non

On change le
modèle

Etape 1 : Identification de la liaison de type linéaire entre Y et les Xi


Etape 2 : Qualité du modèle de régression linéaire
Etape 3 : Estimation de l’équation de régression (des coefficients)
Etape 4 : Validation du modèle (Analyse des résidus)
Etape 5 : Prévision

71
Mise en oeuvre de la régression linéaire
multiple
Exemple: Un constructeur automobile cherche à étudier
les caractéristiques agissants sur le succès commercial
d’un véhicule.
Il dispose de données relatives aux ventes d’une grande
variétés de véhicules. Dans le but de déterminer les
caractéristiques pertinentes pour les performances
commerciales d’un véhicule, on cherche à établir une
relation entre les ventes et les caractéristiques.
Le fichier «car_sales.sav » contient les données relatives
aux 157 véhicules vendus dernièrement et sur lesquelles
nous allons travailler pour illustrer la procédure de la
régression linéaire de SPSS.
72
Mise en oeuvre de la régression linéaire
multiple
La variable «Sales : Ventes (en milliers)» constitue la
variable endogène du modèle. Toutes les autres vont
être considérées, a priori, comme étant des variables
explicatives à part entière.
Avant d’entamer une analyse de régression, nous allons
d’abord
1. Explorer les données :
1. Exploration (univariée) des variables indépendantes (Analyse >
Explorer)
2. Exploration de la variable dépendante (Analyse > Explorer)

2. Explorer les relations entre les variables et vérifier


l’hypothèse de linéarité et l’hypothèse de normalité.

73
Mise en oeuvre sous SPSS de la méthodologie
Interprétations et corrections (suite)
En ce qui concerne la linéarité, les graphiques ci-dessous laissent penser
que l’hypothèse de linéarité semble acceptable.

74
Corrélations
Plusieurs variables indépendantes sont fortement corrélées.
Corrélations

Corrélation de Pearson
sales resale price engine_s horsepow wheelbas width length curb_wgt fuel_cap
sales 1 -,279** -,305** ,020 -,198* ,358** ,141 ,255** ,009 ,087
resale -,279** 1 ,954** ,531** ,769** -,052 ,179 ,027 ,362** ,326**
price -,305** ,954** 1 ,627** ,840** ,111 ,329** ,157 ,526** ,423**
engine_s ,020 ,531** ,627** 1 ,837** ,472** ,690** ,541** ,760** ,663**
horsepow -,198* ,769** ,840** ,837** 1 ,286** ,539** ,393** ,610** ,500**
wheelbas ,358** -,052 ,111 ,472** ,286** 1 ,683** ,840** ,651** ,654**
width ,141 ,179 ,329** ,690** ,539** ,683** 1 ,710** ,721** ,656**
length ,255** ,027 ,157 ,541** ,393** ,840** ,710** 1 ,627** ,564**
curb_wgt ,009 ,362** ,526** ,760** ,610** ,651** ,721** ,627** 1 ,864**
fuel_cap ,087 ,326** ,423** ,663** ,500** ,654** ,656** ,564** ,864** 1
**. La corrélation est significative au niveau 0.01 (bilatéral).
*. La corrélation est significative au niveau 0.05 (bilatéral).

75
Mise en oeuvre sous SPSS de la méthodologie
Interprétations et corrections (suite)

Qu’en est-il de la normalité? Elle est loin d’être satisfaite!

76
Mise en oeuvre sous SPSS de la méthodologie
Interprétations et corrections (suite)
Cela se confirme par le test de Kolmogorov-Smirnov:

On rejette l’hypothèse
de normalité

La variable endogène suit


une loi exponentielle

77
Mise en oeuvre sous SPSS de la méthodologie
Interprétations et corrections (suite)
Ainsi nous avons affaire à une loi asymétrique (Skewed). Une
transformation du genre f(Y)=ln(Y) semble appropriée pour
s’approcher de la symétrie. Cela donne:

78
Corrélations
Plusieurs variables indépendantes sont fortement corrélées.

Corrélations

Corrélation de Pearson
lnsales resale price engine_shorsepowwheelbas width length curb_wgtfuel_cap mpg
lnsales 1 -,525** -,553** -,139 -,387** ,293** ,041 ,217** -,040 -,017 ,120
resale -,525** 1 ,954** ,531** ,769** -,052 ,179 ,027 ,362** ,326** -,401**
price -,553** ,954** 1 ,627** ,840** ,111 ,329** ,157 ,526** ,423** -,492**
engine_s -,139 ,531** ,627** 1 ,837** ,472** ,690** ,541** ,760** ,663** -,735**
horsepow -,387** ,769** ,840** ,837** 1 ,286** ,539** ,393** ,610** ,500** -,611**
wheelbas ,293** -,052 ,111 ,472** ,286** 1 ,683** ,840** ,651** ,654** -,498**
width ,041 ,179 ,329** ,690** ,539** ,683** 1 ,710** ,721** ,656** -,603**
length ,217** ,027 ,157 ,541** ,393** ,840** ,710** 1 ,627** ,564** -,447**
curb_wgt -,040 ,362** ,526** ,760** ,610** ,651** ,721** ,627** 1 ,864** -,818**
fuel_cap -,017 ,326** ,423** ,663** ,500** ,654** ,656** ,564** ,864** 1 -,802**
mpg ,120 -,401** -,492** -,735** -,611** -,498** -,603** -,447** -,818** -,802** 1
**.La corrélation est significative au niveau 0.01 (bilatéral).

79
Mise en oeuvre sous SPSS de la méthodologie

Dorénavant nous allons considérer la variable


«lnsales», qui est le logarithme de la variable
«sales», comme variable endogène que nous
chercherons à exprimer en fonction des variables
restantes (sauf «sales»).

Elles sont nombreuses. SPSS met à la disposition


de l’utilisateur 5 méthodes de sélection de
variables explicatives:

80
Régression Multiple :
Méthodes de sélection de variables
1. Entrée (régression) : Procédure de sélection de variables au
cours de laquelle toutes les variables d'un bloc sont
introduites en une seule opération.
2. Éliminer bloc : Procédure de sélection de variables dans
laquelle toutes les variables d'un bloc sont supprimées en
une seule étape.
3. Élimination descendante : Toutes les variables sont entrées
dans l'équation, puis éliminées une à une en commençant
par celle qui a la plus petite corrélation partielle avec la
variable dépendante. Toute variable qui répond aux critères
d'élimination est supprimée. La procédure prend fin quand
plus aucune variable de l'équation ne satisfait aux critères
d'élimination.
81
Régression Multiple :
Méthodes de sélection de variables (suite)
4. Introduction ascendante : Les variables sont introduites
séquentiellement dans le modèle. La première variable
considérée est celle qui a la plus forte corrélation positive ou
négative avec la variable dépendante lorsqu’elle satisfait le
critère d'introduction. La procédure s'interrompt lorsqu'il ne
reste plus de variables satisfaisant au critère d'introduction.
5. Pas à pas : A chaque étape, le programme saisit la variable
indépendante exclue de l'équation ayant la plus petite
probabilité de F, si cette probabilité est suffisamment faible.
Les variables déjà comprises dans l'équation de régression
sont éliminées si leur probabilité de F devient trop grande. Le
processus s'arrête lorsque aucune variable ne peut plus être
introduite ou éliminée.

82
Régression Multiple :
Méthodes de sélection de variables(suite)

Notons toutefois que l’utilisation des méthodes


automatiques, «Pas à pas», « Ascendante » …etc. ne
produit pas forcément le meilleur modèle au sens
statistique. Ces méthodes ne devrait jamais remplacer
le bon sens et la capacité de jugement d’un utilisateur
expérimenté.

Ainsi pour mieux se faire une idée sur la contribution de


chaque variable, nous allons inclure toutes les variables
indépendantes dans notre modèle.

83
Régression Multiple :
Méthodes de sélection de variables(suite)

84
Régression Multiple :
Choix du modèle
Récapitulatif du modèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,697a ,486 ,449 ,98960
a. Valeurs prédites : (constantes), Fuel efficiency, Length,
Coefficients a
Price in thousands, Vehicle type, Width, Engine size, Fuel
capacity, Wheelbase, Curb weight, Coefficients
Horsepowernon Coefficients
standardisés standardisés
Erreur
Modèle B standard Bêta t Signification
1 (constante) -3,017 2,741 -1,101 ,273
Vehicle type ,883 ,331 ,293 2,670 ,008
Price in thousands -,046 ,013 -,502 -3,596 ,000
Engine size ,356 ,190 ,281 1,871 ,063
Horsepower -,002 ,004 -,092 -,509 ,611
Wheelbase ,042 ,023 ,241 1,785 ,076
Width -,028 ,042 -,073 -,676 ,500
Length ,015 ,014 ,148 1,032 ,304
Curb weight ,156 ,350 ,075 ,447 ,655
Fuel capacity -,057 ,047 -,167 -1,203 ,231
Fuel efficiency ,081 ,040 ,262 2,023 ,045
a. Variable dépendante : Log-transformed sales

En plus du nombre élevé des variables indépendantes, plusieurs d’entre elles sont
statistiquement non significatives, et donc ne contribuent que très peu au modèle.
85
Régression Multiple :
Choix du modèle (suite)

Pour déterminer l’importance des variable explicatives,


examinons les coefficients standardisés. Malgré que le
coefficient de la variable «Price» est petit devant celui de la
variable «Vehicle type», la contribution de la variable «Price»
est plus importante puisqu’elle a un plus grand coefficient
standardisé en valeur absolue.

86
Régression Multiple :
Choix du modèle (suite)
Pour la majorité des variables exogènes les coefficients
de corrélation partielle sont inférieurs aux coefficients de
corrélation totale. Cela indique, par exemple, qu’une
bonne partie de la variation de la variable endogène qui
est expliquée par « Price » est aussi expliquée par
d’autres variables.
Coefficientsa

Coefficients non Coefficients


standardisés standardisés Corrélations
Erreur Corrélation
Modèle B standard Bêta t Signification simple Partielle Partie
1 (constante) -3,503 3,354 -1,044 ,299
resale -,016 ,037 -,140 -,434 ,665 -,524 -,042 -,032
type ,874 ,414 ,283 2,111 ,037 ,265 ,202 ,156
price -,024 ,036 -,252 -,665 ,507 -,490 -,065 -,049
engine_s ,250 ,258 ,197 ,971 ,334 -,156 ,094 ,072
horsepow -,001 ,006 -,052 -,208 ,836 -,359 -,020 -,015
wheelbas ,070 ,031 ,424 2,254 ,026 ,335 ,215 ,167
width -,006 ,052 -,015 -,113 ,911 ,063 -,011 -,008
length ,001 ,020 ,010 ,048 ,962 ,196 ,005 ,004
curb_wgt -,010 ,503 -,004 -,019 ,985 -,018 -,002 -,001
fuel_cap -,089 ,062 -,253 -1,428 ,156 -,015 -,138 -,106
mpg ,056 ,050 ,184 1,112 ,268 ,109 ,108 ,082
a. Variable dépendante : lnsales

87
Régression Multiple :
Choix du modèle (suite)
La tolérance est le pourcentage de la variation d’une variable exogène
qui ne peut pas être expliquée par les autres variables. Lorsque les
tolérance sont proches de 0, les variables exogènes sont fortement
linéairement dépendants ce qui se traduit par une inflation de la variance
des coefficients de la régression. VIF=1/Tolérance.

Coefficientsa

Coefficients non Coefficients Statistiques de


standardisés standardisés colinéarité
Erreur
Modèle B standard Bêta t Signification Tolérance VIF
1 (constante) -3,017 2,741 -1,101 ,273
type ,883 ,331 ,293 2,670 ,008 ,304 3,293
price -,046 ,013 -,502 -3,596 ,000 ,187 5,337
engine_s ,356 ,190 ,281 1,871 ,063 ,162 6,159
horsepow -,002 ,004 -,092 -,509 ,611 ,112 8,896
wheelbas ,042 ,023 ,241 1,785 ,076 ,200 4,997
width -,028 ,042 -,073 -,676 ,500 ,313 3,193
length ,015 ,014 ,148 1,032 ,304 ,178 5,605
curb_wgt ,156 ,350 ,075 ,447 ,655 ,131 7,644
fuel_cap -,057 ,047 -,167 -1,203 ,231 ,189 5,303
mpg ,081 ,040 ,262 2,023 ,045 ,217 4,604
a. Variable dépendante : lnsales
88
Régression Multiple :
Choix du modèle (suite)

Pour palier à ce problème de colinéarité des


variables exogènes et pour réduire le VIF nous
allons relancer l’analyse de régression mais en
choisissant cette fois les Zscores comme variables
exogènes.

Afin de ne garder que les variables ‘‘utiles’’ nous


allons recourir à la méthode « pas à pas ».

89
Régression Multiple :
Choix du modèle (suite)

Remarque: En règle générale, étant donné que les variables


exogènes ne sont pas forcément exprimées dans la même
unité de mesure, il est judicieux de travailler avec des
variables standardisées : zscores.

90
Régression Multiple :
Exploration après transformation
Voici les résultats de l’analyse
Récapitulatif du modèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,552a ,304 ,300 1,11553
2 ,655b ,430 ,422 1,01357
a.
Valeurs prédites : (constantes), Zscore: Price in thousands
b. Valeurs prédites : (constantes), Zscore: Price in
thousands, Zscore: Wheelbase Coefficients a

Coefficients non Coefficients


standardisés standardisés
Erreur
Modèle B standard Bêta t Signification
1 (constante) 3,286 ,090 36,316 ,000
Zscore: Price in
-,732 ,090 -,552 -8,104 ,000
thousands
2 (constante) 3,290 ,082 40,020 ,000
Zscore: Price in
-,783 ,083 -,590 -9,487 ,000
thousands
Zscore: Wheelbase ,470 ,082 ,356 5,718 ,000
a. Variable dépendante : Log-transformed sales

91
Régression Multiple :
Choix du modèle Pas à Pas

Le R-deux ajusté du nouveau modèle avec 2 variables est


presque égal à celui de l’ancien modèle (R-deux augmente
avec le nombre de variables).
Récapitulatif du modèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,697a ,486 ,449 ,98960
a. Valeurs prédites : (constantes), Fuel efficiency, Length,
Price in thousands, Vehicle type, Width, Engine size, Fuel
capacity, Wheelbase, Curb weight, Horsepower

Récapitulatif du modèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,552a ,304 ,300 1,11553
2 ,655b ,430 ,422 1,01357
a.
Valeurs prédites : (constantes), Zscore: Price in thousands
b. Valeurs prédites : (constantes), Zscore: Price in
thousands, Zscore: Wheelbase

92
Régression Multiple :
Choix du modèle (suite)
La méthode pas à pas a choisi les variables Price et
wheelbase comme variable exogènes. Les ventes sont
négativement affectées par le prix et positivement affectées
par la taille du véhicule. En guise de conclusion: Les
consommateurs préfèrent les voitures pas chères.
Coefficientsa

Coefficients non Coefficients


standardisés standardisés
Erreur
Modèle B standard Bêta t Signification
1 (constante) 3,286 ,090 36,316 ,000
Zscore: Price in
-,732 ,090 -,552 -8,104 ,000
thousands
2 (constante) 3,290 ,082 40,020 ,000
Zscore: Price in
-,783 ,083 -,590 -9,487 ,000
thousands
Zscore: Wheelbase ,470 ,082 ,356 5,718 ,000
a. Variable dépendante : Log-transformed sales
93
Mise en oeuvre sous SPSS de la méthodologie
Choix du modèle (suite)

Il est intéressant d’examiner le choix des variable par la méthode pas à pas. Price a
été choisie en premier car c’est la variable la plus corrélée avec sales.

La prochaine à choisir est


celle avec la plus grande
corrélation partielle parmi
celle dont le niveau de
signification est < 5%.
(Ici tous les niveaux sont < 5%)

94
Mise en oeuvre sous SPSS de la méthodologie
Choix du modèle (suite)
Aucune autre variable ne peut être choisie car tous les niveaux de
sugnification sont > 5%.

95
Régression Multiple :
Choix du modèle (suite)
Afin de voir qu’il n’existe plus de d’éventuelle
variables exogène X, il est utile de représenter les
résidus standardisés ZRESID en fonction de X. Si
l’on remarque l’existence d’une relation, on devrait
inclure cette variable dans le modèle.
Arrivé à ce stade, il est utile d’analyser les résidus
en vue d’améliorer le modèle.

96
Mise en oeuvre sous SPSS de la méthodologie
Analyse des résidus
L’analyse des résidus est essentiellement graphique.

97
Mise en oeuvre sous SPSS de la méthodologie
Analyse des résidus

L’hypothèse de normalité semble bien vérifiée.

98
Mise en oeuvre sous SPSS de la méthodologie
Analyse des résidus
En choisissant d’étiqueter les observations par Model on
pourra facilement les identifier. Par exemple c’est le véhicule
3000GT qui semble se vendre le moins
(Résidu standardisé = - 4,905).

99
Mise en oeuvre sous SPSS de la méthodologie
Analyse des résidus
Pour vérifier L’hypothèse d’indépendance, on représente les
ZRESID en fonction de la variable temps que l’on crée:

100
Mise en oeuvre sous SPSS de la méthodologie
Analyse des résidus

Le nuage ne présente aucune allure particulière. On retient alors l’hypothèse


d’indépendance.

101
Mise en oeuvre sous SPSS de la méthodologie
Détection d’observations atypiques
Une représentation des résidus standardisés ZRESID en
fonction des prédictions standardisées ZPRED permet de
détecter les observations atypiques.

102
Mise en oeuvre sous SPSS de la méthodologie
Détection d’observations atypiques
Les points à l’extérieur de la bande correspondent à des observations atypiques.

103
Mise en oeuvre sous SPSS de la méthodologie
Traitement des points atypiques
Selon le graphique ci-dessus, SPSS détecte la présence de cinq points
aberrants (les observations 53, 84, 109, 116 et 118).
Nous allons créer autant de variables indicatrices qu’il y a de points
aberrants en les incorporant dans le modèle une à une.

104
Mise en oeuvre sous SPSS de la méthodologie
Traitement des points atypiques

105
Mise en oeuvre sous SPSS de la méthodologie
Traitement des points atypiques

106
Mise en oeuvre sous SPSS de la méthodologie
Traitement des points atypiques

On constate qu’il existe encore des valeurs atypiques. Cela pourrait être dû
à l’existence de variables trop influentes. Comment les détecter?
107
Mise en oeuvre sous SPSS de la méthodologie
Détection de points atypiques influents

Représenter la distance de Cook en fonction du temps.

108
Atelier 2 :
Construction d’un modèle de RLM

Construire un modèle linéaire multiple prédisant le


Salaire d’Embauche en fonction des variables:
Age; sexe; Niveau d’éducation et Expérience en
utilisant la procédure de sélection pas à pas.

109
Avec tout le monde

Récapitulatif du modèleb Coefficientsa


Erreur Coefficients non Coefficients
standard de Durbin- standardisés standardisés
Modèle R R-deux R-deux ajusté l'estimation Watson Erreur
1 ,886a ,786 ,785 ,18415 1,817 Modèle B standard Bêta
1 (constante) ,705 ,232
a. Valeurs prédites : (constantes), Logarithme Salaire d'embauche
Logarithme Salaire
b. Variable dépendante : Logarithme Salaire Actuel ,998 ,024 ,886
d'embauche
a. Variable dépendante : Logarithme Salaire Actuel

Sans 218 le monde Coefficientsa


Récapitulatif du modèleb Coefficients non Coefficients
standardisés standardisés
Erreur
standard de Durbin- Erreur
Modèle R R-deux R-deux ajusté l'estimation Watson Modèle B standard Bêta t
1 (constante) ,703 ,226 3,110
1 ,892a ,795 ,795 ,17920 1,718
Logarithme Salaire
a. Valeurs prédites : (constantes), Logarithme Salaire d'embauche ,998 ,023 ,892 42,746
d'embauche
b. Variable dépendante : Logarithme Salaire Actuel a. Variable dépendante : Logarithme Salaire Actuel
Coefficientsa
Avec DUM218 Coefficients non Coefficients
Récapitulatif du modèleb standardisés standardisés
Erreur
Erreur Modèle B standard Bêta
standard de Durbin- 1 (constante) ,703 ,226
Modèle R R-deux R-deux ajusté l'estimation Watson Logarithme Salaire
1 ,893a ,797 ,797 ,17920 1,728 d'embauche
,998 ,023 ,886 42,746
a. Valeurs prédites : (constantes), D218, Logarithme Salaire d'embauche D218 ,940 ,179 ,109
b. Variable dépendante : Logarithme Salaire Actuel a. Variable dépendante : Logarithme Salaire Actuel
110

Vous aimerez peut-être aussi