Partie REGRESSION

Partie 2 : Modèle de
régression linéaire
simple et multiple
1
Sommaire
Introduction
Partie I : Régression linéaire simple
Partie II : Régression linéaire Multiple
Ateliers 1 et 2
2
Introduction
Régression linéaire : technique de modélisation qui
permet de mettre en équation une relation entre une
variable endogène (à expliquer) et n variables
exogènes (explicatives).
Cette technique est couramment utilisée lorsque l’on
souhaite prédire la réalisation d’une variable de type
continue (intervalle ou ratio) à l’aide d’un ensemble de
variables, dits prédicteurs, du même type; des
prédicteurs de type catégoriels pouvant aussi être
considérés.
3
Introduction
La régression linéaire permet de modéliser une relation
entre une variable endogène (ou dépendante) Y et p
variables exogènes (ou indépendantes) X1, X2, …,Xp:
Y = β0 + β1 X1 +K+ βp Xp +ε
• Les βi sont les coefficients que l’on va chercher à estimer.

• ε est la partie aléatoire que l’on ne peut contrôler. On
l’appelle aussi erreur.
4
Introduction
Exemple : on veut représenter la consommation d’un agent
énergétique en fonction de facteurs explicatifs :
La température moyenne sur un mois d’un ménage
L’épaisseur de l’isolation du logement
Cosommation Isolation Température
Gallon/mois (en cm) Moyenne (°F)
1 275,30 3,00 40,00
2 363,80 3,00 27,00
3 164,30 10,00 40,00
4 40,80 6,00 73,00
5 94,30 6,00 64,00
6 230,90 6,00 34,00
7 366,70 6,00 9,00
8 300,60 10,00 8,00
9 237,80 10,00 23,00
10 121,40 3,00 63,00
11 31,40 10,00 65,00
12 203,50 6,00 41,00
13 441,10 3,00 21,00
14 323,00 3,00 38,00
15 52,50 10,00 58,00
5
Introduction
Exemple : consommation énergétique en fonction de la
température moyenne mensuelle et de l’épaisseur de l’isolation du
logement.
Yi = β 0 + β1 X 1i + β 2 X 2 i + ε i
Influence de
Observation i de la Terme constant l’isolation
Consommation
mensuelle
Influence de la
Température Erreur
aléatoire
6
Types de relations
Relation linéaire positive Relation non linéaire
Relation linéaire négative Aucune relation
7
Partie 2.1
R
Régression
égression L
Linéaire
inéaire S
Simple
imple
8
Droite de régression
Yi = β 0 + β1 X i + ε i
Y (Valeur moyenne prédite)
ε i = Erreur β1
La pente
β0
X
Valeurs observées deY
L’intercepte
9
Régression linéaire simple
La relation entre deux variables x et y est décrite par:
y = β 0+ β 1x+ ε
Où β0 et β1 sont deux constantes que l’on cherche à évaluer et
ε est un terme aléatoire que l’on appelle erreur.
Pour estimer β0 et β1 on dispose d’un échantillon (x1,y1),…, (xn,yn)

supposé vérifier:
yi = β0+ β1 xi + εi , pour i =1,2,L, n.
10
Estimation des β : Méthode des MC
Elle consiste à trouver βˆ0 et βˆ1 qui maximisent

minimisent
∑ ( yi − β − β xi
0 1
)2 = ∑ε i2
i i
On note yî = βˆ + βˆ xi
0 1
et ei = yi − yî
βˆ0 et βˆ1 sont les estimateurs des moindres carrés de
β 0 et β1.
11
Remarques:
La méthode des moindres carrés est une méthode
géométrique. Elle repose sur la seule hypothèse :
«La relation liant les 2 variables x et y est linéaire»
On peut vérifier l’hypothèse de linéarité:

En examinant le nuage de points (xi ,yi).
En testant la corrélation entre x et y.
12
Mise en oeuvre sous SPSS de la RLS
Identification de la liaison linéaire
Exemple:
Une grande agence immobilière souhaite élaborer

un modèle pour prédire le prix de vente d’une
maison à partir de son prix d’achat.
Le fichier « House.sav » contient les données

relatives aux 30 dernières maisons vendues.
13
Rappel : Méthodologie pour l’élaboration de
Modèle de Régression
Oui
Identifier la Qualité de Estimation du Le modèle
l’ajustement modèle
Prévision
liaison linéaire est-il valide?
Non
On change le
modèle
Etape 1 : Identification de la liaison de type linéaire entre Y et les Xi

Etape 2 : Qualité du modèle de régression linéaire
Etape 3 : Estimation de l’équation de régression (des coefficients)
Etape 4 : Validation du modèle (Analyse des résidus)
Etape 5 : Prévision
14
1ère Étape: Vérification de la linéarité
15
Diagramme de Dispersion
16
Diagramme de Dispersion (suite)

17
Diagramme de Dispersion (suite) 18

Etude de la corrélation 19
Corrélations
Prix_Vente Prix_Achat
Prix_Vente Corrélation de Pearson 1 ,962
Sig. (bilatérale) ,000
N 30 30
Prix_Achat Corrélation de Pearson ,962 1
Sig. (bilatérale) ,000
N 30 30
Test de corrélation 20
Identification d’un modèle
Aussi bien le diagramme de dispersion que le test de
corrélation de Pearson suggèrent une relation linéaire entre
le prix de vente (variable dépendante) y et le prix d’achat
(variable indépendante) x:
y = β 0+ β 1x+ ε
21
3ième Étape:
Estimation des paramètres
22
Estimation par les moindres carrés
23
Estimation par les moindres carrés
Coefficients a
Coefficients non Coefficients

standardisés standardisés
Erreur
Modèle
1 (constante)
Prix_A
B
-43,615
1,775
a. Variable dépendante : Prix_V
standard
7,668
,100
Bêta
,959
t
-5,688
17,816 ?
Signification
,000
,000
Bêta = B1*(SX/SY)
Prix_vente = -43,615 + 1,775 * Prix_achat
24
Interprétation
Une pente de 1,775 implique qu’une augmentation d’une

unité en X entraînera une augmentation moyenne de 1,775
unités en Y.
y = -43,615+1,775 x
25
Hypothèses de la RLS
Ajustement vs Inférence
La régression linéaire (simple ou multiple) peut être utilisée
comme méthode :
Descriptive : pour décrire la relation linéaire entre deux
séries de données observées. On parle d’ajustement linéaire
et dans ce cas, les hypothèses requises sont assez
générales:
Hypothèse 1 : La relation entre X et Y doit être linéaire;
Hypothèse 2 : le nombre d’observations doit être supérieur au
nombre de variables;
Hypothèse 3 : les variables exogènes doivent être linéairement
indépendantes.
Inférentielle : Le modèle estimé peut être généralisé à la

population dont est issu l’échantillon.
26
Hypothèses de la RLS
Ajustement vs Inférence
Pour faire de l’inférence statistique (Echantillon ->
Population), il est indispensable de vérifier:
Hypothèse 4 : Normalité et indépendance des Yi

Hypothèse 5 : Homoscedasticité
Hypothèse 6 : Les résidus doivent être Normaux,
indépendants, centrés et non corrélées avec les
variables explicatives.
27
Hypothèses de la RL : Inférence
On suppose que Y1,Y2,…, Yn sont indépendants et pour
chaque i, Yi est N(β0+β1xi,σ2)
Illustration : Yi= β0 + β1X1i+εi

Yi Yi
εi
X1i
28
Inférence
Coefficients a

Erreur
Modèle
1 (constante)
Prix_A
B
-43,615
1,775
standard
7,668
,100
Bêta
,959
t
?
-5,688
17,816
Signification
,000
,000
29
Inférence
Statistiques permet
d’obtenir l’estimation
des coefficients de
la régression ainsi
que les intervalles
de confiance des
variables exogènes.
30
Inférence
Coefficientsa
Coefficients non Coefficients Intervalle de confiance à

standardisés standardisés 95% de B
Erreur Borne Borne
Modèle B standard Bêta t Signification inférieure supérieure
1 (constante) -43,615 7,668 -5,688 ,000 -59,323 -27,908
Prix_A 1,775 ,100 ,959 17,816 ,000 1,571 1,979
P-value
Statistique t pour
Estimation Ecart-type estimé de tester la signification
ponctuelle l’estimateur Estimation
par intervalle
|T| > 1.96 ⇒ « signification » de la variable explicative, ou

P-value < 0.05
31
Qualité d’ajustement : Variance expliquée
Partie très importante dans toute procédure statistique de

construction de modèles à partir des données :
Comment le modèle s’ajuste-t-il aux données?
L’étude inclut aussi la détection de violations possibles des
hypothèses requises.
Variance expliquée :
C’est un critère de qualité d’ajustement d’un modèle: Plus on
explique cette variance, meilleure sera la qualité de
représentation des individus par le modèle.
Le coefficient de détermination R² :
R² =
V Yˆ ()
V (Y )
32
Qualité d’ajustement (suite)
Y R2 = 1, R = +1 Y R2 = 1, R= -1
^=b +b X
Yi 0 1 i
^=b +b X
Yi 0 1 i
X X
R 2 = .8, R = +0.9 R2 = 0, R = 0
Y Y
^=b +b X
Y ^=b +b X
Y
i 0 1 i i 0 1 i
X X
33
3ième Étape: Qualité d’ajustement
34
Qualité d’ajustement
Récapitulatif du modèle b
Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,959a ,919 ,916 3,6273
a. Valeurs prédites : (constantes), Prix_A
b. Variable dépendante : Prix_V
35
Qualité d’ajustement (suite)
Le R2-Ajusté, est davantage utilisé que le R² car
il ne dépend pas du nombre de variables:
p (1 − R )
2
R 2
=R −
2
N − p −1
ajusté
où p est le nombre de variables indépendantes et

N le nombre d’observations.
36
Analyse de la variance (suite)
Yi
Y ∧
∑(Yi - Yi )2
SSE =∑
_ Yî = βˆ0 + βˆ1 X i
SST = ∑(Yi - Y)2
∧ _
SSR = ∑(Yi - Y)2
_
Y
X
Xi
∑ (Y ) ( )
N N N
∑ (Y
i=1
i − Y )² =
i=1
i − Y$ i ² + ∑ Y$ i − Y ²
i=1
37
Table de l’anova
H 0 : β i = 0 vs H 1 : β i ≠ 0 pour au moins un i
ANOVAb
Somme
Modèle des carrés ddl Carré moyen F Signification
1 SSR Régression 4206,671 1 4206,671 348,374 ,000a
SSE Résidu 338,105 28 12,075
SST Total 4544,775 29
a. Valeurs prédites : (constantes), Prix_Achat
b. Variable dépendante : Prix_Vente
SSR
F= k ≈ Fk ,n − k −1
SSE (n − k − 1)
38
Valeurs prédites et leurs écarts-types
• Prix de vente moyen de maisons dont la valeur à l’achat

est de 67K.
• Prix de vente d’une maison dont la valeur à l’achat est
de 67K.
Prix_vente prédit = - 43.615+1.775 * 67 = 75.33 K
Même chose. Ce qui diffère c’est l’erreur standard de la

prévision.
39
Prédire une valeur moyenne
L’erreur standard estimée pour la valeur moyenne prédite de Y à X0
est :
1 (X0 − X ) Plus on est éloigné de la

sYˆ = s + moyenne, plus grande sera
n (n − 1) S X2 l’erreur standard.
40
Prédire une nouvelle valeur
Prix de vente d’une maison dont la valeur à l’achat est de 67K?
L’ES estimée pour la valeur prédite de Y à X0 est :
1 (X0 − X )
sYˆ ind = s 1+ +
n (n − 1) S X2
41
Intervalles de prévision
S’en déduisent des erreurs précédentes:
42
Violation des Hypothèses la RL
Normalité de Y
SPSS vous propose
plusieurs outils pour
étudier la normalité de la
variable endogène.
Le test de Kolmogorov-
Smirnov
43
Normalité de Y
Test de Kolmogorov-Smirnov à un échantillon
Prix_V
N 30
Paramètres normauxa,b Moyenne 92,495
Ecart-type
12,5189
Différences les plus Absolue ,151

extrêmes Positive ,133
Négative -,151
Z de Kolmogorov-Smirnov ,827
Signification asymptotique (bilatérale)
,502
a. La distribution à tester est gaussienne.

b. Calculée à partir des données.
44
Normalité de Y
On dispose également de plusieurs outils graphiques
permettant d’illustrer les tests proposés ci-dessus.
Graphes>Histogrammes ou Graphes>P-P donnent:
45
Résidus
En régression, les vrais erreurs εi sont supposés être
indépendants de moyenne 0 et de variance constante σ2.
Si le modèle est approprié pour les données, les résidus
observés :
ei = Yi − Yî
devraient avoir un comportement similaire.
46
Analyse des résidus
Vérifier la linéarité
Y Y
X
X
e
e
X X
Non linéaire Linéaire

47
Résidus
Variance constante : Cette étude est essentiellement
graphique. On utilise :
le graphe des résidus fonction des X
Le graphe (pred, res).
Si l’hypothèse de linéarité et d’homogénéité de variance
sont vérifiées:
•il ne devrait pas y avoir de relation entre pred et res,
• et les résidus devraient se comporter de manière aléatoire le
long d’une bande autour de 0.
• la variabilité des résidus n’augmente pas en fonction de
l’ampleur des valeurs prévues.
48
Résidus
y y
x x
SRE SRE
x x
Hétéroscédasticité Homoscédasticité
49
Résidus
En représentant les ei en fonction des Ŷ, on peut
visualiser les variances:
50
Résidus
51
Résidus
52
Après avoir étudié ces premières phases, vous devez
impérativement regarder si certains individus ne sont pas
aberrants et ne risquent pas de fausser l’analyse.
Détection et Traitement des points aberrants
On considère qu’un individu a une variabilité acceptable

dans la mesure où les résidus standardisés sont dans
l’intervalle :]-2,+2[ (95%) ou ]-3,+3[ (99%).
53
54
Diagnostic des observations a
Résidu
Numéro de l'observation standardisé Prix_V Prévision Résidu
7 2,351 93,5 84,971 8,5291
Valeur atypique
55
Le traitement est très simple. L’objectif est de
neutraliser l’effet de cet individu atypique.
On crée une variable muette qui prendra 1 pour

l’observation 7 et 0 ailleurs. Ainsi, on introduit cette
nouvelle variable en tant que variable explicative.
(Dans notre exemple, la variable indicatrice s’appelle DUM).
L'estimation des nouveaux coefficients est obtenue

en introduisant la variable DUM comme deuxième
variable exogène.
56
Sans Dummy Avec Dummy
Récapitulatif du modèleb
Récapitulatif du modèle b
Erreur
Erreur
standard de standard de
Modèle R R-deux R-deux ajusté l'estimation Modèle R R-deux R-deux ajusté l'estimation
1 ,959a ,919 ,916 3,6273 1 ,967a ,936 ,931 3,2891
a. Valeurs prédites : (constantes), Prix_A a. Valeurs prédites : (constantes), DUM, Prix_A
b. Variable dépendante : Prix_V b. Variable dépendante : Prix_V
a
Coefficients

Erreur
Modèle B standard Bêta t Signification
1 (constante) -46,108 7,016 -6,572 ,000
Prix_A 1,804 ,091 ,974 19,825 ,000
DUM 8,949 3,369 ,131 2,656 ,013
57
L’observation 7 n’est plus atypique
58
Distribution des résidus
Il est également très

important de vérifier la
normalité des résidus et de
regarder s’ils sont bien
aléatoires.
Le test de Kolmogorov-
Smirnov permet de tester la
normalité des résidus
(standardisés) préalablement
enregistrés:
59
60
Test de Kolmogorov-Smirnov à un échantillon
Standardized
Residual
N 30
Paramètres normauxa,b Moyenne ,0000000
Ecart-type
,96490128
Différences les plus Absolue ,096

extrêmes Positive ,073
Négative -,096
Z de Kolmogorov-Smirnov ,525
Signification asymptotique (bilatérale)
,946
a. La distribution à tester est gaussienne.

b. Calculée à partir des données.
L’hypothèse de normalité est retenue.
61
Là encore l’hypothèse de normalité peut être retenue.

62
L’autocorrélations des erreurs
L’autocorrélations des erreurs : problème souvent
rencontré en économétrie: modèle mal spécifié, manque une
variable explicative primordiale, etc.
60
40
Il n’y a pas de régularité 20
al
évidente dans la suite des
esidu
0
e dR
valeurs des résidus.
ardiz
-20
n
Us n
ta d
-40
0 2 4 6 8 10 12 14 16
Numéro de séquence
∑ (e − e )²
N
t t −1
Durbin et Watson (d) d= t=2
N
∑e
t=2
t
2
Pour ne pas avoir autocorrélation des erreurs, il est nécessaire que

d≈2 .
63
Transformations en régression Linéaire
On a recours à certaines transformations pour
1. Rendre la relation linéaire, ou
2. Remédier au problème d’hétéroscedasticité.
Exemple de transformations courantes:
f(Y )=√ Y ou f(X)=√ X ou les deux .
f(Y )=ln(Y)
64
En résumé :
Construction de Modèles de RL
Etape 1 : Identification de la liaison de type linéaire entre

Y et les Xi
Etape 3 : Estimation de l’équation de régression (des
coefficients)
65
Atelier 1 : Régression linéaire simple
Données : Employés.sav
Variable à expliquer : Salaire actuel
Variable explicative : Salaire d’embauche
66
Partie 2.2
R
Régression
égression L
Linéaire
inéaire M
Multiple
ultiple
67
Sommaire
Introduction
Régression linéaire multiple
Estimation
Illustration des différentes étapes sur un exemple.
68
Introduction
La relation entre p variables Xi et Y est décrite par:
Y = β0 + β1 X1 + K + β p X p + ε
Où β0 , β1, … sont les constantes que l’on cherche à évaluer
et ε est un terme aléatoire que l’on appelle erreur.
Notation vectorielle:
Y1   X 11 L X 1 p   β 1  ε 1 
M =M M M    
   M +M 
Y N   X N 1 L X Np   β p  ε p 

Y = Xβ + ε
69
Introduction (suite)
La méthode des moindres carrés consiste à trouver
^0, ^β1, …, β^p qui minimisent
les paramètres β
Y − β X Euclidienne
Le traitement de la régression multiple exigent les mêmes
hypothèses que pour le traitement d’une régression simple:
•Linéarité,
•linéaire indépendance des colonnes de la matrice X,
• indépendance des Yi,
• normalité et
• homoscedasticité.
70
Modèles de Régression Multiple :
Méthodologie
Identifier la Qualité de Estimation du Le modèle Oui

l’ajustement modèle
Prévision
liaison linéaire est-il valide?
Non
On change le
modèle
Etape 1 : Identification de la liaison de type linéaire entre Y et les Xi

Etape 3 : Estimation de l’équation de régression (des coefficients)
71
Mise en oeuvre de la régression linéaire
multiple
Exemple: Un constructeur automobile cherche à étudier
les caractéristiques agissants sur le succès commercial
d’un véhicule.
Il dispose de données relatives aux ventes d’une grande
variétés de véhicules. Dans le but de déterminer les
caractéristiques pertinentes pour les performances
commerciales d’un véhicule, on cherche à établir une
relation entre les ventes et les caractéristiques.
Le fichier «car_sales.sav » contient les données relatives
aux 157 véhicules vendus dernièrement et sur lesquelles
nous allons travailler pour illustrer la procédure de la
régression linéaire de SPSS.
72
Mise en oeuvre de la régression linéaire
multiple
La variable «Sales : Ventes (en milliers)» constitue la
variable endogène du modèle. Toutes les autres vont
être considérées, a priori, comme étant des variables
explicatives à part entière.
Avant d’entamer une analyse de régression, nous allons
d’abord
1. Explorer les données :
1. Exploration (univariée) des variables indépendantes (Analyse >
Explorer)
2. Exploration de la variable dépendante (Analyse > Explorer)
2. Explorer les relations entre les variables et vérifier

l’hypothèse de linéarité et l’hypothèse de normalité.
73
Mise en oeuvre sous SPSS de la méthodologie
Interprétations et corrections (suite)
En ce qui concerne la linéarité, les graphiques ci-dessous laissent penser
que l’hypothèse de linéarité semble acceptable.
74
Corrélations
Plusieurs variables indépendantes sont fortement corrélées.
Corrélations
Corrélation de Pearson
sales resale price engine_s horsepow wheelbas width length curb_wgt fuel_cap
sales 1 -,279** -,305** ,020 -,198* ,358** ,141 ,255** ,009 ,087
resale -,279** 1 ,954** ,531** ,769** -,052 ,179 ,027 ,362** ,326**
price -,305** ,954** 1 ,627** ,840** ,111 ,329** ,157 ,526** ,423**
engine_s ,020 ,531** ,627** 1 ,837** ,472** ,690** ,541** ,760** ,663**
horsepow -,198* ,769** ,840** ,837** 1 ,286** ,539** ,393** ,610** ,500**
wheelbas ,358** -,052 ,111 ,472** ,286** 1 ,683** ,840** ,651** ,654**
width ,141 ,179 ,329** ,690** ,539** ,683** 1 ,710** ,721** ,656**
length ,255** ,027 ,157 ,541** ,393** ,840** ,710** 1 ,627** ,564**
curb_wgt ,009 ,362** ,526** ,760** ,610** ,651** ,721** ,627** 1 ,864**
fuel_cap ,087 ,326** ,423** ,663** ,500** ,654** ,656** ,564** ,864** 1
**. La corrélation est significative au niveau 0.01 (bilatéral).
*. La corrélation est significative au niveau 0.05 (bilatéral).
75
Qu’en est-il de la normalité? Elle est loin d’être satisfaite!
76
Cela se confirme par le test de Kolmogorov-Smirnov:
On rejette l’hypothèse
de normalité
La variable endogène suit

une loi exponentielle
77
Ainsi nous avons affaire à une loi asymétrique (Skewed). Une
transformation du genre f(Y)=ln(Y) semble appropriée pour
s’approcher de la symétrie. Cela donne:
78
Corrélations
Plusieurs variables indépendantes sont fortement corrélées.
Corrélations
Corrélation de Pearson
lnsales resale price engine_shorsepowwheelbas width length curb_wgtfuel_cap mpg
lnsales 1 -,525** -,553** -,139 -,387** ,293** ,041 ,217** -,040 -,017 ,120
resale -,525** 1 ,954** ,531** ,769** -,052 ,179 ,027 ,362** ,326** -,401**
price -,553** ,954** 1 ,627** ,840** ,111 ,329** ,157 ,526** ,423** -,492**
engine_s -,139 ,531** ,627** 1 ,837** ,472** ,690** ,541** ,760** ,663** -,735**
horsepow -,387** ,769** ,840** ,837** 1 ,286** ,539** ,393** ,610** ,500** -,611**
wheelbas ,293** -,052 ,111 ,472** ,286** 1 ,683** ,840** ,651** ,654** -,498**
width ,041 ,179 ,329** ,690** ,539** ,683** 1 ,710** ,721** ,656** -,603**
length ,217** ,027 ,157 ,541** ,393** ,840** ,710** 1 ,627** ,564** -,447**
curb_wgt -,040 ,362** ,526** ,760** ,610** ,651** ,721** ,627** 1 ,864** -,818**
fuel_cap -,017 ,326** ,423** ,663** ,500** ,654** ,656** ,564** ,864** 1 -,802**
mpg ,120 -,401** -,492** -,735** -,611** -,498** -,603** -,447** -,818** -,802** 1
**.La corrélation est significative au niveau 0.01 (bilatéral).
79
Dorénavant nous allons considérer la variable

«lnsales», qui est le logarithme de la variable
«sales», comme variable endogène que nous
chercherons à exprimer en fonction des variables
restantes (sauf «sales»).
Elles sont nombreuses. SPSS met à la disposition

de l’utilisateur 5 méthodes de sélection de
variables explicatives:
80
Régression Multiple :
Méthodes de sélection de variables
1. Entrée (régression) : Procédure de sélection de variables au
cours de laquelle toutes les variables d'un bloc sont
introduites en une seule opération.
2. Éliminer bloc : Procédure de sélection de variables dans
laquelle toutes les variables d'un bloc sont supprimées en
une seule étape.
3. Élimination descendante : Toutes les variables sont entrées
dans l'équation, puis éliminées une à une en commençant
par celle qui a la plus petite corrélation partielle avec la
variable dépendante. Toute variable qui répond aux critères
d'élimination est supprimée. La procédure prend fin quand
plus aucune variable de l'équation ne satisfait aux critères
d'élimination.
81
Méthodes de sélection de variables (suite)
4. Introduction ascendante : Les variables sont introduites
séquentiellement dans le modèle. La première variable
considérée est celle qui a la plus forte corrélation positive ou
négative avec la variable dépendante lorsqu’elle satisfait le
critère d'introduction. La procédure s'interrompt lorsqu'il ne
reste plus de variables satisfaisant au critère d'introduction.
5. Pas à pas : A chaque étape, le programme saisit la variable
indépendante exclue de l'équation ayant la plus petite
probabilité de F, si cette probabilité est suffisamment faible.
Les variables déjà comprises dans l'équation de régression
sont éliminées si leur probabilité de F devient trop grande. Le
processus s'arrête lorsque aucune variable ne peut plus être
introduite ou éliminée.
82
Méthodes de sélection de variables(suite)
Notons toutefois que l’utilisation des méthodes

automatiques, «Pas à pas», « Ascendante » …etc. ne
produit pas forcément le meilleur modèle au sens
statistique. Ces méthodes ne devrait jamais remplacer
le bon sens et la capacité de jugement d’un utilisateur
expérimenté.
Ainsi pour mieux se faire une idée sur la contribution de

chaque variable, nous allons inclure toutes les variables
indépendantes dans notre modèle.
83
Méthodes de sélection de variables(suite)
84
Choix du modèle
Récapitulatif du modèle
Erreur
standard de
1 ,697a ,486 ,449 ,98960
a. Valeurs prédites : (constantes), Fuel efficiency, Length,
Coefficients a
Price in thousands, Vehicle type, Width, Engine size, Fuel
capacity, Wheelbase, Curb weight, Coefficients
Horsepowernon Coefficients
Erreur
1 (constante) -3,017 2,741 -1,101 ,273
Vehicle type ,883 ,331 ,293 2,670 ,008
Price in thousands -,046 ,013 -,502 -3,596 ,000
Engine size ,356 ,190 ,281 1,871 ,063
Horsepower -,002 ,004 -,092 -,509 ,611
Wheelbase ,042 ,023 ,241 1,785 ,076
Width -,028 ,042 -,073 -,676 ,500
Length ,015 ,014 ,148 1,032 ,304
Curb weight ,156 ,350 ,075 ,447 ,655
Fuel capacity -,057 ,047 -,167 -1,203 ,231
Fuel efficiency ,081 ,040 ,262 2,023 ,045
a. Variable dépendante : Log-transformed sales
En plus du nombre élevé des variables indépendantes, plusieurs d’entre elles sont
statistiquement non significatives, et donc ne contribuent que très peu au modèle.
85
Choix du modèle (suite)
Pour déterminer l’importance des variable explicatives,

examinons les coefficients standardisés. Malgré que le
coefficient de la variable «Price» est petit devant celui de la
variable «Vehicle type», la contribution de la variable «Price»
est plus importante puisqu’elle a un plus grand coefficient
standardisé en valeur absolue.
86
Pour la majorité des variables exogènes les coefficients
de corrélation partielle sont inférieurs aux coefficients de
corrélation totale. Cela indique, par exemple, qu’une
bonne partie de la variation de la variable endogène qui
est expliquée par « Price » est aussi expliquée par
d’autres variables.
Coefficientsa

standardisés standardisés Corrélations
Erreur Corrélation
Modèle B standard Bêta t Signification simple Partielle Partie
1 (constante) -3,503 3,354 -1,044 ,299
resale -,016 ,037 -,140 -,434 ,665 -,524 -,042 -,032
type ,874 ,414 ,283 2,111 ,037 ,265 ,202 ,156
price -,024 ,036 -,252 -,665 ,507 -,490 -,065 -,049
engine_s ,250 ,258 ,197 ,971 ,334 -,156 ,094 ,072
horsepow -,001 ,006 -,052 -,208 ,836 -,359 -,020 -,015
wheelbas ,070 ,031 ,424 2,254 ,026 ,335 ,215 ,167
width -,006 ,052 -,015 -,113 ,911 ,063 -,011 -,008
length ,001 ,020 ,010 ,048 ,962 ,196 ,005 ,004
curb_wgt -,010 ,503 -,004 -,019 ,985 -,018 -,002 -,001
fuel_cap -,089 ,062 -,253 -1,428 ,156 -,015 -,138 -,106
mpg ,056 ,050 ,184 1,112 ,268 ,109 ,108 ,082
a. Variable dépendante : lnsales
87
La tolérance est le pourcentage de la variation d’une variable exogène
qui ne peut pas être expliquée par les autres variables. Lorsque les
tolérance sont proches de 0, les variables exogènes sont fortement
linéairement dépendants ce qui se traduit par une inflation de la variance
des coefficients de la régression. VIF=1/Tolérance.
Coefficientsa
Coefficients non Coefficients Statistiques de

standardisés standardisés colinéarité
Erreur
Modèle B standard Bêta t Signification Tolérance VIF
1 (constante) -3,017 2,741 -1,101 ,273
type ,883 ,331 ,293 2,670 ,008 ,304 3,293
price -,046 ,013 -,502 -3,596 ,000 ,187 5,337
engine_s ,356 ,190 ,281 1,871 ,063 ,162 6,159
horsepow -,002 ,004 -,092 -,509 ,611 ,112 8,896
wheelbas ,042 ,023 ,241 1,785 ,076 ,200 4,997
width -,028 ,042 -,073 -,676 ,500 ,313 3,193
length ,015 ,014 ,148 1,032 ,304 ,178 5,605
curb_wgt ,156 ,350 ,075 ,447 ,655 ,131 7,644
fuel_cap -,057 ,047 -,167 -1,203 ,231 ,189 5,303
mpg ,081 ,040 ,262 2,023 ,045 ,217 4,604
a. Variable dépendante : lnsales
88
Pour palier à ce problème de colinéarité des

variables exogènes et pour réduire le VIF nous
allons relancer l’analyse de régression mais en
choisissant cette fois les Zscores comme variables
exogènes.
Afin de ne garder que les variables ‘‘utiles’’ nous

allons recourir à la méthode « pas à pas ».
89
Remarque: En règle générale, étant donné que les variables

exogènes ne sont pas forcément exprimées dans la même
unité de mesure, il est judicieux de travailler avec des
variables standardisées : zscores.
90
Exploration après transformation
Voici les résultats de l’analyse
Erreur
standard de
1 ,552a ,304 ,300 1,11553
2 ,655b ,430 ,422 1,01357
a.
Valeurs prédites : (constantes), Zscore: Price in thousands
b. Valeurs prédites : (constantes), Zscore: Price in
thousands, Zscore: Wheelbase Coefficients a

Erreur
1 (constante) 3,286 ,090 36,316 ,000
Zscore: Price in
-,732 ,090 -,552 -8,104 ,000
thousands
2 (constante) 3,290 ,082 40,020 ,000
Zscore: Price in
-,783 ,083 -,590 -9,487 ,000
thousands
Zscore: Wheelbase ,470 ,082 ,356 5,718 ,000
91
Choix du modèle Pas à Pas
Le R-deux ajusté du nouveau modèle avec 2 variables est

presque égal à celui de l’ancien modèle (R-deux augmente
avec le nombre de variables).
Erreur
standard de
1 ,697a ,486 ,449 ,98960
a. Valeurs prédites : (constantes), Fuel efficiency, Length,
Price in thousands, Vehicle type, Width, Engine size, Fuel
capacity, Wheelbase, Curb weight, Horsepower
Erreur
standard de
1 ,552a ,304 ,300 1,11553
2 ,655b ,430 ,422 1,01357
a.
Valeurs prédites : (constantes), Zscore: Price in thousands
b. Valeurs prédites : (constantes), Zscore: Price in
thousands, Zscore: Wheelbase
92
La méthode pas à pas a choisi les variables Price et
wheelbase comme variable exogènes. Les ventes sont
négativement affectées par le prix et positivement affectées
par la taille du véhicule. En guise de conclusion: Les
consommateurs préfèrent les voitures pas chères.
Coefficientsa

Erreur
1 (constante) 3,286 ,090 36,316 ,000
Zscore: Price in
-,732 ,090 -,552 -8,104 ,000
thousands
2 (constante) 3,290 ,082 40,020 ,000
Zscore: Price in
-,783 ,083 -,590 -9,487 ,000
thousands
Zscore: Wheelbase ,470 ,082 ,356 5,718 ,000
93
Il est intéressant d’examiner le choix des variable par la méthode pas à pas. Price a
été choisie en premier car c’est la variable la plus corrélée avec sales.
La prochaine à choisir est

celle avec la plus grande
corrélation partielle parmi
celle dont le niveau de
signification est < 5%.
(Ici tous les niveaux sont < 5%)
94
Aucune autre variable ne peut être choisie car tous les niveaux de
sugnification sont > 5%.
95
Afin de voir qu’il n’existe plus de d’éventuelle
variables exogène X, il est utile de représenter les
résidus standardisés ZRESID en fonction de X. Si
l’on remarque l’existence d’une relation, on devrait
inclure cette variable dans le modèle.
Arrivé à ce stade, il est utile d’analyser les résidus
en vue d’améliorer le modèle.
96
L’analyse des résidus est essentiellement graphique.
97
L’hypothèse de normalité semble bien vérifiée.
98
En choisissant d’étiqueter les observations par Model on
pourra facilement les identifier. Par exemple c’est le véhicule
3000GT qui semble se vendre le moins
(Résidu standardisé = - 4,905).
99
Pour vérifier L’hypothèse d’indépendance, on représente les
ZRESID en fonction de la variable temps que l’on crée:
100
Le nuage ne présente aucune allure particulière. On retient alors l’hypothèse

d’indépendance.
101
Détection d’observations atypiques
Une représentation des résidus standardisés ZRESID en
fonction des prédictions standardisées ZPRED permet de
détecter les observations atypiques.
102
Détection d’observations atypiques
Les points à l’extérieur de la bande correspondent à des observations atypiques.
103
Traitement des points atypiques
Selon le graphique ci-dessus, SPSS détecte la présence de cinq points
aberrants (les observations 53, 84, 109, 116 et 118).
Nous allons créer autant de variables indicatrices qu’il y a de points
aberrants en les incorporant dans le modèle une à une.
104
105
106
On constate qu’il existe encore des valeurs atypiques. Cela pourrait être dû
à l’existence de variables trop influentes. Comment les détecter?
107
Détection de points atypiques influents
Représenter la distance de Cook en fonction du temps.
108
Atelier 2 :
Construction d’un modèle de RLM
Construire un modèle linéaire multiple prédisant le

Salaire d’Embauche en fonction des variables:
Age; sexe; Niveau d’éducation et Expérience en
utilisant la procédure de sélection pas à pas.
109
Avec tout le monde
Récapitulatif du modèleb Coefficientsa

Erreur Coefficients non Coefficients
standard de Durbin- standardisés standardisés
Modèle R R-deux R-deux ajusté l'estimation Watson Erreur
1 ,886a ,786 ,785 ,18415 1,817 Modèle B standard Bêta
1 (constante) ,705 ,232
a. Valeurs prédites : (constantes), Logarithme Salaire d'embauche
Logarithme Salaire
b. Variable dépendante : Logarithme Salaire Actuel ,998 ,024 ,886
d'embauche
a. Variable dépendante : Logarithme Salaire Actuel
Sans 218 le monde Coefficientsa

Récapitulatif du modèleb Coefficients non Coefficients
Erreur
standard de Durbin- Erreur
Modèle R R-deux R-deux ajusté l'estimation Watson Modèle B standard Bêta t
1 (constante) ,703 ,226 3,110
1 ,892a ,795 ,795 ,17920 1,718
Logarithme Salaire
a. Valeurs prédites : (constantes), Logarithme Salaire d'embauche ,998 ,023 ,892 42,746
d'embauche
b. Variable dépendante : Logarithme Salaire Actuel a. Variable dépendante : Logarithme Salaire Actuel
Coefficientsa
Avec DUM218 Coefficients non Coefficients
Récapitulatif du modèleb standardisés standardisés
Erreur
Erreur Modèle B standard Bêta
standard de Durbin- 1 (constante) ,703 ,226
Modèle R R-deux R-deux ajusté l'estimation Watson Logarithme Salaire
1 ,893a ,797 ,797 ,17920 1,728 d'embauche
,998 ,023 ,886 42,746
a. Valeurs prédites : (constantes), D218, Logarithme Salaire d'embauche D218 ,940 ,179 ,109
b. Variable dépendante : Logarithme Salaire Actuel a. Variable dépendante : Logarithme Salaire Actuel
110

Partie REGRESSION

Transféré par

Droits d'auteur :

Formats disponibles

Partie REGRESSION

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Partie REGRESSION

Transféré par

Droits d'auteur :

Formats disponibles

Partie 2 : Modèle de

Partie I : Régression linéaire simple

Partie II : Régression linéaire Multiple

• Les βi sont les coefficients que l’on va chercher à estimer.

Relation linéaire positive Relation non linéaire

Relation linéaire négative Aucune relation

Pour estimer β0 et β1 on dispose d’un échantillon (x1,y1),…, (xn,yn)

yi = β0+ β1 xi + εi , pour i =1,2,L, n.

Elle consiste à trouver βˆ0 et βˆ1 qui maximisent

«La relation liant les 2 variables x et y est linéaire»

On peut vérifier l’hypothèse de linéarité:

Une grande agence immobilière souhaite élaborer

Le fichier « House.sav » contient les données

Etape 1 : Identification de la liaison de type linéaire entre Y et les Xi

1ère Étape: Vérification de la linéarité

Diagramme de Dispersion (suite)

Diagramme de Dispersion (suite) 18

Estimation des paramètres

Coefficients non Coefficients

Prix_vente = -43,615 + 1,775 * Prix_achat

Une pente de 1,775 implique qu’une augmentation d’une

Inférentielle : Le modèle estimé peut être généralisé à la

Hypothèse 4 : Normalité et indépendance des Yi

Illustration : Yi= β0 + β1X1i+εi

Coefficients non Coefficients

Coefficients non Coefficients Intervalle de confiance à

|T| > 1.96 ⇒ « signification » de la variable explicative, ou

Partie très importante dans toute procédure statistique de

3ième Étape: Qualité d’ajustement

où p est le nombre de variables indépendantes et

• Prix de vente moyen de maisons dont la valeur à l’achat

Prix_vente prédit = - 43.615+1.775 * 67 = 75.33 K

Même chose. Ce qui diffère c’est l’erreur standard de la

1 (X0 − X ) Plus on est éloigné de la

S’en déduisent des erreurs précédentes:

Différences les plus Absolue ,151

a. La distribution à tester est gaussienne.

Non linéaire Linéaire

Détection et Traitement des points aberrants

On considère qu’un individu a une variabilité acceptable

On crée une variable muette qui prendra 1 pour

L'estimation des nouveaux coefficients est obtenue

b. Variable dépendante : Prix_V b. Variable dépendante : Prix_V

Coefficients non Coefficients

Il est également très

Test de Kolmogorov-Smirnov à un échantillon

Différences les plus Absolue ,096

a. La distribution à tester est gaussienne.

L’hypothèse de normalité est retenue.

Là encore l’hypothèse de normalité peut être retenue.

Il n’y a pas de régularité 20

Pour ne pas avoir autocorrélation des erreurs, il est nécessaire que

On a recours à certaines transformations pour

1. Rendre la relation linéaire, ou

2. Remédier au problème d’hétéroscedasticité.

Exemple de transformations courantes:

f(Y )=√ Y ou f(X)=√ X ou les deux .

Etape 1 : Identification de la liaison de type linéaire entre

Régression linéaire multiple