Chapitre Iiianalysedesdonn2es

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 34

Wahiba Kalboussi 2015/2016

CHAPITRE III .ANALYSE BIDIMENSIONELLE

Objectif général Sommaire


Etudiersur une population, deux aspects particuliers,
Exercices.
et analyser les liens éventuels entre deux variables.
Introduction.
Objectifs spécifiques :  Relations entre variables qualitatives.
Après avoir Lu ce chapitre, l’étudiant devra :  distribution conjointes.
1) A partir d’un tableau de contingence établir les  Causalité et interdépendance.
différentes distributions marginales.
 Test de Khi-deux.
2) Distinguer entre deux types de liens à savoir : la
causalité et l’interdépendance.  Intensité et direction du lieu.
3) Effectuer le test de Khi-deux à partir d’un tableau  Relation entre variables quantitatives.
de contingence.
 L’ajustement.
4) Calculer l’intensité ou la direction du lien entre
 La régression.
deux variables qualitatives à l’aide de 6 mesures.
5) Estimer la valeur de la variable endogène (y) à  La corrélation.
partir de la variable exogène (x).  Résumé.
6) Comprendre la notion de corrélation.
 Test d’évaluation.
7) Calculer le coefficient de corrélation et en donner
une interprétation.
Wahiba Kalboussi 2015/2016

CHAPITRE III .ANALYSE BIDIMENSIONELLE

Mise en situation
Le directeur d’une enseigne voudrait étudier les relations éventuelles entre certaines
variables :
Analyser les relations entre les chiffres d’affaires des points de vente et le budget
publicitaire afin de déceler le point de vente le plus performant
Vérifier si l’achat d’un produit X est différent entre hommes et femmes
Etudier si la répartition du chiffre d’affaires par points de vente similaires est
différente par région géographique.
Etudier l’attitude des consommateurs par rapport à deux produits concurrents.
Est-ce que les possibilités de traitements sont identiques quelle que soient les
variables mesurées?

INTRODUCTION :
En statistique appliquée, il est fréquent d’observer des phénomènes où il y a bien de
soupçonner qu’il existe une liaison entre 2 variables. Par exemple : le volume des ventes
d’une entreprise peut être fonction du montant alloué à la publicité, la rupture d’un produit
peut être liée au degré de fiabilité du système d’information de l’entreprise; etc.
Il arrive donc fréquemment que dans une étude statistique, l’on mesure sur chaque unité de
l’échantillon, un certain nombre de variables et qu’on examine par la suite s’il existe une
certaine forme d’association entre elle.
On va essayer de traiter dans ce chapitre, de l’existence d’une certaine dépendance statistique
entre deux variables observées. On commencera alors par établir et mesurer le lien entre deux
variables dont au moins une est qualitative. Ensuite, on envisagera le cas où les 2 variables
sont quantitatives.
On procédera, pour chaque type de relation, par une étude descriptive et une étude explicative.
Il importe de préciser dés lors que le cadre différentiel de l’analyse peut être de deux natures.
On distingue :
- le cadre différentiel fréquentiste : il relève de ce qu’on appelle l’inférence généralisante. On
l’utilise lorsque l’on cherche à généraliser les résultats observés sur un échantillon à toute la
population mère. Ce cadre inférentiel suppose strictement que l’échantillon ait été obtenu par
un tirage au hasard de l’échantillon.
- Le cadre inférentiel ensembliste ne constitue pas, un cadre inférentiel dans la mesure où il ne
s’agit plus de généraliser les résultats à une population plus vaste. Il s’agit plutôt, de situer un
groupe d’observations particulier parmi un ensemble de possible. L’expression inférence fait
référence dans ce cas aux procédures utilisées (les tests d’hypothèse) qui sont de type
inférentiel. La visée quand à elle est une visée descriptive (caractériser le groupe
d’observation).

I.RELATIONS ENTRE DEUX VARIABLES QUALITATIVES


Wahiba Kalboussi 2015/2016

I.1. Généralités

Les séries que nous avons étudiées dans les sections précédentes se rapportaient toujours à un
seul caractère, par exemple les ventes d’un magasin, la satisfaction vis-à-vis d’un point de
vente, d’un produit ou d’un service, etc. Il est souvent utile d'étudier une population en
considérant deux caractères particuliers et, plus spécifiquement, en analysant les variations
respectives de ces deux variables.
Supposons que l'on fasse une enquête auprès d'un échantillon de citoyens et que l'on s'informe
sur leur âge, leur sexe, leur revenu, leur centre d’intérêt et la destination de leur voyage. Il
serait sûrement intéressant de vérifier s'il y a un lien entre le revenu et la destination de leur
voyage, ou encore le sexe et le centre d’intérêt, ou encore entre l'âge et la destination du
voyage, etc.
Dans ce chapitre, nous allons établir et même mesurer un lien entre deux variables.

I.2.Distribution conjointe
Situons nous dans une population formée de N individus ou dans un échantillon de n
individus. Supposons qu'on s'intéresse à deux variables statistiques X et Y dont les modalités
sont x1, x2 ..., xk pour la variable X et y1, y2, ….,yp pour la variable Y. On ne s'intéresse plus
uniquement à la variable X ou à la variable Y, mais plutôt à la distribution conjointe de X et
de Y qui fait correspondre à tout couple (x , y) un effectif nij, Une distribution conjointe est
présentée dans un tableau à double entrée appelé tableau de contingence.

Y …
y1 y2 …
yj yr Totaux
X …
x1 n11 n12 …
n1j …n1r n1
x2 n21 n22 …
n2j …n2r n2

… … … … … …

xi ni1 ni2 …
nij …nir ni

xk nk1 nk2 …
nkj …nkr nk

Totaux n1 N2 …
nj …nr N

La ligne «Totaux» représente la distribution marginale de Y. C'est la distribution qu'on


étudierait si on s'intéressait uniquement à la variable Y. La colonne «Totaux» représente la
distribution marginale de X. C'est la distribution qu'on étudierait si on s'intéressait uniquement
à la variable X. L’intérieur du tableau contient l'information brute qui nous permettra d'établir,
s'il y a lieu, un lien entre les variables X et Y. Chaque ligne constitue une distribution
conditionnelle de Y.
Ainsi, la ie ligne constitue la distribution conditionnelle de Y étant donné X = xi. C'est la
distribution de Y lorsqu'on ne considère que les individus ayant la caractéristique xi. De
Wahiba Kalboussi 2015/2016

même, chaque colonne constitue une distribution conditionnelle de X étant donnée une
caractéristique de Y.
Exemple 1: Dans un échantillon de 200 clients d’une grande surface, on considère le niveau
d'études complétées et le sexe. On résume les résultats dans le tableau de contingence suivant.

Y : Niveau
d’études Primaire Collégial Secondaire Universitaire Totaux
X : Sexe

Féminin 24 33 21 12 90

Masculin 22 33 36 19 110

Totaux 46 66 57 31 200

La ligne «Totaux» constitue la distribution marginale du niveau d'études complétées, ou


simplement la distribution marginale de Y.

Distribution du niveau d’études complétées

Niveau d’études Elémentaire Collégial Secondaire Universitaire Total

Effectifs 46 6 57 31 200
6

La colonne «Totaux» représente la distribution marginale de la variable X (le sexe).


Distribution du sexe

Sexe Effectifs

Féminin 90

Masculin 110

Total 200

Il y a deux distributions conditionnelles de Y étant donné X. Ainsi, le niveau d'études par


rapport au sexe féminin donne ceci.
Distribution du niveau d’études complétées chez les femmes

Niveau Elémentaire Collégial Secondaire Universitaire Total


d’études

Effectifs 24 33 21 12 200
Wahiba Kalboussi 2015/2016

Il y a quatre distributions conditionnelles de X étant donné la variable Y. La distribution du


sexe chez les personnes ayant complété des études collégiales donne ceci:

Distribution du sexe chez les personnes ayant complété des études collégiales

Sexe Effectifs

Féminin 21

Masculin 36

Total 57

Pour trouver les fréquences partielles, on divise chaque effectif par le nombre total
d'individus, soit 200. On obtient:
Distribution, en fréquences relatives, du niveau d’études et du sexe d’un Echantillon de
200 personnes de 25 ans et plus

Y : Niveau
d’études Elémentaire Collégial Secondaire Universitaire Totaux
X : Sexe

Féminin 0.120 0.165 0.105 0.060 0.450

Masculin 0.110 0.165 0.180 0.095 0.550

Totaux 0.230 0.330 0.285 0.255 1

I.3.Causalité et interdépendance

Une observation attentive et une étude détaillée d'un tableau de contingence permettra
d'analyser s'il y a un lien entre les variables concernées et même de mesurer le degré de ce
lien. On peut distinguer deux types de liens entre 2 variables : la causalité et
l'interdépendance.
On dira qu'il y a un lien de causalité entre deux variables X et Y si toute variation de l'une est
causée par la variation de l'autre. C'est une relation de cause à effet. La variable X est la cause
et la variable Y est l'effet. La variable X est ‘indépendante’ et la variable Y est ‘dépendante’.
Par exemple on peut dire qu'il y a un lien de causalité entre le temps de réflexe d’une
personne et son taux d'alcool dans le sang. En effet, une augmentation du taux d'alcool dans le
sang cause une augmentation du temps de réflexe d’une personne. Par contre, si une
vérification expérimentale permet de conclure à l'existence d'un lien entre deux variables,
seule une analyse logique de la situation et du contexte permet de conclure à la causalité.
Deux variables X et Y sont dites interdépendantes si elles varient conjointement, en étant
influencées par un ou des facteurs externes quelconques. Par exemple, les ventes de camions
Wahiba Kalboussi 2015/2016

dans la région augmentent en même temps que les ventes de voitures. Il y a donc une
interdépendance entre ces deux variables. On ne peut cependant pas établir logiquement qu'il
y a là une relation de cause à effet. Une cause commune externe à l'augmentation des ventes
de camions et de voitures pourrait être la prospérité économique de la région.

Lorsque deux variables sont liées par un lien de causalité, elles sont nécessairement
interdépendantes. Toutefois, l'inverse n'est pas toujours vrai, c'est-à-dire que deux variables
peuvent être interdépendantes sans qu'il y ait de lien de causalité. Deux variables X et Y sont
indépendantes si l'une ou l'autre de ces variables peut varier sans que l'autre soit influencée.

I.4. Etude explicative : Le test du Khi-deux

Supposons que nous voulons savoir s'il y a un lien entre l'allégeance politique et la classe
sociale. On posera alors la question suivante: «pour quel parti politique voteriez-vous les
prochaines élections?». Notons cette réponse par Y : un caractère qualitatif à deux modalités :
le parti A et le parti B.
Il faudra ensuite poser une question pour déterminer la classe sociale. En général, la plus
simple est de demander la profession et de faire ensuite des regroupements. Pour simplifier,
supposons que la réponse, notée par X, soient les classes suivantes : classe supérieure, classe
moyenne et classe inférieure. Les résultats seront regroupés comme suit:

X Classe Classe Classe


Total
Y Supérieure Moyenne Inférieure

Parti A 9 12 8 29

Parti B 5 6 14 25

Total 14 18 22 54

D'après ce tableau, 8 personnes de la classe inférieure ont opté pour le parti A tandis que 14
appuient le parti B, dans cette même classe.
On voit, dans ce tableau, que les gens à faible revenu semblent favoriser le parti B, tandis que
les gens à plus haut revenu favorisent le parti A.
La question qu'on se pose est alors la suivante: «Y a-t-il un lien entre la classe sociale et
l'allégeance politique ? »
La démarche logique que les statisticiens ont adoptée est celle qui s'appelle «Test
d'hypothèse».
Un test d'hypothèse est un processus permettant de confirmer ou d'infirmer une hypothèse
concernant une population en examinant un échantillon de cette population. Bien qu'un test
d'hypothèse ne donne pas de certitude absolue, il permet de prédire avec une probabilité que
l'on appelle le «seuil de confiance» et que l'on note 1 - a. La probabilité d'erreur s’appelle le
Wahiba Kalboussi 2015/2016

«risque» ou la «marge d'erreur». La marge d'erreur la plus fréquemment utilisée est de 5%,
c'est à dire qu'on est certain de notre conclusion à 95%.
Dans tout test, d'hypothèse, on établit deux hypothèses mutuellement exclusives qui sont, en
quelque sorte, confrontées. Une et une seule d'entre elles sera acceptée. D'une part, il y a
l'hypothèse nulle, H0, qui suppose qu'il n'y a aucun lien entre les deux variables. C'est
l'hypothèse prudente, l'hypothèse du statu quo, D'autre part, il y a l'hypothèse alternative, H1,
qui est l'hypothèse qui sera acceptée uniquement si la précédente est rejetée. C'est l'hypothèse
audacieuse qui amène une modification, un résultat neuf, une action à entreprendre.
La question qui se pose alors est de savoir comment devraient se répartir les gens dans les
partis pour, qu'effectivement, il y ait un lien entre X et Y.
Par exemple, les 14 personnes de la classe favorisée devraient se répartir selon le même taux
que ceux de la classe moyenne et que ceux de la classe défavorisée, c'est à dire selon le
pourcentage global que l'on observe sur les totaux à droite du tableau: 29/54 pour le parti A
(53,7%) et 25/54 pour le parti B (46,3%).
Si vraiment X et Y n’avaient aucun lien entre elles, les 14 personnes de la première
colonne devraient se répartir de la façon suivante:
53,7% x 14 = 7,52 pour le parti A,
46,3% x 14 = 6,48 pour le parti B,
Il convient donc de constituer un nouveau tableau, que l'on dira théorique, dans lequel seront
calculées les répartitions théoriques que l'on aurait dû avoir si les deux facteurs étaient
vraiment indépendants l'un de l'autre.

TABLEAU THEORIQUE

X
Classe Classe Classe
Y Total
supérieure moyenne inférieure

Parti A 7.52 9.67 11.81 29

Parti B 6.48 8.33 10.19 25

Total 14 18 22 54

Il convient alors de comparer ces deux tableaux : le tableau expérimental obtenu lors du
sondage et le tableau théorique ci-haut.
Si ces deux tableaux ne diffèrent pas beaucoup, il faudra admettre que l'expérience n'est pas
concluante, qu'elle ne nous permet pas de conclure qu'il y a un lien entre les deux facteurs. Il
se peut qu'une petite différence ne soit due qu'au hasard. Si, par contre, il y a beaucoup de
différence entre les 2 tableaux, il faudra conclure qu'il y a un lien. Tout dépend évidemment
de ce qui est acceptable comme différence.
Mais, comment mesurer mathématiquement la différence entre deux tableaux ? C'est ce que le
coefficient X² (lire Khi-deux) va faire. Il va en quelque sorte mesurer la distance entre ces
deux tableaux.
Wahiba Kalboussi 2015/2016

Prenons la première case: la valeur expérimentale est 9 alors que la valeur théorique aurait dû
être 7,52. La différence est donc de 1,48. Or, comme on ne veut pas que les valeurs négatives
annulent les valeurs positives et fassent croire qu'il n'y a pas de différence, on calcule plutôt le
carré de cette différence.
De plus, cette différence sera d'autant plus grande que les valeurs en question seront grandes.
Une différence de 2 n'est pas importante si les valeurs en jeu sont de l'ordre de 100, mais c'est
une différence importante s'il s'agit de chiffres comme 4 et 9.
On va donc calculer la différence relative :
( valeur exp érimentale  valeur théotique)²
valeur théorique
On calcule ce nombre pour toutes les cases et le total sera notre coefficient :
val. exp . val.théo.²
X²  
toutes lescases valeur théorique
Dans l’exemple, cela donne :
(9  7,52)² (5  6,48) (12  9,67) (6  8,33) (8  11,81) (14  10,19)
X²      
7,52 6,48 9,67 8,33 11,81 10,19
X ²  4,5

Maintenant, la question est de savoir si cette valeur de 4,5 est grande ou petite. Si cette valeur
est suffisamment grande, on rejettera l'hypothèse d'indépendance H0 et on va conclure qu'il
doit Y avoir un lien entre X et Y. Par contre, si cette différence n'est pas assez grande, le
sondage ne sera pas concluant. Cela démontrera qu'il n'y a pas nécessairement de lien entre X
et Y car la différence peut être due au hasard.
Donc, est-ce que 4,5 est grand ou petit ?
Afin de tenir compte du nombre de cases qu'il y a dans le tableau, on calcule le degré de
liberté, que l'on note par la lettre grecque  (nu).
 = (nombre de lignes - 1)  (nombre de colonnes - 1)
Ce nombre  représente le nombre de cases dans la partie du centre qui peuvent varier
librement si les effectifs marginaux sont connus. Dans notre exemple,  = (2 - 1) x (3 - 1) =
2. On lit ensuite dans la table donnée à la page suivante, vis-à-vis la ligne correspondant à la
valeur 2, le nombre qui donne un seuil de 5%. Ce nombre est ici 5,991. Comme la valeur
trouvée du x², 4,5 est plus petite que 5,991, on ne peut conclure un lien entre X et Y.
L’hypothèse H0, demeure donc plausible. Le test n’est pas significatif au sens statistique du
terme.
Comme dernière remarque, signalons que, pour pouvoir utiliser la loi du Khi-deux, il faut
absolument que la valeur théorique de chaque case soit supérieure ou égale à 5. Sinon, on doit
opérer des regroupements.

I.5.Intensité et direction du lien


Nous allons maintenant voir six mesures qui permettent de vérifier l'intensité et/ou la
direction du lien entre deux variables qualitatives. Ce sont :
- Le lambda   de Guttman.
- Le gamma (  ) de Goodman-Krushal.
Wahiba Kalboussi 2015/2016

- Le Phi (  )
- Le Phi-deux (  ² )
- Le coefficient de contingence (C)
- Le V de Cramer
Pour chacune de ces mesures, nous donnerons les valeurs minimales et maximales possibles.
Il n'y a malheureusement pas de processus unique qui permette d'interpréter facilement un
résultat obtenu.

I.5.1.Le lambda   de Guttman


-S’utilise pour mesurer l'intensité du lien Entre deux variables nominales.
AB
-  où A = Somme des fréquences modales pour chaque colonne (variable
NB
indépendante). B = fréquence du mode de la colonne « Total » (distribution marginale
de la variable dépendante).
N = Nombre total de cas.
- 0   1 Une valeur près de 0 signifie un lien faible alors qu’une valeur près de 1
signifie une pertinente ou l’opinion d’un spécialiste du domaine permettra une interprétation
acceptable.
I.5.2.Le gamma (  ) de Goodman-Krushal
S'utilise pour mesurer l’intensité et la direction du lien entre deux variables qualitatives
ordinales.
Variables Un peu Beaucoup Passionnément
Un peu n11 n12 n13
Beaucoup n21 n22 n23
Passionnément n31 n32 n33

-Si le tableau est 2 x 2, le gamma est équivalent au Q de Yule.


P  P
-Formule :  
P  P

où. P+ = nl1 (n22 + n23 + n32 + n33) + n12 (n23 + n33) + n21 (n32 + n33) + n22 (n33).
P- = n13 (n21 + n22 + n31 + n32) + n12 (n21 + n31) + n23 (n31 + n32) + n22 (n31).
e) -1    1
Une valeur près de 0 signifie un lien faible, une valeur près de 1 signifie une valeur
forte positive (les variables vont dans le même sens) alors qu’une valeur près de (-l) signifie
une valeur forte négative (les variables vont dans le sens contraire). Seule une littérature
pertinente ou l'opinion d'un spécialiste du domaine permettra une interprétation acceptable.
I.5.3.Le Phi (  )
S’utilise pour mesurer l’intensité et la direction du lien entre deux variables dans un tableau 2
x 2.
Variables X Total
Y A b a+b
Wahiba Kalboussi 2015/2016

C d c+d
Total a+c b+d N
Formule :
ad - bc

(a  b) (c  d) (a  c) (b  d)
-1    1

Une valeur près de 0 signifie un lien faible, une valeur près de 1 signifie une valeur forte
positive (les variables vont dans le même sens) alors qu'une valeur près de (-1) signifie une
valeur forte négative (les variables vont dans le sens contraire). Seule une littérature
pertinente ou l'opinion d'un spécialiste du domaine permettra une interprétation acceptable.
I.5.4. Le coefficient de contingence (C)
S'utilise pour mesurer l’intensité du lien entre deux variables qualitatives. Il est basé sur le
calcul du X².
Pour être pris en considération, il doit pouvoir répondre à certaines conditions de
reproduction, de traduction et d’adaptation réservés
1. les deux variables se distribuent normalement dans la population ;
2. les deux variables ont chacune plusieurs catégories (trois ou plus) ;
3. la taille de l’échantillon est relativement grande ;
4. le khi-carré est significatif.


-Formule : C  Où n = Nombre total de cas dans le tableau.
X²  n
- 0  C 1
Mais le C maximal peut être inférieur à 1. Une valeur près de 0 signifie un lien faible alors
qu'une valeur près de 1 signifie une valeur forte. Seule une littérature pertinente ou l'opinion
d’un spécialiste du domaine permettra une interprétation acceptable.
- Il est surtout utilisé dans les tableaux carrés: 2 x 2, 3 x 3, 4 x 4, etc.

1.5.5. Le V de Cramer
-S’utilise pour mesurer l'intensité du lien entre deux variables qualitatives. Parmi les trois (3)
mesures basées sur le X², c'est le plus acceptable.

-Formule : V  Où N = Le nombre total de cas dans le tableau.
Nt
t = (minimum entre le nombre de lignes et le nombre de colonnes).
- 0  V 1
Une valeur près de 0 signifie un lien faible alors qu'une valeur près de 1 signifie une valeur
forte. Seule une littérature pertinente ou l'opinion d'un spécialiste domaine permettra une
interprétation acceptable
Wahiba Kalboussi 2015/2016

I.6. Application sur SPSS


Pour obtenir un tableau croisé et réaliser le test d’indépendance du X², sélectionner :
Analyse statistiques descriptives tableaux croisé

Tableau croisé CARREFOC * LI EU

LIEU Nombre Pourcentage d’individus


Pourcen
TUNI S ARIANA BEN AROUS MANOUBA Total
d’individus résidant résidant à Tunis et
CARREFOC oui Ef f ect if 121 41 79 28 269 résidant
% dans CARREFOC 45,0% 15,2% 29,4% 10,4% 100,0% à Tunis et fréquentant carrefour parmi
% dans LIEU 36,6% 41,8% 28,8% 28,9% 33,6%
fréquen
fréquentant tous les individus
% du t ot al 15,1% 5,1% 9,9% 3,5% 33,6% parmi to
carrefour. fréquentant carrefour.
non Ef f ect if
% dans CARREFOC
210
39,5%
57
10,7%
195
36,7%
69
13,0%
531
100,0%
de l’éch
% dans LIEU 63,4% 58,2% Pourcentage des individus
71,2% 71,1% 66,4%
% du t ot al 26,3% 7,1% résidant à Tunis et
24,4% 8,6% 66,4%
Total Ef f ect if 331 98 274 97 800
% dans CARREFOC 41,4% 12,3% fréquentant carrefour
34,3% 12,1% 100,0%
% dans LIEU 100,0% 100,0% parmi tous les individus
100,0% 100,0% 100,0%
% du t ot al 41,4% 12,3% 34,3% 12,1% 100,0%
résidant à Tunis.
Wahiba Kalboussi 2015/2016

1.6.1. Analyse des résultats du test de Khi deux


Le test de khi deux, comme présenté précédemment, permet de vérifier l’existence d’une
relation entre deux variables (non métriques) existant dans la population. Le test de X² permet
de valider l’hypothèse H0 « les deux variables sont indépendantes dans la population dont est
issu l’échantillon» ou de la rejeter.

Tests du Khi-deux

Signif ication
asy mptot ique
Valeur ddl (bilatérale)
Khi-deux de Pearson 8,039a 3 ,045
Rapport de
8,023 3 ,046
v raisemblance Le niveau de signification de
Association linéaire
4,746 0.045
1 est inférieur
,029 à la valeur
par linéaire
Nombre d'observ ations
critique 0.05 ; ce qui permet de
v alides
800 rejeter H0 et de conclure qu’il
existe
a. 0 cellules (,0%) ont un ef f ect if théorique une relation entre les deux
inf érieur à 5.
L'ef f ectif t héorique minimum est de 32,variables
62. dans la population.
Remarque : l’effectif théorique de chaque
cellule du tableau croisé doit être supérieur à
5. Dans le cas contraire, il peut être nécessaire
de procéder à des regroupements de
modalités.

Remarque : dans la lecture du tableau du khi deux, il est préférable de se référer au seuil de
signification statistique qui est toujours le même 0.05 plutôt qu’à la valeur du X² qui varie
selon le nombre de degré de liberté.

Quand le tableau croisé est formé de plus de deux lignes et de deux colonnes, seuls le khi-
carré de Pearson et le khi-carré du rapport de vraisemblance peuvent s’appliquer. Le test du
risque sera utilisé seulement dans un tableau croisé avec deux lignes et deux colonnes; ce test
doit évaluer le risque (ou la probabilité) d’appartenir ou non à une catégorie de l’une ou de
l’autre des variables.

La commande Risk s’applique


uniquement au tableau croisé à
deux variables ayant chacune
seulement deux modalités.
Wahiba Kalboussi 2015/2016

Mesures symétriques

Signif ication
Valeur approximée
Nominal par Nominal Coef f icient de
,100 ,045
contingence
Nombre d'observ ations v alides
800

a. L'hy pothèse nulle n'est pas considérée.


b. Utilisation de l'erreur standard asy mptotique dans l'hy pothèse nulle.

Le test de contingence nous donne une mesure de l’intensité de cette relation. Cette mesure se
situe entre zéro et un. Le zéro nous montre une relation nulle ou très faible. A l’autre extrême,
un nous indique une relation totale entre les deux variables. Les valeurs du test Coefficient de
Contingence (C) s’interprètent comme suit:

C= 0,0 et 0,10 : Association nulle ou très faible


C= 0,11 et 0,20 : Association faible
C= 0,21 et 0,30 : Association moyenne
C= 0,31 et 0,40 : Association forte
C= 0,41 et plus : Association très forte

I.6.2. Tableaux croisés à trois variables : ils nous permettent d’approfondir l’analyse des
données. Nous avons ajouté, dans le dernier rectangle de droite, la nouvelle variable
indépendante de contrôle «sexe ».
Les résultats de cette commande sont présentés ci-dessous :
Wahiba Kalboussi 2015/2016

Tableau croisé SEXE * CARREFOC * PROMOGC

CARREFOC
PROMOGC oui non Total
oui SEXE homme Ef f ectif 5 35 40
% dans SEXE 12,5% 87,5% 100,0%
% dans CARREFOC 35,7% 62,5% 57,1%
% du tot al 7,1% 50,0% 57,1%
f emme Ef f ectif 9 21 30
% dans SEXE 30,0% 70,0% 100,0%
% dans CARREFOC 64,3% 37,5% 42,9%
% du tot al 12,9% 30,0% 42,9%
Total Ef f ectif 14 56 70
% dans SEXE 20,0% 80,0% 100,0%
% dans CARREFOC 100,0% 100,0% 100,0%
% du tot al 20,0% 80,0% 100,0%
non SEXE homme Ef f ectif 139 264 403
% dans SEXE 34,5% 65,5% 100,0%
% dans CARREFOC 54,5% 55,6% 55,2%
% du tot al 19,0% 36,2% 55,2%
f emme Ef f ectif 116 211 327
% dans SEXE 35,5% 64,5% 100,0%
% dans CARREFOC 45,5% 44,4% 44,8%
% du tot al 15,9% 28,9% 44,8%
Total Ef f ectif 255 475 730
% dans SEXE 34,9% 65,1% 100,0%
% dans CARREFOC 100,0% 100,0% 100,0%
% du tot al 34,9% 65,1% 100,0%

Tests du Khi-deux

Signification Signification Signification


asy mptotique exacte exacte
PROMOGC Valeur ddl (bilatérale) (bilatérale) (unilatérale)
oui Khi-deux de Pearson 3,281b 1 ,070
Correctiona pour la
2,279 1 ,131
continuité
Rapport de
3,263 1 ,071
v raisemblance
Test exact de Fisher ,129 ,066
Association linéaire
3,234 1 ,072
par linéaire
Nombre d'observ ations
70
v alides
non Khi-deux de Pearson ,077c 1 ,782
Correctiona pour la
,040 1 ,842
continuité
Rapport de
,077 1 ,782
v raisemblance
Test exact de Fisher ,815 ,421
Association linéaire
,077 1 ,782
par linéaire
Nombre d'observ ations
730
v alides
a. Calculé uniquement pour un tableau 2x2
b. 0 cellules (,0%) ont un ef fectif théorique inf érieur à 5. L'ef fectif théorique minimum est de 6,00.
c. 0 cellules (,0%) ont un ef fectif théorique inf érieur à 5. L'ef fectif théorique minimum est de 114,23.

Mesures symétriques

Signif ication
PROMOGC Valeur approximée
oui Nominal par Nominal Coef f icient de
,212 ,070
contingence
Nombre d'observ ations v alides
70

non Nominal par Nominal Coef f icient de


,010 ,782
contingence
Nombre d'observ ations v alides
730

a. L'hy pothèse nulle n'est pas considérée.


b. Utilisation de l'erreur standard asy mptotique dans l'hy pothèse nulle.
Wahiba Kalboussi 2015/2016

Esti mation du risque

Interv alle de conf iance


de 95%
PROMOGC Valeur Inf érieur Supérieur
oui Odds Ratio pour SEXE
,333 ,098 1,129
(homme / f emme)
Pour cohort e
,417 ,156 1,116
CARREFOC = oui
Pour cohort e
1,250 ,962 1,624
CARREFOC = non
Nombre d'observ ations
70
v alides
non Odds Ratio pour SEXE
,958 ,705 1,300
(homme / f emme)
Pour cohort e
,972 ,797 1,186
CARREFOC = oui
Pour cohort e
1,015 ,912 1,130
CARREFOC = non
Nombre d'observ ations
730
v alides

Nous pouvons constater au « Tests du khi-carré», que pour ceux fréquentant Promogro de la
variable «fréquentation Promogro», les différences observées entre les hommes et les femmes
ne sont pas significatives pour un seuil de 5% et significatif pour un seuil de 10%) (La «
Signification asymptotique (bilatérale) » est de 0,070) ; nous devons donc, dans ce cas, rejeter
l’hypothèse d’une influence du sexe sur le fait de fréquenter ou non l’enseigne carrefour.
Nous voyons que dans la catégorie « ne fréquentant pas Promogro» les différences observées
entre les hommes et les femmes pas ne sont pas significatives (la « Signification asymptotique
(bilatérale) » est de 0,782).
Pour ceux fréquentant l’enseigne Promogro, il y a une de différence significative entre les
hommes et les femmes, en ce qui concerne leur fréquentation de carrefour. À l’inverse, pour
les hommes et les femmes qui ne fréquentant pas Promogro, il n’y a pas une différence
significative relativement à leur fréquentation de carrefour.
Nous voyons que l’utilisation d’une variable de contrôle mène un raffinement de l’analyse
des données ; à ce moment, la principale difficulté est de bien choisir cette variable de
contrôle ;

II. RELATION ENTRE UNE VARIABLE QUANTITATIVE ET UNE VARIABLE QUALITATIVE


Il s’agit de décrire les variations d’une variable métrique par rapport à une variable non
métrique permettant de constituer des groupes d’individus. A titre d’exemple :
-La répartition des ventes est elle différente par région géographique ?
- le montant dépensé chaque mois en produit frais est il égal chez les hommes et les femmes.
- La perception d’un point de vente (ou l’attitude face à un produit) est elle différente par
sexe?
II.1. Étude descriptive
Tout en supposant que la perception est mesurée à l’aide d’une échelle d’attitude, dans ce cas
la variable métrique est la perception du client, la variable non métrique est la variable sexe,
permet de constituer la population en groupes homogènes d’individus.
Wahiba Kalboussi 2015/2016

Il est alors possible de calculer la moyenne de la variable métrique dans chacun des groupes et
de comparer les résultats. On ne met alors que des différences globales et certaines hypothèses
peuvent être confirmées par des tests statistiques.
II.1.1. Le diagramme boite à moustaches
L’analyse peut être approfondie par une étude de la distribution de la variable métrique dans
chaque groupe permettant également de pouvoir décrire l’information sous une forme
graphique « diagramme boite à moustaches ».
On voudrait mettre en évidence l’influence de la région et du gendre sur la perception d’un
point de vente.
Cinq classes professionnelles ont été définies. La variable métrique à étudier est le degré de
satisfaction du point de vente Magasin Général (mesurée par une échelle d’osgood de 5
points). Plusieurs types de mesure ont été effectués pour chaque catégorie professionnelle, le
graphique tracé est comme suit :
- On construit la boite contenant la moitié centrale des observations : les trois traits pleins
horizontaux correspondant au premier quartile (Q1), au deuxième quartile Q2 (ou la
médiane Me) et au troisième quartile (Q3). On calcule l’écart interquartile (Q3-Q1)
- On trace la barre supérieure correspondant à la valeur du 3éme quartile augmenté d’une
fois et demie l’écart interquartile
- De même on calcule la barre inférieure à partir du 1er quartile moins une fois et demi
l’écart interquartile
- Si le maximum est inférieur à cette barre supérieure, on ramène celle –ci à la valeur
maximum. On opère de façon similaire avec le minimum.
- On relie ensuite ces deux barres à la boite par des pointillés verticaux.
Le diagramme en boite permet de visualiser les différentes distributions et de les comparer par
rapport à: la forme d’une distribution (symétrique ou non) et la position (médiane, quartiles).
II.1.2. Application sur SPSS

Lien entre perception et sexe


Graphe boite de dialogue ancienne version boite à moustache simple Définir
Variable : perception image
Axe des modalités : sexe
Wahiba Kalboussi 2015/2016

Graphique
La représentation graphique en boite à moustaches permet de comparer facilement la
distribution de différentes variables, ou encore de la même variable pour différentes modalités
d’une variable qualitative.

Lien entre perception et sexe

La dispersion de la variable perception d’une grande surface est plus importante chez les
hommes que chez les femmes.

II.2. Etude explicative


II.2. 1. Le test de comparaison de moyennes pour échantillons indépendants

Le test de comparaison de moyenne pour échantillons indépendants suppose que la variable


non métrique (nominale ou ordinale) comporte seulement deux modalités :
Lorsque la variable non métrique comporte plus de deux modalités (dans ce cas, il y donc plus
de deux moyennes à comparer), il devient nécessaire de faire une analyse de variance à un
facteur :
Wahiba Kalboussi 2015/2016

L’hypothèse H0 est la suivante : « les moyennes observées pour les deux groupes sont
égales ». « L’objectif est de rejeter cette hypothèse H0 pour accepter l’hypothèse H1 »les
moyennes observées dans les deux groupes sont différentes ».
Dans notre exemple, on souhaite savoir si l’attitude moyenne envers une enseigne (la
variable est mesurée sur une échelle de 5 points) est égale chez les hommes et les femmes.

II .2. 1.1. Application sur SPSS


Sélectionner :
Analyse comparer les moyennes test T pour échantillons indépendants

Variables à tester: imagepro


Critères de regroupement qualitatif numérique : Sexe
Définir groupes: groupe 1 :1 et groupe 2 : 2
OK

II.2. 1.2.Résultats et interprétations


Statistique du Groupe
Sexe N Moyen Ecart type Erreur
ne standard
moyenne
homme 443 ,2415 1,19118 ,05659
impromog
femme 357 ,1681 1,12669 ,05963

Nombre d’individus composant Moyenne de chaque sous


chaque sous échantillon. On vérifie échantillon sur la variable à tester
si la condition d’un minimum de 30 (variable métrique). Cette
individus par sous- groupe est indication permet de se faire une
vérifiée.( le logiciel ne donne pas première idée et de voir quel sous
d’indication dans ce sens) groupe a la moyenne la plus
élevée.
Wahiba Kalboussi 2015/2016

Test d’échantillons indépendants


Image Test de Levene test – t pour Egalité des Moyennes
Promogro sur l’égalité des
variance
Variances
F Sig. T Ddl Sig. Différence Différe Intervalle de Confiance
(bilatérale) Moyenne nce 95%de la Différence
Ecart Inférieur supérieure
type e
Hyp. Var ,095 ,375
2,799 ,888 798 ,07347 ,08271 -,08888 ,23581
égales
Hyp. Var.
,894 777,858 ,372 ,07347 ,08221 -,08792 ,23485
inégales

Pour que le test de comparaison de


Lorsque le test de levene n’est pas significatif (>0.05), on moyennes soit significatif et que
retient le résultat du test basé sur l’hypothèse des variances l’on puisse rejeter H0, il faut que
égales. Il faut alors lire les résultats du test de comparaison de la significativité (p) soit à 0.05.
moyennes (test T pour égalité des moyennes) sur la première dans le présent exemple, la
ligne. Lorsque le test de Levene est significatif, il faut alors significativité = 0.375>0.05, on
considérer le résultat du test basé sur l’hypothèse des variances conclut qu’il n’existe pas de
inégales. Il faut alors lire sur la deuxième ligne, les résultats du relation entre le sexe et la
test de comparaison de moyennes (Test t pour égalité des perception du point de vente
moyennes). (mesurée sur une échelle d’osgood
de 5 points).

II.2.2. Analyse de la variance à un Facteur (ANOVA à un Facteur)

Mise en situation
On souhaite étudier l’effet d’un facteur d’ambiance (à savoir la musique publicitaire)
sur la réponse des prospects aux messages publicitaires (croyances d’image, attitude envers
la publicité et envers le produit, intention d’achat,..).
L’échantillon retenu a été subdivisé en trois groupes : chaque groupe a été soumis à
un effet musical différent accompagnant le message publicitaire (classique, moderne,
folklore).
Après avoir vu le message publicitaire (accompagné de l’extrait musical approprié),
chaque prospect est prié de répondre à un questionnaire afin de tester d’appréhender les
croyances d’image qui naissent à l’égard de la marque.
Quelle serait l’outil statistique à utiliser pour vérifier s’il existe une influence
significative des évocations musicales associées à un extrait sur les croyances d’image qui
naissent à l’égard de la marque ?

L’analyse de variance à un facteur (ANOVA à un facteur) est utilisée dans le cas des
tests de comparaison de moyennes sur plusieurs (plus de deux) échantillons indépendants ou
groupes, ce qui n’est pas autorisé par l’analyse de comparaison de moyennes classique.
On a donc recours à l’analyse de variance à un facteur lorsque la variable explicative
(non métrique) a plus de deux modalités.
Ainsi, les données doivent donc se présenter sous la forme d’observations obtenues pour une
variable métrique (à expliquer) par plusieurs sous échantillons de population correspondant à
une variable qualitative (explicative).
L’analyse de la variance est fondée sur deux grands principes :
Wahiba Kalboussi 2015/2016

- Plus les différences entre les moyennes des groupes observés dans l’échantillon sont
grandes, plus il y a des chances que la relations existe dans la population.
- Plus la dispersion (la variance) dans les groupes est petite, plus les différences entrée les
moyennes sont réelles dans la population.

Par exemple, on voudrait voir s’il existe un lien entre la perception de l’image d’un point de
vente (variable métrique mesurée à l’aide d’une échelle d’intervalle) et la catégorie socio
professionnelle (variable qualitative : échelle nominale)
Si la relation entre les deux variables est significative, on peut en conclure que les moyennes
varient selon des perceptions varient selon la profession. .
II.2.2. 1.Application sur SPSS
Sélectionner: analyse comparer les moyennes ANOVA à 1 facteur.
Introduire la variable métrique perception de l’image du point de vente dans « variable
dépendante » et la variable non métrique profession dans « critère ».

II.2.2.2. Résultats et Interprétation

La moyenne indique la perception « moyenne » de


l’image du point de vente selon les catégories
socioprofessionnelles.
Descriptives
Imagénér
N Moyen Ecart Erreur Intervalle de Maxim
ne type standard Confiance à 95% um M
pour la Moyenne
Min
Borne Borne
inférie supérieu
ure re
profession
10 1,50 ,5270 ,16667 1,123 1,8770 1,00 2,00
libérale
commerçant 28 ,71 1,212 ,22920 ,2440 1,1846 -2,00 2,00
fonctionnaire 93 ,67 1,217 ,12623 ,4267 ,9281 -2,00 2,00
Cadre 55 1,12 1,072 ,14461 ,8373 1,4172 -2,00 2,00
Homme
17 1,35 ,7018 ,17023 ,9921 1,7138 ,00 2,00
d'affaire
sans emploi 84 ,40 1,109 ,12110 ,1639 ,6456 -2,00 2,00
Wahiba Kalboussi 2015/2016

Etudiant 157 ,28 1,138 ,09084 ,1072 ,4661 -2,00 2,00


enseignant 33 ,60 1,434 ,24977 ,0973 1,1148 -2,00 2,00
Autre 323 ,78 1,191 ,06627 ,6529 ,9137 -2,00 2,00
Total 800 ,66 1,191 ,04214 ,5860 ,7515 -2,00 2,00

ANOVA
Imagénér Le Niveau de
Somme des Ddl Moyenne des F Signification signification P<0.05,
carrés carrés ce qui signifie que les
Inter Groupes 59,642 8 7,455 5,483 ,000 différences des
intra Groupes 1075,577 791 1,360 moyennes sont
Total 1135,219 799 statistiquement
significatives. On peut
donc rejeter H0 et
conclure que les
moyennes dans la
population sont
inégales.

La représentation
graphique des moyennes
montre la variation des
moyennes en fonction de
la profession.

Le même tableau peut s’obtenir à partir d’une régression multiple où la variable dépendante
sera «la perception de l’image du point de vente » et où les variables indépendantes seront les
variables muettes «catégorie1, catégorie2, catégorie3, catégorie4, catégorie5, catégorie6,
catégorie7, catégorie8.
La «catégorie1» = 0 sauf pour les cas où la catégorie socioprofessionnelle des répondants est
la profession libérale. La «catégorie1» prendra dans ces cas la valeur1. Les autres variables
muettes sont construites de la même manière, sauf pour la catégorie « autres profession » qui
a été omise par choix méthodologique pour neutraliser un problème dit de colinéarité lié au
fait que «catégorie1, catégorie2, catégorie3, catégorie4, catégorie5, catégorie6, catégorie7,
catégorie8 sont strictement complémentaires (la somme des 8 variables donnant une colonne
de 1).

III.Relation entre variables Quantitatives

Si on étudie un ensemble de points de ventes d’une enseigne nationale (population) en


fonction de deux variables numérique X (le chiffre d’affaires annuel) et Y(le budget
publicitaire annuel), la représentation, de l’ensemble des données générées se traduit par un
nuage de points.
Existe-t-il une relation entre les deux variables ? Sont-t -elles totalement indépendantes ou, au
contraire, très dépendantes l’une de l’autre ?Pouvons-nous remplacer le nuage de points par
une courbe afin de mieux apprécier le degré de cette dépendance ?
Wahiba Kalboussi 2015/2016

En fait, l’intuition ne suffit pas pour la gestion de cette enseigne (et son réseau de points de
vente), la représentation graphique d'un phénomène s’avère très utile puisqu’elle permet de
dégager une tendance dont la prise en compte est bénéfique pour l’entreprise.
Trois séries de problèmes se posent :
. L’ajustement : il s'agit de trouver la courbe la mieux appropriée pour représenter le
nuage de points et de déterminer son équation.
. La régression : si le nuage de points peut être ajusté par une courbe de la forme Y=f(X)1,
nous voudrions estimer la valeur de Y à partir de X ; la courbe ainsi définie est la courbe de
régression de Y en X.
.La corrélation : il s’agit de mesurer l’intensité de la liaison ou de corrélation entre X et
Y.

III.1.L'ajustement

Lorsqu'on représente les données d'une série statistique sur un graphique, on obtient une suite
de points plus ou moins dispersés. En fait, la dispersion varie selon le degré des erreurs
d'observation ou l'influence de facteurs accidentels. L’ajustement de la série statistique
consiste tout d’abord à éliminer les erreurs d'observation et les phénomènes accidentels,
ensuite à substituer aux nombres observés des nombres susceptibles de représenter la loi de
variation du phénomène; trouver ces points.
Les procédés d'ajustement peuvent être classés, en trois catégories :
1) Ajustement graphique
2) Ajustement analytique
III.1.1.Ajustement graphique
On trace, à main levée, une courbe continue, la plus régulière possible, s’adaptant le mieux
aux points représentatifs. Même si cette méthode simple et rapide peut paraître présenter une
certaine part d’arbitraire, ceci n’empêche qu’en réalité, elle donne dans la pratique d’assez
bons résultats.
III.1.3.Ajustement analytique
On cherche à déterminer la fonction y = f(x) qui traduit le mieux la loi régissant les variations
du phénomène - on substituera donc aux nombres observés les valeurs définies par cette
fonction
Ne pouvant généralement trouver une fonction exacte, on se contentera d’une formule
approchée s’adaptant de façon satisfaisante aux observations. Guidé par l’allure générale du
nuage de points, on choisira de préférence la fonction la plus simple (linéaire, parabolique,
hyperbolique ou exponentielle), évitant toute fonction aux paramètres nombreux et
compliqués.
III.1.3.1. regression linéaire simple: la Méthode des moindres carrés.

1
La connaissance de x à partir de y est également utile. Plus la courbe de régression de x en y se
rapproche de la courbe de régression de y en x, plus la liaison entre les deux variables est étroite.
Wahiba Kalboussi 2015/2016

Un ajustement "à main levée" d'une droite sur le nuage de points serait assez discutable, car il
serait difficile de trancher entre deux droites possibles qui ne différeraient que légèrement. Il
faut donc un critère pour choisir l'une de ces droites. Le critère que l'on retient est basé sur
l'écart di, c'est à dire la distance verticale entre le point observé (xi, yi) et le point
correspondant (xi, ŷ i )
sur la droite (voir
figure1). Figure1
Il semble raisonnable
de déterminer (estimer)
les coefficients b0 et b1
de la droite, de manière
à ce que l'ensemble des
écarts soit aussi faible
que possible, c'est à
dire que le ŷ calculé
soit le plus près
possible du y observé.
La méthode part du
principe que la somme
des carrés des écarts
des points du nuage à la
droite d’ajustement doit
être la plus petite
possible. Il faut donc
minimiser la somme
des carrés des distances comptées parallèlement à oy, écarts verticaux. La droite ainsi
déterminée s'appelle la droite de régression linéaire, ou encore droite des moindres carrés
Suivant le même raisonnement que précédemment :

 (d )²  ( y
i 1  ax1  b) 2  (y 2  ax2  b) 2  .....  ( y n  axn  b) 2

Il faut donc rendre minimale l’expression :


in

 (y
i 1
i  ax i  b) 2

Il s'agit de calculer les coefficients a et b.


Détermination du coefficient b :

 (y  ax i  b) 2   ( y i  ax i )  b 
2
i

 (y i  ax i ) 2  2b ( y i  ax i )  nb 2

Cette expression peut être considérée comme un trinôme du second degré en b. le coefficient
n de b² étant positif. Le trinôme a donc, quelque soit n, un minimum obtenu pour :
1 1 a
b
n
 ( y i  ax i )   y i   x i
n n
Wahiba Kalboussi 2015/2016

Nous savons que x i


 x (moyenne arithmétique des n valeurs de x) et
y i
 y (moyenne
n n
arithmétique des n valeurs de y).
Donc le paramétre b s’écrit : b  y  ax .

Puisque y  ax  b , la droite d’ajustement que nous cherchons passe par le point de


coordonnées ( x, y) , appelé barycentre ou centre de gravité du nuage
Détermination du coefficient a :
Un changement d’axe, passant par ce point de coordonnées ( x, y) transforme l’équation de la
droite d’ajustement en Y = aX , a étant le coefficient angulaire cherché.
Pour obtenir a, il faut minimiser l’expression :

 (Y  aX )
i i
2
 (Yi  aX i ) 2  (Y2  aX2) 2  ...  (Yn  aX n ) 2   (Yi ) 2  2a  X i Yi  a 2  (X i ) 2 Cette
expression peut être
considérée comme un trinôme du second degré en a. Le coefficient de a2 , étant une somme de

carrés, est positif. Le trinôme a donc un minimum obtenu pour : a 


 X iYi
 X i2
Connaissant a, il est facile de déterminer l’équation de la droite d’ajustement ( retour au
référentiel d’origine, puisque X i  x i  x et Yi  y i  y )

Donc a 
 (x  x)( y  y)
i i

 (x  x) i
2

Cette formule nécessite le calcul des écarts ( x i  x ) et ( y i  y) , ce qui peut être long et
fastidieux. Améliorons cette formule.
 (x  x )( y i  y)  ( x 1  x )( y1  y)  ( x 2  x )( y 2  y)  ...  ( x n  x )( y n  y)
x  n x et y  ny
i
Or
 ( x 1 y1  x 1 y  xy1  x y)  ( x 2 y 2  x 2 y  xy 2  x y)  ...  ( x n y n  x n y  xy n  x y) i i

  x i y i  y x i  x  y i  n x y
si bien que
En ce qui concerne le dénominateur, en suivant le même raisonnement. Nous obtenons

 (x  x) 2   x i  n(x)
2 2
i

Le paramétre a peut donc prendre la forme : a   x y  n yx


i i

 x  n(x)
2 2
i

1
Si nous multiplions numérateur et dénominateur par , nous obtenons :
n
1

 ( xi  x)( yi  y) 
a n
1
n
 ( xi  x ) 2
Nous avons, de cette façon au dénominateur la variance  2x et le produit figurant au
numérateur n’est que autre que la covariance (x,y) :
Wahiba Kalboussi 2015/2016

cov ariance( x, y) COV ( x, y)


a 
var iance ( x)  x2
En conclusion, l’équation de la droite :

- Ajustée par rapport aux axes X’X et Y’Y est : Y  ax avec a


X Yi i

X 2
i

 (x i  x)( yi  y)   xi yi  n y x
- Ajustée par rapport aux axes initiaux x’x et
y’y est :

y  ax  b avec a 
 (x  x)(y  y)
i i
et b  y  ax
 (x  x)
i
2

Autres formulations : a 
 x y  n yx
i i

 x  n(x)
2 2
i

1
cov ariance ( x, y) n  i
( x  x )( y i  y)  
a 
1

var iance ( x )
(x i  x) 2
n
Il existe donc plusieurs procédés de calcul relatifs à la droite des moindres carrés. Nous

retiendrons de préférence : a 
 x i y i  n yx
 x i  n(x) 2
2

C’est à dire l’utilisation directe des données, sans calcul des écarts.
Si  (d ) i
2
est minimum, il en résulte que  (d )  0 .Un contrôle i de l’ajustement est
possible : il suffit de vérifier par calcul ou sur le graphe que  (d )  0 . i

Chaque fois que l’examen de la représentation graphique des points permet de juger possible
un ajustement linéaire, nous détiendrons la droite ajustée de préférence par la méthode des
moindres carrés.
III.2.2.Ajustement se ramenant à un ajustement linéaire
Il arrive souvent que la représentation graphique des points écarte l’hypothèse d’un
ajustement linéaire et suggère un ajustement à l’aide d’une hyperbole, d’une fonction
puissance ou d’une fonction exponentielle.
Dans certains cas, un changement de variable ramène un ajustement compliqué à un
ajustement linéaire. Par exemple :
- Si des points (xi, yi) sont situés au voisinage d’une hyperbole d’équation :
1 1
y , c’est à dire  ax  b,
ax  b y
1
Les points Xi =xi et Yi= sont situés près de la droite d’équation Y=aX+b ;
yi
Wahiba Kalboussi 2015/2016

nous sommes ainsi en présence d’un ajustement linéaire sur les (Xi,Yi).
-Si des points (xi, yi) sont situés au voisinage d’une parabole d’équation y=ax2, les points
Xi =xi2 et Yi=yi sont situés près de la droite Y=aX. Là encore, nous sommes conduits à un
ajustement linéaire.
-Si une série peut faire l’objet d’un ajustement exponentiel, nous écrirons la relation
y=BAx (A et B étant des constantes) sous forme logarithmique
log Y=log B+x log A et, en posant Y=log y ; b=log B et a=log A
Nous pouvons écrire : Y=ax+b : Equation d’une droite qui nous ramène à un ajustement
linéaire.
III.1.4.Exercice pratique
Le directeur commercial d’une multinationale doit embaucher régulièrement de nouveaux
vendeurs. Il est connu que plusieurs facteurs peuvent expliquer la variabilité dans la
performance d'un vendeur à un autre. Parmi eux, on note les différences d'aptitude, les
différences dans l’engagement professionnel, et les différences dans l'effort discrétionnaire.
Le directeur, avec l'aide de spécialistes, a mis au point un test d'aptitude, qui lui permettra de
choisir les meilleurs parmi ceux qui postulent l'emploi. Ce test a été appliqué à un échantillon
de douze (12) vendeurs qui sont déjà à l'emploi de l'organisation. Les scores obtenus pour ce
test, ainsi que les montants (moyens) des ventes mensuelles de ces 12 employés sont donnés
au tableau suivant :

Ventes mensuelles en MDT Score au test d'aptitude


30 84
20 71
24 71
18 65
26 80
24 74
26 76
20 68
30 80
22 75
28 78
26 77

La représentation graphique de ces données laisse entrevoir l'existence d'une relation entre les
ventes et les résultats du test.

Figure 2: ventes/score
Wahiba Kalboussi 2015/2016

Puisque les deux variables sont liées, le directeur exploitera le résultat du test d'aptitude et le
montant des ventes mensuelles d'un échantillon de 12 vendeurs, pour améliorer sa prévision
du montant des ventes d'un candidat ayant obtenu un certain score pour le test d'aptitude.
1. Quel modèle sera employé permettant d’expliquer la variabilité des ventes par celles
des tests effectués ?
2. Déterminer les paramètres de la droite de régression selon la méthode des moindres
carrés.
3. Quelle est la signification du coefficient b1 de régression de Y en X ?
Solution. Le tableau contient les différentes valeurs permettant de calculer b0 et b1
1. Le modèle qui sera employé est le modèle de l’ajustement linéaire par une droite
affine d’équation : y=ax+b

yi xi xi² xiyi

30 84 7056 2520

20 71 5041 1420

24 71 5041 1704

18 65 4225 1170

26 80 6400 2080

24 74 5476 1776

26 76 5776 1976

20 68 4624 1360

30 80 6400 2400

22 75 5625 1650

28 78 6084 2184

26 77 5929 2002

294 899 67677 22242

899 294
x  74.9167, y   24.5
12 12
A partir de ces valeurs, on a :
22242  12(74.9167)(24.5) 216.5
b1    0.662
67677  12(74.9167)² 326.916
et b0 = 24.5-0.662(74.9167) = -25.1135
Wahiba Kalboussi 2015/2016

On obtient ainsi, à partir des couples observés dans l'échantillon, la droite des moindres
carrés:

Ŷ = -25.1135 +0 .662 X.

III.1.5.Application sur SPSS pour le calcul des paramètres :

Sélectionner : analyse statistiques descriptives effectifs statistiques.

test d'aptitudes performance


des vendeurs
Valid 12 12
N
Missing 0 0
Moyenne 74,92 24,50
Variance 29,720 15,364

Procédure sur SPSS pour la régression linéaire

Sélectionner: analyse régression linéaire Poursuive


Wahiba Kalboussi 2015/2016

À partir de enregistrer de la figure précédente, on


demande les Yi calculés « ajustés» par la régression et
les résidus sous forme non standardisée et sous forme
standardisée. Les variables demandées viendront s’ajouter
au fichier de données.
Wahiba Kalboussi 2015/2016

AJOUTER SPSS POUR GRAPHIQUE


a
Variables introduites/supprimées

Modèle Variables Variables Méthode


introduites supprimées
b
1 test d'aptitudes . Entrée

a. Variable dépendante : performance des vendeurs


b. Toutes variables requises saisies.
b
Récapitulatif des modèles

Modèle R R-deux R-deux Erreur Durbin-Watson


ajusté standard de
l'estimation

1 ,921a ,848 ,833 1,601 2,916

a. Valeurs prédites : (constantes), test d'aptitudes

a
ANOVA
Modèle Somme des ddl Moyenne F Sig.
carrés des
carrés
Régression 143,3 1 143,377 55,956 ,000b
1Résidu 25,62 10 2,562
Total 169,0 11

a. Variable dépendante : performance des vendeurs


b. Valeurs prédites : (constantes), test d'aptitudes
a
Coefficients
Modèle Coefficients non Coefficie t Sig. Statistiq
standardisés nt ues de
standard colinéa
isés rité

A Erreur Bêta Toléranc VIF


standard e

(Constante) -25,113 6,649 -3,777 ,004


1
test d'aptitude ,66 ,089 ,921 7,480 ,000 1,000 1,000

a. Variable dépendante : performance des vendeurs


Wahiba Kalboussi 2015/2016

La figure3.ci dessous montre la droite de régression pour le nuage de points correspondant


aux données de cet exemple.
Figure 3 :

Ŷ = -25.1135 +0 .662 X.
(x , y)

3. Le coefficient b1 de régression de Y en X (la pente de la droite) signifie qu'une


augmentation de 1 point dans le résultat du test d'aptitude devrait se traduire par une
augmentation moyenne de b1= 0.662 (ou 662D) dans le montant des ventes mensuelles.

III.1.6. Exercice d’application:

L’exemple suivant est tiré d’une enquête réalisée dans le cadre d’un travail de recherche
portant sur l’évaluation de l’efficacité d’une formation par alternance2 ; Il s’agit dans un
premier temps, d’évaluer les compétences acquises et requises des lauréats d’une licence
coconstruite, d’identifier dans un deuxième temps, les modules d’enseignement susceptibles
de développer les compétences requises par les professionnels et enfin d’étudier le transfert de
ces compétences sur le terrain.

Dans cet exemple, nous allons vérifier le transfert des compétences sur le terrain (autrement
dit : la formation académique engendre la réussite au niveau du projet professionnel), ceci
revient à tester l’existence d’une relation linéaire entre les deux variables et mesurer son
intensité.

2
L’évaluation de l’efficacité d’une formation par alternance 2 : cas de licence coconstruite en
management des rayons. Wahiba Bali Kalboussi colloque ADMEE Paris décembre 2011
Wahiba Kalboussi 2015/2016

La variable explicative ou indépendante (variable métrique) est la moyenne du candidat


(mesurée à l’aide d’une échelle de 5 points), La variable à expliquer (dépendante) est la note
du projet professionnel (variable métrique)

b
Variabl es introduites/éli minées

Variables Variables
Modèle introduites éliminées Méthode
1 MOY ENNEa , Introduire
a. Toutes v ariables requises introduites
b. Variable dépendante : note au projetCe tableau
prof essionnalisé (soutenance orale, indique
le rapport, ..) les
Application sur SPSS : variables
explicatives
prises en compte
Récapitulatif du modèle
dans le
Erreur modèle.
standard de
Modèle R R-deux R-deux ajust é l'est imat ion
1 ,685a ,469 ,435 1.636
a. Valeurs prédites : (constantes), MOYENNE

R : coefficient de R-deux : carré de L’objectif d’une bonne


corrélation entre R , donne le % de régression linéaire est d’avoir
les deux variables variance de projet un modèle avec peu de
dans le cas d’une professionnel variables explicatives mais
régression simple. expliqué par significativement correctes.
formation
Contrairement à R-deux qui
académique :
augmente en fonction du
46.9% de la nombre des variables
variance est explicatives dans le modèle, R
expliquée par le deux ajusté ne dépendent pas
modèle. des variables.

Le R deux ajusté est toujours plus petit que le R. La différence entre R et


R deux ajusté est d’autant plus faible que l’échantillon est grand et que le
nombre de variables est petit. On considère le R deux ajusté surtout dans
une régression multiple.

ANOVAb

Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression 37,752 1 37,752 14,112 ,002a
Résidu 42,803 16 2,675
Total 80,556 17
a. Valeurs prédites : (constantes), MOYENNE Ce tableau permet de
tester
b. Variable dépendante : note au projet prof essionnalisé (soutenance orale, lelarapport,
significativité
..)
F= r²(n-2)/(1-r²) du modèle obtenu. Ici
le modèle est
significatif.
Wahiba Kalboussi 2015/2016

Coeffi ci entsa

Coef f icients non Coef f icients


standardisés standardisés
Erreur
Modèle B standard Bêta t Signif ication
1 (constante) -12,291 7,134 -1,723 ,104
MOYENNE 1,984 ,528 ,685 3,757 ,002
a. Variable dépendante : note au projet prof essionnalisé (soutenance orale, le rapport, ..)

3.3. La
Ce tableau corrélation
donne les coefficients (dits B dans SPSS) de la droite ainsi
qu’une mesure de la signification de ces deux coefficients (constante
et coefficient de variable explicative). Ici, le coefficient de la
moyenne de la formation académique est significatif par contre la
constante n’est pas significative, donc l’hypothèse de nullité des
coefficients est à rejeter pour le cas de la moyenne de la formation
académique et à admettre pour la constante. La constante n’est pas
significativement différente de 0.

III. 3. La corrélation linéaire entre 2 variables

Dans le cas où le nuage de points prend une forme allongée telle que les points le constituant
semblent se répartir autour d'une droite (de pente positive ou négative) on peut calculer un
indice qui mesure l’intensité de la liaison linéaire (la co-variation ) entre les deux variables.
Cette mesure est standardisée (elle ne dépend pas de l’unité utilisée pour chaque variable), et
est comprise entre -1 et +1.

III. 3.1.Définition d’un coefficient de correlation :


Nous définissons le coefficient de corrélation linéaire comme suit:
Coefficient de corrélation linéaire
Le coefficient de corrélation 1inéaire, noté r, est un nombre sans dimension qui
mesure l'intensité de la 1iaison linéaire entre deux variables observées. Cet indice s'obtient en
calculant le rapport suivant:
n
 (x i  x)( y i  y)
i 1
r
n n
 ( x i  x )  ( y i  y) 2
2

i 1 i 1

Où n représente le nombre de couples d’observations (xi , yi)


Le calcul du coefficient de corrélation permet donc d'obtenir une estimation du degré de
corrélation linéaire entre deux variables aléatoires X et Y d'une même population. En raison
de la symétrie de sa définition, il mesure aussi bien l'intensité de la liaison linéaire entre Y et
X qu'entre X et Y.

Plus le coefficient est proche de 1 en valeur absolue, plus les variables sont dites corrélées :

- Si r est proche de +1, ceci signifie que les deux variables varient dans le même sens
(exemple : la consommation et le revenu).
- Si r est proche de -1, ceci signifie que les deux variables varient en sens inverse l’une de
l’autre (la consommation des gâteaux et l’âge)
Wahiba Kalboussi 2015/2016

- Plus r est proche de 0, moins les variables sont corrélées. Ainsi, r=0, signifie l’absence de
relation entre les deux variables ; ceci n’empêche que d’autres relations restent toujours
possibles, exemple : relation sinusoïdale de type y= sinx).

III. 3.2. Autres formules pour calculer le coefficient de corrélation


- L'expression que nous venons de donner pour le calcul de r peut ne pas être commode si la
moyenne de l'une ou l'autre des variables n'est pas un nombre entier ou si les valeurs des
variables ne sont pas des nombres entiers. On peut alors simplifier les calculs en utilisant
les expressions équivalentes suivantes:
 x i  y i 
n  x i y i   x i  y i 
n n
 x i yi  n
i 1 i 1
r 
n  x i   x i 
n
2 2
n  y i   y i 
n
2 2 n  x i 2 n 2  y i 2
i 1 i 1
 xi2  n
 yi  n
i 1 i 1

III.3.3. Procédure sur SPSS pour la corrélation:

On voudrait tester la corrélation entre les 2 variables métriques suivantes: l’image perçue de
l’enseigne Carrefour et la largeur des allées entre les rayons qui favorisent une circulation
sans gêne.

Analyse corrélation bivariée ok


Vu que les enquêtes portent sur
des échantillons et non sur la
population totale, le logiciel
SPSS teste, si le coefficient
obtenu est significativement
différent de 0 dans la
population. Il indique le risque
d’erreur de première espèce
(noté sig.), à savoir le risque de
rejeter à tort l’hypothèse de non
corrélation (ou encore
l’hypothèse H0 : r=0).

Basculer les variables Cocher


dont on souhaite mesurer coefficient
les coefficients de de
corrélation deux à deux, corrélation
de la fenêtre de gauche à de
la fenêtre de droite. Pearson

Vous aimerez peut-être aussi