Chapitre Iiianalysedesdonn2es
Chapitre Iiianalysedesdonn2es
Chapitre Iiianalysedesdonn2es
Mise en situation
Le directeur d’une enseigne voudrait étudier les relations éventuelles entre certaines
variables :
Analyser les relations entre les chiffres d’affaires des points de vente et le budget
publicitaire afin de déceler le point de vente le plus performant
Vérifier si l’achat d’un produit X est différent entre hommes et femmes
Etudier si la répartition du chiffre d’affaires par points de vente similaires est
différente par région géographique.
Etudier l’attitude des consommateurs par rapport à deux produits concurrents.
Est-ce que les possibilités de traitements sont identiques quelle que soient les
variables mesurées?
INTRODUCTION :
En statistique appliquée, il est fréquent d’observer des phénomènes où il y a bien de
soupçonner qu’il existe une liaison entre 2 variables. Par exemple : le volume des ventes
d’une entreprise peut être fonction du montant alloué à la publicité, la rupture d’un produit
peut être liée au degré de fiabilité du système d’information de l’entreprise; etc.
Il arrive donc fréquemment que dans une étude statistique, l’on mesure sur chaque unité de
l’échantillon, un certain nombre de variables et qu’on examine par la suite s’il existe une
certaine forme d’association entre elle.
On va essayer de traiter dans ce chapitre, de l’existence d’une certaine dépendance statistique
entre deux variables observées. On commencera alors par établir et mesurer le lien entre deux
variables dont au moins une est qualitative. Ensuite, on envisagera le cas où les 2 variables
sont quantitatives.
On procédera, pour chaque type de relation, par une étude descriptive et une étude explicative.
Il importe de préciser dés lors que le cadre différentiel de l’analyse peut être de deux natures.
On distingue :
- le cadre différentiel fréquentiste : il relève de ce qu’on appelle l’inférence généralisante. On
l’utilise lorsque l’on cherche à généraliser les résultats observés sur un échantillon à toute la
population mère. Ce cadre inférentiel suppose strictement que l’échantillon ait été obtenu par
un tirage au hasard de l’échantillon.
- Le cadre inférentiel ensembliste ne constitue pas, un cadre inférentiel dans la mesure où il ne
s’agit plus de généraliser les résultats à une population plus vaste. Il s’agit plutôt, de situer un
groupe d’observations particulier parmi un ensemble de possible. L’expression inférence fait
référence dans ce cas aux procédures utilisées (les tests d’hypothèse) qui sont de type
inférentiel. La visée quand à elle est une visée descriptive (caractériser le groupe
d’observation).
I.1. Généralités
Les séries que nous avons étudiées dans les sections précédentes se rapportaient toujours à un
seul caractère, par exemple les ventes d’un magasin, la satisfaction vis-à-vis d’un point de
vente, d’un produit ou d’un service, etc. Il est souvent utile d'étudier une population en
considérant deux caractères particuliers et, plus spécifiquement, en analysant les variations
respectives de ces deux variables.
Supposons que l'on fasse une enquête auprès d'un échantillon de citoyens et que l'on s'informe
sur leur âge, leur sexe, leur revenu, leur centre d’intérêt et la destination de leur voyage. Il
serait sûrement intéressant de vérifier s'il y a un lien entre le revenu et la destination de leur
voyage, ou encore le sexe et le centre d’intérêt, ou encore entre l'âge et la destination du
voyage, etc.
Dans ce chapitre, nous allons établir et même mesurer un lien entre deux variables.
I.2.Distribution conjointe
Situons nous dans une population formée de N individus ou dans un échantillon de n
individus. Supposons qu'on s'intéresse à deux variables statistiques X et Y dont les modalités
sont x1, x2 ..., xk pour la variable X et y1, y2, ….,yp pour la variable Y. On ne s'intéresse plus
uniquement à la variable X ou à la variable Y, mais plutôt à la distribution conjointe de X et
de Y qui fait correspondre à tout couple (x , y) un effectif nij, Une distribution conjointe est
présentée dans un tableau à double entrée appelé tableau de contingence.
Y …
y1 y2 …
yj yr Totaux
X …
x1 n11 n12 …
n1j …n1r n1
x2 n21 n22 …
n2j …n2r n2
… … … … … …
…
xi ni1 ni2 …
nij …nir ni
…
xk nk1 nk2 …
nkj …nkr nk
Totaux n1 N2 …
nj …nr N
même, chaque colonne constitue une distribution conditionnelle de X étant donnée une
caractéristique de Y.
Exemple 1: Dans un échantillon de 200 clients d’une grande surface, on considère le niveau
d'études complétées et le sexe. On résume les résultats dans le tableau de contingence suivant.
Y : Niveau
d’études Primaire Collégial Secondaire Universitaire Totaux
X : Sexe
Féminin 24 33 21 12 90
Masculin 22 33 36 19 110
Totaux 46 66 57 31 200
Effectifs 46 6 57 31 200
6
Sexe Effectifs
Féminin 90
Masculin 110
Total 200
Effectifs 24 33 21 12 200
Wahiba Kalboussi 2015/2016
Distribution du sexe chez les personnes ayant complété des études collégiales
Sexe Effectifs
Féminin 21
Masculin 36
Total 57
Pour trouver les fréquences partielles, on divise chaque effectif par le nombre total
d'individus, soit 200. On obtient:
Distribution, en fréquences relatives, du niveau d’études et du sexe d’un Echantillon de
200 personnes de 25 ans et plus
Y : Niveau
d’études Elémentaire Collégial Secondaire Universitaire Totaux
X : Sexe
I.3.Causalité et interdépendance
Une observation attentive et une étude détaillée d'un tableau de contingence permettra
d'analyser s'il y a un lien entre les variables concernées et même de mesurer le degré de ce
lien. On peut distinguer deux types de liens entre 2 variables : la causalité et
l'interdépendance.
On dira qu'il y a un lien de causalité entre deux variables X et Y si toute variation de l'une est
causée par la variation de l'autre. C'est une relation de cause à effet. La variable X est la cause
et la variable Y est l'effet. La variable X est ‘indépendante’ et la variable Y est ‘dépendante’.
Par exemple on peut dire qu'il y a un lien de causalité entre le temps de réflexe d’une
personne et son taux d'alcool dans le sang. En effet, une augmentation du taux d'alcool dans le
sang cause une augmentation du temps de réflexe d’une personne. Par contre, si une
vérification expérimentale permet de conclure à l'existence d'un lien entre deux variables,
seule une analyse logique de la situation et du contexte permet de conclure à la causalité.
Deux variables X et Y sont dites interdépendantes si elles varient conjointement, en étant
influencées par un ou des facteurs externes quelconques. Par exemple, les ventes de camions
Wahiba Kalboussi 2015/2016
dans la région augmentent en même temps que les ventes de voitures. Il y a donc une
interdépendance entre ces deux variables. On ne peut cependant pas établir logiquement qu'il
y a là une relation de cause à effet. Une cause commune externe à l'augmentation des ventes
de camions et de voitures pourrait être la prospérité économique de la région.
Lorsque deux variables sont liées par un lien de causalité, elles sont nécessairement
interdépendantes. Toutefois, l'inverse n'est pas toujours vrai, c'est-à-dire que deux variables
peuvent être interdépendantes sans qu'il y ait de lien de causalité. Deux variables X et Y sont
indépendantes si l'une ou l'autre de ces variables peut varier sans que l'autre soit influencée.
Supposons que nous voulons savoir s'il y a un lien entre l'allégeance politique et la classe
sociale. On posera alors la question suivante: «pour quel parti politique voteriez-vous les
prochaines élections?». Notons cette réponse par Y : un caractère qualitatif à deux modalités :
le parti A et le parti B.
Il faudra ensuite poser une question pour déterminer la classe sociale. En général, la plus
simple est de demander la profession et de faire ensuite des regroupements. Pour simplifier,
supposons que la réponse, notée par X, soient les classes suivantes : classe supérieure, classe
moyenne et classe inférieure. Les résultats seront regroupés comme suit:
Parti A 9 12 8 29
Parti B 5 6 14 25
Total 14 18 22 54
D'après ce tableau, 8 personnes de la classe inférieure ont opté pour le parti A tandis que 14
appuient le parti B, dans cette même classe.
On voit, dans ce tableau, que les gens à faible revenu semblent favoriser le parti B, tandis que
les gens à plus haut revenu favorisent le parti A.
La question qu'on se pose est alors la suivante: «Y a-t-il un lien entre la classe sociale et
l'allégeance politique ? »
La démarche logique que les statisticiens ont adoptée est celle qui s'appelle «Test
d'hypothèse».
Un test d'hypothèse est un processus permettant de confirmer ou d'infirmer une hypothèse
concernant une population en examinant un échantillon de cette population. Bien qu'un test
d'hypothèse ne donne pas de certitude absolue, il permet de prédire avec une probabilité que
l'on appelle le «seuil de confiance» et que l'on note 1 - a. La probabilité d'erreur s’appelle le
Wahiba Kalboussi 2015/2016
«risque» ou la «marge d'erreur». La marge d'erreur la plus fréquemment utilisée est de 5%,
c'est à dire qu'on est certain de notre conclusion à 95%.
Dans tout test, d'hypothèse, on établit deux hypothèses mutuellement exclusives qui sont, en
quelque sorte, confrontées. Une et une seule d'entre elles sera acceptée. D'une part, il y a
l'hypothèse nulle, H0, qui suppose qu'il n'y a aucun lien entre les deux variables. C'est
l'hypothèse prudente, l'hypothèse du statu quo, D'autre part, il y a l'hypothèse alternative, H1,
qui est l'hypothèse qui sera acceptée uniquement si la précédente est rejetée. C'est l'hypothèse
audacieuse qui amène une modification, un résultat neuf, une action à entreprendre.
La question qui se pose alors est de savoir comment devraient se répartir les gens dans les
partis pour, qu'effectivement, il y ait un lien entre X et Y.
Par exemple, les 14 personnes de la classe favorisée devraient se répartir selon le même taux
que ceux de la classe moyenne et que ceux de la classe défavorisée, c'est à dire selon le
pourcentage global que l'on observe sur les totaux à droite du tableau: 29/54 pour le parti A
(53,7%) et 25/54 pour le parti B (46,3%).
Si vraiment X et Y n’avaient aucun lien entre elles, les 14 personnes de la première
colonne devraient se répartir de la façon suivante:
53,7% x 14 = 7,52 pour le parti A,
46,3% x 14 = 6,48 pour le parti B,
Il convient donc de constituer un nouveau tableau, que l'on dira théorique, dans lequel seront
calculées les répartitions théoriques que l'on aurait dû avoir si les deux facteurs étaient
vraiment indépendants l'un de l'autre.
TABLEAU THEORIQUE
X
Classe Classe Classe
Y Total
supérieure moyenne inférieure
Total 14 18 22 54
Il convient alors de comparer ces deux tableaux : le tableau expérimental obtenu lors du
sondage et le tableau théorique ci-haut.
Si ces deux tableaux ne diffèrent pas beaucoup, il faudra admettre que l'expérience n'est pas
concluante, qu'elle ne nous permet pas de conclure qu'il y a un lien entre les deux facteurs. Il
se peut qu'une petite différence ne soit due qu'au hasard. Si, par contre, il y a beaucoup de
différence entre les 2 tableaux, il faudra conclure qu'il y a un lien. Tout dépend évidemment
de ce qui est acceptable comme différence.
Mais, comment mesurer mathématiquement la différence entre deux tableaux ? C'est ce que le
coefficient X² (lire Khi-deux) va faire. Il va en quelque sorte mesurer la distance entre ces
deux tableaux.
Wahiba Kalboussi 2015/2016
Prenons la première case: la valeur expérimentale est 9 alors que la valeur théorique aurait dû
être 7,52. La différence est donc de 1,48. Or, comme on ne veut pas que les valeurs négatives
annulent les valeurs positives et fassent croire qu'il n'y a pas de différence, on calcule plutôt le
carré de cette différence.
De plus, cette différence sera d'autant plus grande que les valeurs en question seront grandes.
Une différence de 2 n'est pas importante si les valeurs en jeu sont de l'ordre de 100, mais c'est
une différence importante s'il s'agit de chiffres comme 4 et 9.
On va donc calculer la différence relative :
( valeur exp érimentale valeur théotique)²
valeur théorique
On calcule ce nombre pour toutes les cases et le total sera notre coefficient :
val. exp . val.théo.²
X²
toutes lescases valeur théorique
Dans l’exemple, cela donne :
(9 7,52)² (5 6,48) (12 9,67) (6 8,33) (8 11,81) (14 10,19)
X²
7,52 6,48 9,67 8,33 11,81 10,19
X ² 4,5
Maintenant, la question est de savoir si cette valeur de 4,5 est grande ou petite. Si cette valeur
est suffisamment grande, on rejettera l'hypothèse d'indépendance H0 et on va conclure qu'il
doit Y avoir un lien entre X et Y. Par contre, si cette différence n'est pas assez grande, le
sondage ne sera pas concluant. Cela démontrera qu'il n'y a pas nécessairement de lien entre X
et Y car la différence peut être due au hasard.
Donc, est-ce que 4,5 est grand ou petit ?
Afin de tenir compte du nombre de cases qu'il y a dans le tableau, on calcule le degré de
liberté, que l'on note par la lettre grecque (nu).
= (nombre de lignes - 1) (nombre de colonnes - 1)
Ce nombre représente le nombre de cases dans la partie du centre qui peuvent varier
librement si les effectifs marginaux sont connus. Dans notre exemple, = (2 - 1) x (3 - 1) =
2. On lit ensuite dans la table donnée à la page suivante, vis-à-vis la ligne correspondant à la
valeur 2, le nombre qui donne un seuil de 5%. Ce nombre est ici 5,991. Comme la valeur
trouvée du x², 4,5 est plus petite que 5,991, on ne peut conclure un lien entre X et Y.
L’hypothèse H0, demeure donc plausible. Le test n’est pas significatif au sens statistique du
terme.
Comme dernière remarque, signalons que, pour pouvoir utiliser la loi du Khi-deux, il faut
absolument que la valeur théorique de chaque case soit supérieure ou égale à 5. Sinon, on doit
opérer des regroupements.
- Le Phi ( )
- Le Phi-deux ( ² )
- Le coefficient de contingence (C)
- Le V de Cramer
Pour chacune de ces mesures, nous donnerons les valeurs minimales et maximales possibles.
Il n'y a malheureusement pas de processus unique qui permette d'interpréter facilement un
résultat obtenu.
où. P+ = nl1 (n22 + n23 + n32 + n33) + n12 (n23 + n33) + n21 (n32 + n33) + n22 (n33).
P- = n13 (n21 + n22 + n31 + n32) + n12 (n21 + n31) + n23 (n31 + n32) + n22 (n31).
e) -1 1
Une valeur près de 0 signifie un lien faible, une valeur près de 1 signifie une valeur
forte positive (les variables vont dans le même sens) alors qu’une valeur près de (-l) signifie
une valeur forte négative (les variables vont dans le sens contraire). Seule une littérature
pertinente ou l'opinion d'un spécialiste du domaine permettra une interprétation acceptable.
I.5.3.Le Phi ( )
S’utilise pour mesurer l’intensité et la direction du lien entre deux variables dans un tableau 2
x 2.
Variables X Total
Y A b a+b
Wahiba Kalboussi 2015/2016
C d c+d
Total a+c b+d N
Formule :
ad - bc
(a b) (c d) (a c) (b d)
-1 1
Une valeur près de 0 signifie un lien faible, une valeur près de 1 signifie une valeur forte
positive (les variables vont dans le même sens) alors qu'une valeur près de (-1) signifie une
valeur forte négative (les variables vont dans le sens contraire). Seule une littérature
pertinente ou l'opinion d'un spécialiste du domaine permettra une interprétation acceptable.
I.5.4. Le coefficient de contingence (C)
S'utilise pour mesurer l’intensité du lien entre deux variables qualitatives. Il est basé sur le
calcul du X².
Pour être pris en considération, il doit pouvoir répondre à certaines conditions de
reproduction, de traduction et d’adaptation réservés
1. les deux variables se distribuent normalement dans la population ;
2. les deux variables ont chacune plusieurs catégories (trois ou plus) ;
3. la taille de l’échantillon est relativement grande ;
4. le khi-carré est significatif.
X²
-Formule : C Où n = Nombre total de cas dans le tableau.
X² n
- 0 C 1
Mais le C maximal peut être inférieur à 1. Une valeur près de 0 signifie un lien faible alors
qu'une valeur près de 1 signifie une valeur forte. Seule une littérature pertinente ou l'opinion
d’un spécialiste du domaine permettra une interprétation acceptable.
- Il est surtout utilisé dans les tableaux carrés: 2 x 2, 3 x 3, 4 x 4, etc.
1.5.5. Le V de Cramer
-S’utilise pour mesurer l'intensité du lien entre deux variables qualitatives. Parmi les trois (3)
mesures basées sur le X², c'est le plus acceptable.
X²
-Formule : V Où N = Le nombre total de cas dans le tableau.
Nt
t = (minimum entre le nombre de lignes et le nombre de colonnes).
- 0 V 1
Une valeur près de 0 signifie un lien faible alors qu'une valeur près de 1 signifie une valeur
forte. Seule une littérature pertinente ou l'opinion d'un spécialiste domaine permettra une
interprétation acceptable
Wahiba Kalboussi 2015/2016
Tests du Khi-deux
Signif ication
asy mptot ique
Valeur ddl (bilatérale)
Khi-deux de Pearson 8,039a 3 ,045
Rapport de
8,023 3 ,046
v raisemblance Le niveau de signification de
Association linéaire
4,746 0.045
1 est inférieur
,029 à la valeur
par linéaire
Nombre d'observ ations
critique 0.05 ; ce qui permet de
v alides
800 rejeter H0 et de conclure qu’il
existe
a. 0 cellules (,0%) ont un ef f ect if théorique une relation entre les deux
inf érieur à 5.
L'ef f ectif t héorique minimum est de 32,variables
62. dans la population.
Remarque : l’effectif théorique de chaque
cellule du tableau croisé doit être supérieur à
5. Dans le cas contraire, il peut être nécessaire
de procéder à des regroupements de
modalités.
Remarque : dans la lecture du tableau du khi deux, il est préférable de se référer au seuil de
signification statistique qui est toujours le même 0.05 plutôt qu’à la valeur du X² qui varie
selon le nombre de degré de liberté.
Quand le tableau croisé est formé de plus de deux lignes et de deux colonnes, seuls le khi-
carré de Pearson et le khi-carré du rapport de vraisemblance peuvent s’appliquer. Le test du
risque sera utilisé seulement dans un tableau croisé avec deux lignes et deux colonnes; ce test
doit évaluer le risque (ou la probabilité) d’appartenir ou non à une catégorie de l’une ou de
l’autre des variables.
Mesures symétriques
Signif ication
Valeur approximée
Nominal par Nominal Coef f icient de
,100 ,045
contingence
Nombre d'observ ations v alides
800
Le test de contingence nous donne une mesure de l’intensité de cette relation. Cette mesure se
situe entre zéro et un. Le zéro nous montre une relation nulle ou très faible. A l’autre extrême,
un nous indique une relation totale entre les deux variables. Les valeurs du test Coefficient de
Contingence (C) s’interprètent comme suit:
I.6.2. Tableaux croisés à trois variables : ils nous permettent d’approfondir l’analyse des
données. Nous avons ajouté, dans le dernier rectangle de droite, la nouvelle variable
indépendante de contrôle «sexe ».
Les résultats de cette commande sont présentés ci-dessous :
Wahiba Kalboussi 2015/2016
CARREFOC
PROMOGC oui non Total
oui SEXE homme Ef f ectif 5 35 40
% dans SEXE 12,5% 87,5% 100,0%
% dans CARREFOC 35,7% 62,5% 57,1%
% du tot al 7,1% 50,0% 57,1%
f emme Ef f ectif 9 21 30
% dans SEXE 30,0% 70,0% 100,0%
% dans CARREFOC 64,3% 37,5% 42,9%
% du tot al 12,9% 30,0% 42,9%
Total Ef f ectif 14 56 70
% dans SEXE 20,0% 80,0% 100,0%
% dans CARREFOC 100,0% 100,0% 100,0%
% du tot al 20,0% 80,0% 100,0%
non SEXE homme Ef f ectif 139 264 403
% dans SEXE 34,5% 65,5% 100,0%
% dans CARREFOC 54,5% 55,6% 55,2%
% du tot al 19,0% 36,2% 55,2%
f emme Ef f ectif 116 211 327
% dans SEXE 35,5% 64,5% 100,0%
% dans CARREFOC 45,5% 44,4% 44,8%
% du tot al 15,9% 28,9% 44,8%
Total Ef f ectif 255 475 730
% dans SEXE 34,9% 65,1% 100,0%
% dans CARREFOC 100,0% 100,0% 100,0%
% du tot al 34,9% 65,1% 100,0%
Tests du Khi-deux
Mesures symétriques
Signif ication
PROMOGC Valeur approximée
oui Nominal par Nominal Coef f icient de
,212 ,070
contingence
Nombre d'observ ations v alides
70
Nous pouvons constater au « Tests du khi-carré», que pour ceux fréquentant Promogro de la
variable «fréquentation Promogro», les différences observées entre les hommes et les femmes
ne sont pas significatives pour un seuil de 5% et significatif pour un seuil de 10%) (La «
Signification asymptotique (bilatérale) » est de 0,070) ; nous devons donc, dans ce cas, rejeter
l’hypothèse d’une influence du sexe sur le fait de fréquenter ou non l’enseigne carrefour.
Nous voyons que dans la catégorie « ne fréquentant pas Promogro» les différences observées
entre les hommes et les femmes pas ne sont pas significatives (la « Signification asymptotique
(bilatérale) » est de 0,782).
Pour ceux fréquentant l’enseigne Promogro, il y a une de différence significative entre les
hommes et les femmes, en ce qui concerne leur fréquentation de carrefour. À l’inverse, pour
les hommes et les femmes qui ne fréquentant pas Promogro, il n’y a pas une différence
significative relativement à leur fréquentation de carrefour.
Nous voyons que l’utilisation d’une variable de contrôle mène un raffinement de l’analyse
des données ; à ce moment, la principale difficulté est de bien choisir cette variable de
contrôle ;
Il est alors possible de calculer la moyenne de la variable métrique dans chacun des groupes et
de comparer les résultats. On ne met alors que des différences globales et certaines hypothèses
peuvent être confirmées par des tests statistiques.
II.1.1. Le diagramme boite à moustaches
L’analyse peut être approfondie par une étude de la distribution de la variable métrique dans
chaque groupe permettant également de pouvoir décrire l’information sous une forme
graphique « diagramme boite à moustaches ».
On voudrait mettre en évidence l’influence de la région et du gendre sur la perception d’un
point de vente.
Cinq classes professionnelles ont été définies. La variable métrique à étudier est le degré de
satisfaction du point de vente Magasin Général (mesurée par une échelle d’osgood de 5
points). Plusieurs types de mesure ont été effectués pour chaque catégorie professionnelle, le
graphique tracé est comme suit :
- On construit la boite contenant la moitié centrale des observations : les trois traits pleins
horizontaux correspondant au premier quartile (Q1), au deuxième quartile Q2 (ou la
médiane Me) et au troisième quartile (Q3). On calcule l’écart interquartile (Q3-Q1)
- On trace la barre supérieure correspondant à la valeur du 3éme quartile augmenté d’une
fois et demie l’écart interquartile
- De même on calcule la barre inférieure à partir du 1er quartile moins une fois et demi
l’écart interquartile
- Si le maximum est inférieur à cette barre supérieure, on ramène celle –ci à la valeur
maximum. On opère de façon similaire avec le minimum.
- On relie ensuite ces deux barres à la boite par des pointillés verticaux.
Le diagramme en boite permet de visualiser les différentes distributions et de les comparer par
rapport à: la forme d’une distribution (symétrique ou non) et la position (médiane, quartiles).
II.1.2. Application sur SPSS
Graphique
La représentation graphique en boite à moustaches permet de comparer facilement la
distribution de différentes variables, ou encore de la même variable pour différentes modalités
d’une variable qualitative.
La dispersion de la variable perception d’une grande surface est plus importante chez les
hommes que chez les femmes.
L’hypothèse H0 est la suivante : « les moyennes observées pour les deux groupes sont
égales ». « L’objectif est de rejeter cette hypothèse H0 pour accepter l’hypothèse H1 »les
moyennes observées dans les deux groupes sont différentes ».
Dans notre exemple, on souhaite savoir si l’attitude moyenne envers une enseigne (la
variable est mesurée sur une échelle de 5 points) est égale chez les hommes et les femmes.
Mise en situation
On souhaite étudier l’effet d’un facteur d’ambiance (à savoir la musique publicitaire)
sur la réponse des prospects aux messages publicitaires (croyances d’image, attitude envers
la publicité et envers le produit, intention d’achat,..).
L’échantillon retenu a été subdivisé en trois groupes : chaque groupe a été soumis à
un effet musical différent accompagnant le message publicitaire (classique, moderne,
folklore).
Après avoir vu le message publicitaire (accompagné de l’extrait musical approprié),
chaque prospect est prié de répondre à un questionnaire afin de tester d’appréhender les
croyances d’image qui naissent à l’égard de la marque.
Quelle serait l’outil statistique à utiliser pour vérifier s’il existe une influence
significative des évocations musicales associées à un extrait sur les croyances d’image qui
naissent à l’égard de la marque ?
L’analyse de variance à un facteur (ANOVA à un facteur) est utilisée dans le cas des
tests de comparaison de moyennes sur plusieurs (plus de deux) échantillons indépendants ou
groupes, ce qui n’est pas autorisé par l’analyse de comparaison de moyennes classique.
On a donc recours à l’analyse de variance à un facteur lorsque la variable explicative
(non métrique) a plus de deux modalités.
Ainsi, les données doivent donc se présenter sous la forme d’observations obtenues pour une
variable métrique (à expliquer) par plusieurs sous échantillons de population correspondant à
une variable qualitative (explicative).
L’analyse de la variance est fondée sur deux grands principes :
Wahiba Kalboussi 2015/2016
- Plus les différences entre les moyennes des groupes observés dans l’échantillon sont
grandes, plus il y a des chances que la relations existe dans la population.
- Plus la dispersion (la variance) dans les groupes est petite, plus les différences entrée les
moyennes sont réelles dans la population.
Par exemple, on voudrait voir s’il existe un lien entre la perception de l’image d’un point de
vente (variable métrique mesurée à l’aide d’une échelle d’intervalle) et la catégorie socio
professionnelle (variable qualitative : échelle nominale)
Si la relation entre les deux variables est significative, on peut en conclure que les moyennes
varient selon des perceptions varient selon la profession. .
II.2.2. 1.Application sur SPSS
Sélectionner: analyse comparer les moyennes ANOVA à 1 facteur.
Introduire la variable métrique perception de l’image du point de vente dans « variable
dépendante » et la variable non métrique profession dans « critère ».
ANOVA
Imagénér Le Niveau de
Somme des Ddl Moyenne des F Signification signification P<0.05,
carrés carrés ce qui signifie que les
Inter Groupes 59,642 8 7,455 5,483 ,000 différences des
intra Groupes 1075,577 791 1,360 moyennes sont
Total 1135,219 799 statistiquement
significatives. On peut
donc rejeter H0 et
conclure que les
moyennes dans la
population sont
inégales.
La représentation
graphique des moyennes
montre la variation des
moyennes en fonction de
la profession.
Le même tableau peut s’obtenir à partir d’une régression multiple où la variable dépendante
sera «la perception de l’image du point de vente » et où les variables indépendantes seront les
variables muettes «catégorie1, catégorie2, catégorie3, catégorie4, catégorie5, catégorie6,
catégorie7, catégorie8.
La «catégorie1» = 0 sauf pour les cas où la catégorie socioprofessionnelle des répondants est
la profession libérale. La «catégorie1» prendra dans ces cas la valeur1. Les autres variables
muettes sont construites de la même manière, sauf pour la catégorie « autres profession » qui
a été omise par choix méthodologique pour neutraliser un problème dit de colinéarité lié au
fait que «catégorie1, catégorie2, catégorie3, catégorie4, catégorie5, catégorie6, catégorie7,
catégorie8 sont strictement complémentaires (la somme des 8 variables donnant une colonne
de 1).
En fait, l’intuition ne suffit pas pour la gestion de cette enseigne (et son réseau de points de
vente), la représentation graphique d'un phénomène s’avère très utile puisqu’elle permet de
dégager une tendance dont la prise en compte est bénéfique pour l’entreprise.
Trois séries de problèmes se posent :
. L’ajustement : il s'agit de trouver la courbe la mieux appropriée pour représenter le
nuage de points et de déterminer son équation.
. La régression : si le nuage de points peut être ajusté par une courbe de la forme Y=f(X)1,
nous voudrions estimer la valeur de Y à partir de X ; la courbe ainsi définie est la courbe de
régression de Y en X.
.La corrélation : il s’agit de mesurer l’intensité de la liaison ou de corrélation entre X et
Y.
III.1.L'ajustement
Lorsqu'on représente les données d'une série statistique sur un graphique, on obtient une suite
de points plus ou moins dispersés. En fait, la dispersion varie selon le degré des erreurs
d'observation ou l'influence de facteurs accidentels. L’ajustement de la série statistique
consiste tout d’abord à éliminer les erreurs d'observation et les phénomènes accidentels,
ensuite à substituer aux nombres observés des nombres susceptibles de représenter la loi de
variation du phénomène; trouver ces points.
Les procédés d'ajustement peuvent être classés, en trois catégories :
1) Ajustement graphique
2) Ajustement analytique
III.1.1.Ajustement graphique
On trace, à main levée, une courbe continue, la plus régulière possible, s’adaptant le mieux
aux points représentatifs. Même si cette méthode simple et rapide peut paraître présenter une
certaine part d’arbitraire, ceci n’empêche qu’en réalité, elle donne dans la pratique d’assez
bons résultats.
III.1.3.Ajustement analytique
On cherche à déterminer la fonction y = f(x) qui traduit le mieux la loi régissant les variations
du phénomène - on substituera donc aux nombres observés les valeurs définies par cette
fonction
Ne pouvant généralement trouver une fonction exacte, on se contentera d’une formule
approchée s’adaptant de façon satisfaisante aux observations. Guidé par l’allure générale du
nuage de points, on choisira de préférence la fonction la plus simple (linéaire, parabolique,
hyperbolique ou exponentielle), évitant toute fonction aux paramètres nombreux et
compliqués.
III.1.3.1. regression linéaire simple: la Méthode des moindres carrés.
1
La connaissance de x à partir de y est également utile. Plus la courbe de régression de x en y se
rapproche de la courbe de régression de y en x, plus la liaison entre les deux variables est étroite.
Wahiba Kalboussi 2015/2016
Un ajustement "à main levée" d'une droite sur le nuage de points serait assez discutable, car il
serait difficile de trancher entre deux droites possibles qui ne différeraient que légèrement. Il
faut donc un critère pour choisir l'une de ces droites. Le critère que l'on retient est basé sur
l'écart di, c'est à dire la distance verticale entre le point observé (xi, yi) et le point
correspondant (xi, ŷ i )
sur la droite (voir
figure1). Figure1
Il semble raisonnable
de déterminer (estimer)
les coefficients b0 et b1
de la droite, de manière
à ce que l'ensemble des
écarts soit aussi faible
que possible, c'est à
dire que le ŷ calculé
soit le plus près
possible du y observé.
La méthode part du
principe que la somme
des carrés des écarts
des points du nuage à la
droite d’ajustement doit
être la plus petite
possible. Il faut donc
minimiser la somme
des carrés des distances comptées parallèlement à oy, écarts verticaux. La droite ainsi
déterminée s'appelle la droite de régression linéaire, ou encore droite des moindres carrés
Suivant le même raisonnement que précédemment :
(d )² ( y
i 1 ax1 b) 2 (y 2 ax2 b) 2 ..... ( y n axn b) 2
(y
i 1
i ax i b) 2
(y ax i b) 2 ( y i ax i ) b
2
i
(y i ax i ) 2 2b ( y i ax i ) nb 2
Cette expression peut être considérée comme un trinôme du second degré en b. le coefficient
n de b² étant positif. Le trinôme a donc, quelque soit n, un minimum obtenu pour :
1 1 a
b
n
( y i ax i ) y i x i
n n
Wahiba Kalboussi 2015/2016
(Y aX )
i i
2
(Yi aX i ) 2 (Y2 aX2) 2 ... (Yn aX n ) 2 (Yi ) 2 2a X i Yi a 2 (X i ) 2 Cette
expression peut être
considérée comme un trinôme du second degré en a. Le coefficient de a2 , étant une somme de
Donc a
(x x)( y y)
i i
(x x) i
2
Cette formule nécessite le calcul des écarts ( x i x ) et ( y i y) , ce qui peut être long et
fastidieux. Améliorons cette formule.
(x x )( y i y) ( x 1 x )( y1 y) ( x 2 x )( y 2 y) ... ( x n x )( y n y)
x n x et y ny
i
Or
( x 1 y1 x 1 y xy1 x y) ( x 2 y 2 x 2 y xy 2 x y) ... ( x n y n x n y xy n x y) i i
x i y i y x i x y i n x y
si bien que
En ce qui concerne le dénominateur, en suivant le même raisonnement. Nous obtenons
(x x) 2 x i n(x)
2 2
i
x n(x)
2 2
i
1
Si nous multiplions numérateur et dénominateur par , nous obtenons :
n
1
( xi x)( yi y)
a n
1
n
( xi x ) 2
Nous avons, de cette façon au dénominateur la variance 2x et le produit figurant au
numérateur n’est que autre que la covariance (x,y) :
Wahiba Kalboussi 2015/2016
X 2
i
(x i x)( yi y) xi yi n y x
- Ajustée par rapport aux axes initiaux x’x et
y’y est :
y ax b avec a
(x x)(y y)
i i
et b y ax
(x x)
i
2
Autres formulations : a
x y n yx
i i
x n(x)
2 2
i
1
cov ariance ( x, y) n i
( x x )( y i y)
a
1
var iance ( x )
(x i x) 2
n
Il existe donc plusieurs procédés de calcul relatifs à la droite des moindres carrés. Nous
retiendrons de préférence : a
x i y i n yx
x i n(x) 2
2
C’est à dire l’utilisation directe des données, sans calcul des écarts.
Si (d ) i
2
est minimum, il en résulte que (d ) 0 .Un contrôle i de l’ajustement est
possible : il suffit de vérifier par calcul ou sur le graphe que (d ) 0 . i
Chaque fois que l’examen de la représentation graphique des points permet de juger possible
un ajustement linéaire, nous détiendrons la droite ajustée de préférence par la méthode des
moindres carrés.
III.2.2.Ajustement se ramenant à un ajustement linéaire
Il arrive souvent que la représentation graphique des points écarte l’hypothèse d’un
ajustement linéaire et suggère un ajustement à l’aide d’une hyperbole, d’une fonction
puissance ou d’une fonction exponentielle.
Dans certains cas, un changement de variable ramène un ajustement compliqué à un
ajustement linéaire. Par exemple :
- Si des points (xi, yi) sont situés au voisinage d’une hyperbole d’équation :
1 1
y , c’est à dire ax b,
ax b y
1
Les points Xi =xi et Yi= sont situés près de la droite d’équation Y=aX+b ;
yi
Wahiba Kalboussi 2015/2016
nous sommes ainsi en présence d’un ajustement linéaire sur les (Xi,Yi).
-Si des points (xi, yi) sont situés au voisinage d’une parabole d’équation y=ax2, les points
Xi =xi2 et Yi=yi sont situés près de la droite Y=aX. Là encore, nous sommes conduits à un
ajustement linéaire.
-Si une série peut faire l’objet d’un ajustement exponentiel, nous écrirons la relation
y=BAx (A et B étant des constantes) sous forme logarithmique
log Y=log B+x log A et, en posant Y=log y ; b=log B et a=log A
Nous pouvons écrire : Y=ax+b : Equation d’une droite qui nous ramène à un ajustement
linéaire.
III.1.4.Exercice pratique
Le directeur commercial d’une multinationale doit embaucher régulièrement de nouveaux
vendeurs. Il est connu que plusieurs facteurs peuvent expliquer la variabilité dans la
performance d'un vendeur à un autre. Parmi eux, on note les différences d'aptitude, les
différences dans l’engagement professionnel, et les différences dans l'effort discrétionnaire.
Le directeur, avec l'aide de spécialistes, a mis au point un test d'aptitude, qui lui permettra de
choisir les meilleurs parmi ceux qui postulent l'emploi. Ce test a été appliqué à un échantillon
de douze (12) vendeurs qui sont déjà à l'emploi de l'organisation. Les scores obtenus pour ce
test, ainsi que les montants (moyens) des ventes mensuelles de ces 12 employés sont donnés
au tableau suivant :
La représentation graphique de ces données laisse entrevoir l'existence d'une relation entre les
ventes et les résultats du test.
Figure 2: ventes/score
Wahiba Kalboussi 2015/2016
Puisque les deux variables sont liées, le directeur exploitera le résultat du test d'aptitude et le
montant des ventes mensuelles d'un échantillon de 12 vendeurs, pour améliorer sa prévision
du montant des ventes d'un candidat ayant obtenu un certain score pour le test d'aptitude.
1. Quel modèle sera employé permettant d’expliquer la variabilité des ventes par celles
des tests effectués ?
2. Déterminer les paramètres de la droite de régression selon la méthode des moindres
carrés.
3. Quelle est la signification du coefficient b1 de régression de Y en X ?
Solution. Le tableau contient les différentes valeurs permettant de calculer b0 et b1
1. Le modèle qui sera employé est le modèle de l’ajustement linéaire par une droite
affine d’équation : y=ax+b
yi xi xi² xiyi
30 84 7056 2520
20 71 5041 1420
24 71 5041 1704
18 65 4225 1170
26 80 6400 2080
24 74 5476 1776
26 76 5776 1976
20 68 4624 1360
30 80 6400 2400
22 75 5625 1650
28 78 6084 2184
26 77 5929 2002
899 294
x 74.9167, y 24.5
12 12
A partir de ces valeurs, on a :
22242 12(74.9167)(24.5) 216.5
b1 0.662
67677 12(74.9167)² 326.916
et b0 = 24.5-0.662(74.9167) = -25.1135
Wahiba Kalboussi 2015/2016
On obtient ainsi, à partir des couples observés dans l'échantillon, la droite des moindres
carrés:
Ŷ = -25.1135 +0 .662 X.
a
ANOVA
Modèle Somme des ddl Moyenne F Sig.
carrés des
carrés
Régression 143,3 1 143,377 55,956 ,000b
1Résidu 25,62 10 2,562
Total 169,0 11
Ŷ = -25.1135 +0 .662 X.
(x , y)
L’exemple suivant est tiré d’une enquête réalisée dans le cadre d’un travail de recherche
portant sur l’évaluation de l’efficacité d’une formation par alternance2 ; Il s’agit dans un
premier temps, d’évaluer les compétences acquises et requises des lauréats d’une licence
coconstruite, d’identifier dans un deuxième temps, les modules d’enseignement susceptibles
de développer les compétences requises par les professionnels et enfin d’étudier le transfert de
ces compétences sur le terrain.
Dans cet exemple, nous allons vérifier le transfert des compétences sur le terrain (autrement
dit : la formation académique engendre la réussite au niveau du projet professionnel), ceci
revient à tester l’existence d’une relation linéaire entre les deux variables et mesurer son
intensité.
2
L’évaluation de l’efficacité d’une formation par alternance 2 : cas de licence coconstruite en
management des rayons. Wahiba Bali Kalboussi colloque ADMEE Paris décembre 2011
Wahiba Kalboussi 2015/2016
b
Variabl es introduites/éli minées
Variables Variables
Modèle introduites éliminées Méthode
1 MOY ENNEa , Introduire
a. Toutes v ariables requises introduites
b. Variable dépendante : note au projetCe tableau
prof essionnalisé (soutenance orale, indique
le rapport, ..) les
Application sur SPSS : variables
explicatives
prises en compte
Récapitulatif du modèle
dans le
Erreur modèle.
standard de
Modèle R R-deux R-deux ajust é l'est imat ion
1 ,685a ,469 ,435 1.636
a. Valeurs prédites : (constantes), MOYENNE
ANOVAb
Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression 37,752 1 37,752 14,112 ,002a
Résidu 42,803 16 2,675
Total 80,556 17
a. Valeurs prédites : (constantes), MOYENNE Ce tableau permet de
tester
b. Variable dépendante : note au projet prof essionnalisé (soutenance orale, lelarapport,
significativité
..)
F= r²(n-2)/(1-r²) du modèle obtenu. Ici
le modèle est
significatif.
Wahiba Kalboussi 2015/2016
Coeffi ci entsa
3.3. La
Ce tableau corrélation
donne les coefficients (dits B dans SPSS) de la droite ainsi
qu’une mesure de la signification de ces deux coefficients (constante
et coefficient de variable explicative). Ici, le coefficient de la
moyenne de la formation académique est significatif par contre la
constante n’est pas significative, donc l’hypothèse de nullité des
coefficients est à rejeter pour le cas de la moyenne de la formation
académique et à admettre pour la constante. La constante n’est pas
significativement différente de 0.
Dans le cas où le nuage de points prend une forme allongée telle que les points le constituant
semblent se répartir autour d'une droite (de pente positive ou négative) on peut calculer un
indice qui mesure l’intensité de la liaison linéaire (la co-variation ) entre les deux variables.
Cette mesure est standardisée (elle ne dépend pas de l’unité utilisée pour chaque variable), et
est comprise entre -1 et +1.
i 1 i 1
Plus le coefficient est proche de 1 en valeur absolue, plus les variables sont dites corrélées :
- Si r est proche de +1, ceci signifie que les deux variables varient dans le même sens
(exemple : la consommation et le revenu).
- Si r est proche de -1, ceci signifie que les deux variables varient en sens inverse l’une de
l’autre (la consommation des gâteaux et l’âge)
Wahiba Kalboussi 2015/2016
- Plus r est proche de 0, moins les variables sont corrélées. Ainsi, r=0, signifie l’absence de
relation entre les deux variables ; ceci n’empêche que d’autres relations restent toujours
possibles, exemple : relation sinusoïdale de type y= sinx).
On voudrait tester la corrélation entre les 2 variables métriques suivantes: l’image perçue de
l’enseigne Carrefour et la largeur des allées entre les rayons qui favorisent une circulation
sans gêne.