Cours N°3

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 4

Analyse de données : le tableau de contingence

• Contingence & Concomitance


E. DURKHEIM, Les règles de la méthode sociologique

p. 202 « La cause déterminante d'un fait social doit être cherchée parmi les faits sociaux antécédents, et non parmi les
états de la conscience individuelle. »
p. 217 « l'explication sociologique consiste exclusivement à établir des rapports de causalité »
p. 217 « Nous n'avons qu'un moyen de démontrer qu'un phénomène est cause d'un autre, c'est de comparer les cas où ils
sont simultanément présents ou absents et de chercher si les variations qu'ils présentent dans ces différentes combinaisons
de circonstance témoignent que l'un dépend de l'autre. »
p. 222 « Le simple parallélisme des valeurs par lesquelles passent les deux phénomènes, pourvu qu'il ait été établi dans un
nombre suffisant de cas suffisamment variés, est la preuve qu'il existe entre eux une relation. »
p.225 « Dès qu'on a prouvé que, dans un certain nombre de cas, deux phénomènes varient l'un comme l'autre, on peut
être certain qu'on se trouve en présence une loi. »

• Analyser un tableau de contingence


F. DE SINGLY, L’Enquête et ses Méthodes, le questionnaire (Méthode moins performante par rapport au Khi²)

Règle n°1 : porter les résultats de l'étude dans un tableau de contingence dans lequel par convention on met la variable
indépendante en ligne et la variable dépendante en colonne.

Ex. : Avez-vous assisté au moins une fois cette année à une cérémonie religieuse ? Émettre une hypothèse : participation
suivant le sexe
Donc → Variable indépendante : le sexe & variable dépendante de celle-ci : participation.

Exemple n°1 Participation (Variable Dépendante)


Variable Oui Non Total
Indépendante
Garçon 180 270 450

Sexe Fille 300 200 500

Total 480 470 950

Règle n°2 : calculer les pourcentages lignes de ce tableau de manière à bien faire apparaître la différence de répartition
des modalités de la variable indépendante (sexe) au regard de la variable dépendante (résultat).
Par souci de comparaison, faire des pourcentages ligne (Effectif divisé par le total de la ligne)

Pourquoi mettre en pourcentage ? Pour pouvoir comparer des populations non-équivalentes (si plus de filles que de
garçons, ou inversement)
Pourquoi pourcentages ligne ? A partir du moment où la cause est en ligne, et l'effet en colonne, et que ce qu'on
veut regarder, c'est l'impact de la cause sur la suite, il devient évident de devoir le faire.

Règle n°3 : l'effet de la variable indépendante sur la variable dépendante est approché par l'éventuelle différence des
pourcentages lus, modalité par modalité de la variable dépendante, i.e. Colonne par colonne.

Dans un premier temps, privilégier la lecture différentielle (différence au niveau de l'effet, ici entre les filles et les
garçons, donc lecture en colonne) sur la lecture majoritaire (tendance majoritaire, lecture en ligne). Pour résumer : focaliser
la lecture du tableau sur les différences, et non les majorités (le résultat total/en ligne).
→ Concrètement, repérer dans chaque colonne le pourcentage le plus élevé.
Exemple 1 Oui (%) Non (%) Total (%)
Garçon 40 60 100
Fille 60 40 100
Total (%) 51 49 100
Exemple 1B Oui (%) Non (%) Total (%)
Garçon 100 0 100
Fille 60 40 100
Total (%) 51 49 100

Règle n°4 : Souligner dans chaque colonne le ou les plus forts pourcentages dès lors qu'il existe un écart d'au moins 5 %.
Lorsque cet écart n'existe pas → absence de corrélation.

Règle n°5 : Rédiger et formuler les résultats en utilisant les formules « plus que » & « moins que » de manière à bien faire
apparaître les différences de comportements observées.

Ex. n°1 : Les garçons fréquentent moins que les filles les cérémonies religieuses, ou inversement.
Ex. n°1BIS : Les filles fréquentent moins que les garçons les cérémonies religieuses, ou inversement.
Si pas de différence significative, le noter également.

Règle n°6 : Ce n'est que lorsqu’est mise en lumière l'action de la variable indépendante par la lecture différentielle que l'on
peut prendre en compte la lecture majoritaire.
Dans certains cas, la lecture différentielle rejoint la lecture majoritaire. Important : on peut noter une différence, sans pour
autant qu'elle soit majoritaire.

Exemple 2BIS : constater dans les faits que les cadres pratiquent plus le ski que les ouvriers ne doit pas devenir dans le
commentaire, si ce n'est pas le cas : les cadres vont au ski. Car comme on l'a vu tout à l'heure ils sont plus nombreux à ne
pas y aller qu'à y aller (absence du tableau, mais ce n'est pas important).

Exemple 3
Existe-il une influence du sexe sur la réussite en première année en sociologie ?
Non, car l'écart n'est pas d'au moins 5 %.

Effectifs Réussite Échec Total


Fille 88 70 158
Garçon 42 31 73
Total 130 103 231
(%) Réussite Échec Total
Fille 56 44 100
Garçon 58 42 100

Remarque importante : ne pas chercher en sociologie la corrélation qui marche à tous les coups. → Implication faible

• L'implication faible : K. PEARSON : « Sur les critères de décider si, dans le cas d'un système de variables en
corrélation, un ensemble donné de déviations par rapport à la valeur probable est tel qu'il peut être raisonnablement
supposé avoir été obtenu par un échantillonnage au hasard » Philosophie magazine, 1900. L'implication forte est
réservée aux sciences dures.
<Raymond BOUDON, Les mathématiques en sociologie, Paris, Puf, 1971, pages 21-54>

• Calculer le Khi²
Minimum pour l'effectif : 50/Comparaison de, minimum, deux variables qualitatives

1ère étape : calculer les distributions marginales (on calcule les distributions → ligne/colonne → total)

2ème étape : calculer les effectifs théoriques, pour compléter le tableau d'effectifs réels
Ce tableau détermine les valeurs précises, pour l'exemple donné, dans le cas d'une absence de corrélation.

→ (Total(ligne) x Total(colonne))/N

Ex. : effectif théorique pour le résultat trouvé pour le« Oui » garçon
→ (effectif total de la ligne x effectif total de la colonne) & le tout divisé par l'effectif total

Oui Non Total


Garçon 227 223 450
Fille 253 247 500
Total 480 470 950

Ensuite, calculer le pourcentage ligne → cela va nous donner les résultats pour l'absence de corrélation entre, dans le cas
présent, le sexe et la participation (car la même proportion dans chacun des cas y va et n'y va pas)
→ Fabriquer à partir des marges du tableau un tableau afin de trouver les valeurs précises dans le cas d'une absence de
corrélation.

3ème étape : Comparer effectifs observés et théoriques


Par rapport à la théorie, les garçons semblent moins aller à la messe que les filles (plus d'observations que j'aurai dû en
avoir dans le cas d'une absence de corrélation)

(-47) : moins de participation masculine que dans l'hypothèse d'une égale fréquentation entre les hommes et les femmes ;
(+47): plus de participation féminine que dans l'hypothèse d'une égale fréquentation entre les hommes et les femmes.

Oui Non
Garçon 180-227 = -47 270-223 = +47
Fille 300-253 = +47 200-247 = -47

4ème étape : calculer le khi²

Σ[(o-t)²/t]
Somme des [(effectifs observés moins les effectifs théoriques) le tout élevé au carré, et divisé par les effectifs théoriques]

Pourquoi élever au carré ? Pour travailler avec des chiffres positifs seulement.

0 1 2 3 4 5
Case Effectif Effectif O-T (O-T)² (O-T)²/T
Observé Théorique
1 180 227 -47 2209 9,73...
2 270 223 +47 2209 9,91...
3 300 253 +47 2209 8,73...
4 200 247 -47 2209 8,94...
Σ = 37,31

/!\Attention : le khi² correspond à la somme des résultats trouvés (colonne 5 ici)


Remarque : dans un tableau à quatre cases, il y a toujours une symétrie (bon sens).

5ème étape : Interpréter le khi² calculé


(Voir le document joint)
Comparaison au khi² référence qu'on détermine à l'aide de deux critères :
– Colonne : en sociologie, il s'agit toujours de la colonne correspondant à 5 % de marge d'erreur (0,05).
– Ligne : ou du degré de liberté, qui correspond au résultat du calcul suivant :

DDL = (nombre de modalité de la variable ligne (sans ligne TOTAL) – 1) x (nombre de modalités de la variable
colonne (sans colonne TOTAL) – 1)

Dans l'exemple : DDL = (2-1) x (2-1) = 1

Le khi² référence se trouve à l’intersection des deux. Ici, c'est 3,841.

Si Khi² calculé>Khi² référence alors dépendance (donc corrélation significative entre les deux variables)
Si Khi² calculé <Khi² référence alors indépendance (absence de corrélation)

Dans notre cas, 37, 31 > 3,841 alors corrélation significative


→ Tout cela pour déterminer s'il y a une corrélation
ou non.

6ème étape : calculer le coefficient de contingence


Le khi² ne mesure pas la force de la relation ;
Pour calculer la force de la corrélation (donc si la
corrélation est réellement significative, ou si elle est
due au hasard)

→ Coefficient de contingence : √ [khi2


calculé/(N+Khi2 calculé)]

S'il est proche de 1, alors forte liaison


S'il est proche de 0, faible corrélation

Pour conclure, il y a plusieurs autres tests


statistiques :
– Statistiques monovariées : étude d'une
variable à la fois (moyenne, étude de qui est
pour ou contre quelque chose);
– Statistiques bivariées : plus fréquentes en
sociologie, confrontation de deux variables :
– Deux variables quantitatives :
coefficient de corrélation ;
– Deux variables qualitatives : test du
khi² ;
– Une variable qualitative et une
quantitative : analyse de variance.
– Statistiques multivariées : la sociologie
mélangeant beaucoup de paramètres, il est
parfois nécessaire de mélanger 4, 5, 12
analyses ensemble (analyses factorielles,
classification de..., segmentations,
régressions ...)

Vous aimerez peut-être aussi