Statistique Descriptive

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 21

UNIVERSITE DES SCIENCES SOCIALES ET DE GESTION DE BAMAKO (USSGB)

FACULTE DES SCIENCES ECONOMIQUES ET DE GESTION (FSEG) / Bamako


UNITE D’ENSEIGNEMENT: Statistiques descriptives
Niveau : S1/L1
Table des matières

I. LES DISTRIBUTIONS STATISTIQUES A UN CARACTERE OU VARIABLE

1. Définitions : Population, individu, variable ou caractère, modalité

2. Descriptions tabulaires et représentations graphiques

3. Indicateurs statistiques
3.1 Paramètres de tendance centrale : mode, médiane, moyenne, quartiles déciles.
3.2 Paramètres de dispersion : Entendue, écart absolu, variance, écart-type,
Coefficient de variation et les quantiles et autres caractéristiques de dispersion.
3.3 Construction du diagramme en boîte

4. Caractéristiques de forme :
4.1 Coefficient d’asymétrie ou Skewness
4.2 Coefficient d’aplatissement ou Kurtosis

5. Caractéristiques de concentration
5.1 Courbe de concentration
5.2 Coefficient de concentration de Gini
5.3 La médiale
5.4 Comparaison médiane et médiale

II. LES DISTRIBUTIONS STATISTIQUES A DEUX CARACTERES

1. Les distributions statistiques à deux variables


1.1 Notations
1.2 Tableau de distribution conjointe
1.3 Distribution marginale
1.4 Distribution conditionnelle

2. Etude de la liaison de deux variables


2.1 Cas de deux (2) caractères qualitatifs
2.1.1 Notion de profil
2..1.2 Indépendance de deux caractères et liaison fonctionnelle
2.1.3 Etude de liaison entre deux caractères qualitatifs
2.2 Cas d’une variable quantitative et une variable qualitative

2.2.1 Notations et caractéristiques conditionnelles


2.2.2 Indépendance de deux caractères et liaison fonctionnelle
2.2.3 Mesure de liaison
2.3 Cas de deux variables quantitatives
1
2.3.1 Notion d’ajustement
2.3.2 Analyse des relations sur données individuelles

2.3.2.1 Cas de relations linéaires


2.3.2.2 Cas de relations non linéaires
2..3.2.3 Caractéristiques marginales et conditionnelles
2.3.2.4 Coefficient de corrélation linéaire et de détermination
2.3.2.5 Courbes de régression
2.3.2.6 Droite de régression
2.3.2.7 Relation entre variance et coefficient de détermination
III. LES INDICES STATISTIQUES
1. Notion de taux d’accroissement
2. Définition d’indice élémentaire et ses propriétés
3. Indices synthétiques
4. Calcul des différents indices classiques: Laspeyres, de Paasche et de Fisher
éventuellement chaînés

IV. SERIES CHRONOLOGIQUES

1. Généralités sur les séries temporelles


2. Les principaux modèles de séries temporelles
3. La dessaisonalisation ou Correction des variations saisonnières
4. Les méthodes de lissage exponentiel et prévisions

Nous remercions par avance ceux qui voudront bien nous faire part de leurs remarques
et suggestions.

2
Bibliographie
1. C. Larcher et M. Pariente, Statistique et Probabilités, collection dirigée par Claude
LOBRY, 1993.
2. Bernard Goldfard & Catherine Pardoux, Introduction a la méthode statistique, Statistique
et probabilités, 7e Edition, CAMPUS LMD.
3. Henri IMMEDIATO, Cours de statistiques, Licence Scientifique, 1ere partie.
4. Jean GUEGAND et Jean Pierre GAVINI, Probabilités / BCPST, 1ere et 2eme
Années premier cycle universitaire.
5. Jean-Pierre BERTHIER , Introduction à la pratique des indices statistiques Note de
cours, Institut National de la Statistique et des Etudes Economiques (INSEE).
6. M. F. Bara, L. Germa, M. J. Laboure, B. Lovue, Mathématiques et statistiques
appliquées a l’économie, cours, méthodes, exercices corrigés.
7. Ricco Rakotomalala, Notes de cours Probabilités et Statistique, Université Lumière
Lyon.
8. Walder Masieri, Statistiques et calcul des probabilités: Travaux pratiques énoncés et
solutions, 6eme Edition 1994.
9. Introduction à la méthode statistique, manuel et exercices corrigés.

3
Chapitre I : Les Distributions Statistiques à un caractère ou Variable

I.1. Définitions

I.1.1 Statistique descriptive


La statistique est une méthode scientifique qui consiste à réunir des données concernant une
situation ou un phénomène étudié, puis à analyser ou traiter, à commenter ou interpréter de
façon synthétique et à critiquer ces données.
La statistique descriptive a pour but de donner une vision globale d’une population à partir
de renseignements recueillis sur les individus qui la constituent.

I.1.2 Population
La population est l’ensemble de tous les éléments considérés dans une étude. Les éléments
de la population sont appelés individus ou unités statistiques.
Chaque unité statistique peut être étudiée suivant un ou plusieurs caractères.

I.1.3 Variable ou caractère


Une variable est définie comme toute entité pouvant prendre des valeurs différentes.
Le caractère, c’est l’aspect sur lequel porte l’étude statistique pour chaque individu. Il peut
être quantitatif ou qualitatif.
 Quantitatif : On mesure son intensité par des nombres appelés valeurs du caractère. Il
peut être continu ou discret.
 Il est discret, s’il ne peut prendre qu’un certain nombre de valeurs isolées, comme
nombre d’enfants à charge, nombre de frères et sœurs, nombre de motos etc.
 Il est continu, s’il peut prendre toutes valeurs d’un intervalle donné de type semi-ouvert
[a, b [ ; comme âge, salaires, poids, dimensions, taille, pièces, etc.
 Qualitatif : On ne peut définir son intensité mais simplement sa nature, généralement par
l’intermédiaire de code, de sigle ou différentes rubriques d'une nomenclature. Ces
modalités sont de catégories nominales et ordinales.
 ordinale si ses valeurs sont naturellement ordonnées, comme Niveau d’instruction,
l’hiérarchie, etc.
 Dans le cas contraire elle est dite nominale, comme sexe, profession, religion
nationalité, race, sport pratiqué, etc.
Les modalités sont les différentes situations dont l’unité statistique peut se trouver à l’égard
du caractère considéré.
Exemple : le caractère état matrimonial a pour modalités : Célibataire, Marié(e), Divorcé(e),
veuf (ve).
Note :
- Les modalités d’un même caractère sont incompatibles et exhaustives.
- Une variable quantitative peut être mise sous forme qualitative ordinale en constituant des
classes d’appartenance.
- Un caractère quantitatif discret peut résulter aussi de la transformation d’un caractère
nominal.

4
I.1.4 Echantillonnage
Pour des raisons de nombre d’individus souvent extrêmement grand, l’échantillonnage nous
conduit à n’examiner ou sélectionner qu’une fraction ou sous ensemble de la population. On
dit que l’on fait un sondage. Il se justifie souvent pour des raisons de coûts ou de délais.

Donc, un échantillon est un sous-ensemble fini de la population. Cet échantillon n'est jamais
parfaitement représentatif d'une population. Il doit refléter fidèlement la composition et la
complexité de la population statistique.

La taille de l’échantillon est le nombre d’éléments sélectionnés pour constituer l’échantillon.


Elle dépend du degré de précision recherchée.

Seul l’échantillonnage aléatoire assure la représentativité de l’échantillon. Un échantillon est


qualifié d’aléatoire lorsque chaque individu de la population a une probabilité connue et non
nulle d’appartenir à l’échantillon.

1.2 Description tabulaire et représentation graphique

1. 2.1 Effectifs et fréquences


Les données collectées lors d’une opération sont souvent représentées de façon brute. Il est
donc nécessaire d’organiser les données pour avoir un tableau recensé composé des modalités
et leurs effectifs ou le nombre de fois (fréquences ou proportions).

A chaque modalité 𝒙𝒊 du caractère X, peut correspondre un ou plusieurs individus dans


l'échantillon de taille N ou n appartenant à la population donnée.
𝑁 = ∑𝑘𝑖=1 𝑛𝑖 𝑡𝑎𝑖𝑙𝑙𝑒 𝑑𝑒 𝑙 ′ écℎ𝑎𝑛𝑡𝑖𝑙𝑙𝑜𝑛 𝑜𝑢 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑡𝑜𝑡𝑎𝑙
La fréquence d’une modalité xi est alors le nombre fi tel que
𝑛
𝑓𝑖 = 𝑁𝑖 ∈ [0,1]; et ∑𝑘𝑖=1 𝑓𝑖 = 1 ou 100%
𝐸𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑝𝑎𝑟𝑡𝑖𝑒𝑙
𝐹𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑒 = ∈ [0,1] 𝑒𝑛 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑é𝑐𝑖𝑚𝑎𝑙
𝐸𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑡𝑜𝑡𝑎𝑙
Remarque 1 : La fréquence s’exprimant en % peut nous aider souvent dans la prise de
décision, le calcul est alors
𝐸𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑝𝑎𝑟𝑡𝑖𝑒𝑙×100
𝐹𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑒 𝑒𝑛 % = 𝐸𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑡𝑜𝑡𝑎𝑙
∈ [0, 100]
Le tableau statistique à simple entrée est celui-ci-dessous

Modalités 𝑥𝑖 𝑥1 𝑥2 𝑥3 ⋯ 𝑥𝑘 Total
Effectif 𝑛𝑖 𝑛1 𝑛2 𝑛3 ⋯ 𝑛𝑘 N
Fréquence 𝑓𝑖 𝑓1 𝑓2 𝑓3 ⋯ 𝑓𝑘 1 ou 100%

L’ensemble des couples (𝑥𝑖 , 𝑛𝑖 )1≤𝑖≤𝑘 est appele serie statistique ou distribution statistique.

Remarque 2 : L’ordre des modalités 𝑥𝑖 du caractère qualitatif est arbitraire. Ce ne sera pas le
cas lorsqu’on étudiera un caractère quantitatif où les valeurs 𝑥𝑖 sont classées par ordre
croissant, c'est-à-dire 𝑥1 < 𝑥2 < ⋯ < 𝑥𝑘 .

5
Effectif ou Fréquence cumulé(e) : Ayant les effectifs ou fréquences, on peut calculer les
effectifs cumulés ou fréquences cumulées. On appelle fréquences cumulées ou fréquences
relatives cumulées en 𝑥𝑖 , 𝑙𝑒 𝑛𝑜𝑚𝑏𝑟𝑒 𝑓𝑖 𝑐𝑢𝑚 tel que
𝑓𝑖 𝑐𝑢𝑚 = ∑𝑖𝑝=1 𝑓𝑝
Note :
 En théorie la somme de fréquences est égale à 100%. Les approximations dues aux
arrondis dans les divisions peuvent donner un total légèrement différent de 100.
 Dans le cas d’un caractère quantitatif continu, les fréquences cumulées croissantes se
réfèrent à la borne supérieure des classes, tandis que les fréquences cumulées
décroissantes se réfèrent à la borne inferieure des classes.

Exercice 1

Distribution statistique du personnel d’un service d’après le nombre d’enfants à charge.

Modalités 𝑥𝑖 0 1 2 3 4 5 6 Total
Effectif 𝑛𝑖 4 9 7 2 5 3 1

Reproduire ce tableau avec des effectifs et fréquences cumulés.

Exercice 2

Le tableau ci-dessous illustre la proportion en % de ménages propriétaires de leur logement


dans une localité selon l’âge du chef de ménage.

Age (ans) [20, 30[ [30, 40[ [40, 50[ [50,65[ [65-80[ [80-90[
Proportion 7% 20% 17% 34% 16% 6%

1) Reproduire cette série statistique dans un tableau indiquant les fréquences cumulées
croissantes et décroissantes.
2) Quel est la proportion de ménages propriétaires de leur logement ayant moins de 65 ans ?
Ayant au moins 50 ans?

I. 2.2 Représentation graphique

Pour visualiser le comportement d’une distribution statistique, il est commode d’en faire une
représentation graphique.

I.2.2.1 Cas de caractère qualitatif


Le tableau statistique d’une variable qualitative nominale ou ordinale peut être représenté
d’au moyen par un diagramme en barres ou bandes, diagramme en secteurs (circulaires soit
360oc ou semi-circulaires, soit 180oc).
Les effectifs (ou fréquences) cumulé(e)s d’une variable qualitative ordinale sont aussi
représentés au moyen d’un diagramme en barres.

6
Exemple:

Le tableau ci-dessous représente la répartition des 80 salariés d’une entreprise

Etat Effectif Fréquence𝑓𝑖 Angles 𝜃𝑖 circulaire Angles 𝜃𝑖 semi-circulaire


Matrimonial 𝜃𝑖 = 360𝑓𝑖 𝜃𝑖 = 180𝑓𝑖
Célibataire 25 0,31 1120 560
Marié (e) 35 0,44 1580 790
Divorcé (e) 15 0,19 680 340
Divorcé (e) 5 0,06 220 110
Total 80 1 3600 1800

Diagramme en bande Diagramme circulaire


40
Célibataire Marié (e) Divorcé (e)
Effectif d'etat matrimonial

35
30 Veuf (ve)
25
20 31%
19%
15
10
5
0
44%

Etat matrimonial

N’importe qu’elle série statistique peut être représentée par de diagramme circulaire ou semi
circulaire, pourvue que le nombre de modalités ne soit pas trop élevé.

I.2.2.2 Cas de caractère quantitatif


Dans ce cas, il existe deux types de représentation graphique :
- Le diagramme différentiel correspond à une représentation des effectifs ou des fréquences.
- Le diagramme intégral correspond à une représentation des effectifs cumulés, ou des
fréquences cumulées.
 Cas de caractère quantitatif discret
On a très généralement recours au diagramme en bâtons, dont les modalités sont placées sur
l’axe des abscisses. La hauteur des bâtons correspond à l’effectif 𝑛𝑖 (ou fréquence 𝑓𝑖 ) associé
à chaque modalité du caractère xi. Le polygone de fréquences ou des effectifs, suivant
l’échelle considérée, est la ligne brisée qui joint les sommets des bâtons.

Exemple
Distribution statistique du personnel d’un service d’après le nombre d’enfants à charge.

Modalités 𝑥𝑖 0 1 2 3 4 5 6 Total
Effectif 𝑛𝑖 4 9 7 2 5 3 1

7
10
9
8
7
Polygone des effectifs
Effectifs

6
5
4
3
2
1
0
0 1 2 3 4 5 6
Nombre d'enfants a charge

NB : Il est possible de représenter aussi des diagrammes cumulatifs (effectifs cumulés ou


fréquences cumulées).

 Cas de caractère quantitatif continu


On a très généralement recours à l’histogramme. Pour la construction
- Un repère orthogonal est utilisé ;
- Les limites des classes sont portées sur l’axe des abscisses ;
- Les effectifs ou fréquences en ordonnées ;
- Les rectangles sont contigus.
- Le polygone des effectifs ou fréquences est la ligne brisée qui joint les milieux des
sommets des rectangles.
Quand les amplitudes des classes ( 𝑎𝑖 ) sont égales, les hauteurs des rectangles sont
proportionnelles aux effectifs ou fréquences. Sinon elle est proportionnelle aux effectifs ou
𝑛 𝑓
fréquences corrigés ℎ𝑖 = 𝑎𝑖 ou 𝑑𝑖 = 𝑎𝑖.
𝑖 𝑖
Exemple
Voici la répartition des notes obtenues par les étudiants d’une filière lors d’un test en
statistiques.
Modalités 𝑥𝑖 Effectif 𝑛𝑖 Amplitude 𝑎𝑖 Valeur centrale 𝑐𝑖 Hauteur ℎ𝑖
[0,4[ 10 4 2 2.5
[4,8[ 30 4 6 7.5
[8,12[ 40 4 10 10
[12,16[ 12 4 14 3
[16,20[ 8 4 18 2

Trace le polygone des effectifs ou fréquences.

 Polygone des effectifs cumulés ou fréquences cumulées


- Le polygone des effectifs cumulés croissants est la ligne polygonale obtenue en
joignant les points ayant pour abscisses les limites supérieures de chaque classe et pour
ordonnées les effectifs cumulés croissants.

8
- Le polygone des effectifs cumulés décroissants est la ligne polygonale obtenue en
joignant les points ayant pour abscisses les limites inférieures de chaque classe et pour
ordonnées les effectifs cumulés décroissants.

Les deux polygones cumulatifs sont symétriques l’un de l’autre par rapport à l’horizontale
d’ordonnée la moitie de l’effectif total ou 50%. Son abscisse est la valeur du caractère,
appelée médiane, notée Me.

Exemple
Soit la distribution statistique des salaires (en milliers de francs) de l’entreprise X de centaine
de travailleurs.

Salaire Eff. Cum. Eff.Cum Fréquence Fréq. Cum. Fréq. Cum.


(103F) 𝑥𝑖 Effectif 𝑛𝑖 𝑓𝑖
[20,30[ 40 40 100 0,4 0,4 1
[30,40[ 25 65 60 0,25 0,65 0,60
[40,50[ 20 85 35 0,20 0,85 0,35
[50,60[ 15 100 15 0,15 1 0,15
Total 100

Interprétation : 65% des salariés perçoivent moins de 40000Fcfa. 15% des salariés
perçoivent au moins 50000Fcfa.

Construction :
Soit les points 𝐴0 (20, 0), 𝐴1 (30, 40), 𝐴2 (40, 65), 𝐴3 (50,85) et 𝐴4 (60,100)
La ligne polygonale passant par 𝐴0 , 𝐴1 , 𝐴2 , 𝐴3 𝑒𝑡𝐴4 est la courbe cumulative croissante de la
distribution.
De même, soit les points 𝐵0 (60, 0), 𝐵1 (50, 15), 𝐵2 (40, 35), 𝐵3 (30, 60) et 𝐵4 (20,100)
La ligne polygonale passant par 𝐵0 , 𝐵1 , 𝐵2 , 𝐵3 𝑒𝑡𝐵4 est la courbe cumulative décroissante de la
distribution.
Les courbes se coupent au point d’ordonnée 50 ou 50% c'est-à-dire la moitie de l’effectif
total. L’abscisse du point d’intersection est appelée Médiane.

I. 3. Indicateurs statistiques

3.1 Paramètres de tendance centrale


Les paramètres de tendance centrale permettent de savoir autour de quelles valeurs se situent
les valeurs d'une variable statistique.

3.1.1 Mode
Le mode est la valeur dominante, valeur la plus probable d'une variable aléatoire, la valeur
pour laquelle l'histogramme de fréquence présente aussi son maximum.
 Cas discret, le mode correspond au plus grand effectif.
 Cas continu, la classe qui correspond au plus grand effectif est appelée classe modale.

9
Attention : Si les amplitudes de classe sont inégales on prend comme classe modale, la classe
qui a la fréquence (ou effectif) rectifié(e) ou hauteur la plus grande.
NB : Il existe aussi des cas de série bimodale ou multimodale. Mais en général, le mode est
unique.

Exemples
1) Données discrètes : 8, 11, 7, 10, 13, 12, 10, 11, 10.
10 est le mode.
2) Données reparties par classes :

Classe [0 ; 5[ [5 ; 10[ [10 ; 15[ [15 ; 20[


Effectif 0 5 14 2

Comme les amplitudes sont égales, [10, 15[est la classe modale.

Interpolation linéaire
Pour une variable quantitative continue, la valeur approchée du mode peut être déterminé en
tenant compte des densités de fréquence des 2 classes adjacentes par la méthode
d’interpolation linéaire suivante.
La classe modale[𝑥𝑖 , 𝑥𝑖+1 [ étant déterminée, le mode 𝑀𝑜 vérifie
𝑀0 − 𝑥𝑖 𝑥𝑖+1 − 𝑀0
=
∆1 ∆2
𝑀0 − 𝑥𝑖 𝑥𝑖+1 − 𝑀0 𝑥𝑖+1 − 𝑥𝑖
= =
∆1 ∆2 ∆1 + ∆2
𝑥𝑖+1 − 𝑥𝑖
𝑀0 = 𝑥𝑖 + ∆1 ( )
∆1 + ∆2

Remarques
 Lorsque les classes adjacentes à la classe modale ont des densités de fréquences égales, le
𝑥𝑖+1 +𝑥𝑖
mode coïncide avec le centre de la classe modale, alors 𝑀0 = 2
 Le mode dépend beaucoup de la répartition en classes.

3..1. 2 Médiane d’une série statistique


C’est la valeur du caractère qui partage la population en deux groupes de même effectif : 50%
dans l’un, 50% dans l’autre, en rangeant dans l'ordre croissant ou décroissant.
Si la série comporte:
valeur du terme de rang (n) + valeur du terme de rang (n+1)
2n termes, Mediane =
{ 2
2𝑛 + 1 𝑡𝑒𝑟𝑚𝑒𝑠 , 𝑀𝑒𝑑𝑖𝑎𝑛𝑒 𝑒𝑠𝑡 𝑙𝑎 𝑣𝑎𝑙𝑒𝑢𝑟 𝑑𝑢 𝑟𝑎𝑛𝑔 (𝑛 + 1)
Exemple 2
 La série : 101 101 105 105 107 108 108 110
Médiane: (105+107)/2= 106
 La serie : 101 101 105 105 107 108 108 110 112.
La médiane est alors : 107.

10
Notes

- Le calcul de la médiane d’un ensemble hétérograde direct se fait aussi à partir des effectifs
ou fréquences cumulés. La médiane sera la valeur de la variable qui a un effectif cumulé
est égale à la moitie de l’effectif total note n/2 ou 50% de fréquence cumulée. Si n/2 ne
correspond pas à une valeur de la distribution et est compris entre deux valeurs de la
cumulation, alors la médiane est la valeur supérieure à n/2.
- La médiane peut aussi être calculée dans le cas d’une série à caractère continu en utilisant
la méthode de l’interpolation linéaire, en cherchant la classe contenant le 𝑛𝑒 /2 individu de
l’échantillon.

En supposant que tous les individus de cette classe sont uniformément répartis à l’intérieur, la
position exacte du 𝑛𝑒 /2 individu de la façon suivante par interpolation linéaire :

Supposons n/2 appartient à deux valeurs cumulatives croissantes notées 𝑛𝑖 𝑒𝑡 𝑛𝑗 (𝑛𝑗 > 𝑛𝑖 ) et
(𝑛𝑗 − 𝑛𝑖 ) 𝑒𝑠𝑡 𝑙 ′ 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓𝑑𝑒 [𝑥𝑖 , 𝑥𝑗 [ alors :
𝑛 𝑛
𝑀𝑒 −𝑥𝑖 −𝑛𝑖 −𝑛𝑖
= 𝑛2 −𝑛 ⤇ 𝑀𝑒 = 𝑥𝑖 + (𝑥𝑗 − 𝑥𝑖 ) [𝑛2 −𝑛 ]
𝑥𝑗 −𝑥𝑖 𝑗 𝑖 𝑗 𝑖

Si n/2 appartient à deux valeurs cumulatives décroissantes, notées 𝑛𝑖′ 𝑒𝑡 𝑛𝑗′ (𝑛𝑖′ < 𝑛𝑗′ ) alors
𝑛
−𝑛𝑖′
2
𝑀𝑒 = 𝑥𝑗 − (𝑥𝑗 − 𝑥𝑖 ) [ ]
𝑛𝑗 −𝑛𝑖′

NB : Les mêmes formules sont utilisables pour les fréquences cumulatives en nombre
décimal ou en %.

Exercice d’application

Distribution statistique des ouvriers d’une entreprise d’après leur salaire horaire (Fcfa)

Salaire horaire [800, 840[ [840, 880[ [880,900[ [900, 920[ [920, 960[
Effectif 𝑛𝑖 10 30 60 72 40
Amplitude 40 40 20 20 40
Hauteur 0,25 0,75 0,75 3,6 1
Eff. Cum 10 40 100 172 212
Eff. Cum 212 202 172 112 40

La classe modale est [900 ; 920[

 La valeur médiane par cumulation croissante


𝑛 212
= = 106 ∈]100, 172[, et la différence172-100 = 72 est l’effectif de [900, 920[, donc
2 2
106−100 6
𝑀𝑒 = 900 + (920 − 900) 172−100 = 900 + 20 (72) = 901,67 𝐹𝐶𝐹𝐴
 La valeur médiane par cumulation décroissante
𝑛 212
= = 106 ∈]40, 112[, et la différence 112-40=72 est aussi l’effectif de [900, 920[
2 2
106−40 66
𝑀𝑒 = 920 − (920 − 900) 112−40 = 920 − 20 72 = 901,67 𝐹𝐶𝐹𝐴
Dans les deux cas le salaire médian des ouvriers est 901,67 FCFA.

11
3.1. 3. Moyennes
La moyenne donne une information sur le total des valeurs mais elle ne décrit pas le
comportement de la série statistique.

3. 1.3.1 Moyenne arithmétique


Soit un échantillon de n valeurs observées 𝑥1 , 𝑥2 , … , 𝑥𝑘 d’un caractère quantitatif X, et
d’effectifs respectifs 𝑛1 , 𝑛2 , … , 𝑛𝑘 . On définit sa moyenne observée 𝑥̅ comme la moyenne
arithmétique des n valeurs :
∑𝑘
𝑖=1 𝑛𝑖 𝑥𝑖
𝑥̅ = = ∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖
𝑛

𝑥𝑖 = { 𝑣𝑎𝑙𝑒𝑢𝑟 𝑑𝑢 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑒 𝑑𝑎𝑛𝑠 𝑙𝑒 𝑐𝑎𝑠 𝑑 𝑢𝑛𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑒
𝑚𝑖𝑙𝑖𝑒𝑢𝑥 𝑑𝑒𝑠 𝑐𝑙𝑎𝑠𝑠𝑒𝑠 𝑑𝑢 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑒 𝑑𝑎𝑛𝑠 𝑙𝑒 𝑐𝑎𝑠 𝑑 ′ 𝑢𝑛𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑒
𝑠𝑖 𝑛1 = 𝑛2 = ⋯ = 𝑛𝑘 = 1, 𝑜𝑛 𝑝𝑎𝑟𝑙𝑒 𝑑𝑒 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑎𝑟𝑖𝑡ℎ𝑚𝑒𝑡𝑖𝑞𝑢𝑒 𝑠𝑖𝑚𝑝𝑙𝑒
Remarque :
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) = 0 et ∑𝑛𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ ) = 0
Le calcul de la moyenne arithmétique peut être effectué en usant d’une moyenne arithmétique
provisoire (par exemple𝑥0 ).
∑ 𝑛𝑖 𝑥𝑖 ∑[𝑥0 +(𝑥𝑖 −𝑥𝑜 )]𝑛𝑖 ∑ 𝑛𝑖 ∑(𝑥𝑖 −𝑥0 )𝑛𝑖
𝑥̅ = = = 𝑥0 +
𝑛 𝑛 𝑛 𝑛
∑(𝑥𝑖 −𝑥0 )𝑛𝑖
Alors 𝑥̅ = 𝑥0 + 𝑜𝑢 𝑥̅ = 𝑥0 + ∑(𝑥𝑖 − 𝑥0 )𝑓𝑖
𝑛
3.1.3.2 Moyenne géométrique
La moyenne géométrique d’une distribution statistique (𝑥𝑖 , 𝑛𝑖 , )1≤𝑖≤𝑘 , où 𝑥𝑖 > 0 pour une
variable x, est définie par :
𝑛1 𝑛2 𝑛𝑘
𝑛 1
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛 𝑓 𝑓 𝑓
𝐺𝑋 = √𝑥1 1 . 𝑥2 2 … 𝑥𝑘 𝑘 = (𝑥1 1 . 𝑥2 2 … 𝑥𝑘 𝑘 )𝑛 = 𝑥1𝑛 . 𝑥2𝑛 … 𝑥𝑘𝑛 = 𝑥11 . 𝑥22 … 𝑥𝑘 𝑘
En utilisant la fonction logarithme, on aura
1 𝑛 𝑛 𝑛 1
𝑙𝑜𝑔𝐺𝑋 = 𝑛 log(𝑥1 1 . 𝑥2 2 … 𝑥𝑘 𝑘 ) = 𝑛 ∑𝑘𝑖=1 𝑛𝑖 𝑙𝑜𝑔𝑥𝑖
Soit X et Y deux variables
∗ 𝑆𝑖 𝑍 = 𝑋𝑌 𝑎𝑙𝑜𝑟𝑠 𝐺𝑍 = 𝐺𝑋 . 𝐺𝑌
𝑋 𝐺𝑋
∗ 𝑆𝑖 𝑅 = 𝑌 (𝑌 ≠ 0) 𝑎𝑙𝑜𝑟𝑠 𝐺𝑅 = 𝐺𝑌
NB : La moyenne géométrique est adaptée à l’étude des phénomènes de croissance, pour taux
d’intérêt.
3.1.3.3 Moyenne harmonique
La moyenne harmonique de (𝑥𝑖 , 𝑛𝑖 , )1≤𝑖≤𝑘 pour une variable X (𝑋 ≠ 0) est égale à l’inverse
de la moyenne arithmétique des inverses des valeurs de X. on la note 𝐻𝑋
𝑛 1 1 1 1 1
𝐻𝑋 = 𝑛 = 1 = 𝑓 𝑜𝑢 = 𝑛 ∑𝑘𝑖=1 𝑛𝑖 𝑥 ;
∑( 𝑖 ) ∑ 𝑛𝑖 (
𝑥𝑖
) ∑( 𝑖 ) 𝐻𝑋 𝑖
𝑥𝑖 𝑥𝑖
𝑛
Lorsque 𝑛1= 𝑛2 = ⋯ = 𝑛𝑘 = 1, on parle de moyenne harmonique simple.
NB : La moyenne harmonique est utilisée pour les calculs d'indices économiques ou sur des
vitesses.

3.1.3.4 Moyenne quadratique


La moyenne quadratique de (𝑥𝑖 , 𝑛𝑖 , )1≤𝑖≤𝑘 pour une variable X est égale à la racine carrée de
la moyenne arithmétique des carrés des valeurs de X. On la note 𝑄𝑋
12
1
𝑄𝑋 = √𝑛 ∑ 𝑛𝑖 𝑥𝑖2 = √∑ 𝑓𝑖 𝑥𝑖2
De même lorsque 𝑛1= 𝑛2 = ⋯ = 𝑛𝑘 = 1, on parle de moyenne quadratique simple.

NB : La moyenne quadratique joue un très grand rôle dans la statistique contemporaine, car
elle conduira à la notation d’écart type ou standard déviation.

3.1.3.5 Cas général

La définition des moyennes précédentes peut être synthétisée et généralisée à l’aide de la


formule suivante
𝑟=1 𝑙𝑎 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑎𝑟𝑖𝑡ℎ𝑚𝑒𝑡𝑖𝑞𝑢𝑒
1
𝑟 = 2 𝑙𝑎 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑞𝑢𝑎𝑑𝑟𝑎𝑡𝑖𝑞𝑢𝑒
1
𝜇𝑟 = [𝑛 ∑ 𝑛𝑖 𝑥𝑖𝑟 ]𝑟 → 𝑟 = −1 𝑙𝑎 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 ℎ𝑎𝑟𝑚𝑜𝑛𝑖𝑞𝑢𝑒
𝑟 → 0 𝑙𝑎 𝑙𝑖𝑚𝑖𝑡𝑒 𝑑𝑒 𝜇𝑟 𝑒𝑠𝑡 𝑙𝑎 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑔𝑒𝑜𝑚𝑒𝑡𝑟𝑖𝑞𝑢𝑒
{𝑟 → +∞ 𝑙𝑎 𝑙𝑖𝑚𝑖𝑡𝑒 𝑑𝑒 𝜇𝑟 𝑒𝑠𝑡 𝑙𝑒 𝑚𝑎𝑥𝑖𝑚𝑢𝑚 𝑑𝑒 𝑙𝑎 𝑠𝑒𝑟𝑖𝑒
Pour une variable statistique x, Ces différentes moyennes sont liées par la relation :
𝐻𝑋 ≤ 𝐺𝑋 ≤ 𝑥̅ ≤ 𝑄𝑋
En effet, on peut remarquer la proximité existant entre les deux notions de moyenne et de
moment. La moyenne d’ordre r est en effet égale à la racine r-ième du :
 moment simple d’ordre r, noté 𝑚𝑟 .
1 1
1
𝜇𝑟 = [𝑛 ∑ 𝑛𝑖 𝑥𝑖𝑟 ]𝑟 = (𝑚𝑟 )𝑟
1
avec 𝑚𝑟 = ∑ 𝑛𝑖 𝑥𝑖𝑟 𝑜𝑢 𝑚𝑟 = ∑ 𝑓𝑖 𝑥𝑖𝑟
𝑛
 moment centré d’ordre r par rapport à une constante a, noté 𝑚𝑎𝑟
∑ 𝑛𝑖 (𝑥𝑖 −𝑎)𝑟 1 1
𝜇𝑎𝑟 = [ ]𝑟 = (𝑚𝑎𝑟 )𝑟
𝑛
∑ 𝑛𝑖 (𝑥𝑖 −𝑎)𝑟
𝑚𝑎𝑟 = 𝑜𝑢 𝑚𝑎𝑟 = ∑ 𝑓𝑖 (𝑥𝑖 − 𝑎)𝑟
𝑛
3.1.3.6 Moyenne partielle
Si on réunit deux groupes disjoints ayant respectivement pour moyennes 𝑥̅1 𝑒𝑡 𝑥̅2 , et pour
effectifs 𝑛1 𝑒𝑡 𝑛2 , la moyenne de l’ensemble sera alors
𝑛1 𝑥̅ 1 +𝑛2 𝑥̅ 2
𝑥̅ = 𝑛1 +𝑛2
3.1.3.7 Propriété de la moyenne
Soient a et b deux nombres réels et X une série statistique de valeurs 𝑥𝑖 . Considérons la série
statistique 𝑌 = 𝑎𝑋 + 𝑏 de valeurs 𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏
1 1 1 1
On a: 𝑌̅ = ∑ 𝑛𝑖 𝑦𝑖 = ∑ 𝑛𝑖 (𝑎𝑥𝑖 + 𝑏) = 𝑎 ( ∑ 𝑛𝑖 𝑥𝑖 ) + 𝑏 ∑ 𝑛𝑖
𝑛 𝑛 𝑛 𝑛
1
=𝑎𝑋̅ + 𝑏 𝑛 ×𝑛 = 𝑎𝑋̅ + 𝑏
On obtient la formule : ̅̅̅̅̅̅̅̅̅̅
𝑎𝑥𝑖 + 𝑏 = 𝑎𝑋̅ + 𝑏

Exercice 3 (A domicile)
1) On dispose du tableau suivant

𝑥𝑖 3 5 10 15 20
𝑛𝑖 6 𝑛2 9 𝑛4 10

13
Calculer les effectifs manquants 𝑛2 𝑒𝑡 𝑛4 . on précise que les moyennes arithmétique et
harmonique de la distribution sont égales respectivement a 12,26 et 25/3.
2) Un placement à intérêt composé s’est étendu sur 14 ans, aux conditions suivantes:
. Pendant 5 ans, le taux annuel s’est élevé à 7%,
. Pendant les 6 années suivantes, le taux annuel était égal à 8%,
. Pendant les 3 dernières années, le taux annuel a été ramené à 6,5%.
Calculer sur l’ensemble des 14 ans le taux annuel moyen de placement.

3.2 Paramètres de dispersion

En général les indicateurs de dispersion fondamentaux sont la variance et l’écart-type.


L'histogramme, ou le diagramme des fréquences donnent une idée qualitative de la dispersion.
La moyenne donne une information sur le total des valeurs, mais elle ne décrit pas le
comportement de la série statistique.
L’étendue et écart interquartile aussi ne donnent pas une information complète sur la
variable statistique.

3.2.1. Etendue
L’étendue est la différence entre la plus grande valeur et la plus petite valeur de la série (Max
valeur – Min valeur).

3.2.2. Écart moyen d’une série statistique


L’écart moyen est une caractéristique qui définit la dispersion des valeurs d’une série
statistique. L’écart moyen est égal à la moyenne des écarts à la moyenne 𝑥̅ .
𝑛𝑖 : effectif correspondant
𝑝
∑ 𝑛 ǀ𝑥 −̅̅̅
𝑥ǀ 𝑥̅ : 𝑀𝑜𝑦𝑒𝑛𝑛𝑒
𝐸𝑚 = 𝑖=1 𝑁𝑖 𝑖 {
𝑥𝑖 : valeur ou centre de classe
𝑁 𝑜𝑢 𝑛: 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑡𝑜𝑡𝑎𝑙
On pourrait aussi définir l'écart absolu moyen de X par rapport à sa médiane, ou par rapport à
un nombre réel a quelconque.
𝑝
∑𝑖=1 𝑛𝑖 ǀ𝑥𝑖 −𝑎ǀ
𝐸𝑚 = 𝑁
NB : L'écart absolu moyen (EAM ou mean absolute deviation) est par exemple utilisé en finance pour
mesurer le risque d'un portefeuille (EAM des rentabilités).

3.2.3 Variance
Soit un échantillon de n valeurs observées 𝑥1 , 𝑥2 , … , 𝑥𝑛 d’un caractère quantitatif X et soit 𝑥̅
sa moyenne observée. On définit la variance ou fluctuation de cette série, le nombre positif
ou nul, notée 𝑺𝟐 𝒐𝒖 𝑽𝒐𝒖 𝝈𝟐 comme la moyenne arithmétique des carrés des écarts à la
moyenne.
1
𝑉 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 =
𝑛
La formule de la variance observée qui résulte du théorème de Koenig est donc
1
𝑉 = (𝑛 ∑𝑛𝑖=1 𝑥𝑖2 ) − 𝑥̅ 2
D’une manière générale, la variance est la moyenne des carrés des écarts à la moyenne.

14
1 1
𝑉 = 𝑛 ∑𝑝𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 = (𝑛 ∑𝑝𝑖=1 𝑛𝑖 𝑥𝑖2 ) − 𝑥̅ 2
𝑉 = ∑𝑝𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2 = (∑𝑝𝑖=1 𝑓𝑖 𝑥𝑖2 ) − 𝑥̅ 2
Quand on veut estimer une variance d’une variable X à partir d’un échantillon de taille n, on
utilise la variance “corrigée” divisée par n – 1, dont la plupart des logiciels statistiques
l’utilisent.
1 𝑛
𝑉𝐶 = 𝑛−1 ∑𝑝𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 = 𝑉× 𝑛−1
3.2.4. Écart-type
L’écart-type  (lire : sigma) est la racine carrée de la variance :
𝑛 𝑛
𝜎 = √𝑉 ou 𝜎 = √𝑉 𝑛−1 = 𝑉√𝑛−1 de la variance corrigée.
Un écart-type faible correspond à une série concentrée autour de la moyenne.
Dans une loi normale, valeur moyenne, valeur médiane, valeur modale, sont égales. Donc
il y a environ :
 68 % de la population dans l’intervalle [𝑥̅ ; 𝑥̅ ]
 95 % de la population dans l’intervalle [𝑥̅ 2; 𝑥̅ +2]
 99% de la population dans l’intervalle [𝑥̅ 3; 𝑥̅ 3]
De courbe de Gauss

3.2.5. Coefficient de dispersion


On appelle coefficient de dispersion (exprimé en %) d’une série statistique de moyenne 𝑥̅ et
𝝈
d’écart-type , le rapport sans d’unité ou dimension, noté 𝒙̅ .
Il a pour effet de relativiser l'écart-type par rapport à la moyenne. C'est-à-dire, il permet
d'apprécier la représentativité de la moyenne par rapport à l'ensemble des observations. Il donne
aussi une bonne idée du degré d'homogénéité d'une série. Plus il est élevé, plus la dispersion autour
de la moyenne est élevée.

3.3.6 Moyennes et variances dans des groupes


Supposons que n observations soient reparties dans deux groupes 𝐺𝐴 𝑒𝑡 𝐺𝐵 , effectifs respectifs
𝑛𝐴 𝑒𝑡 𝑛𝐵 observations dont leur somme est égale à 𝑛, de moyennes respectives𝑥̅𝐴 𝑒𝑡 𝑥̅𝐵 . La
moyenne générale est une moyenne pondérée par la taille des groupes des moyennes des deux
1
groupes. En effet 𝑥̅ = 𝑛 (𝑛𝐴 𝑥̅𝐴 + 𝑛𝐵 𝑥̅𝐵 )
D’après le théorème de Huygens, la variance totale, définie par
1
𝑆 2 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 se décompose
2 2
𝑛𝐴 𝑆𝐴 + 𝑛𝐵 𝑆𝐵 𝑛 (𝑥̅ 𝐴 −𝑥̅ )2 + 𝑛𝐵 (𝑥̅ 𝐵 −𝑥̅ )2
𝑆2 = ⏟ 𝑛 + ⏟𝐴 𝑛
𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑖𝑛𝑡𝑟𝑎−𝑔𝑟𝑜𝑢𝑝𝑒𝑠 𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑖𝑛𝑡𝑒𝑟−𝑔𝑟𝑜𝑢𝑝𝑒𝑠

15
3.2.7. Quantiles ou fractiles
Quartiles, déciles, centiles, … portent le nom de quantiles. Les quantiles permettent eux
aussi de juger la dispersion d’une distribution, particulièrement lorsque celle-ci n'est pas
symétrique.

3.2.7.1 Quartiles
Pour une série dont les valeurs ont été rangées en ordre croissant, les trois quartiles sont les
trois valeurs du caractère Q1, Q2 et Q3 partageant la série en quatre groupes de même
effectif. Le Q2 n’est autre que la médiane.
Q1 laisse 25% des observations en dessous, Q2 laisse 50% des observations au dessous et Q3
laisse 75% des observations au dessous.
On appelle intervalle quartile, l'intervalle noté [Q1;Q3]

On peut déterminer
 Q1et Q3 respectivement à partir des valeurs classées N/4 et 3N/4 arrondies à l’unité par
excès.
𝑖 terme+(i+1) terme
 Si N/4 ou 3N/4 est un nombre entier i, Q1 ou Q3=
2
Exemple1 : Soit une série statistique de 25 termes :
3,4,4,4,9,9,9,6,6,6,6,6,1,1,10,5,5,5,5,5,5,5,5,7,7
Déterminer l’intervalle quartile de cette série.

Exemple 2 : Soit une série statistique de 12 termes :12,13,15,16,28,34,19,27, 25,24,18,22.


Déterminer Q1 et Q3 de la même manière que la médiane.

3.2.7.2. Déciles
Comme en quartile, pour une série dont le nombre de valeurs est assez important on peut
définir les déciles D1, D2, …, D9 ; c’est un partage en dix parties égales l’effectif total, dont
D5 est la médiane. Dont l'intervalle est [D1 ; D9].

3.2.8 Etendue interquartile et inter-décile


L’intervalle [Q1 ; Q3] est l'intervalle interquartile, le nombre Q3 – Q1 est l'écart interquartile
et le nombre (Q3 – Q1) / Q2 est l'écart interquartile relatif.

L’intervalle [D1 ; D9] est l'intervalle inter décile, le nombre D9 – D1 est l'écart inter décile et
le nombre (D9 – D1) / D5 est l'écart interquartile relatif.
𝐷
NB : En matière de salaires, le rapport 𝐷9 est un paramètre de dispersion fréquemment utilisé.
1
Exercice 4
Voici les notes de X et Y en statistiques au 1er trimestre.
X 9 12 11 10 13
Y \6 18 11 15 5

1) Quelle est la moyenne de chacun de ces deux élèves ?


2) A votre avis, auront-ils la même appréciation sur le bulletin du point de vue du travail
fourni et du point de vue de leurs performances ?

16
3.3 Construction du diagramme en boîte

Le diagramme en boîte à moustaches ou box-plot (Tukey) permet de représenter


schématiquement les principales caractéristiques d’une distribution en utilisant les quartiles.

La partie centrale de la distribution est représentée par une boîte de largeur arbitraire et de
longueur la distance interquartile, la médiane est tracée à l’intérieur. La boîte rectangle est
complétée par des moustaches correspondant aux valeurs suivantes :

- Valeur supérieure : 𝑄3 + 1,5(𝑄3 − 𝑄1 )


- Valeur inferieure : 𝑄1 − 1,5(𝑄3 − 𝑄1 )

I.4. Caractéristiques de forme


4.1 Asymétrie

Afin d’avoir un aperçu des données, on peut comparer la moyen et la médiane.


 Contrairement à la médiane, la moyenne est sensible aux valeurs extrêmes
 Si la moyenne = médiane, c’est un indicateur de symétrie
 Dans le cas ou le caractère étudié se distribue selon une loi normale Laplace-Gauss, alors
médiane = mode = moyenne (distribution parfaitement symétrique).
 Si la moyenne est supérieure ou égale à la médiane, c’est soit un indicateur d’erreur(s)
dans les données, soit signe d’une distribution à droite.
 Si la moyenne est inférieure ou égale à la médiane, c’est soit un indicateur d’erreur(s)
dans les données, soit signe d’une distribution à gauche.

4.2 Coefficient d’asymétrie de fisher ou Skewness


𝜇3 𝜇3 1
𝜌= 𝑜𝑢 𝑝𝑜𝑢𝑟 𝜇2 ≠ 0 𝑎𝑣𝑒𝑐 𝜇𝑟 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝑟 = ∑𝑛𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )𝑟
𝑠3 𝜇2 3/2 𝑛
 Si 𝜌 = 0, c’est un indicateur de symétrie ;
 Si 𝜌 ≥ 0, la distribution est étalée vers la droite ;
 Si 𝜌 ≤ 0, la distribution est étalée vers la gauche.
4.3 Coefficient d’aplatissement de Fisher ou Kurtosis
𝑛 𝑛
𝜇4 𝜇4 1
𝛽 = 4 𝑜𝑢 2
𝑎𝑣𝑒𝑐 𝜇2 ≠ 0 𝑎𝑣𝑒𝑐 𝜇𝑟 = ∑(𝑥𝑖 − 𝑥̅ )𝑟 = ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )𝑟
𝑠 𝜇2 𝑛
𝑖=1 𝑖=1
 Si 𝛽 = 3, pour une distribution qui suit une loi normale centrée réduite. La courbe est
“standard” ; une courbe mésokurtique
 Si 𝛽 > 3, la concentration des valeurs de la série autour de la moyenne est forte: la
distribution n’est pas aplatie. La courbe est plus trop pointue; une courbe
Leptokurtique.
 Si 𝛽 < 3, la concentration des valeurs autour de la moyenne est faible: la distribution est
aplatie. La courbe est plus trop plate; une courbe platykurtique.

17
I.5 Indicateurs de concentration
La notion de concentration ne s'applique qu'à des variables statistiques quantitatives à valeurs
strictement positives.

5.1 Indice de concentration de Gini

5.1. 1. Courbe concentration ou de Lorenz


Considérons la distribution des salaires dans la population des salariés d'une entreprise. Les
salaires sont divisés en n classes : la 𝑖 𝑒 classe, [𝑎𝑖 , 𝑎𝑖+1 [, a pour centre, 𝑥𝑖 et effectif 𝑛𝑖 . On
note 𝑝𝑖 les pourcentages cumulés de la classe i: et 𝑞𝑖 les pourcentages cumulés de la masse
salariale de la classe.
On appelle courbe de concentration, ou courbe de Lorenz, la ligne polygonale joignant les
points de coordonnées (𝑝𝑖 , 𝑞𝑖 ).

La courbe de Lorenz est toujours inscrite dans le carré [0, 1] × [0, 1]. Cette courbe se
caractérise par les traits suivants :
 Les points extrêmes sont les points (0, 0) et (1, 1) puisque 0 % de la population reçoit 0
% de la masse salariale et 100 % de la population reçoit 100 % de la masse salariale.
 La courbe de Lorenz est égale à la diagonale si tous les individus ont le même revenu.
Plus l’écart entre la courbe de Lorenz et la diagonale est important, plus les revenus sont
distribués de manière inégalitaire.
 Dans une situation hypothétique d'égalité absolue, on a un segment de droite tendue entre
les points (0, 0) et (1, 1).
 Dans une situation d'inégalité extrême où la quasi-totalité de la masse salariale serait
détenue par une infime minorité de la population, la courbe de Lorenz tendrait à longer
l'axe des p, avant de remonter brutalement vers le point (1, 1).

5.1. 2 Calcul de l’indice de Gini

L’indice de Gini peut être interprété graphiquement. En effet, il correspond au double de


l’aire de concentration notée S.
𝐼𝐺 = 2𝑆 ∈ [0,1] et sans dimension
Pour calculer cette aire de concentration, on va tout d’abord calculer l’aire sous la courbe de
concentration qui peut se calculer avec une méthode d’approximation fréquemment utilisée,
qui est la méthode de trapèze.
(𝑝𝑖+1 − 𝑝𝑖 )(𝑞𝑖+1 + 𝑞𝑖 )
On calcule l’aire du 𝑖 𝑒𝑚𝑒 trapèze 𝑍𝑖 = 𝑎𝑣𝑒𝑧 𝑍 = ∑ 𝑍𝑖
2
Comme la surface du carré est 1, On en déduit que l’aire de concentration vaut
S=1/2 - Z alors 𝐼𝐺 = 2𝑆 = 1 − 2𝑍 ∈ [0,1]

18
Numériquement, on peut calculer l'indice de Gini par la formule :
IG = 2𝑆 = 1 − 2𝑍 = 1 − ∑i=n−1 i=1 (pi+1 − pi )(q i+1 + q i )
i=n
ou IG = 1 − ∑i=0(pi+1 − pi )(q i+1 + q i )
∑𝑛 𝑛
𝑖=1 ∑𝑗=𝑖+1|𝑥𝑖 −𝑥𝑗 |
ou 𝐼𝐺 = 𝑛(𝑛−1)𝑥̅
 IG = 0 , c'est dire que la courbe de Lorenz coïncide avec la diagonale du carré (il ya
égalité absolue ou parfaite). Tous les salaires sont distribués a l’identique.
 IG = 1, la courbe de Lorenz longe d'abord l'axe des p, puis la droite p = 1 (inégalité
maximale). Les salaires sont inégaux.
 Plus IG est proche de 1, plus la concentration est faible.

NB : l’indice de Gini constitue donc une bonne mesure de l'inégalité. Il permet de mesurer les
inégalités scolaires, les inégalités de statut, les inégalités de salaires, etc. On l’exprime parfois
en % en parlant de coefficient de Gini.

5.2. Médiale

La médiale est la valeur de X qui partage la masse globale en deux parties égales. Sur la
1
courbe de Lorenz, la moitié de la masse globale correspond à l’ordonnée . Le point
2
1
d'ordonnée a une abscisse x qui correspond à une fréquence cumulée x. La valeur
2
correspondante de X s'obtient en prenant l'abscisse du point d'ordonnée x sur le diagramme
cumulatif des fréquences.

Elle n'est pas le salaire gagné par l'employé qui est "au milieu de la file", mais le salaire
gagné par le salarié qui permet d'atteindre la moitié de la masse salariale totale

5.3. Comparaison de Médiale et Médiane

19
La comparaison des valeurs de la médiale et de la médiane constitue une mesure de la
concentration. Lorsque l'écart entre la médiale et la médiane est important par rapport à
l'étendue de la distribution de la variable, la concentration est forte. Si la distribution est
égalitaire, la concentration est faible et l'écart entre la médiale et la médiane est faible.
La médiale est toujours supérieure à la médiane, puisque 50 % des effectifs cumulés
croissants ne permettent jamais d'atteindre 50 % de la masse totale.

Exercice d’application:
Dans une entreprise, on a relevé la répartition des salaires mensuels en euro entre les
différents employés. Les résultats de l’enquête sont donnés dans le tableau suivant.
En utilisant les fréquences relatives en nombre décimal, Calculer l’indice de Gini par la
méthode des trapèzes

Fréquence Fréquence Fréquences


cumulée Salaire de la masse cumulées
Salaire en Nombre de croissante de Centre de perçus par totale des croissantes des
classes salariés nombre de classe xi la classe salaires masses
𝑛𝑖 salariés 𝑚𝑖 = 𝑛𝑖 𝑥𝑖 perçus salariales 𝑄𝑖
𝑝𝑖
[500 ;700[ 10 10 % 600 6000 5,3 % 5,3 %
[700 ; 880[ 20 30 % 790 15800 14 % 19,3 %
[880 ; 1050[ 25 55 % 965 24125 21 % 40,3 %
[1050 ; 1400[ 23 78 % 1225 28175 25 % 65,3 %
[1400 ; 1700[ 12 90 % 1550 18600 16 % 81,3 %
[1700 ; 2500[ 10 100 % 2100 21000 18,5 % 99,8 %
100

Par exemple, le tableau montre que 55% des individus les moins bien rémunérés perçoivent
40,3% du total des salaires.

Salaire en 𝑝𝑖 𝑝𝑖+1 − 𝑝𝑖 𝑄𝑖 𝑞𝑖+1 + 𝑞𝑖 (𝑝𝑖+1 − 𝑝𝑖 )(𝑞𝑖+1 + 𝑞𝑖 )


classes
[500 ;700[ 0,1 0,2 0,053 0,246 0,0492
[700 ; 880[ 0,3 0,25 0,193 0,596 0,149
[880 ; 1050[ 0,55 0,23 0,403 1,056 0,2429
[1050 ; 1400[ 0,78 0,12 0,653 1,466 0,1759
[1400 ; 1700[ 0,90 0,10 0,813 1,811 0,1811
[1700 ; 2500[ 1 0,998
Total 0,7981

IG = 2𝑆 = 1 − 2𝑍 = 1 − ∑i=n−1 i=1 (pi+1 − pi )(q i+1 + q i ) = 1 − 0,7981 = 0,20


IG > 0
2) Appréciez alors cette distribution de salaires de l’entreprise en représentant les points de
coordonnées (𝑝𝑖 , 𝑞𝑖 ) et en traçant la courbe de concentration (à domicile).

20
/ FIN CHAPITRE I

21

Vous aimerez peut-être aussi