Statistique Descriptive
Statistique Descriptive
Statistique Descriptive
3. Indicateurs statistiques
3.1 Paramètres de tendance centrale : mode, médiane, moyenne, quartiles déciles.
3.2 Paramètres de dispersion : Entendue, écart absolu, variance, écart-type,
Coefficient de variation et les quantiles et autres caractéristiques de dispersion.
3.3 Construction du diagramme en boîte
4. Caractéristiques de forme :
4.1 Coefficient d’asymétrie ou Skewness
4.2 Coefficient d’aplatissement ou Kurtosis
5. Caractéristiques de concentration
5.1 Courbe de concentration
5.2 Coefficient de concentration de Gini
5.3 La médiale
5.4 Comparaison médiane et médiale
Nous remercions par avance ceux qui voudront bien nous faire part de leurs remarques
et suggestions.
2
Bibliographie
1. C. Larcher et M. Pariente, Statistique et Probabilités, collection dirigée par Claude
LOBRY, 1993.
2. Bernard Goldfard & Catherine Pardoux, Introduction a la méthode statistique, Statistique
et probabilités, 7e Edition, CAMPUS LMD.
3. Henri IMMEDIATO, Cours de statistiques, Licence Scientifique, 1ere partie.
4. Jean GUEGAND et Jean Pierre GAVINI, Probabilités / BCPST, 1ere et 2eme
Années premier cycle universitaire.
5. Jean-Pierre BERTHIER , Introduction à la pratique des indices statistiques Note de
cours, Institut National de la Statistique et des Etudes Economiques (INSEE).
6. M. F. Bara, L. Germa, M. J. Laboure, B. Lovue, Mathématiques et statistiques
appliquées a l’économie, cours, méthodes, exercices corrigés.
7. Ricco Rakotomalala, Notes de cours Probabilités et Statistique, Université Lumière
Lyon.
8. Walder Masieri, Statistiques et calcul des probabilités: Travaux pratiques énoncés et
solutions, 6eme Edition 1994.
9. Introduction à la méthode statistique, manuel et exercices corrigés.
3
Chapitre I : Les Distributions Statistiques à un caractère ou Variable
I.1. Définitions
I.1.2 Population
La population est l’ensemble de tous les éléments considérés dans une étude. Les éléments
de la population sont appelés individus ou unités statistiques.
Chaque unité statistique peut être étudiée suivant un ou plusieurs caractères.
4
I.1.4 Echantillonnage
Pour des raisons de nombre d’individus souvent extrêmement grand, l’échantillonnage nous
conduit à n’examiner ou sélectionner qu’une fraction ou sous ensemble de la population. On
dit que l’on fait un sondage. Il se justifie souvent pour des raisons de coûts ou de délais.
Donc, un échantillon est un sous-ensemble fini de la population. Cet échantillon n'est jamais
parfaitement représentatif d'une population. Il doit refléter fidèlement la composition et la
complexité de la population statistique.
Modalités 𝑥𝑖 𝑥1 𝑥2 𝑥3 ⋯ 𝑥𝑘 Total
Effectif 𝑛𝑖 𝑛1 𝑛2 𝑛3 ⋯ 𝑛𝑘 N
Fréquence 𝑓𝑖 𝑓1 𝑓2 𝑓3 ⋯ 𝑓𝑘 1 ou 100%
L’ensemble des couples (𝑥𝑖 , 𝑛𝑖 )1≤𝑖≤𝑘 est appele serie statistique ou distribution statistique.
Remarque 2 : L’ordre des modalités 𝑥𝑖 du caractère qualitatif est arbitraire. Ce ne sera pas le
cas lorsqu’on étudiera un caractère quantitatif où les valeurs 𝑥𝑖 sont classées par ordre
croissant, c'est-à-dire 𝑥1 < 𝑥2 < ⋯ < 𝑥𝑘 .
5
Effectif ou Fréquence cumulé(e) : Ayant les effectifs ou fréquences, on peut calculer les
effectifs cumulés ou fréquences cumulées. On appelle fréquences cumulées ou fréquences
relatives cumulées en 𝑥𝑖 , 𝑙𝑒 𝑛𝑜𝑚𝑏𝑟𝑒 𝑓𝑖 𝑐𝑢𝑚 tel que
𝑓𝑖 𝑐𝑢𝑚 = ∑𝑖𝑝=1 𝑓𝑝
Note :
En théorie la somme de fréquences est égale à 100%. Les approximations dues aux
arrondis dans les divisions peuvent donner un total légèrement différent de 100.
Dans le cas d’un caractère quantitatif continu, les fréquences cumulées croissantes se
réfèrent à la borne supérieure des classes, tandis que les fréquences cumulées
décroissantes se réfèrent à la borne inferieure des classes.
Exercice 1
Modalités 𝑥𝑖 0 1 2 3 4 5 6 Total
Effectif 𝑛𝑖 4 9 7 2 5 3 1
Exercice 2
Age (ans) [20, 30[ [30, 40[ [40, 50[ [50,65[ [65-80[ [80-90[
Proportion 7% 20% 17% 34% 16% 6%
1) Reproduire cette série statistique dans un tableau indiquant les fréquences cumulées
croissantes et décroissantes.
2) Quel est la proportion de ménages propriétaires de leur logement ayant moins de 65 ans ?
Ayant au moins 50 ans?
Pour visualiser le comportement d’une distribution statistique, il est commode d’en faire une
représentation graphique.
6
Exemple:
35
30 Veuf (ve)
25
20 31%
19%
15
10
5
0
44%
Etat matrimonial
N’importe qu’elle série statistique peut être représentée par de diagramme circulaire ou semi
circulaire, pourvue que le nombre de modalités ne soit pas trop élevé.
Exemple
Distribution statistique du personnel d’un service d’après le nombre d’enfants à charge.
Modalités 𝑥𝑖 0 1 2 3 4 5 6 Total
Effectif 𝑛𝑖 4 9 7 2 5 3 1
7
10
9
8
7
Polygone des effectifs
Effectifs
6
5
4
3
2
1
0
0 1 2 3 4 5 6
Nombre d'enfants a charge
8
- Le polygone des effectifs cumulés décroissants est la ligne polygonale obtenue en
joignant les points ayant pour abscisses les limites inférieures de chaque classe et pour
ordonnées les effectifs cumulés décroissants.
Les deux polygones cumulatifs sont symétriques l’un de l’autre par rapport à l’horizontale
d’ordonnée la moitie de l’effectif total ou 50%. Son abscisse est la valeur du caractère,
appelée médiane, notée Me.
Exemple
Soit la distribution statistique des salaires (en milliers de francs) de l’entreprise X de centaine
de travailleurs.
Interprétation : 65% des salariés perçoivent moins de 40000Fcfa. 15% des salariés
perçoivent au moins 50000Fcfa.
Construction :
Soit les points 𝐴0 (20, 0), 𝐴1 (30, 40), 𝐴2 (40, 65), 𝐴3 (50,85) et 𝐴4 (60,100)
La ligne polygonale passant par 𝐴0 , 𝐴1 , 𝐴2 , 𝐴3 𝑒𝑡𝐴4 est la courbe cumulative croissante de la
distribution.
De même, soit les points 𝐵0 (60, 0), 𝐵1 (50, 15), 𝐵2 (40, 35), 𝐵3 (30, 60) et 𝐵4 (20,100)
La ligne polygonale passant par 𝐵0 , 𝐵1 , 𝐵2 , 𝐵3 𝑒𝑡𝐵4 est la courbe cumulative décroissante de la
distribution.
Les courbes se coupent au point d’ordonnée 50 ou 50% c'est-à-dire la moitie de l’effectif
total. L’abscisse du point d’intersection est appelée Médiane.
I. 3. Indicateurs statistiques
3.1.1 Mode
Le mode est la valeur dominante, valeur la plus probable d'une variable aléatoire, la valeur
pour laquelle l'histogramme de fréquence présente aussi son maximum.
Cas discret, le mode correspond au plus grand effectif.
Cas continu, la classe qui correspond au plus grand effectif est appelée classe modale.
9
Attention : Si les amplitudes de classe sont inégales on prend comme classe modale, la classe
qui a la fréquence (ou effectif) rectifié(e) ou hauteur la plus grande.
NB : Il existe aussi des cas de série bimodale ou multimodale. Mais en général, le mode est
unique.
Exemples
1) Données discrètes : 8, 11, 7, 10, 13, 12, 10, 11, 10.
10 est le mode.
2) Données reparties par classes :
Interpolation linéaire
Pour une variable quantitative continue, la valeur approchée du mode peut être déterminé en
tenant compte des densités de fréquence des 2 classes adjacentes par la méthode
d’interpolation linéaire suivante.
La classe modale[𝑥𝑖 , 𝑥𝑖+1 [ étant déterminée, le mode 𝑀𝑜 vérifie
𝑀0 − 𝑥𝑖 𝑥𝑖+1 − 𝑀0
=
∆1 ∆2
𝑀0 − 𝑥𝑖 𝑥𝑖+1 − 𝑀0 𝑥𝑖+1 − 𝑥𝑖
= =
∆1 ∆2 ∆1 + ∆2
𝑥𝑖+1 − 𝑥𝑖
𝑀0 = 𝑥𝑖 + ∆1 ( )
∆1 + ∆2
Remarques
Lorsque les classes adjacentes à la classe modale ont des densités de fréquences égales, le
𝑥𝑖+1 +𝑥𝑖
mode coïncide avec le centre de la classe modale, alors 𝑀0 = 2
Le mode dépend beaucoup de la répartition en classes.
10
Notes
- Le calcul de la médiane d’un ensemble hétérograde direct se fait aussi à partir des effectifs
ou fréquences cumulés. La médiane sera la valeur de la variable qui a un effectif cumulé
est égale à la moitie de l’effectif total note n/2 ou 50% de fréquence cumulée. Si n/2 ne
correspond pas à une valeur de la distribution et est compris entre deux valeurs de la
cumulation, alors la médiane est la valeur supérieure à n/2.
- La médiane peut aussi être calculée dans le cas d’une série à caractère continu en utilisant
la méthode de l’interpolation linéaire, en cherchant la classe contenant le 𝑛𝑒 /2 individu de
l’échantillon.
En supposant que tous les individus de cette classe sont uniformément répartis à l’intérieur, la
position exacte du 𝑛𝑒 /2 individu de la façon suivante par interpolation linéaire :
Supposons n/2 appartient à deux valeurs cumulatives croissantes notées 𝑛𝑖 𝑒𝑡 𝑛𝑗 (𝑛𝑗 > 𝑛𝑖 ) et
(𝑛𝑗 − 𝑛𝑖 ) 𝑒𝑠𝑡 𝑙 ′ 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓𝑑𝑒 [𝑥𝑖 , 𝑥𝑗 [ alors :
𝑛 𝑛
𝑀𝑒 −𝑥𝑖 −𝑛𝑖 −𝑛𝑖
= 𝑛2 −𝑛 ⤇ 𝑀𝑒 = 𝑥𝑖 + (𝑥𝑗 − 𝑥𝑖 ) [𝑛2 −𝑛 ]
𝑥𝑗 −𝑥𝑖 𝑗 𝑖 𝑗 𝑖
Si n/2 appartient à deux valeurs cumulatives décroissantes, notées 𝑛𝑖′ 𝑒𝑡 𝑛𝑗′ (𝑛𝑖′ < 𝑛𝑗′ ) alors
𝑛
−𝑛𝑖′
2
𝑀𝑒 = 𝑥𝑗 − (𝑥𝑗 − 𝑥𝑖 ) [ ]
𝑛𝑗 −𝑛𝑖′
′
NB : Les mêmes formules sont utilisables pour les fréquences cumulatives en nombre
décimal ou en %.
Exercice d’application
Distribution statistique des ouvriers d’une entreprise d’après leur salaire horaire (Fcfa)
Salaire horaire [800, 840[ [840, 880[ [880,900[ [900, 920[ [920, 960[
Effectif 𝑛𝑖 10 30 60 72 40
Amplitude 40 40 20 20 40
Hauteur 0,25 0,75 0,75 3,6 1
Eff. Cum 10 40 100 172 212
Eff. Cum 212 202 172 112 40
11
3.1. 3. Moyennes
La moyenne donne une information sur le total des valeurs mais elle ne décrit pas le
comportement de la série statistique.
NB : La moyenne quadratique joue un très grand rôle dans la statistique contemporaine, car
elle conduira à la notation d’écart type ou standard déviation.
Exercice 3 (A domicile)
1) On dispose du tableau suivant
𝑥𝑖 3 5 10 15 20
𝑛𝑖 6 𝑛2 9 𝑛4 10
13
Calculer les effectifs manquants 𝑛2 𝑒𝑡 𝑛4 . on précise que les moyennes arithmétique et
harmonique de la distribution sont égales respectivement a 12,26 et 25/3.
2) Un placement à intérêt composé s’est étendu sur 14 ans, aux conditions suivantes:
. Pendant 5 ans, le taux annuel s’est élevé à 7%,
. Pendant les 6 années suivantes, le taux annuel était égal à 8%,
. Pendant les 3 dernières années, le taux annuel a été ramené à 6,5%.
Calculer sur l’ensemble des 14 ans le taux annuel moyen de placement.
3.2.1. Etendue
L’étendue est la différence entre la plus grande valeur et la plus petite valeur de la série (Max
valeur – Min valeur).
3.2.3 Variance
Soit un échantillon de n valeurs observées 𝑥1 , 𝑥2 , … , 𝑥𝑛 d’un caractère quantitatif X et soit 𝑥̅
sa moyenne observée. On définit la variance ou fluctuation de cette série, le nombre positif
ou nul, notée 𝑺𝟐 𝒐𝒖 𝑽𝒐𝒖 𝝈𝟐 comme la moyenne arithmétique des carrés des écarts à la
moyenne.
1
𝑉 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 =
𝑛
La formule de la variance observée qui résulte du théorème de Koenig est donc
1
𝑉 = (𝑛 ∑𝑛𝑖=1 𝑥𝑖2 ) − 𝑥̅ 2
D’une manière générale, la variance est la moyenne des carrés des écarts à la moyenne.
14
1 1
𝑉 = 𝑛 ∑𝑝𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 = (𝑛 ∑𝑝𝑖=1 𝑛𝑖 𝑥𝑖2 ) − 𝑥̅ 2
𝑉 = ∑𝑝𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2 = (∑𝑝𝑖=1 𝑓𝑖 𝑥𝑖2 ) − 𝑥̅ 2
Quand on veut estimer une variance d’une variable X à partir d’un échantillon de taille n, on
utilise la variance “corrigée” divisée par n – 1, dont la plupart des logiciels statistiques
l’utilisent.
1 𝑛
𝑉𝐶 = 𝑛−1 ∑𝑝𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 = 𝑉× 𝑛−1
3.2.4. Écart-type
L’écart-type (lire : sigma) est la racine carrée de la variance :
𝑛 𝑛
𝜎 = √𝑉 ou 𝜎 = √𝑉 𝑛−1 = 𝑉√𝑛−1 de la variance corrigée.
Un écart-type faible correspond à une série concentrée autour de la moyenne.
Dans une loi normale, valeur moyenne, valeur médiane, valeur modale, sont égales. Donc
il y a environ :
68 % de la population dans l’intervalle [𝑥̅ ; 𝑥̅ ]
95 % de la population dans l’intervalle [𝑥̅ 2; 𝑥̅ +2]
99% de la population dans l’intervalle [𝑥̅ 3; 𝑥̅ 3]
De courbe de Gauss
15
3.2.7. Quantiles ou fractiles
Quartiles, déciles, centiles, … portent le nom de quantiles. Les quantiles permettent eux
aussi de juger la dispersion d’une distribution, particulièrement lorsque celle-ci n'est pas
symétrique.
3.2.7.1 Quartiles
Pour une série dont les valeurs ont été rangées en ordre croissant, les trois quartiles sont les
trois valeurs du caractère Q1, Q2 et Q3 partageant la série en quatre groupes de même
effectif. Le Q2 n’est autre que la médiane.
Q1 laisse 25% des observations en dessous, Q2 laisse 50% des observations au dessous et Q3
laisse 75% des observations au dessous.
On appelle intervalle quartile, l'intervalle noté [Q1;Q3]
On peut déterminer
Q1et Q3 respectivement à partir des valeurs classées N/4 et 3N/4 arrondies à l’unité par
excès.
𝑖 terme+(i+1) terme
Si N/4 ou 3N/4 est un nombre entier i, Q1 ou Q3=
2
Exemple1 : Soit une série statistique de 25 termes :
3,4,4,4,9,9,9,6,6,6,6,6,1,1,10,5,5,5,5,5,5,5,5,7,7
Déterminer l’intervalle quartile de cette série.
3.2.7.2. Déciles
Comme en quartile, pour une série dont le nombre de valeurs est assez important on peut
définir les déciles D1, D2, …, D9 ; c’est un partage en dix parties égales l’effectif total, dont
D5 est la médiane. Dont l'intervalle est [D1 ; D9].
L’intervalle [D1 ; D9] est l'intervalle inter décile, le nombre D9 – D1 est l'écart inter décile et
le nombre (D9 – D1) / D5 est l'écart interquartile relatif.
𝐷
NB : En matière de salaires, le rapport 𝐷9 est un paramètre de dispersion fréquemment utilisé.
1
Exercice 4
Voici les notes de X et Y en statistiques au 1er trimestre.
X 9 12 11 10 13
Y \6 18 11 15 5
16
3.3 Construction du diagramme en boîte
La partie centrale de la distribution est représentée par une boîte de largeur arbitraire et de
longueur la distance interquartile, la médiane est tracée à l’intérieur. La boîte rectangle est
complétée par des moustaches correspondant aux valeurs suivantes :
17
I.5 Indicateurs de concentration
La notion de concentration ne s'applique qu'à des variables statistiques quantitatives à valeurs
strictement positives.
La courbe de Lorenz est toujours inscrite dans le carré [0, 1] × [0, 1]. Cette courbe se
caractérise par les traits suivants :
Les points extrêmes sont les points (0, 0) et (1, 1) puisque 0 % de la population reçoit 0
% de la masse salariale et 100 % de la population reçoit 100 % de la masse salariale.
La courbe de Lorenz est égale à la diagonale si tous les individus ont le même revenu.
Plus l’écart entre la courbe de Lorenz et la diagonale est important, plus les revenus sont
distribués de manière inégalitaire.
Dans une situation hypothétique d'égalité absolue, on a un segment de droite tendue entre
les points (0, 0) et (1, 1).
Dans une situation d'inégalité extrême où la quasi-totalité de la masse salariale serait
détenue par une infime minorité de la population, la courbe de Lorenz tendrait à longer
l'axe des p, avant de remonter brutalement vers le point (1, 1).
18
Numériquement, on peut calculer l'indice de Gini par la formule :
IG = 2𝑆 = 1 − 2𝑍 = 1 − ∑i=n−1 i=1 (pi+1 − pi )(q i+1 + q i )
i=n
ou IG = 1 − ∑i=0(pi+1 − pi )(q i+1 + q i )
∑𝑛 𝑛
𝑖=1 ∑𝑗=𝑖+1|𝑥𝑖 −𝑥𝑗 |
ou 𝐼𝐺 = 𝑛(𝑛−1)𝑥̅
IG = 0 , c'est dire que la courbe de Lorenz coïncide avec la diagonale du carré (il ya
égalité absolue ou parfaite). Tous les salaires sont distribués a l’identique.
IG = 1, la courbe de Lorenz longe d'abord l'axe des p, puis la droite p = 1 (inégalité
maximale). Les salaires sont inégaux.
Plus IG est proche de 1, plus la concentration est faible.
NB : l’indice de Gini constitue donc une bonne mesure de l'inégalité. Il permet de mesurer les
inégalités scolaires, les inégalités de statut, les inégalités de salaires, etc. On l’exprime parfois
en % en parlant de coefficient de Gini.
5.2. Médiale
La médiale est la valeur de X qui partage la masse globale en deux parties égales. Sur la
1
courbe de Lorenz, la moitié de la masse globale correspond à l’ordonnée . Le point
2
1
d'ordonnée a une abscisse x qui correspond à une fréquence cumulée x. La valeur
2
correspondante de X s'obtient en prenant l'abscisse du point d'ordonnée x sur le diagramme
cumulatif des fréquences.
Elle n'est pas le salaire gagné par l'employé qui est "au milieu de la file", mais le salaire
gagné par le salarié qui permet d'atteindre la moitié de la masse salariale totale
19
La comparaison des valeurs de la médiale et de la médiane constitue une mesure de la
concentration. Lorsque l'écart entre la médiale et la médiane est important par rapport à
l'étendue de la distribution de la variable, la concentration est forte. Si la distribution est
égalitaire, la concentration est faible et l'écart entre la médiale et la médiane est faible.
La médiale est toujours supérieure à la médiane, puisque 50 % des effectifs cumulés
croissants ne permettent jamais d'atteindre 50 % de la masse totale.
Exercice d’application:
Dans une entreprise, on a relevé la répartition des salaires mensuels en euro entre les
différents employés. Les résultats de l’enquête sont donnés dans le tableau suivant.
En utilisant les fréquences relatives en nombre décimal, Calculer l’indice de Gini par la
méthode des trapèzes
Par exemple, le tableau montre que 55% des individus les moins bien rémunérés perçoivent
40,3% du total des salaires.
20
/ FIN CHAPITRE I
21