Les Statistiques
Les Statistiques
Introduction
Les statistiques, à quoi ça sert ?
Statistiques : Branche des mathématiques appliquées qui a pour objet l’étude des
phénomènes mettant en jeu un grand nombre d’éléments.
Les statistiques sont largement utilisées dans les Départements Commercial et Marketing des
entreprises. Elles permettent d’évaluer les besoins du marché, de préparer les opérations de
prospection, des sondages et d’en analyser les résultats.
1
Un peu de terminologie
1 - Population statistique
Une population statistique est ensemble d’objets, d’unités sur lesquels portent des
observations, ou donnant lieu à un classement statistique.
Deux méthodes peuvent être utilisées pour connaître les caractéristiques d’une population :
Le recensement
Le sondage
Recensement et sondage
Le recensement, utilisable quand la population est peu nombreuse, ou par exemple dans la
cas d’un recencement de la population d’un pays, consiste à relever les caractéristiques de
chaque membre de la population. Il fournit en principe un résultat très proche de la réalité.
On peut alors établir des statistiques sur les différentes caractéristiques relevées.
L’étude statistique passera par l’observation de l’une des caractéristiques des membres de la
population appelée "variable statistique".
Quantitative quand on peut lui attribuer une valeur numérique (par exemple la taille des
Français),
2
Qualitative quand on ne peut la quantifier (par exemple la couleur des cheveux),
Continue quand elle peut prendre toutes les valeurs incluses dans son intervalle de
variation (exemple le poids des Français),
Discrète lorqu’elle ne peut prendre que certaines valeurs (par exemple le nombre de points
obtenus lorsqu’on jette un dé à jouer).
3
Notions de série statistique
Une série statistique est constituée par l’ensemble des valeurs relevées sur la variable
statistique considérée. Le résultat se présentera le plus souvent sous la forme d’un tableau.
Notion de classe
Pour faciliter l’analyse statistique, dans le cas où la variable - de type continue - prend un
grand nombre de valeurs, on regroupera les valeurs en classes, chaque classe correspondant à
un intervalle de variation.
Par exemple, pour réaliser une statistique sur la taille des français adultes qui varie de 1,30 à
2,10 m, on pourra regrouper les tailles par intervalle de 5 cm ce qui entraînera la limitation à
17 classes (Voir schéma ci-dessous).
Distribution en classes
Soit un échantillon de 1177 personnes dont on veut caractériser la taille. La façon la plus
simple de représenter les données collectées est le tableau :
4
Présentation en tableau
On peut également présenter les données sous forme de diagramme à barres. On place en
abscisse la valeur de la variable (ici les classes) et des barres verticales de hauteur
proportionnelle au nombre d’éléments de la population associés à la valeur considérée.
Répartition en classes
Le graphique à secteurs (plus communément appelé "camembert") peut également être utilisé
pour une représentation qui montre mieux la répartition relaive des données.
5
Graphique à secteurs (camembert)
1 - Caractéristiques globales
Le Mode
Le Mode est la valeur de la variable statistique rencontrée le plus fréquemment dans la série
statistique. Dans l’exemple précédent le l’analyse statistique de la taille des français, c’est la
classe 9 (1m70 à 1m75) qui recueille l’effectif le plus large (124).
6
Exemple de série unimodale
Attention : certaines séries statistiques peuvent avoir plusieurs modes. On parle alors de série
multimodale.
Par exemple, si l’on fait une statistique sur la taille des chats, puis sur la taille des chiens, on
obtient des séries à un seul mode. A l’inverse, si l’on regroupe les deux populations pour
avoir une statistique sur la taille des animaux de compagnie, on obtient une série à deux
modes comme le montre le schéma ci-dessous.
La moyenne arithmétique
La moyenne arithmétique d’une série statistique s’obtient en divisant la somme des valeurs
observées par le nombre de valeurs.
7
Dans l’exemple précédent, la valeur moyenne (ici la taille moyenne) est obtenue en
additionnant les tailles centrales des différentes classes : 1,325 + 1,375 + 1,425 + 1,475 + ... +
2,075 + 2,125 et en divisant le résultat par 17 le nombre de classes. On obtient une taille
moyenne de 1,725 c’est à dire le milieu de la classe 9 (1,70 à 1,75.
Le calcul de la moyenne pondérée est illustrée par le tableau suivant qui reprend l’exemple de
la taille des Français :
La Médiane
La médiane d’une série statistique est la valeur de la variable pour laquelle les effectifs
associés respectivement aux valeurs supérieures et inférieures sont égaux.
8
On peut déterminer graphiquement la valeur de la médiane en traçant les courbes des cumuls
des effectifs respectivement en valeurs croissante et décroissante comme le montre le tableau
et le graphique suivant :
9
2 - Caractéristiques de dispersion
Intervalle de variation
L’intervalle de variation appelé aussi "étendue" est la différence entre la valeur la plus élevée
et la plus faible de la variable statistique. Par définition, la moyenne arithmétique simple se
situe au milieu de l’intervalle de variation.
On peut ainsi caractériser des séries statistiques en terme de plus ou moins grande étendue de
variation. Néanmoins, il s’agit d’une grandeur beaucoup moins significative que les
caractéristiques qui expriment la dispersion des valeurs par rapport à la valeur moyenne. Cette
dispersion fait l’objet de l’écart moyen et de l’écart type.
Ecart moyen
Pour chacune des valeurs, on évalue l’écart par rapport à la valeur moyenne. On considère la
valeur absolue des écarts car on ne souhaite pas différentier les valeurs inférieures des valeurs
supérieures à la moyenne.
L’écart moyen est la moyenne des valeurs absolues des écarts de l’ensemble des valeurs par
rapport à la moyenne (voir schéma ci-dessous).
On peut évaluer l’écart moyen de la taille des français avec un résultat de 14,63 cm :
10
Exemple de calcul d’écart moyen
Une seconde méthode permet de caractériser l’écart de dispersion. Au lieu d’utiliser des
valeurs absolues, on procède à l’élévation au carré de chaque écart individuel ce qui permet
de rendre positifs tous les écarts. La moyenne de ces écarts sera la variance dont la racine
carré donnera l’écart-type.
La variance d’une série statistique est donc la moyenne arithmétique des carrés des écarts des
valeurs par rapport à la valeur moyenne. Physiquement, la variance correspond au "taux de
variation" de la variable étudiée. L’utilisation du carré des écarts permet d’annuler la
compensation due aux sugnes des écarts. L’écart-type est égal à la racine carré de la variance.
Il s’exprime dans l’unité de la grandeur qu’il caractérise.
11
Exemple de calcul d’écart-type
Dans la pratique l’écart-type sous-estime légèrement l’écart des données par rapport à la
moyenne notamment pour les tailles de population ou d’échantillon faible. On a un écart-type
et une variance dits "biaisés". On peut corriger ce biais en multipliant l’écart-type biaisé par la
formule suivante :
Lorsque l’on veut comparer la dispersion de deux séries statistiques, il faut prendre garde à
leur valeurs moyennes respectives. On pourra comparer leurs dispersions en "normant" leurs
écarts-types par rapport à leurs moyennes en calculant un coefficient de variation égal à
l’écart-type divisé par la moyenne.
12
Les indices statistiques
1 - Définitions
Définition de l’indice
On appelle indice un valeur qui mesure l’évolution d’une grandeur dans le temps. Pout
caractériser l’évolution d’une grandeur P qui avait la valeut P0 au temps t0 et qui a la valeur
P1 au temps t1, on calcule le rapport entre P1 et P0 selon la formule :
La multiplication par 100 permet de fixer une base de 100 à la valeur initiale P0.
On peut considérer l’exemple de l’indice des prix à la consommation dont les variations en
2001, 2002 et 2003 font l’objet du tableau suivant :
13
On peut tracer l’évolution de cet indice pendant 3 ans :
Taux de variation
Changement de base
14
Indice (t1/t0) = (P1 x 100)/P0 (1) Indice (t2/t0) = (P2 x 100)/P0 (2)
Si l’on veut prendre comme nouvelle base janvier 2002, on évalue l’indice de P2 ainsi :
Soit en simplifiant :
Application numérique :
On remarque que les taux de variation ne s’additionne pas comme le montre le schéma ci-
dessous :
Changement de base
15
2 - Exercices pratiques
Jean-Claude a été embauché en février 1999. Il a été augmenté de 4 % chaque année au mois
de janvier. On demande quelle a été l’augmentation réelle de son pouvoir d’achat entre le
moment de son embauche et janvier 2003 (juste après son augmentation).
On trouve dans le tableau de l’article précédent les indices des prix qui seront être utiles :
Jean-Claude a été augmenté 4 fois aux mois de janvier 2000, 2001, 2002 et 2003
Son salaire initial S est devenu : S x 1,O4 x 1,O4 x 1,O4 x 1,O4 = S x 1,16986. Il a donc été
augmenté d’environ 17 % (en euros courants).
Si l’on souhaite ramener ce salaire de 2003, à la valeur réelle qu’il avait en 1999, il faut
prendre 100 comme base en 2003 et calculer l’indice correspondant en 1999, soit.
16
Exercice 2 - Calculer une croissance moyenne dans le temps
Vous faites le bilan de votre entreprise sur 5 ans. Vous notez que votre chiffre d’affaire a vu
sa valeur tripler. Vous aimeriez connaître votre croissance moyenne annuelle. On négligera
l’inflation dans cet exercice.
Si C est le taux de croissance moyenne, on peut calculer le taux de croissance au bout de 5 ans
qui est :
(1 + C) x (1 + C) x (1 + C) x (1 + C) x (1 + C) = (1 + C)5.
On a donc (1 + C)5 = 3
17
Ajustement statistique
1 - Différentes méthodes d’ajustement
Dans le domaine commercial, on est souvent amené à évaluer une tendance à partir d’un
ensemble de données. On dispose par exemple des chiffres donnant l’évolution du chiffre
d’affaire sur plusieurs années (voir schéma ci-dessous).
18
2 - Méthode des points extrêmes
La méthode des points extrêmes est la plus simple (simpliste ?) des méthodes d’ajustement.
Elle consiste à relier par une droite les deux points les plus extrêmes.
On peut déterminer l’équation de la droite qui passe par ces deux points en exprimant
l’alignement d’un troisième point (x ; y) avec les deux points extrêmes.
Prévisions :
On peut extrapoler la droite précédente pour avoir une prévision du chiffre d’affaire pour
l’année 2005 :
y = 8 x 2005 - 15977 = 63 M€
On voit immédiatement les limites de cette méthode dont le seul avantage est la simplicité. La
droite n’a que peu de chance d’être "centrée" dans le nuage de points puisqu’elle ne prend en
compte que les coordonnées de deux d’entre-eux.
19
3 - Méthode des doubles moyennes
La méthode des doubles moyennes ou méthode de Mayer consiste à partager les données en 2
groupes d’égale importance, puis à déterminer le point moyen de chacun des groupes. On
trace alors la droite passant par ces deux points.
Les coordonnées des points moyens sont obtenues en moyennant respectivement les abscisses
et les ordonnées des points de chaque groupe.
M1 : x = 2000 ; y = 22,3
M2 : x = 2003 ; y = 38
L’équation de la droite qui passe par ces deux points est la suivante :
y = 4,89 x - 9756,67
Cette méthode constitue donc une amélioration par rapport à la méthode des points extrêmes.
Elle est en fait intermédiaire entre cette dernière méthode et la méthode des moindres carrés
20
4 - Méthode des moindres carrés
La méthode des moindres carrés consiste à trouver la droite qui minimise la somme des carrés
des distances entre chaque point et la droite.
Si la droite cherchée a comme équation y = ax+b, on démontre que les coefficients qui
minimisent la somme des carrés des distances sont les suivants :
21
Ce qui donne le tracé de la droite des moindres carrés correspondante :
Vous trouverez sur ce site un graphique interactif illustrant la méthode des moindres carrés.
Lorsque l’on doit traiter des phénomènes non linéaires, on peut utiliser à la place de la droite
des courbes non linéaires telles que les fonctions exponentielles ou les fonctions mettant en
jeu des puissances.
Ajustement exponentiel
Lorsque l’on constate que l’une des variables observées varie de façon géométrique, on ajuste
les données par une fonction exponentielle de la forme y = b.ax. On se ramène alors à un
ajustement linéaire par le biais d’un changement de variable logarithmique :
Si les deux variables présentent des variations géométriques, on ajuste les données par une
fonction puissance de la forme : y = b.xa
22
Notions de probabilité
1 - Introduction
Notion de probabilité
Par exemple, si l’on jette un dé, il n’est pas possible de prédire à coup sûr que le dé va tomber
sur le 6. Par contre, intuitivement, on pressent qu’il y a une chance sur 6 pour que le dé tombe
sur 6.
Pour ce faire, nous avons supposé que chaque position du dé avait la même chance de succès
(on dit que les positions sont équiprobables) et que puisqu’il y a 6 faces à un dé, il y a 1
chance sur 6 que le 6, ou un autre chiffre sorte.
On évalue la probabilité qu’une condition se réalise en divisant le nombre de cas qui sont
favorables à cette condition par le nombre de cas total. cette probabilité s’exprime par un
nombre toujours compris entre 0 et 1.
0 correspond à une probabilité nulle (celle par exemple qu’un dé normal tombe sur un 7),
1 correspond à une probabilité de 100 % (celle par exemple qu’un dé normal tombe sur un
chiffre compris entre 1 et 6).
On considère que deux événements sont indépendants lorsque la réalisation de l’un n’affecte
en rien la probabilité de réalisation de l’autre.
Par exemple, résultats successivement obtenus en jetant un dé. A chaque nouveau jet, les paris
restent ouverts avec la même probabilité qu’avant le jet précédent.
A l’inverse, il existe des événements dont la réalisation affecte la probabilité des autres
événements.
Supposons que l’on tire successivement des cartes dans un jeu de 32 cartes sans remettre les
cartes en place après chaque tirage. Quelle est la probabilité que l’on tire le roi de coeur au
23
premier tirage ? C’est 1/32. Si ce roi n’a pas été tiré, quelle est la probabilité qu’on le tire au
deuxième tirage ? Cela n’est plus 1/32, mais 1/31, etc ...
Probabilités composées
Supposons que l’on dispose de deux jeux de 32 cartes, l’un vert l’autre jaune. On les mélange
en les brassant. Quelle est la probabilité de tirer le roi de coeur vert ?
Probabilité de tirer une carte verte = 32 cartes vertes /64 cartes = 1/2
On vérifie qu’en divisant le nombre de cas favorables (un seul roi de coeur vert) par le
nombre de cas possibles (64 cartes) on trouve également 1/64.
Par exemple, je dispose dans une urne d’un lot de 2 boules rouges et 4 boules noires. Si les
tirages se font sans remettre les boules dans l’urne, quelle est la probabilité que je tire les 2
boules rouges d’emblée ?
Lors du premier tirage, la probabilité de tirer une boule rouge est de : 2/6 = 1/3. Si j’ai bien
tiré une boule rouge, la probabilité de tirer une autre boule rouge au second tirage est de : 1/5
puisqu’il n’y a plus qu’une boule rouge et 4 boules noires dans l’urne.
La probabilité de tirer successivement 2 boules rouges est donc de : 1/3 x 1/5 = 1/15.
Probabilités totales
Etant donné les probabilités de réalisation des événements E1 et E2, la probabilité que l’un
des deux événements se produise est égale à la somme des probabilités individuelles de ces
événements.
24
Par exemple, la probabilité qu’un jet de dé donne un résultat pair est égal à la somme des
probabilités d’obtenir un 2, un 4 ou un 6.
Au premier tirage, la probabilité que vous ayez un bon numéro est de : 6 / 49. Au deuxième
tirage, la probabilité d’avoir à nouveau un bon numéro est de : 5 / 48 (5 parce qu’il ne me
reste que 5 numéros en jeu, et 48 parce qu’il ne reste plus que 48 boules dans l’urne. Au
troisième tirage, la probabilité d’avoir un bon numéro est de : 4 / 47.
Ainsi on obtient les probabilités suivantes : 6/49, 5/48, 4/47, 3/46, 2/45 et 1/44.
Si vous êtes intéressé par tout ce qui tourne autour des probabilités autour du loto, consultez le
site personnel suivant :
http://perso.wanadoo.fr/cyberscargo...
Ce calcul un peu laborieux est formalisé par ce qu’on appelle l’analyse combinatoire qui
permet de dénombrer le nombre de combinaisons d’objets.
Soit un lot de n objets distincts et repérables. Combien existe t’il de combinaisons différentes
d’objets pris p par p.
Cpn ) = n ! / p ! x (n -p) !
Attention : les combinaisons s’entendent sans tenir compte de l’ordre des p éléments (la
combinaison 1, 2, 3, 4 est la même que la combinaison 2, 1, 3, 4).
25
Dans notre calcul précédent , il s’agissait de calculer le nombre de combinaisons de 6 chiffres
parmi 49 chiffres sans tenir compte de l’ordre dans lequel les boules tombent.
Si l’on a joué une seule combinaison de 6 chiffres, la probabilité d’avoir la bonne est de 1
divisé par le nombre de combinaisons, soit :
Au deuxième lancer qui ne met plus en oeuvre que 2 dés, il faut partir des 3 cas favorables
précédents. Dans le premier cas (4), il n’y a plus que 2 cas favorables (obtention d’un 2 ou
d’un 1), avec pour chacun d’eux une probabilité de 1/6 x 2 (une chance par dé).
Au troisième lancer, avec un dé unique, on n’a plus qu’une chance sur 6 d’obtenir le numéro
manquant.
Au total, on dénombre 6 voies possibles pour arriver au suuccès : 4-2-1, 4-1-2, 2-4-1, 2-1-4,
1-4-2 et 1-2-4, avec pour chacun d’eux une probabilité de 1/36, soit globalement une
probabilité de succès de 6/36 = 1/6.
26
2 - Notion de variable aléatoire
Définition
Une variable est une variable aléatoire quand on peut attribuer à chaque valeur que peut
prendre cette variable une probabilité connue.
Comme pour les variables statistiques, les variables aléatoires peuvent être :
Caractéristiques
C’est la relation qui associe à chaque valeur de la variable la probabilité attribuée à cette
valeur.
L’espérance mathématique est la moyenne arithmétique des différentes valeurs pondérées par
la probabilité associée.
27
Par la fonction de répartition
La fonction de répartition donne la probabilité qu’une variable soit inférieure à une valeur
donnée.
On interprête la fonction de répartition des tailles ci-dessus en notant par exemple que 80 %
des Français ont une taille inférieure ou égale à 80 %.
28
3 - Loi normale ou loi de Laplace-Gauss
Présentation
La loi normale a été proposée par Pierre-Simon Laplace (1749-1827) dans son ouvrage :
Théorie analytique des probabilités.
Cette loi caractérise des grandeurs qui se répartissent autour d’une valeur moyenne avec des
probabilités qui diminuent de manière symétrique à mesure que l’on s’éloigne de la moyenne.
C’est donc une courbe en forme de "cloche" comme celle de la répartition de la taille des
Français.
T = (X - moyenne) /écart-type
On obtient alors la loi normale centrée réduite. On démontre que si une variable aléatoire X
suit une loi normale N (m ; sigma) alors la variable aléatoire T = (X - m)/ sigma suit la loi
normale centrée réduite : N (0 ;1).
29
L’équation de la loi normée réduite devien la suivante :
Cette loi normée sera d’une utilisation beaucoup plus facile et on trouvera des tables qui
permettent d’évaluer facilement les probabilités associées à certains valeurs ou plage de
valeurs de la variable.
30
Loi normale centrée réduite et fonction de répartition
On note que la courbe de la fonction de répartition coupe l’axe des ordonnées avec la valeur
0,5. La probabilité que la variable ait une valeur inférieure à la moyenne est donc de 50 % ce
qui confirme la symétrie de la loi normale par rapport à la moyenne.
31
4 - Table de la loi normale et utilisation
La loi normale qui rend compte de beaucoup de phénomènes aléatoires est largement utilisée
par l’intermédiaire, notamment, de la fonction de répartition associée.
Le tableau suivant donne les valeurs de cette fonction pour les valeurs supérieures à 0 donc au
delà de la valeur moyenne :
La loi normale posséde plusieurs propriétés utilisables lors de son exploitation et qui sont
illustrées par la figure suivante :
32
Propriétés de la fonction de répartition de la loi normale
Propriété 1 : La loi normale est symétrique : il y a autant de valeur inférieure que supérieure
à la moyenne,
33
99 % des valeurs sont comprises dans la plage ±3 écart-types
Cela pourra servir à sélectionner, après un sondage, une plage de valeurs pour un contact, un
mailing ou autre en se donnant une probabilité donnée (68, 95 ou 99 %) de couvrir cette
population.
La table de la fonction de répartition nous donne les probabilités inférieures à une certaine
valeur. On y lit que pour la valeur 2,57, cette probabilité vaut 0,9949. La propriété 2 nous
permet de dire que la probabilité qu’une valeur soit supérieure à 2,57 est : 1 - 0,9949 =
0,0051 soit 0,51 %.
p(T>+T0) = 1 - p(T<+T0)
La propriété 3 (symétrie de la loi normale) nous permet d’écrire que la probabilité des valeurs
supérieures à - 0,69 est égale à la probabilité des valeurs inférieures à + 0,69. Nous lisons
dans la table, la probabilité correspondante de 0,7549.
Soit en généralisant :
p(T>-T0) = p(T<+T0)
Exemple 3 : Quelle est la probabilité qu’une valeur soit inférieure à la valeur négative
-0,69 ?
La table précédente ne nous donne que les probabilités associées aux valeurs positives. On
utilisera la symétrie de la loi normale (propriété 3) en écrivant que la probabilité qu’une
valeur soit inférieure à - 0,69 est égale à la probabilité qu’une valeur soit supérieure à +
0,69.
Pour 0,69, la table nous donne une probabilité de 0,7549. La probabilité recherchée est donc
égale à 1 - 0,7549 = 0,2451 soit 24,51 %.
Soit en généralisant :
Exemple 4 : Quelle est la probabilité qu’une valeur soit comprise entre les valeurs -
0,69 et + 2,57 ?
34
cette probabilité se calcule en retranchant de la probabilité que la valeur soit inférieure à 2,57,
la probabilité que cette valeur soit inférieure à - 0,69.
Soit en généralisant :
Exemple 5 : Quelle est la plage de valeurs que l’on doit retenir pour être sûr qu’une
proportion donnée des valeurs y soit contenue ?
C’est la problématique inverse des exemples précédents. Par exemple, si un fabricant de prêt-
à-porter veut vendre ses produits à 30 % de la population quelle plage de tailles doit-il
couvrir ?
35
Echantillonnage statistique
1 - Définitions et théorèmes
Définitions
La plupart du temps, il est impossible économiquement d’étudier une population dans son
intégralité. On procède alors par un sondage sur une partie seulement de la population. C’est
ce que l’on appelle un échantillon.
Echantillonnage aléatoire
Pour qu’un échantillon soit représentatif de la population, il faut que chaque élément de la
population ait les mêmes chances d’appartenir à l’échantillon. On parle dans ce cas
d’échantillonnage aléatoire.
Echantillonnage exhaustif
Lors de l’échantillonnage, si chaque élément extrait est remis dans la population après relevé
de ses caractéristiques, on parle d’échantillonnage non exhaustif. Dans le cas inverse (on ne
remet pas en jeu chaque élément extrait) l’échantillonnage est dit exhaustif.
Remarques :
Un échantillonnage exhaustif (on ne remet pas en jeu les éléments extraits) portant sur une
population très grande (vis à vis de la taille de l’échantillon) est considérée comme non
exhaustif.
Théorèmes
Soit une population N dont une propriété présente une moyenne m et un écart-type s. On
extrait avec remise en jeu un échantillon aléatoire de taille n parmi cette population.
On démontre que la moyenne de tels échantillons est elle-même une variable aléatoire qui suit
approximativement une loi normale ayant les caractéristiques suivantes :
Ecart-type :
36
On vérifie que plus la taille de l’échantillon (n) est grand plus l’écart-type de la moyenne est
faible, ce qui implique que plus l’incertitude sur la moyenne se réduit et se resserre autour de
la moyenne.
Dans la pratique, on considère que n est grand au-delà de 30. Dans ce cas, on a n1/2 = 301/2 =
5,48
Si l’on considère la loi normale normée réduite de la population (écart-type = 1), l’écart-type
de la moyenne de l’échantillon vaudra : 1/5,48 = 0,18.
Il s’agit d’un écart-type faible qui donnera une bonne précision dans l’évaluation de la valeur
de la moyenne.
Quand on ne peut remettre les éléments extraits, l’écart-type de la moyenne est obtenu par la
formule :
ATTENTION : dans ce qui précède il ne faut pas confondre l’écart-type (s) de la population
étudiée de l’écart-type de la moyenne calculée sur l’échantillon.
Considérons une population dont une certaine proportion (p) d’éléments possède une certaine
propriété. On aimerait connaître ce qu’il advient de cette proportion dans l’échantillon
prélévé.
37
On démontre que dans tout échantillon aléatoire de taille suffisante avec remise en jeu, la
proportion d’éléments possédant une propriété suit une loi normale ayant les caractéristiques
suivantes :
Ecart-type :
Par exemple, imaginons un échantillon de 100 personnes parmi une population dont 10 %
mesurent plus de 1m80, on obtient un écart-type de la proportion dans l’échantillon égal à :
0,03. Cela signifie que dans une plage à ± 1 sigma autour de la proportion moyenne, c’est à
dire dans l’intervalle [0,07 ;0,13], on trouvera 68 % des valeurs de la proportion.
On note également que la précision augmente quand la taille de l’échantillon augmente mais
en proportion de la racine de cette taille. cela signifie que pour doubler la précision il faut
multiplier la taille de l’échantillon par 4 !
38
2 - Estimation à partir d’un échantillon
Introduction
L’estimation consiste à donner la valeur la plus probable d’une grandeur. C’est le
problème inverse de l’échantillonnage. On dispose de renseignements sur un ou plusieurs
échantillons et on cherche à connaître des informations sur la population-mère.
On remarque que la probabilité qu’une estimation ponctuelle soit parfaitement exacte est
... nulle, ou enfin voisine de zéro. Il y a donc lieu quand c’est possible, de préférer
l’estimation par intervalle de confiance
Estimation ponctuelle
1 - Moyenne
D’une manière générale, on considère que la moyenne d’un échantillon prélevé est la
meilleure estimation ponctuelle de la moyenne de la population-mère.
2 - Proportion
3 - Ecart-type
39
Dans la figure ci-dessus, sur la courbe de gauche, on appelle P(X) la probabilité, lue dans
la fonction de répartition, que la variable ait une valeur inférieure à la valeur X. La
probabilité que la variable soit supérieure à X est naturellement 1 - P(X).
Sur la courbe de droite, on a évalué la probabilité que la moyenne soit comprise dans
l’intervalle [-X :+X]. Cette valeur vaut :
En inversant la formule, on calcule la valeur qu’il faut lire dans la table de la fonction de
répartition pour que la probabilité que la variable soit dans la plage [-X :+X].
P(plage) = 2 x P(table) - 1
d’où
P(table) = (P(plage) + 1) / 2
Par exemple, si l’on souhaite un taux de confiance de 95 %, la valeur à lire dans la table
est :
40
1 - Moyenne
Dans le cas d’un échantillonnage indépendant (non exhaustif), on obtient l’écart-type par
la formule suivant :
Dans la cas d’un échantillonnage exhaustif, c’est la formule suivante qui s’applique :
On se donne alors un taux de confiance qui par lecture dans la courbe précédente nous
donne un coefficient t. On obtient alors l’intervalle à prendre en compte :
Exemple : Soit un échantillon de 100 personnes dont les tailles ont donné une moyenne
de 1m75 et dont l’écart-type des tailles est égal à 0m13. Dans quelle plage de taille doit-
on considérer cette moyenne pour avoir un taux de confiance de 80 % ?
2 - Proportion
Estimation ponctuelle
Comme pour la moyenne, on prendra pour valeur estimée d’une proportion dans la
population-mère, la proportion mesurée dans l’échantillon. Ce n’est évidemment qu’une
valeur approchée sur laquelle on ne peut avoir aucun taux de confiance connu.
41
1 - Evaluation de l’écart-type de la proportion à estimer
Dans le cas d’un échantillonnage indépendant (non exhaustif), on obtient l’écart-type par
la formule suivant :
Dans la cas d’un échantillonnage exhaustif, c’est la formule suivante qui s’applique :
On se donne alors un taux de confiance qui par lecture dans la courbe précédente nous
donne un coefficient t. On obtient alors l’intervalle à prendre en compte :
42
3 - Taille d’un échantillon
La taille de l’échantillon a une influence fondamentale sur la précision des estimations
réalisées sur les caractéristiques de la population-mère.
Pour des raisons économiques, il est nécessaire d’utiliser une taille d’échantillon la plus
réduite possible tout en obtenant un taux de confiance suffisant.
3 paramètres doivent être pris en compte pour la détermination d’une taille minimum
d’échantillon :
La marge d’erreur que l’on se donne pour la grandeur que l’on veut estimer,
Les taux de confiance les plus utilisés et les coefficients de marge associés sont donnés
dans le tableau suivant :
43
L’application des formules précédentes suppose la connaissance de la proportion
d’éléments de la population-mère sur lesquel porte l’étude. deux approches sont
possibles :
Estimer au mieux cette proportion. Dans les formules précédentes, la proportion p est
présente sous la forme de la fonction p.(1-p) dont on a représenté ci-dessous la
variation :
Le terme p.(1-p) varie entre les valeurs 0 et 0,25, avec une moyenne de 0,175. Si l’on
veut avoir un majorant de la taille de l’échantillon, on prend la valeur maximum de p.(1-
p) soit 0,25 correspondant à p = 0,5. Si l’on veut une approche plus fine qui minimise
l’erreur faite sur l’évaluation de la taille, on prend la valeur moyenne soit 0,175 qui
correspond à p = 0,226.
Exemple : Calculer la taille d’un échantillon indépendant pour avoir une marge d’erreur
de 5 % avec un taux de confiance de 95 % sur une population dont on ne connait pas la
proportion.
Utilisation d’abaque
44
Pour l’utiliser, fixer la valeur de l’erreur admissible (par exemple 0,1), élever une
verticale qui croise les courbes correspondant à différents taux de confiance. Au point
d’intersection avec la courbe choisie (par exemple taux de confiance = 95 %), on trace
une droite horizontale qui croise les courbes correspondant à la proportion dans la
population-mère. Au point d’intersection avec la courbe choisie (par exemple p = 0,2, on
trace une verticale qui va croiser l’axe des abscisses en un point qui donne la taille de
l’échantillon (dans notre exemple 60).
45
Exercices pratiques
Enoncé
Soit un chenil où vivent 4 chiens dont les masses (M)s sont les suivantes :
46
Corrigé
1 - Distribution statistique
Le tableau suivant liste les échantillons et calcule pour chacun d’eux la moyenne et la
variance :
47
48
Exercice 2 - Estimation de la moyenne
Corrigé
49
Exercice 3 - Estimation de proportion
Enoncé
Corrigé
L’écart-type calculé sur une proportion est donné par la formule suivante :
50