Chapitre 1
Chapitre 1
Statistique descriptives
Contents
1.1 Méthodes Statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Séries Statistiques a une variable . . . . . . . . . . . . . . . . . . . 2
1.3 Différents types de variables statistiques . . . . . . . . . . . . . . . 2
1.3.1 Échantillons et Histogrammes . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Statistique à deux dimensions . . . . . . . . . . . . . . . . . . . . . 9
1.4.1 Cadre et Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.2 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.3 Corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Définition 1.0.1 La Statistique, c’est l’étude des variations observables. C’est une méthode qui
consiste à réunir des données chiffrées sur des ensembles nombreux, puis à les analyser et à les
interpréter.
— 3ème étape : on interprète les résultats : on les compare avec ceux déduits de la théorie
des probabilités.
Définition 1.3.1 (Diagrammes en bâtons) Un diagramme en bâtons est un moyen de représenter une série
statistique dont le caractère est quantitatif discret. Si x1 , . . . , xp sont les valeurs possibles prises par le caractère
et si les effectifs correspondants sont n1 , . . . , np , il est constitué par les segments qui relient le point (xk , 0) au
point (xk , nk ).
Exemple : Dans une classe, les notes obtenues du QCM à un devoir sont
Notes 1 2 3 4 5 6 7 8 9 10
Effectif 2 1 6 5 2 9 7 1 0 1
Remarque : Dans les diagrammes en bâtons, les longueurs sont alors proportionnelles aux effectifs.
(Caractères quantitatifs discrets).
Représentation graphique
2) Caractères quantitatifs continus :
Définition 1.3.2 (Histogrammes) Un histogramme est un moyen de représenter une série statistique dont le
caractère est quantitatif continu. Si la série statistique est donnée par les classes ([ai , ai+1 [), il est constitué par
des rectangles dont la base est le segment [ai , ai+1 [ (sur l’axe des réels) et l’aire est proportionnelle à l’effectif de
la classe
Exemple : On a demandé la taille des élèves dans une classe de 33 élèves. On obtient les résultats suivants :
4 Probabilités et Statistiques
Exemple :(Histogramme)
Remarque : Dans l’histogramme en rectangle, l’aire qui doit être proportionnelle à l’effectif de la classe et non
la hauteur elle-même. Si toutes les classes ont la même étendue, il n’y a pas de problème. Sinon, on note ni
l’effectif de la classe [ai , ai+1 [. On choisit un rapport de proportionnalité k. La hauteur du n rectangle de base
[ai , ai+1 [ sera alors k ⇥ ni
ai+1 ai
3) Caractères Qualitatifs :
Définition 1.3.3 (Diagrammes circulaires) Un diagramme circulaire est un moyen de représenter une série
statistique dont le caractère est qualitatif. Il est obtenu en découpant un disque en secteurs dont les mesures
d’angle sont proportionnelles à l’effectif.
Exemple : Dans une entreprise, on a demandé aux employés leur moyen de transport pour venir au travail.
Les résultats sont les suivants :
Définition 1.3.4 (Fréquence) On appelle fréquence le rapport entre l’effectif d’une valeur et l’effectif total. Si
ni
N = n1 + n2 + · · · + nt , alors fi = N.
Notes 1 2 3 4 5 6 7 8 9 10
Effectif 2 1 6 5 2 9 7 1 0 1
Fréquence0.059 0.029 0.176 0.147 0.059 0.265 0.206 0.029 0 0.029
Fréquence0.059 0.088 0.264 0.411 0.47 0.735 0.941 0.970 0.970 1
cumu-
lée
Exemple :
6 Probabilités et Statistiques
Considérons les deux séries de chiffres suivantes : S1 := 10; 0; 10; 15; 20 , S2 := 2000; 2000; 2010; 2015; 2020 .
Dans les deux cas, nous avons 5 nombres. Ces deux séries se ressemblent mais leur position est différente. On va
donc regarder certains paramètres.
Lemme 1.3.1 (La moyenne arithmétique) Elle est égale à la somme des valeurs divisées par leur nombre.
Elle donne une idée sur la localisation.
— Cas de données énumérées Dans ce cas, le calcul de la moyenne est très simple. Pour les exemples
précédents, on obtient des moyennes respectives de 11 et 2009.
— Cas de données qualitatives. La formule de la moyenne pondérée. s’écrit pour les valeurs x1 , . . . , xk
n1 x 1 + · · · + nk x k
de la variable x = = f1 x1 + · · · + fk xk
n1 + · · · + nk
Notes 1 2 3 4 5 6 7 8 9 10
Effectif 2 1 6 5 2 9 7 1 0 1
Lemme 1.3.2 (La médiane) La médiane d’une série statistique, généralement notée x1/2 , est le nombre qui
sépare la série (ordonnée en valeurs croissantes) en deux groupes de même effectif. Pour trouver cette médiane,
quand la série est discrète, on écrit la liste de toutes les valeurs de la série par ordre croissant, chacune d’entre
elles étant répétée autant de fois que son effectif.
8
>
> x n+1 si n est impair
>
< ( 2 )
La médiane x1/2 :=
>
> x n + x( n2 +1)
>
: (2) si n est pair
2
Rafika LASSOUED - (ENIM) 7
Lemme 1.3.3 (Le mode) Le mode d’une série statistique est la valeur le plus fréquente. Dans le cas de la série
statistique S1 := 0; 0; 10; 15; 20 le mode est 0.
Considérons deux séries ayant même moyenne et pourtant très différentes S1 := 0; 0; 10; 15; 20 et S2 :=
1000; 1000; 10; 1015; 1020 . On remarque que dans le premier cas les valeurs sont beaucoup plus rapprochées
que dans le second, on peut mesurer cet éloignement de différentes façons.
Lemme 1.3.4 (L’étendue) L’étendue d’une série statistique est la différence entre les deux valeurs extrêmes.
Pour les séries précédentes S1 et S2 , on obtient respectivement 20 et 2020.
Lemme 1.3.5 (La moyenne) Soit une série statistique (xk , nk ) telle que
1 N est l’effectif total de la série.
2 Les valeurs xk sont les valeurs prises par la série.
3 nk est le nombre de fois où la valeur xk est prise.
n1 x 1 + · · · + nk x k
4 x représente la moyenne de la série x :=
N
Lemme 1.3.6 (La variance) On appelle variance de la série statistique (xk , nk ) le nombre :
p
Lemme 1.3.7 (L’écart-type) L’écart-type est la racine carrée de la variance : = V Dans les séries
précédentes, on a respectivement = ... et = ....
Lemme 1.3.8 (L’écart moyen absolu et l’écart médian absolu) L’écart moyen absolu est défini par
N
1 X
em = |xk x|.
N
k=1
N
1 X
L’écart médiant absolu est défini par e⇤m = |xk x1/2 |.
N
k=1
8 Probabilités et Statistiques
xk 1 2 3 4 5 10 11 12 15 Somme
|xk x|
|xk
x1/2 |
Exemple : Considérons la série statistique suivante :1; 2; 3; 4; 5; 10; 11; 12; 15. On a x = 7 et x1/2 = 5.
On obtient em = 40
9 = 4.44 et e⇤m = 38
9 = 4.22
Les valeurs ont été rangées dans l’ordre croissant, de la plus petite à la plus grande.
Lemme 1.3.9 (Les quartiles) Les quartiles permettent de séparer une série statistique en quatre groupes de
même effectif (à une unité près) :
1 . Un quart des valeurs sont inférieures au premier quartile Q1 .
2 . Un quart des valeurs sont supérieures au troisième quartile Q3 .
Lemme 1.3.10 (l’intervalle interquartile) On appelle intervalle interquartile l’intervalle ]Q1 ; Q3 [. On ap-
pelle écart interquartile la différence Q3 Q1 . Pour déterminer les quartiles Q1 et Q3 d’une série de N valeurs,
on procède de la façon suivante : On calcule la quantité 4.
N
Deux cas sont possibles :
0 ième
- On arrondit 4 à l’entier supérieur n et Q3 est la n
3N 0
valeur de la série.
Déterminer Q1 et Q3
Exemple : Prenons les valeurs rangées dans l’ordre croissant
S1 := 1; 3; 3; 3; 5; 5; 6; 7; 7; 8; 8; 8; 9; 9; 10; 10; 10; 10; 11; 11; 12; 13; 13; 13; 14; 15; 16; 19 .
1.4.2 Covariance
n
1X
— Covariance : Cov(x, y) = E [X E(X)][Y E(Y )] = xi x yi y .
n i=1
Propriétés :
— Cov(X, Y ) = E(XY ) E(X)E(Y )
— Cov(X, Y ) = Cov(Y, X)
— Cov(aX + b, cY + d) = acCov(X, Y )
Définition 1.4.1 (Coefficient du corrélation) Pour deux variables X et Y , le coef de corrélation linéaire
r = ⇢(X, Y ) vaut :
Cov(X, Y )
⇢(X, Y ) = 2 [ 1, 1]
X Y
Propriétés :
- si X et Y sont indépendants, alors ⇢(X, Y ) = 0.
- si X et Y sont gaussiens, il y a équivalence entre indépendance et corrélation nulle.
— Les données : pour chaque individu d’un échantillon de taille n, on relève les valeurs prises par X et Y .
On obtient n couples indépendants les uns des autres notés (xi , yi ) pour i = 1, . . . , n
Xn
xi yi nx.y n n
1X 1X
— Un estimateur de ⇢ est : r = v
u
i=1
avec x = x i et y = yi
u⇣ X n ⌘⇣ X
n ⌘ n i=1 n i=1
u
u
t x2i nx2 yi2 ny 2
i=1 i=1
— Lorsque les points de coordonnées (xi , yi ) pour i = 1, . . . , n sont parfaitement alignés, alors r = 1.
— Lorsqu’on obtient un nuage flou de points, r est proche de 0
On cherche les valeurs a et b qui minimisent la somme des carrés des résidus, i.e. les écarts entre les obser-
vations (Yi ) et les prédictions (axi + b) du modèle.
n
X 2
min f (a, b) = min yi axi b ; a, b
a,b a,b
i=1
Pour cela, on développe f . On considère d’abord f comme un trinôme en b. Donc pour minimiser le dérivée
doit être nulle.
Puis, b étant déterminé, on considère f comme un trinôme en a que l’on va minimiser à nouveau. On obtient
alors
cov(x, y)
b=y ax et a =
V (x)
Exercice :(Corrélation)
La corrélation entre deux variables X et Y mesure le lien linéaire entre deux variables. La fonction correl
calcule la corrélation entre deux variables . On considère deux vecturs X = (xn ), n 2 {1, . . . , 100} et y =
(yn ), n 2 {1, . . . , 100}
1) Vérifier que si xn = n et yn = 2xn alors le coefficient de corrélation entre X et Y vaut 1.
p
3) Calculer le coefficient de corrélation entre X et Y si xn = n et yn = xn .