Esti Test SMC4 Stat
Esti Test SMC4 Stat
Esti Test SMC4 Stat
10 décembre 2021
Table des matières
0.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
0.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . 1
0.1.2 Généralités . . . . . . . . . . . . . . . . . . . . . . . . 2
0.1.3 Intervalle de conance d'une moyenne . . . . . . . . . 2
0.1.4 Intervalle de conance d'une fréquence . . . . . . . . . 3
0.2 Tests d'hypothèses : . . . . . . . . . . . . . . . . . . . . . . . . 4
0.2.1 Exemple introductif : . . . . . . . . . . . . . . . . . . . 4
0.2.2 Principe du test . . . . . . . . . . . . . . . . . . . . . . 6
0.2.3 Test de conformité . . . . . . . . . . . . . . . . . . . . 7
0.2.4 Test de homogénéité . . . . . . . . . . . . . . . . . . . 8
0.2.5 Test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . 9
0.1 Estimation
0.1.1 Introduction
Le problème de l'estimation statistique est le suivant : on cherche à
connaître les valeurs de certaines caractéristiques d'une variable aléatoire
grâce à des observations réalisées sur un échantillon. Un grand nombre de
problèmes statistiques consistent en la détermination de la moyenne, ou la
proportion, on y apporte généralement deux types de réponses :
1. On produit une valeur qui semble être la meilleure possible : on parle alors
d'estimation ponctuelle.
2. On produit un intervalle de valeurs possibles, compatibles avec les observa-
tions. C'est la notion d'intervalle de conance ou d'estimation par intervalle.
1
0.1.2 Généralités
On dispose d'une population totale de paramètres généralement incon-
nus : taille N , moyenne m, écart-type σ . De cette population est extrait un
échantillon de taille n, et de moyenne X supposée connue.
L'estimation d'un paramètre inconnu, par une fonction des valeurs de l'echan-
tillon, appelée "estimateur", ne constitue qu'une approximation, c'est pour
cela que certaines conditions sont requises pour l'estimateur :
-) La convergence : c'est le cas quand, lorsque la taille de l'échantillon n, en
croissant tend vers N , l'estimateur tend vers la vraie valeur à estimer.
-) L'absence de biais : il doit être sans bias, c'est le cas quand la moyenne de
toutes les estimations, obtenues à partir de tous les échantillons possibles de
taille n, est égale à la vraie valeur théorique à estimer .
A titre d'exemple, X est un estimateur de m, il possède bien ces deux qua-
lités, il est donc considéré comme un 'bon' estimateur.
2
b) Cas où n ≤ 30
Même intervalle, sauf que Uα est déterminé à partir de la table de la loi de
Student.
Exemples :
1) Dans une fabrication portant sur 50000 articles, un sondage sur 400 ar-
ticles a donné un poids moyen par article de 200g avec un écart-type de 50g.
Estimer le poids moyen dans la fabrication, au seuil de conance de 95 %.
(voir TD, éxercice 1, série 3).
2) Un dosage de sucre dans une solution eectuée sur 8 prélèvements pro-
venant d'une même fabrication, a donné les résultats suivants, exprimés en
g/l :
19,5 - 19,7 - 19,8 - 20,2 - 20,2 - 20,3 - 20,4 - 20,8 .
Entre quelles limites varie la concentration moyenne de la fabrication, au
risque de 5 % (voir TD, éxercice 2, série 3). ?
3
Cas d'un tirage avec remise (échantillon non exhaustif)
Dans ce cas l'intervalle de conance est :
p p
f (1 − f ) f (1 − f )
I =]f − Uα √ , f + Uα √ [
n n
Exemples :
Dans une école de 1OOO élèves, un sondage sur une classe de 35 élèves a per-
mis de constater que 7 d'entre eux avaient une légère infection contagieuse.
Estimer la proportion d'enfants atteints dans l'école au risque de 5% (voir
TD, éxercice 3, série 3).
4
on conclure, au vu de cette expérience, que ce nouveau traitement est ecace
dans le traitement du cancer ?
Sur le plan statistique, deux hypothèses s'opposent :
5
0.2.2 Principe du test
Dénition 1 : Un test est la donnée de deux hypothèses contraires :
H0 : hypothèse nulle.
H1 : hypothèse alternative.
Règle de décision 1 :
Sous l'hypothèse "H0 vraie", et pour un seuil de signication α xé :
-) si la valeur Tobs de la statistique T , calculée à partir de l'échantillon ob-
servé, est supérieur à la valeur seuil Tα , (Tobs > Tα ) , alors H0 est rejetée,
au risque d'erreur α, et l'hypothèse H1 est acceptée.
-) sinon, H0 est acceptée.
Règle de décision 2 :
La probabilité critique αobs telle que P (T ≥ Tobs ) est évaluée.
-) si la valeur αobs ≥ 0.05, alors H0 est rejetée, car le risque d'erreur d'accep-
ter H0 est trop important, et l'hypothèse H1 est donc acceptée.
6
-) sinon, H0 est acceptée.
7
L'hypothèse H0 : "f = p" sera retenu si T ∈ [−Uα , Uα ], où Uα est déter-
miné à partir de la table de la loi Normale, pour les grands échantillons (
n ≥ 30 ), ou la loi de Student, pour les petits échantillons ( n < 30 ).
8
Comparaison de deux fréquences observées
On note f1 et f2 les fréquences d'apparition d'un certain caractère dans
deux échantillons 1 et 2, extraits respectivement de deux populations de pa-
ramètres (pA , pB ). Il s'agit de déterminer si ces deux échantillons proviennent
de deux populations ayant la même proportion du caractère observé. Deux
hypothèses s'opposent :
H0 : pA = pB = p
contre :
H1 : pA 6= pB
Le critère du test est :
f2 − f1
T =q
p(1 − p)( n11 + 1
n2
)
0.2.5 Test du χ2
On reprend la présentation du χ2 faite dans le chapitre précédent, les
notations sont les mêmes .
Les données
On considère dans ce paragraphe deux variables qualitatives, X , et Y
observées simultanément sur n individus, leurs modalités respectives sont
x1 , ..., xl , ...xr et y1 , ..., yh , ...yc . Le plus souvent ces données sont présentées
dans un tableau, de dimension rxc, appelé "table de contingence", son terme
9
générique nlh est le nombre d'individus ayant, à la fois, la modalité xl de X ,
et yh de Y .
y1 ... yh ... yc sommes
x1 n11 ... n1h ... n1c n1.
.. .. .. .. ..
. . ... . ... . .
xl nl1 ... nlh ... nlc nl.
.. .. .. .. ..
. . ... . ... . .
xr nr1 ... nrh ... nrc nr.
sommes n.1 ... n.h ... n.c n
Propriété préliminaire
On peut établir l'équivalence des trois propriétés suivantes :
i) tous les prols-lignes sont égaux.
ii) tous les prols-colonnes sont égaux .
iii) ∀(l, h)∀ ∈ {1, ..., r}x{1, ..., c} :
nl. n.h
nlh =
n
Si une table de contingence vérie ces trois propriétés, on peut alors dire
qu'il n'existe aucune forme de liaison entre les deux variables considérées
X et Y . Il apparaît donc naturel, que la la mesure de la liaison va se faire
en évaluant l'écart entre la situation observée et l'état de non liaison qu'on
dénit par iii) .
Dénition du Khi-deux
En conséquence, pour mesurer la liaison sur une table de contingence, on
utilise donc l'indice appelé "Khi-deux", dénit par :
2 r c {nlh − nl.nn.h }2
χ = Σl=1 Σh=1 nl. n.h
n
10
Le coecient χ2 est toujours positif ou nul et il est d'autant plus grand que
la liaison est forte. Le seuil de signication α (risque) étant xé, on utilise la
table de la loi du χ2 pour déterminer la valeur de χ2α , et on applique la règle
de décision suivante :
11