Echantillonnage Et Estimation

ECHANTILLONNAGE ET
ESTIMATION
JM Nguyen Fev 09
1
Estimation statistique :

A partir des caractéristiques d’un échantillon , estimer celles de
la population dont est issu cet échantillon
Echantillon représentatif = échantillon tiré au sort
Echantillonnage simple=proportionnelle
Echantillonnages en strates, en grappes, ...
Estimateurs = Statistiques permettant d’évaluer les paramètres

d’une loi de probabilité
2
I ESTIMATIONS PONCTUELES
1.1 Estimation d’une variable aléatoire continue

Soit X une v.a. de moyenne µ et de variance σ². On tire au sort
un échantillon de n individus
La moyenne m = ∑ X i de cet échantillon est un bon

n
estimateur de µ. : il est sans biais et convergent.
1 1 ( ∑ X i )²
La quantité S ² = × ∑ ( X i − m)² = {∑ X i2 − } de
n− 1 (n − 1) n
cet échantillon est un bon estimateur de σ² : il est sans biais et

convergent.
3
1.2 Estimation de proportions
Soit une population dans lequel on observe une proportion ∏

d’individus ayant une caractéristique .
On cherche à estimer ∏ par la proportion observée p d’un

échantillon de cette population.
p est un bon estimateur de ∏, car E(p)= ∏.
4
1.3 Fluctuations d’échantillonnage
1.3.1 Fluctuation d’une moyenne

Soit X une variable aléatoire de moyenne µ et de variance σ².
i1 m1
Population .
.
in mn
La distribution des diverses valeurs de la moyenne prise par les

différents échantillons est appelée distribution d’échantillonnage de
la moyenne.
5
La moyenne de chaque échantillon (m1…mn) va fluctuer autour de µ
On peut estimer la variabilité de m autour de µ , var (m) par σ²/n
6
1.3.2 Fluctuation d’une fréquence
Dans une population, il y a une proportion ∏ de sujets ayant une

caractéristique.
i1 p1
Population .
∏? .
in pn
Si on tire plusieurs échantillons, on trouvera une fluctuation de p

autour de ∏.
p est un bon estimateur de ∏
Si np>=5 et n(1-p)>=5 alors

la variable aléatoire p suit une loi normale, d’écart type √pq/n.
7
1.4 Qualités d’un estimateur
• Un estimateur Tn du paramètre θ de la variable aléatoire X

est convergent, s’il converge en probabilité vers θ
n→ + ∞
∀ε>0, P ( Tn − θ > ε )    → 0
Soit E(Tn - θ)², erreur quadratique

Un estimateur Tn du paramètre θ de la variable aléatoire X
est convergent
si n→∞ , E(Tn - θ)² → 0
En pratique, il suffit de vérifier que E(Tn) tende vers θ
et que V(Tn) tende vers 0.
8
n=6 n=8 n=12
n=∞
Plus n augmente, plus le tir est groupé et plus il se dirige vers sa cible
9
Jet d’un dé, probabilité d’avoir un six=1/6=16.66%
pq
Nb Jets Nb de 6 Fréquence
n=6 0/6 0% n
n=60 7/60 11.67% 4.14%
n=600 77/600 12.83% 1.37%
n=6 000 801/6000 13.35% 0.44%
n=60 000 957/60 000 16.00% 0.05%

n=600 000 9957/600 000 16.66% 0.02%
Plus n augmente, plus on se rapproche vers la valeur théorique, 16.66%

Pour autant, l’estimateur est il convergent ?
10
Un estimateur Tn du paramètre θ de la variable aléatoire X est
sans biais si E(Tn) = θ. La quantité E(Tn - θ) est appelé biais
Estimateur biaisé Estimateur non biaisé
11
Un estimateur Tn du paramètre θ de la variable aléatoire X est
efficace s’il est sans biais [E(Tn) = θ] et s'il est de variance
minimale parmi les estimateurs sans biais de θ.
La méthode du maximum de vraisemblance est la méthode la plus

utilisée pour obtenir des estimateurs ponctuels pour les modèles
paramétriques
12
II Estimation par intervalle de confiance
Estimer θ par intervalle de confiance, c’est donner un intervalle de

valeurs [θ1,θ2] dans lequel θ a une probabilité (1-α) de se trouver
et un risque α de ne pas se trouver.
2.1 Estimer une moyenne µ par un intervalle de confiance
C’est donner les valeurs qui vont encadrer µ avec une probabililité
(1-α) de trouver µ.
Pr(m-k ≤ µ ≤ m+k) = (1-α)
2.1.1 La taille de l’échantillon est grand (n≥30)
Quelle que soit la variable aléatoire, sa moyenne m a une

distribution normale (TCL).
13
Si on utilise la variable centrée réduite m− µ
Z=
σ
n
L’intervalle de confiance s’écrit
m− µ
Pr(-Zα/2 ≤ s ≤ +Zα/2 )=(1-α)
n
s s
Pr( m - Zα/2 ≤ µ≤ m + Zα/2 )=(1-α)
n n
L’intervalle de confiance de µ= m +/- Zα/2 s/√n
14
Exemple1 : On tire au sort un échantillon de 100 individus d’une
population P.
La moyenne des poids de ces 100 individus est de m = 65 kg.

La variance est de 20².
Quel est l’intervalle de confiance à 95% de µ, moyenne de

la population ?
Réponse :
m+/-1.96 √20²/100 65+/-1.96 x 2 [61.08 ; 68.92]
Pr(m1≤ m ≤ m2)=95% α=5% 2.5% 95% 2.5%
-1.96 +1.96
15
Exemple2 :On observe un échantillon de 100 dosages
la moyenne m est de 7.5 µmol/ml
la variance s² est de 4
Quel est l’IC95% de la moyenne µ ? 2.5% 95% 2.5%
-1.96 +1.96
L’intervalle de confiance à 95% de la moyenne µ de la

population est de
7.5+/-1.96 x √(4/100)
7.5 - 0.392≤µ≤7.5+0.392
[7.108 ; 7.892]
16
2.1.2 La taille de l’échantillon est petit (n<30)
2.1.2.1 La variable aléatoire X suit une loi normale.

m− µ
La variable centrée réduite t=
s
n
suit une loi de Student à (n-1) ddl.
m - tα/2,n-1 (s/√n) ≤ µ ≤ m + tα/2,n-1 (s/√n)
L’intervalle de confiance de µ= m +/- tα/2(n-1) s/√n
17
Exemple :
On observe un échantillon de 10 dosages
la moyenne m est de 7.5 µmol/ml
la variance s² est de 4
Quel est l’intervalle de confiance à 95% de la moyenne µ ?
2.5% 95% 2.5%
-2.262 +2.262
t97,5%, 9= 2.262
7.5+/-2.262 x √(4/10)
7.5 – 1.43≤µ≤7.5+1.43
IC95%( µ )= [6.7 – 8.9]
18
2.1.2.2 La variable aléatoire X ne suit pas une loi normale
On ne peut pas utiliser la loi normale ni la loi de Student.
Il existe d’autres méthodes...
19
2.2 Estimer une fréquence par un intervalle de confiance
L’intervalle de confiance d’une proportion ∏ pour un risque
consenti égal à α vaut
p +/- Zα/2 √p(1-p)/n il faut que np ≥5 et (1-p)n ≥5
20
Exemple :
On cherche à estimer la fréquence d’enfants présentant des signes
d’obésité dans une population. On constitue un échantillon
représentatif de 1000 enfants et on a constaté que 120 sont obèses.
Estimer par un intervalle de confiance à 95% le taux d’enfants
obèses dans la population
Réponse :
p+/- Zα/2 √p(1-p)/n
p=120/1000 Z2.5%=1.96
√p(1-p)/n =√12%*88%/1000=0.0102
[12%-1.96*0.0102 12%+1.96*0.0102]
IC95%=[ 9.8%- 14.01%]
21
Si np ou nq trop petits
Loi binomiale exacte
22
2.3 Estimer une variance par un intervalle de confiance
Soit une variable aléatoire normale X de variance σ² inconnue.

On tire un échantillon de n individus.
2.3.1 Si n>=30
alors l’estimation s² de σ² suit approximativement une loi
normale de moyenne σ² et de variance 2σ4/n.
s² − σ ²
Pr(-Zα/2 ≤ ≤ +Zα/2 )=(1-α)
2σ 4
/n
s² s²
σ² ∈ 2
;
1−
2
× Zα / 2
1+ × Zα / 2 n
n
23
Exemple :
On veut estimer la variance des résultats d’un dosage biologique
dans une population. On suppose que la valeur du dosage suit une
loi normale.
On constitue un échantillon représentatif de 36 individus. La
moyenne est de 96 umol/ml et la variance 35² (1225).
Quelle est l’estimation de la variance de la population avec un risque

de 5% ?
s² s²
; 2
2
1+ × Zα / 2 1− × Zα / 2
n n
Réponse :
Borne supérieure variance : 35²/(1-1.96√2/36)=28.9
Borne inférieure variance : 35²/(1+1.96√2/36=39.5 24
2.3.2 Si n<30
Si X suit une loi normale, si s² est l’estimateur de σ² , alors
(n-1)s²/σ², suit une loi du Khi² à (n-1) ddl.
(n − 1)s ² (n − 1)s ²
σ² ∈ χ ² 1− α / 2
χ ²α /2
25
III Nombre de sujets nécessaires pour estimer avec une précision donnée
3.1 cas d’une moyenne
Soit X, une variable aléatoire Normale de moyenne µ et un

échantillon ayant une moyenne m.
On veut que l’estimation m soit à +/-E de µ.
⇔ m-µ<E
On montre que si
n> Z²α/2 σ²/E²
on a la probabilité (1-α) pour que m soit à moins de E de la valeur µ

à estimer
26
Exemple :
On veut effectuer une estimation de la moyenne de la créatinine avec
une précision de +/-0.5 µmol/ml avec une probabilité de 95%.
Soit on connaît la variance de la créatinine dans la population, soit on
en fait une estimation, 25.
La taille de l’échantillon nécessaire est au moins égale à
(1.96² x 25 )/0.5² = 385 sujets
n> Z²α/2 σ²/E²
27
3.1 Cas d’une proportion
Soit Π la proportion à estimer dans la population. Soit p la proportion

observée sur un échantillon. Pour que p soit à +/-E de Π, avec une
probabilité (1-α) , il faut au moins, sous condition np,nq>=5
n> Z²α/2 pq/E²
Exemple : On veut estimer la proportion de filles en faculté avec

une marge d’erreur de 5% et une précision de 0.05.
On a estimé cette proportion sur un échantillon test et on a trouvé
p=53%.
il nous faut donc 1.96².(0.47.0.53)/0.05² = 383 étudiants.
28

Echantillonnage Et Estimation

Transféré par

Droits d'auteur :

Formats disponibles

Echantillonnage Et Estimation

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Echantillonnage Et Estimation

Transféré par

Droits d'auteur :

Formats disponibles

ECHANTILLONNAGE ET

Echantillon représentatif = échantillon tiré au sort

Echantillonnages en strates, en grappes, ...

Estimateurs = Statistiques permettant d’évaluer les paramètres

1.1 Estimation d’une variable aléatoire continue

La moyenne m = ∑ X i de cet échantillon est un bon

cet échantillon est un bon estimateur de σ² : il est sans biais et

Soit une population dans lequel on observe une proportion ∏

On cherche à estimer ∏ par la proportion observée p d’un

p est un bon estimateur de ∏, car E(p)= ∏.

1.3.1 Fluctuation d’une moyenne

La distribution des diverses valeurs de la moyenne prise par les

On peut estimer la variabilité de m autour de µ , var (m) par σ²/n

Dans une population, il y a une proportion ∏ de sujets ayant une

Si on tire plusieurs échantillons, on trouvera une fluctuation de p

Si np>=5 et n(1-p)>=5 alors

• Un estimateur Tn du paramètre θ de la variable aléatoire X

Soit E(Tn - θ)², erreur quadratique

n=60 7/60 11.67% 4.14%

n=600 77/600 12.83% 1.37%

n=6 000 801/6000 13.35% 0.44%

n=60 000 957/60 000 16.00% 0.05%

Plus n augmente, plus on se rapproche vers la valeur théorique, 16.66%

Estimateur biaisé Estimateur non biaisé

La méthode du maximum de vraisemblance est la méthode la plus

Estimer θ par intervalle de confiance, c’est donner un intervalle de

2.1 Estimer une moyenne µ par un intervalle de confiance

Quelle que soit la variable aléatoire, sa moyenne m a une

L’intervalle de confiance de µ= m +/- Zα/2 s/√n

La moyenne des poids de ces 100 individus est de m = 65 kg.

Quel est l’intervalle de confiance à 95% de µ, moyenne de

Pr(m1≤ m ≤ m2)=95% α=5% 2.5% 95% 2.5%

L’intervalle de confiance à 95% de la moyenne µ de la

2.1.2.1 La variable aléatoire X suit une loi normale.

suit une loi de Student à (n-1) ddl.

m - tα/2,n-1 (s/√n) ≤ µ ≤ m + tα/2,n-1 (s/√n)

L’intervalle de confiance de µ= m +/- tα/2(n-1) s/√n

2.5% 95% 2.5%

IC95%( µ )= [6.7 – 8.9]

p +/- Zα/2 √p(1-p)/n il faut que np ≥5 et (1-p)n ≥5

Soit une variable aléatoire normale X de variance σ² inconnue.

Quelle est l’estimation de la variance de la population avec un risque

3.1 cas d’une moyenne

Soit X, une variable aléatoire Normale de moyenne µ et un

On veut que l’estimation m soit à +/-E de µ.

n> Z²α/2 σ²/E²

on a la probabilité (1-α) pour que m soit à moins de E de la valeur µ

n> Z²α/2 σ²/E²

Soit Π la proportion à estimer dans la population. Soit p la proportion

Exemple : On veut estimer la proportion de filles en faculté avec

il nous faut donc 1.96².(0.47.0.53)/0.05² = 383 étudiants.

Vous aimerez peut-être aussi