Cours de Sondage

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 49

M2 Statistique & conomtrie

Cours de sondage
Chapitres 1 5

Yves Aragon, Camelia Goga-Cardot et Anne Ruiz-Gazen

1er avril 2009


2
Chapitre 1

Introduction aux sondages

Cette introduction pose les problmes de base auxquels rpondent les techniques de sondage. Nous
introduisons la notion dalatoire propre aux sondages et un certain nombre de dfinitions utiles pour
clarifier bon nombre de situations concrtes. Nous prsentons aussi la bibliographie et quelques sites
internet utiles.

1.1 But dun sondage


Ramen sa dimension la plus lmentaire, le but dun sondage est destimer le total ou la moyenne
dune variable dtude y sur une population U finie de taille N . Par exemple, le nombre de chmeurs
dans une rgion, le montant moyen des dpenses en matriel informatique des mnages dune ville.
Notons yk la valeur de la variable dtude y pour lindividu ou unit k de cette population. On note
respectivement tyU et y U = 1/N tyU le total et la moyenne de y :

N
X X 1 X
tyU = yk abrg conventionnellement en yk et y U = yk .
U N U
k=1

On appelle paramtre dintrt, la fonction des yk , k U quon veut estimer, par exemple tyU ou y U .
On est souvent amen estimer dautres paramtres que le total dune variable. Par exemple un
revenu par tte R dans une rgion est un rapport de totaux ou ratio :
X
yk
R = XU
zk
U

o yk et zk dsignent respectivement
X le revenu et la taille du mnage k de la population U des mnages
de la rgion. Si la taille zk , de la population nest pas connue, lestimation de y U revient lesti-
U
mation dun ratio.

Plan de sondage. Un plan de sondage est un mcanisme alatoire de tirage des individus ou units
de U qui formeront lchantillon. Ce cours sintresse notamment au choix du plan de sondage.
A chaque application dun plan de sondage sur une population on doit obtenir un chantillon diff-
rent.
Si la collecte de lchantillon est faite suivant un plan de sondage 1 on obtient partir de lchantillon :
(1) une estimation du paramtre dintrt, (2) une estimation de la variance de lestimateur du paramtre
dintrt.
1. Il y a dautres faons de collecter de linformation, nous en dirons quelques mots la fin du chapitre.

3
4 CHAPITRE 1. INTRODUCTION AUX SONDAGES

Cest la dmarche probabiliste qui permet dobtenir une mesure de prcision de lestimation. Laspect
alatoire est donc crucial. Un sondage qui se limite fournir une estimation de total ou de moyenne, sans
donner une estimation de lcart-type de cette estimation nest pas scientifiquement acceptable. Cest
malheureusement le cas de la plupart des sondages publis dans la presse.
Si lon pouvait mesurer y sur chaque individu de la population on ne ferait pas un sondage mais un recen-
sement et il ny aurait plus de problme destimation. Seulement il est souvent trs coteux, peu raliste,
voire impossible de mesurer la variable dtude sur toute la population et on doit donc se contenter de
lobservation de y sur un chantillon alatoire.
Si dans une situation particulire, recensement et sondage sont tous deux possibles, on choisit lun plu-
tt que lautre suivant : la prcision exige dans la connaissance du paramtre dintrt, la nature de la
dcision qui sera prise daprs cette connaissance, le partage cot/imprcision permis par le problme, le
temps dont on dispose pour fournir le rsultat. Ainsi, beaucoup de rsultats statistiques relatifs aux entre-
prises (chiffre daffaire, niveau des commandes...) ne sont connus exhaustivement que longtemps aprs
la priode de temps concerne. Des rsultats bass sur un sondage et des prvisions sont donc souvent
publis avant que les donnes exhaustives ne soient disponibles.

Rsum. Un plan de sondage est un mcanisme probabiliste qui permet dobserver une variable y sur un
chantillon s de la population U dont on veut estimer une caractristique (par exemple la moyenne de y
sur U ). La mthode destimation de la caractristique doit fournir :
un estimateur de la caractristique,
la variance de cet estimateur,
des estimations bases sur s de ces deux quantits.

En pratique, les dfinitions de population, units ... ne sont pas toujours limpides ou allant de soi. De
plus le mcanisme qui permet daccder aux individus est souvent complexe.
La fabrication de plans de sondage adapts lorganisation et laccessibilit de la population par len-
qute est une tche importante et dlicate. Un certain nombre de dfinitions permettent didentifier les
situations quon rencontre.

1.2 Vocabulaire des sondages


1.2.1 Vocabulaire
Unit dobservation (observation unit, unit of interest). Objet sur lequel on fait une mesure. Cest
lunit de base observe. Pour des populations humaines cest un individu.
Population cible ou champ dune enqute (target population). Collection complte des units dobser-
vations quon veut tudier. Il faut la dfinir soigneusement pour chaque tude. Ce nest pas toujours
vident.
Population chantillonne (sampled population). La liste de toutes les units dobservation qui pour-
raient tre choisies pour former un chantillon. Elle ne concide pas toujours avec la population
cible.
chantillon (sample) Un sous-ensemble de la population chantillonne.
Unit dchantillonnage (sampling unit). Les units susceptibles dtre tires.
Base de sondage (sampling frame). Une liste des units dchantillonnage. Par exemple, un annuaire
par nom, une carte o sont situes des exploitations agricoles, peuvent tre des bases de sondage.
La liste des units dchantillonnage a ncessairement une organisation : par nom, par anciennet
1.2. VOCABULAIRE DES SONDAGES 5

par taille... et il est utile de noter quune base de sondage est une organisation de la population
chantillonne. Il arrive quon ait plusieurs bases de sondage pour un mme problme. Il arrive
aussi quon nait pas de base de sondage pour une population, cas par exemple dune population
danimaux sauvages.
Dfaut de couverture (noncoverage). Le fait quil existe des individus de la population cible qui ne
sont pas dans la base de sondage.
Biais de slection (selection bias). Le biais qui survient quand une partie de la population cible nest pas
dans la population chantillonne. Par exemple, si on veut tudier les revenus des mnages dune
commune et quon oublie les travailleurs migrants, on va trouver des revenus plus levs quils ne
le sont en vrit. Causes classiques de ce biais : Nonrponse, recours au volontariat pour obtenir
des rponses ...
Biais de mesure Il survient quand linstrument de mesure tendance donner une valeur qui scarte
de la vraie mesure dans une direction particulire. Par exemple, dans des sondages sur la vg-
tation, on dcoupe la surface en parcelles et on choisit un chantillon de parcelles. On compte
le nombre de plantes dans chaque parcelle. Que faire des plantes en bordure de parcelle ? Si un
observateur a tendance les compter toutes, il fournira une estimation du nombre total de plantes
suprieur la ralit. Autre exemple : les gens peuvent ne pas dire la ralit (sous dclaration de
revenus, d ge), une question peut tre mal comprise.

1.2.2 Exercice
Un certain nombre de situations sont dcrites dans les exemples ci-dessous. Dans chaque cas dcrire
la population cible, la base de sondage, la population chantillonne, les units dchantillonnage, et les
units dobservation.
Architectes Un chantillon de 8 architectes ou cabinets darchitectes doit tre choisi dans une ville
parmi les 14 qui y exercent. Pour choisir cet chantillon, chaque architecte est contact par tl-
phone dans lordre dapparition dans lannuaire des Pages jaunes. Les 8 premiers qui ont accept
de rpondre constituent lchantillon.
Livres Pour estimer le nombre de livres qui ont besoin dtre relis, un bibliothcaire tire, dans une table
de nombres au hasard, 100 emplacements de livres sur les rayonnages. Il va ensuite en chacun de
ces emplacements et note si le livre qui sy trouve a besoin dtre reli ou non.
Presse Environ 16 500 femmes ont retourn le questionnaire "Healthy Women Survey" insr dans le
numro de sept. 1992 de la revue "Prevention". Le numro de mai 93 de cette revue rendait compte
du sondage en crivant : "92% de nos lectrices valuent leur sant comme excellente, trs bonne
ou bonne."
Parfois on choisit les individus interrogs sans recourir un mcanisme probabiliste. Il est clair que,
dans ce cas, on ne peut rien dire de la prcision des estimations fabriques aprs une telle collecte.

Exemples de mthodes non probabilistes A loppos du sondage alatoire qui donne un chantillon
probabiliste il existe des mthodes non probabilistes.
Mthode des units type. On a observ par exemple que telle commune vote comme la France et
donc on va interroger les habitants de la commune sur leurs choix pour la prochaine lection. On
attribue la France en gnral les choix de cette commune. Ceci na videmment aucune valeur
scientifique et dailleurs on ne sait pas mesurer la prcision dune telle extrapolation.
chantillonnage au jug. On prlve un chantillon en se fondant sur certains jugements au sujet de
lensemble de la population. Cette mthode peut-tre utile pour prparer un questionnaire pour une
enqute. Elle permet de lister les sujets quil faudra poser. La prparation dune enqute recourt
souvent la technique des groupes de discussion, en Marketing notamment.
6 CHAPITRE 1. INTRODUCTION AUX SONDAGES

chantillonnage par quotas. Cest lune des formes les plus courantes dchantillonnage non pro-
babiliste. Il seffectue jusqu ce quun nombre prcis dunits (de quotas) pour diverses sous-
populations ait t slectionn. Si cette slection est effectue dans la rue, comme cest souvent
le cas pour des enqutes sociologiques ou grand public, le risque est que lenquteur slectionne
certaines personnes plutt que dautres sur leur aspect notamment. Ceci peut entraner un biais.
Mais si un sondage par quotas est effectu dans une base informatise, laspect potentiellement
subjectif de la slection disparat.

1.3 Information auxiliaire


X
Pour linstant on a voqu une population U pour laquelle on veut estimer le total ty = yk .
U
Or, souvent on dispose dune information auxiliaire sur U . Cette information se ramne le plus souvent
la connaissance dune variable x pour chaque individu de U , lie y. Laspect important est que x
est connue sans cot pour chaque individu ou du moins, un moindre cot que y. On comprend quil est
trs important davoir des mthodes de sondage qui exploitent une telle information.

Exemples.
Certains oiseaux font leurs nids dans des vieux arbres. Dans une zone donne, il est assez facile
de compter les vieux arbres dune certaine espce. Pour compter le nombre de nids doiseaux
dans la zone divise en parcelles, on peut saider du nombre de vieux arbres mesur par exemple
daprs des photos, puis compter le nombre de nids dans un chantillon de parcelles. Linformation
auxiliaire est xk , le nombre de vieux arbres de la parcelle k, connu pour toutes les parcelles de la
zone.
La rcolte de bl dune rgion doit tre estime. On peut prlever un chantillon de parcelles
dont on mesure la rcolte et saider de lestimation vue dun expert pour toutes les parcelles.
Linformation auxiliaire est lestimation xk , faite par lexpert, de la rcolte de la parcelle k, ceci
pour toutes les parcelles de la zone.
On doit estimer le nombre moyen de fois quune personne dge compris entre 15 ans et 30 ans,
habitant dans une certaine rgion, va au cinma chaque mois. Or on sait que les habitants de zones
urbaines vont plus souvent au cinma que les habitants de zones rurales. Pour tenir compte de cette
information on dcide de faire un plan de sondage diffrenciant les deux types de zones. Ici x est
le statut urbain/rural du lieu de rsidence dun individu de la population tudie.
Dans ces trois exemples linformation auxiliaire permet damliorer lestimation du total ou de la
moyenne de la variable dtude. Cette amlioration peut se faire deux niveaux :
au moment de la dfinition du plan de sondage, cest le cas du troisime exemple ou lon fait ce
qui sappelle un plan stratifi, tudi au chapitre 5,
une fois lchantillon obtenu. Dans ce cas linformation auxiliaire sert corriger les poids des
observations chantillonnes, cest le cas des deux premiers exemples. Lestimation par rgression,
tudi au chapitre 7, entre dans cette catgorie de mthodes.

1.4 Notations

Nous reprenons et compltons les notations qui seront utilises dans ce cours.
X P
Si A U , yk kA yk .
A
1.5. DCOMPOSITION DE LANOVA 7

La variance de y sur U est :

N
2 1 X 1 X
SyU = (yk y U )2 = (yk y U )2 (1.1)
N 1 N 1
k=1 kU

La somme sur tous les couples (k, l), k, l U dune certaine quantit gk,l dfinie sur chacun de ces
couples est note :
XX
gk,l .
U

Si on sintresse deux variables y et z sur U , leur covariance est :

1 X
Syz U = (yk y U )(zk z U )
N 1
kU

1.5 Dcomposition de lANOVA


On utilise en statistique la dcomposition de la variance ou ANOVA dans diffrents contextes.

Rappels. Soit (X, Y ) un couple de variables alatoires. On sait que

E(Y ) = E(E(Y |X))

et
var(Y ) = E(var(Y |X)) + var(E(Y |X))

quon retient comme :

Variance totale = moyenne des variances conditionnelles +


variance des moyennes conditionnelles

Statistique infrentielle. La dcomposition de lANOVA est un peu la tarte la (bonne) crme de la


statistique. On sen sert notamment en statistique infrentielle (rgression, ANOVA, Analyse dicrimi-
nante...).

Cadre des sondages. On peut avoir deux plans de sondages, donc deux mcanismes probabilistes, em-
bots : on fait un premier tirage suivant un plan, pI (.), qui donne un chantillon sa puis un tirage suivant
un autre plan, pII (.|sa ) dans lchantillon sa obtenu au premier tirage, qui donne un autre chantillon s.
Il est trs utile, dans cette situation, de dcomposer un calcul desprance mathmatique en :

E(.) = EI (EII (.|sa ))

et un calcul de variance en :

var(.) = EI (varII (.|sa )) + varI (EII (.|sa )),

o I et II renvoient aux deux tapes du mcanisme de sondage.


8 CHAPITRE 1. INTRODUCTION AUX SONDAGES

1.6 Erreurs non dues lchantillonnage


Lala dans le tirage introduit lerreur dchantillonnage. Cest une erreur attendue et quon sait
quantifier si lon a fait un chantillonnage probabiliste. Mais il peut exister dautres erreurs dans un
sondage : erreurs non dues lchantillonnage (non-sampling errors). Nous en donnons ici une courte
description. Sur le site de Statistique Canada, on trouvera un glossaire 2 trs clair sur ces questions.
1. Erreurs de couverture. Une erreur de couverture survient lorsquil y a une omission, une rptition
ou un ajout erron des units dans la population ou lchantillon. Les omissions sont appeles sous-
dnombrement, tandis que les rptitions et les ajouts errons sont appels surdnombrement. Ces
erreurs surviennent quand la base de sondage utilise ne recouvre pas la population tudier.
2. Erreurs de rponse. Elles surviennent quand les rponses finalement enregistres ne correspondent
pas aux rponses relles. Elles peuvent survenir cause dune mauvaise rdaction des questions,
du comportement de linterviewer, trop familier ou trop distant. Par exemple un interviewer ne doit
pas modifier la formulation dune question en fonction de la personne interroge. Un rpondant
peut vouloir donner une certaine rponse pour tre agrable lenquteur, politiquement correct...
3. Erreurs de non-rponse. Elles surviennent quand le rpondant ne rpond pas suffisamment de
questions de lenqute. La non-rponse peut tre partielle ou complte.
Erreurs de non-rponse complte. Ces erreurs peuvent se produire lorsque lenqute ne mesure
pas certaines units de lchantillon slectionn. Les causes de ce type derreur peuvent tre :
(1) que le rpondant nest pas disponible ou est temporairement absent, (2) quil est incapable
de participer lenqute ou quil refuse.
Si un nombre important de personnes ne rpondent pas une enqute, alors les rsultats peuvent
tre biaiss, tant donn que les caractristiques des non-rpondants peuvent diffrer des carac-
tristiques de ceux qui ont particip.
Erreurs de non-rponse partielle. Ce type derreur se produit lorsque linformation obtenue du
rpondant est incomplte. Par exemple, certaines questions peuvent tre difficiles comprendre
pour certaines personnes. Afin de rduire cette forme de biais, il faut porter une attention par-
ticulire la conception et la mise lessai du questionnaire. Il faut le tester longuement, le
rerdiger tant que des imprcisions, des malentendus sur le sens des questions, des incompr-
hensions de questions, demeurent.
Le problme de la non-rponse sera tudi plus en dtail dans le chapitre 9.

1.7 Conception des questionnaires


Ce cours ne concerne pas la conception et ladministration de questionnaires. Or, dans une enqute
par sondage auprs dentreprises ou de personnes, on ne peut esprer avoir de bonnes donnes sans
un bon questionnaire bien administr. Un questionnaire bien conu permet de recueillir des donnes
en toute efficacit et sans grand risque derreur. Il facilite le codage et la saisie des donnes et permet
gnralement de rduire les frais et les dlais de collecte et de traitement des donnes. La grande difficult
de llaboration dun questionnaire est darriver traduire les objectifs de la collecte de donnes en un
cadre cohrent dun point de vue conceptuel et mthodologique.
Avant de mobiliser de grands moyens dans la conception dun questionnaire on devrait se poser les
questions suivantes pour dfinir clairement les objectifs du projet :
Faut-il faire une enqute ou bien dfinir un plan dexprience ?
Que veut-on apprendre ?
Comment linformation sera-t-elle utilise ? En particulier, quel traitement fera-t-on des rponses
chaque question ?
Quel degr dexactitude et de fiabilit de linformation doit-on viser ?
2. http ://www.statcan.ca/francais/edu/power/glossary/gloss_f.htm#enquetesond
1.8. SITES INTERNET 9

Une fois quon a des rponses claires ces questions, on peut envisager la conception du question-
naire, sa ralisation, son administration et lanalyse de ses rsultats.
Le site de Statistique Canada contient un dveloppement trs clair sur la conception des question-
naires 3 et lanalyse denqutes. Le site de lAmerican Statistical Association 4 : contient un certain
nombre de documents tlchargeables sur la conception, ladministration et lanalyse des questionnaires.
Avec un moteur de recherche, les mots-clefs : "questionnaire design" survey, donnent un grand nombre
de sites consacrs au sujet.

1.8 Sites Internet


Sites de lINSEE 5 et de Statistique Canada 6 .

Le site de lUniversit dIllinois 7 rfrence un ensemble de sites, journaux... consacrs aux sondages.

Le site de la Washington Statistical Society 8 donne des principes pour construire de bons graphiques
et bien visualiser les donnes.

On trouve sur le site 9 des adresses de cours de sondages gratuits dans le domaine des sciences so-
ciales.

On trouve sur le site de D. Haziza 10 (Professeur lUniversit de Montral) un cours de sondages en


franais moins avanc que le ntre mais avec beaucoup dexemples.

Citons aussi le site de lUS Environmental statistical agency 11 et de NC state University 12 qui r-
pondent des questions frquentes sur les sondages.

Pour lanalyse de donnes issues de plans de sondages complexes avec le logiciel R, voir la page
officielle du package survey de T. Lumley 13 .

Avec un moteur de recherche, les mots-clefs : sampling survey, donnent un grand nombre de sites
consacrs au sujet.

3. http ://www.statcan.ca/francais/edu/power/ch2/questionnaires/questionnaires_f.htm
4. http ://www.amstat.org/sections/SRMS/index.html
5. http ://www.insee.fr/fr/home/home_page.asp
6. http ://www.statcan.ca/francais/edu/power/toc/contents_f.htm
7. http ://www.srl.uic.edu/srllink/srllink.htm
8. http ://www.science.gmu.edu/ wss/methods/#Graphics
9. http ://gsociology.icaap.org/methods/sampling.html
10. http ://www.davidhaziza.com/index_fichiers/Page341.htm
11. http ://www.epa.gov/nheerl/arm/surdesignfaqs.htm
12. http ://www2.chass.ncsu.edu/garson/pa765/sampling.htm
13. http ://faculty.washington.edu/tlumley/survey/
10 CHAPITRE 1. INTRODUCTION AUX SONDAGES
Chapitre 2

Estimation dun total, dune moyenne et


dun ratio dans le cas particulier du plan
simple sans remise.

Dans ce chapitre nous tudions le plan simple probabilits gales sans remise (plan SI) et le plan
simple propabilits gales avec remise. Nous posons le vocabulaire et les outils qui serviront constam-
ment par la suite : plan de sondage et probabilits dinclusion. Nous retrouverons ces probabilits din-
clusion comme un outil fondamental dans ltude des plans probabilits ingales.

2.1 Introduction
Dfinition. Un plan de sondage sur une population U est un mcanisme probabiliste dcrit avec
prcision qui permet dobtenir un chantillon alatoire, s, dlments de U . En termes un peu plus so-
lennels,
X cest une probabilit : p() dfinie sur S lensemble des parties de U : p(s) 0 s S et
p(s) = 1. Lalatoire en sondage provient dabord de la variabilit de lchantillon tir dans la po-
S
pulation finie fixe. La taille dun plan de sondage est la taille des chantillons quil gnre. Elle peut tre
constante, on parle alors de plan de taille fixe, ou bien alatoire pour des plans que nous rencontrerons
ultrieurement.

2.2 Deux plans simples probabilits gales


On appelle plan simple, un plan de sondage dans lequel on accde aux individus qui formeront
lchantillon par une seule opration alatoire. Dans le cas contraire on parle de plan complexe. Par
exemple, supposons quon sintresse tous les enfants scolariss dans les coles primaires dune rgion.
Il est clair quon ne peut accder ces enfants que par lintermdiaire de lcole quils frquentent. Un
plan de sondage sur ces enfants comportera au moins une tape de slection dcoles, puis peut-tre de
slection de classes dans lcole et enfin denfants dans la classe. Cest un plan complexe, prcisment
un plan plusieurs degrs tudi au chapitre 8.
Nous commenons par tudier le plan SI, plan probabilits gales sans remise (not donc aussi
PESR) et le plan probabilits gales avec remise (PEAR). La suite du cours mettra en uvre des plans
plus complexes, mais intgrant souvent diffrentes tapes des plans simples, plan SI en particulier.

2.2.1 Plan SI
On se fixe comme paramtre une taille n dchantillon et on tire  n individus, sans ordre et sans
remise dans la population des N individus. Dans le plan SI il y a N
n chantillons possibles et quipro-

11
12 CHAPITRE 2. PLAN SIMPLE SANS REMISE

bables 1 Ceci estune application directe des techniques de dnombrement vues en calcul des probabilits
lmentaire. N n
n et CN sont deux notations pour dsigner la mme chose : le nombre de parties n l-
ments parmi un ensemble N lments. Pour une prsentation dans le cadre de la thorie des sondages
on peut consulter Till, 2001.. La loi de probabilit sur les chantillons est donc :
(
p(s) = N1 si card(s) = n
(n)
p(s) = 0 si card(s) 6= n

On appelle f = n/N , le taux de sondage. On notera ce plan : SI(N, n).


1
Un certain individu k tant choisi, pour complter un chantillon n, il y a N

n1 possibilits, ou
N 1

encore il y a n1 chantillons qui contiennent un individu fix.
La probabilit dinclusion de k dans un chantillon est la somme des probabilits de tous les chan-
tillons qui contiennent k : X
k = p(s)
s3 k
et pour le plan SI :
N 1

n1 n
k = N
 = .
n
N
Cest la probabilit que se ralise un chantillon qui contient k. Noter que k est donn et que cest s qui
varie, k est appele une probabilit dinclusion du premier ordre. Pour le plan SI elle ne dpend pas de
k. On dfinit de mme la probabilit dinclusion du deuxime ordre de deux lments k et l, k 6= l :
X nombre dchantillons qui contiennent k et l
kl = p(s) = ,
nombre total dchantillons
s3 k&l

pour un plan SI,


N 2

n2 n(n 1)
kl = N
= .
N (N 1)

n

Estimation de la moyenne de y On a tir dans U un chantillon s dindividus suivant le plan SI(N,n).


On veut construire un estimateur de y U laide des yk , k s. Considrons y s , la moyenne sur lchan-
tillon obtenu. Lesprance mathmatique de cette moyenne par rapport au plan de sondage est :
X 1 X1X
E(y S ) = p(s)y s = N
 yk
n
n s
sS sS

o S dsigne llment alatoire dont s est une ralisation et s parcourt lensemble S des N

n chantillons
1
possibles. On a vu que chaque yk apparat dans N

n1 termes. Lesprance mathmatique de la variable
alatoire y S est donc
N 1

n1 1
X
E(y S ) = N  yk = y U .
n
n U

Ainsi, dans le plan SI, la moyenne sur lchantillon est un estimateur sans biais de la moyenne sur la
population.
On peut montrer (nous obtiendrons ce rsultat aprs avoir introduit les variables indicatrices dinclu-
sion) que
2 2
 n  SyU SyU
var(y S ) = 1 = (1 f ) . (2.1)
N n n
1. Rfrences
2.2. DEUX PLANS SIMPLES PROBABILITS GALES 13

On montrera galement que


2 1 X
Sys = (yk y s )2
n1 s
X
2
est un estimateur sans biais de SyU = N 11 (yk y U )2 , au sens du plan SI.
U

Remarque. Parlant dun estimateur, nous aurions du crire : SyS2 et non S 2 qui est une estimation. Mais
ys
pour ne pas alourdir les notations nous noterons le plus souvent s lchantillon que ce soit une ralisation
ou un lment alatoire.
Finalement un estimateur sans biais de la variance de lestimateur y s de la moyenne y U est :
2 2
 n  Sys Sys
c S) = 1
var(y = (1 f ) . (2.2)
N n n

Estimation du total dans le plan SI.


On estime tyU = N y U par
NX
tyU = N y s =
b yk .
n s

Cest un estimateur sans biais : E(btyU ) = tyU . On peut considrer que chaque lment de lchantillon
reprsente N/n lments de la population, ou encore yk est dilate par le facteur N/n pour construire
tyU est :
lestimateur du total. La variance de b
2
SyU
tyU ) = N 2 var(y s ) = N 2 (1 f )
var(b , (2.3)
n
elle est estime sans biais par :
2
Sys
var(
c b tyU ) = N 2 var(y
c s ) = N 2 (1 f ) . (2.4)
n

Exercice
On considre une population de N = 5 individus, pour lesquels on connat les valeurs de la variable
y : y1 = 3, y2 = 1, y3 = 0, y4 = 1, y5 = 5. On choisit un plan SI avec une taille dchantillon n = 3.
1. Donner les valeurs de la moyenne, de la mdiane et de la variance de la variable y dans la popula-
tion. Lister tous les chantillons possibles de taille n = 3. Quelle est la probabilit de slection de
chaque chantillon ?
2. Pour un chantillon donn, on estime la moyenne (respectivement la mdiane) de la population.
Calculer les valeurs de ces estimateurs pour chaque chantillon et en dduire que lestimateur de
la moyenne est sans biais alors que lestimateur de la mdiane est biais.
2 de S 2 et en dduire que cet estimateur est sans
3. Pour chaque chantillon, calculer lestimateur Sys yU
biais.
Indications :
1. Il y a 10 chantillons possibles de taille 3 et puisque le plan est un plan SI, ces chantillons sont
quiprobables.
2. Calculer les moyennes arithmtiques des estimateurs de la moyenne dune part et de la mdiane
dautre part. Comparer avec les vraies valeurs calcules la question prcdente.
2 (un par chantillon), en faire la moyenne arithmtique et comparer la vraie
3. Calculer les Sys
2
valeur SyU .
14 CHAPITRE 2. PLAN SIMPLE SANS REMISE

2.2.2 Indicatrices dinclusion


Lobjectif maintenant est davoir une mthode plus simple que lutilisation de la loi de probabilit
des chantillons pour calculer les caractristiques de certains estimateurs en sondage.
On a dfini et calcul les probabilits dinclusion dordre 1 et 2, les k et kl pour le plan SI. Asso-
cions la probabilit dinclusion dordre1, lindicatrice dinclusion de k dans lchantillon s :

1 si lchantillon s qui se ralise contient k
1 k (s) =
0 sinon

Pour le plan SI(N,n) :


n
E(11k (S)) = P r(11k (S) = 1) =
N
o lesprance mathmatique est comprendre au sens du plan de sondage.
Notons kl , la covariance entre 1 k et 1 l . On obtient notamment :

n  n
kk var(11k (S)) = 1 = f (1 f ) (2.5)
N N
n(n 1) n n f (1 f )
kl cov(11k (S), 1 l (S)) = = . (2.6)
N (N 1) N N N 1
Comme on pouvait sy attendre, la covariance kl est ngative car le plan tant de taille fixe, si on sait
que k s, les chances davoir l s diminuent.

Il est maintenant facile de calculer la variance de y s . Observons dabord que


1X 1X
ys = yk = yk 1 k (s), (2.7)
n s n U

et donc
1X 1X n
E(y S ) = yk E(11k (S)) = yk = y U .
n U n U N
Notons que grce aux indicatrices dinclusion on a remplac dans (2.7) lcriture de lesprance dun
nombre alatoire de termes par celle dun nombre certain de termes, qui ne pose pas de problme. Dautre
part,
1 X 
var(y S ) = 2 var yk 1 k (S) ,
n U
et
1 XX
var(y S ) = 2 yk yl kl .
n U
Dans cette expression,
XX f (1 f ) X X X
yk yl kl = yk yl + f (1 f ) y2 (2.8)
U N 1 U, k6=l U k
f (1 f ) X X f (1 f ) X 2 X
= yk yl + yk + f (1 f ) y2. (2.9)
N 1 U N 1 U U k

On a utilis le fait que dans le plan SI, kl ne prend que deux valeurs selon que k 6= l ou k = l. Une
identit lmentaire de la statistique descriptive nous donne :
X X t2yU
y2 = 2
(yk y U ) + .
U k U N
Reportant cette expression dans (2.8), on obtient (2.1). On voit lintrt de la substitution faite en (2.7) :
on a remplac une somme sur s, ensemble alatoire par une somme sur U , non alatoire.
2.3. ESTIMATION DUNE PROPORTION 15

2.2.3 Plan PEAR (Probabilits gales avec remise)


Lchantillon s est obtenu par m tirages simples avec remise dans U de taille N . Un mme individu
peut donc apparatre plusieurs fois dans les m valeurs. Soit yki la valeur obtenue au tirage i et Yi la v.a.
associe. La v.a. Yi peut prendre nimporte laquelle des valeurs y1 , , yN avec la mme probabilit. La
loi de probabilit de Yi est donc : P r(Yi = yk ) = N1 , k = 1, 2, , N . Do :

1 X
E(Yi ) = yk = y U ,
N U

et
X 1 N 1 2
var(Yi ) = (yk y U )2 = 2
SyU ' SyU ,
U N N
si N est suffisamment grand. On obtient

m
!
X
E (1/m) Yi = yU ,
i=1

et, les tirages tant indpendants :

m
!
X 1 2
var (1/m) Yi = S , (2.10)
m yU
i=1

yki dsigne la ieobservation du tirage. Observons que ce sont les formules de la statistique classique.

Correction de population finie. Comparons les variances des estimateurs de la moyenne dans les deux
plans avec et sans remise : (2.10) et (2.1). Le facteur1 f dans (2.1) est 1 f = 1 n/N ' 1 si N est
grand ,  n. On appelle 1 f la correction de population finie (abrge en anglais en f.p.c.). Si le taux
de sondage f = n/N est faible, cest--dire si lchantillon est de petite taille par rapport la population
finie, on a
1 2
tyU ) ' N 2 SyU
varSI (b , (2.11)
n
expression qui nincorpore pas de correction de population finie, la diffrence de (2.3).

2.3 Estimation dune proportion

Exemples.
1. Estimer la proportion de familles hbergeant une personne ge dpendante dans une certaine ville.
2. Estimer la proportion de clients dune banque susceptibles dacheter un nouveau produit de la
banque.
Introduisons une variable indicatrice y, avec yk = 1 si lindividu k (famille ou banque dans les exemples)
a la caractristique, yk = 0 si lindividu k na pas laXcaractristique. Le nombre total dindividus ayant
la caractristique dans U est videmment : tyU = yk et la proportion dindividus ayant la carac-
U
tristique dans la population est p = tyU /N = y U . Une proportion est donc la moyenne dune variable
indicatrice et les rsultats obtenus pour une moyenne sappliquent immdiatement. On les rassemble
maintenant dans le cas dun plan SI.
16 CHAPITRE 2. PLAN SIMPLE SANS REMISE

Estimation dune proportion dans un plan SI. On veut estimer


1 X
p= yk = y U
N U
X X
Comme la variable y est une indicatrice, on a yk2 = yk , yk2 = yk = N p et donc
U U

1 X 1 N
Sy2 U = (yk y U )2 = (N p N p2 ) = p(1 p) (2.12)
N 1 U N 1 N 1
2
SyU ' p(1 p) si N assez grand (2.13)

Soit s un chantillon sur U , obtenu par un plan SI de taille n. Lestimateur de la proportion p par les
valeurs dilates est :
1X
pbs = yk . (2.14)
n s

Sa variance est
   
1 1 2 1 1 N
var(b
ps ) = SyU = p(1 p) (2.15)
n N n N N 1
Si N/(N 1) ' 1, un estimateur approximativement sans biais de cette variance est

 
1 1 n 1f
var(b
c ps ) = pbs (1 pbs ) = pbs (1 pbs ) (2.16)
n N n1 n1
Si on peut ngliger la correction de population finie :
1
c ps ) '
var(b pbs (1 pbs ) (2.17)
n1

2.4 Estimation dun total et dune moyenne sur une sous-population (do-
maine)
Exemple. On fait un sondage auprs des mnages dune rgion pour savoir combien dheures en
moyenne les mnages consacrent par mois soccuper dune personne ge dpendante. Il est clair que
cette moyenne ne concerne que les mnages hbergeant une personne dpendante. Comme on ne dispose
pas de la liste de tels mnages, on va tirer un chantillon de mnages auxquels on demandera sils
hbergent une personne ge dpendante et combien de temps ils y consacrent. On tire un chantillon
dans une population qui contient la population qui nous intresse.
Situation. On tire s, chantillon sur U suivant un plan SI(N, n), mais on est intress par leTtotal ou
la moyenne de la variable dtude sur Ud , sous-population de U , de taille Nd . On note sd = s Ud , de
taille nd . X
On estime la moyenne y Ud par b y Ud = (1/nd ) yk = y sd .
sd

Il nest pas ncessaire de lire la suite du paragraphe en premire lecture du cours.

Etudions les proprits de cet estimateur. Il faut observer dabord que si nd est connue, cest--dire,
conditionnellement nd , on prlve nd individus dans une population de taille Nd = N Wd , suivant un
plan SI. Par consquent
 
1 1
E(y sd |nd ) = y Ud et var(y sd |nd ) = SU2 d y.
nd Nd
2.5. PRCISION DUN SONDAGE 17

Do :
E(y sd ) = E(E(y sd |nd )) = E(y Ud ) = y Ud
et
var(y sd ) = E(var(y sd |nd )) + var(E(y sd |nd )),
Le deuxime terme du ct droit est nul puisque la moyenne conditionnelle est constante, le premier
terme est      
1 1 2 2 1 1
E(var(y sd |nd )) = E SUd y = SUd y E .
nd Nd nd Nd
Enfin, le dveloppement de Taylor lordre 1 de 1/nd au voisinage de E(nd ) donne :

1
E(1/nd ) ' .
nPd

Do,
1 1
var(y sd ) ' ( )S 2
nWd Nd Ud y
quon estime par :  
1 1
c sd ) '
var(y Ss2d y .
nd N d
Ainsi, en premire approximation, on estime la moyenne sur un domaine Ud comme si on avait fait un
plan SI(Nd , nd ).
Lestimateur correspondant pour tyUd est :

tyUd = Nd y sd .
b

dont la variance est approche par :  


1 1
Nd2 Ss2d y .
nd Nd

2.5 Prcision dun sondage


Un rsultat de sondage doit toujours saccompagner dune mesure de prcision des rsultats obtenus,
par exemple la variance de lestimateur. On utilise souvent le coefficient de variation qui est une mesure
de variabilit relative et la marge derreur, lie la largeur dun intervalle de confiance de lestimateur.

2.5.1 Coefficient de variation.


Pour une population finie U et une variable dintrt y 0 le coefficient de variation est par dfini-
tion :
SyU
CVyU = (2.18)
yU
Un coefficient de variation est quivalent une erreur relative en physique. Notons quil est dfini pour
une quantit 0. Cest la variabilit des y rapporte leur moyenne. Il est sans dimension, il permet
donc de comparer des grandeurs exprimes dans des units diffrentes.
On dfinit galement le coefficient de variation dun estimateur sans biais, b dun paramtre > 0 :
q
var()
b
CV()
b = . (2.19)

18 CHAPITRE 2. PLAN SIMPLE SANS REMISE

Une estimation par substitution habituellement employe est :


q
var(
c )b
c )
CV( b = (2.20)
b
Par exemple, dans les rsultats dune enqute sur lusage dInternet au Canada
http://www.statcan.ca/francais/freepub/56F0003XIF/prodserv_f.htm
sous le pourcentage de la part des jouets et jeux dans les achats en ligne, estime (2.3%), on trouve la
note : "Estimation peu fiable en raison de la taille de lchantillon ; coefficient de variation entre 16,6%
et 33,3%.",
tyU est
Dans un plan SI, le coefficient de variation de b
r
1 1
tyU ) =
CV(b SyU /y U
n N

Notons que y s et b
tyU ont le mme coefficient de variation.

2.5.2 Intervalle de confiance


En statistique mathmatique, si b est un estimateur approximativement sans biais de , on a souvent :

b N (, var())
b

b 0 quand n . Cette proprit asymptotique permet de construire des intervalles de


o var()
confiance (IC) approchs pour . Par exemple un IC approch 100(1 )% est :
 q q 
b z1/2 var(
c )b ; b + z1/2 var(
c )b (2.21)

o z1/2 est le quantile dordre 100(1 /2)% de la variable normale centre rduite et o on a
remplac la variance par une estimation de celle-ci. On prend souvent = 5% et alors z0.975 = 1.96.
On appelle marge derreur absolue la demi-longueur de lIC. En sondages dans une population finie,
on utilise galement ce type dapproximation dun intervalle de confiance. Cest ce que nous voyons
maintenant.

Exemples.
Intervalle de confiance pour une moyenne. Par un plan SI, population de taille N , chantillon de taille
n, on estime la moyenne y U de y par y s de variance (2.1), estime par (2.2). Lintervalle de confiance
pour y U 100(1 )% est :
r r
1 1 1 1
y s z1/2 SyU ; y s + z1/2 SyU (2.22)
n N n N

estim par : " #


r r
1 1 1 1
y s z1/2 Sys ; y s + z1/2 Sys (2.23)
n N n N
q
La marge derreur absolue est z1/2 n1 N1 SyU . En pourcentage de la moyenne on obtient

100 z1/2 CV(b


yU ) (2.24)
2.5. PRCISION DUN SONDAGE 19

que lon appelle marge derreur relative. Cest la demi-longueur, en pourcentage, de lintervalle de
confiance au niveau 100(1 )% rapporte la quantit estime.
Intervalle de confiance pour un total. Le parallle de (2.22) pour le total ty est :
" r r #
1 1 1 1
btyU z1/2 N SyU ; b tyU + z1/2 N SyU (2.25)
n N n N

Intervalle de confiance pour une proportion. Pour une proportion p moyenne dune indicatrice y,
(2.22) prend la forme :
" r r r r #
1 1 N 1 1 N
pb z1/2 p(1 p) ; pb + z1/2 p(1 p) (2.26)
n N N 1 n N N 1

o on a utilis (2.12). Lintervalle de confiance est estim par :


" r r r r #
1 1 n 1 1 n
pb z1/2 pb(1 pb), pb + z1/2 pb(1 pb) . (2.27)
n N n1 n N n1

Dautre part, le coefficient de variation est (voir 2.12) :


q
N
N 1 p(1 p)
r r r r
1 1 1 1 N 1p
CV(b p) = =
n N p n N N 1 p

Si N est grand, on peut lapprocher par


r
1p
p) '
CV(b .
np

Si N est grand, la marge derreur relative est :


r
1p
100 z1/2 (2.28)
np

2.5.3 Choix de la taille dun chantillon


Dans la pratique, on choisit dabord la prcision (marge derreur absolue ou relative) et on en dduit
la taille de lchantillon tirer pour atteindre cette prcision. Si lon na pas dordre de grandeur pour
SyU on peut faire un premier sondage dont les rsultats permettront davoir un ordre de grandeur de SyU .

Taille dchantillon pour estimer une moyenne. Supposons donc un niveau 100(1 )% fix.
CVyU est propre la population U et on ne peut donc pas le choisir. On doit agir sur n pour diminuer la
marge derreur. Ainsi, si on veut une marge derreur relative de , on doit choisir n tel que

zCVyU

o z = z1/2 . Si la taille de la population est grande, 1/N est ngligeable et la condition sur n devient :

z 2 CV2yU
n . (2.29)
2
Mais on ne connat videmment pas CVyU . On doit lestimer sur un premier chantillon de petite taille.
20 CHAPITRE 2. PLAN SIMPLE SANS REMISE

Taille dchantillon pour estimer une proportion. Avec les notations du prcdent paragraphe,
pour N suffisamment grand, on doit choisir n tel que :
r r
1 1p
z ,
n p

cest-- dire :
z 2 (1 p)
n . (2.30)
2 p
On peut vrifier que (1 p)/p dcroit de 0 quand p croit de 0 1. Si lon sait que p est suprieur
une certaine valeur p0 , on pourra choisir :

z 2 (1 p)
n' .
2 p 0

Marge derreur absolue. Au lieu de sintresser la marge derreur relative, on peut sintresser la
marge derreur absolue, la demi-longueur de lintervalle de confiance
Taille dchantillon pour estimer une moyenne en contrlant lerreur absolue. Partant de (2.23) et
(2.29), tant donn un niveau de confiance fix et une marge derreur choisie, l et si on suppose N grand
on voit quon doit prendre un chantillon de taille n vrifiant

z 2 SyU
2
n (2.31)
l2

Taille dchantillon pour estimer une proportion en contrlant lerreur absolue. Partant de (2.26), tant
donn un niveau de confiance fix et une marge derreur choisie, l sur la proportion estimer, on voit
quon doit prendre un chantillon de taille n vrifiant

N p(1 p)
n l2
. (2.32)
p(1 p) + z2
(N 1)

Si on nglige la correction de population finie, la condition devient :

z 2 p(1 p)
n . (2.33)
l2 (N 1)

Taille dchantillon pour estimer un total en contrlant lerreur absolue. Il est immdiat de transposer
ce quon a obtenu pour une moyenne un total. Si on doit estimer un total avec une marge derreur l, et
si on suppose N grand, on voit sur (2.25) que la condition devient :

N 2 z 2 SyU
2
n (2.34)
l2

Exemple Un club de photographes amateurs a 1800 membres. On veut estimer le nombre moyen de
pellicules utilises par an par membre. On sait que par le pass, la moyenne et lcart-type du nombre
de pellicules taient respectivement 6 et 4. On choisit un niveau de confiance de 95%. Quelle taille
dchantillon faut-il prendre pour estimer (1) le nombre moyen de pellicules avec une marge derreur
relative de 7% ? (2) le nombre total de pellicules avec une erreur absolue de 400 2 ?
2
2. Rponse : pour (1), on applique (2.29) : n 1.962 (4/6)
.072
= 348.44 arrondi 349. Pour (2), (2.34) donne n
(1800 1.96 4/400)2 = 77.79. En prenant un chantillon de 78 membres on estimera le nombre total de pellicules utilises
avec une marge derreur de moins de 400 pellicules, 95%.
2.6. ESTIMATION DUN RATIO 21

2.6 Estimation dun ratio


Considrons dabord deux exemples.
Exemple 1. Supposons une population U de mnages, yk le revenu du mnage k et zk le nombre
de personnes composant le mnage. Le revenu moyen par tte dans cette population est :
P
yk y
R = PU = U.
U zk zU

R est ce quon appelle un ratio, cest--dire le rapport de deux totaux sur une mme population.
Exemple 2. La proportion dlecteurs qui, dans une lection prsidentielle, choisissent un candidat
particulier est le rapport :
Nombre de votants qui choisissent le candidat / Nombre de suffrages exprims.
Cette proportion doit tre estime comme un ratio car la taille de la population, cest--dire le
nombre dlecteurs qui votent nest pas connue.

Cas du plan SI. On tire dans une population U de taille N un chantillon s suivant un plan SI(N, n) et
on observe yk et zk , k s. On estime le ratio, R, par le quotient des estimateurs des moyennes :
ys
R = (2.35)
zs
Nous admettrons provisoirement que la variance de cet estimateur sestime par :
1 1 2
var(
c R) = 2 (1 f ) Sy Rz,s
(2.36)
zs n b

Exemple numrique

/* Example of a ratio estimator in simple random sampling */

/* Wildlife ecologists interested in measuring the impact of wolf


predation on moose populations in BC obtained estimates by aerial
counting of the population size of wolves and moose on 11
subareas (all roughly equal size) selected as SRSWOR from a total of
25 subarea in the game management zone.

In this example, the actual ratio of wolves to moose is of interest. */

title Wolf-moose ratio - ratio estimator in SRS design; options


nodate nonumber noovp nocenter linesize=75;

data wolf;
input subregion wolf moose;
datalines;
1 8 190
2 15 370
3 9 460
4 27 725
5 14 265
6 3 87
22 CHAPITRE 2. PLAN SIMPLE SANS REMISE

7 12 410
8 19 675
9 7 290
10 10 370
11 16 510
;;;

proc print data=wolf;


title2 raw data;
sum wolf moose;

proc plot data=wolf;


title2 plot to assess assumptions;
plot wolf*moose;

proc surveymeans data=wolf ratio clm N=25;


title2 Estimate of wolf to moose ratio;
/* ratio clm - request a ratio estimator with confidence intervals */
/* N=25 specifies total number of units in the population */
var moose wolf;
ratio wolf/moose; /* this statement ask for ratio estimator */

2.7 Estimation par ratio


2.7.1 Exemples
Dcrivons brivement deux exemples destimation dun total par ratio.

Exemple 1 Au dbut du 19esicle, il nexiste pas en France de recensement, mais un rgistre des nais-
sances est tenu dans chaque commune. Partant de cette situation, pour estimer la population de la France,
Laplace considre un chantillon de communes, fait le recensement de leur population, mesure le rapport
R = population totale de ces communes/ nombre de naissances de ces communes
Considrant que ce rapport doit tre peu prs stable sur les communes il en dduit une estimation de la
population totale :
R nombre total de naissances en France.
Le nombre de naissances est une information auxiliaire : elle est connue pour toutes les communes de
France et elle est corrle avec la population.

Exemple 2 Un chalutier doit estimer le poids des poissons de taille suprieure une certaine longueur
dans un chalut pour dcider sil dcharge le chalut bord ou sil le rejette la mer. Pour faire cette
estimation, on peut videmment mesurer le poids de tels poissons dans un chantillon. La taille de la po-
pulation des poissons dans le chalut nest pas connue. Mais il est facile de peser le chalut et lchantillon.
Notons U la population des poissons dans le chalut, xk le poids du poisson k et yk tel que yk = le poids
du poisson k sil est de taille suprieure
P P 25cm, yk = 0 sinon. Comme il est facile de peser le chalut, on
peut galement estimer R = U yk / U zk . Enfin, on peut faire Plhypothse
P que, sur un chantillon s
tir dans le chalut suivant
P un plan alatoire simple, on doit
P avoir y
s k / s k ' R. Lestimation de ce
x
rapport multipli par U xk fournit une estimation de U yk .
2.7. ESTIMATION PAR RATIO 23

2.7.2 Proprits de lestimateur par ratio dans un plan SI


Nous donnons maintenant les proprits de lestimateur par ration quand lchantillon est obtenu
par plan SI. Nous verrons plus loin que lestimation par ratio est un cas particulier de lestimation par
rgression.
Situation. Par un plan SI on tire un chantillon s de taille n dans une population U de taille N . On
observe yk et xk , k s et on connat xk , k U . On doit estimer tyU ty . Ecrivons

tyU
tyU = txU = txU R.
txU
Lestimateur par ratio de tyU est :
tyra = txU R.
b b

A un facteur constant prs (txU ), cest lestimateur dun ratio. On peut donc utiliser ce quon a racont
pour les ratios. Nous admettrons provisoirement quune estimation de var(b tyra ) est donne par :

x2U 2 2
   
var(tyra ) = N
1

1 2
(Sys 2RS b 2 S 2 ) = xU N 2
b yx,s + R 1

1 2
Sy
xs b . (2.37)
c b
x2s n N x2s n N Rxs

x2U
Il est important dobserver quau facteur prs, souvent proche de 1, lapproximation de la variance
x2s
ci-dessus est la variance du total des rsidus yk Rx
b k.

Exercice : Un quartier dans une certaine ville est form de 3000 mnages rassemblant 10 000 personnes.
Pour tudier lintrt dinstaller un dispensaire mdical dans le quartier, on veut estimer le nombre total
de consultations quont eu les personnes de ce quartier lan dernier. On veut un rsultat 10% maximum,
de la vraie valeur, avec un niveau de confiance de 95%. Un sondage prliminaire portant sur 10 mnages
donne les rsultats rassembls dans le tableau ci-dessous. Dterminer la taille dchantillon ncessaire
pour faire ltude avec la prcision requise.

Mnage Nombre de per- Nombre de consultations


sonnes dans le par personne durant lan-
mnage ne prcdente
1 3 4.0
2 6 4.5
3 2 8.0
4 5 3.4
5 2 0.5
6 3 7.0
7 4 8.5
8 2 6.0
9 6 4.0
10 4 7.5
24 CHAPITRE 2. PLAN SIMPLE SANS REMISE
Chapitre 3

Estimation par les valeurs dilates dun


total, dune moyenne et dun ratio dans le
cas gnral.

Dans ce chapitre, nous tendons les rsultats obtenus dans le chapitre prcdent pour le plan simple
avec remise des plans de sondages gnraux

3.1 Sondage probabilits ingales


Nous voulons dfinir un estimateur du total tyU partir dun plan de sondage sur U probabili-
ts ingales : les probabilits k dinclusion dans lchantillon ne sont pas ncessairement gales. Nous
commenons par exprimer les probabilits dinclusion dans lchantillon et nous calculons leurs mo-
ments dordre 2. Ensuite, un estimateur de tyU arrivera assez naturellement. Le dveloppement est trs
proche de ce quon a fait pour le plan SI.

3.1.1 Indicatrices dinclusion


Soit p() un tel plan de sondage, notons S la variable alatoire (v.a.) associe un chantillon observ
s. Soit k un lment de U . Nous rappelons et prcisons les notions de probabilits dinclusion et dindi-
catrice dinclusion.
Probabilits dinclusion du premier ordre. La probabilit dinclusion de k dans un chantillon est
videmment : X
k = p(s),
s3k

cest la probabilit que se ralise un chantillon qui contient k.


Probabilit dinclusion du deuxime ordre. La probabilit dinclusion du deuxime ordre des lments
k et l est : X
kl = P r[11k (S) = 1 et 1 l (S) = 1] = p(s)
s3k&l

Par convention : kk = k . Dans la suite nous crirons souvent 1 k pour 1 k (S).

3.1.2 Moments des indicatrices dinclusion


On a not que E(11k (S)) = k . On note kl , la covariance entre 1 k et 1 l . On obtient notamment :

kk var(11k (S)) = k (1 k )

25
26 CHAPITRE 3. CAS GNRAL

kl cov(11k (S), 1 l (S)) = kl k l

Pour le plan SI on a obtenu prcdemment :

f (1 f )
var(11k (S)) = f (1 f ) cov(11k (S), 1 l (S)) = (3.1)
N 1

Illustrons ces rsultats sur le plan de Bernoulli (plan BE).

Plan BE Pour tirer des individus suivant ce plan dans une population de taille N , on se donne comme
paramtre un nombre tel que 0 < < 1 et on tire des nombres k , k = 1, , N indpendants suivant
la loi uniforme sur (0, 1) (Unif(0, 1)). Si k < alors on inclut llment k dans lchantillon. On voit
que le plan BE donne des chantillons s de taille alatoire ns : on ne sait pas davance quelle sera la taille
de lchantillon tir. Elle varie de 0 N . On notera ce plan : BE().

On vrifie sans difficult que la loi de ns dans ce plan est binomiale de paramtres N et . Suppo-
sons connue la taille n de lchantillon ; lchantillon doit tre choisi parmi tous ceux de taille n. Tous
les individus ont les mmes chances dtre slectionns. On peut montrer, mais nous ladmettrons, que
conditionnellement la taille, la loi de probabilit des chantillons est celle du plan SI. On a ainsi une
description complte du plan BE.

Probabilits dinclusion. Par dfinition du plan BE() on a : k = et comme lappartenance dun


lment lchantillon ne dpend pas de lappartenance des autres, kl = 2 si k 6= l.
On a :
var(11k (S)) = (1 ) cov(11k (S), 1 l (S)) = 0, k 6= l.

 Une
X  utilisation des indicatrices dinclusion : Supposons par exemple quon doive calculer
premire
E wk yk , o les wk sont des poids connus et yk , k s sont les valeurs observes dans le sondage
s
suivant le plan p. Cette esprance
X est lesprance
X dun nombre alatoire de termes, ce nest donc pas la
somme des esprances. Mais wk yk = wk yk 1 k (s). Ceci est une somme de N termes, quel
s U
que soit lchantillon, et on peut crire :
X  X  X
E wk y k = E wk yk 1 k (S) = E (wk yk 1 k (S))
s U U
X X
= wk yk E(11k (S)) = wk yk k .
U U

Cette technique qui consiste remplacer une somme sur un ensemble alatoire par une somme sur un
ensemble certain, reviendra constamment dans ce cours.
Par exemple, elle permet
X de calculer lesprance mathmatique et la variance de la taille dun chan-
tillon. Comme nS = 1 k (S), on obtient :
U
X XX
E(nS ) = k var(nS ) = kl .
U U

Evidemment, pour un plan de taille fixe, la variance de la taille est nulle, ce qui entrane des relations sur
les kl que nous examinons maintenant.

Cas dun plan de taille fixe. Pour un plan de taille fixe les probabilits dinclusion vrifient les pro-
prits rassembles dans le lemme suivant.
3.1. SONDAGE PROBABILITS INGALES 27

Lemme. Pour un plan de taille fixe, n, on a :


X
k = n (3.2)
U
XX
kl = n(n 1) (3.3)
U, k6=l
X
kl = (n 1)k (3.4)
lU, l6=k

[Lexercice qui suit et la dmonstration du lemme ne sont pas faire en premire lecture de ce chapitre.]
Exercice. Vrifier que les probabilits dinclusion du plan SI ont bien ces proprits.
X
Indications pour la dmonstration du lemme. On sait que k est lesprance mathmatique de la
U
PX
taille, do (3.2). Ensuite, la taille tant fixe, sa variance est nulle : kl = 0, on dtaille en
U
tenant compte de (3.2) et on obtient (3.3). Enfin on obtient (3.4) en exprimant que, pour un plan de taille
fixe, la covariance entre 1 k et la taille, est nulle.

Commentaire gnral. On peut se demander pourquoi on fait des plans de sondage probabilits in-
gales. En vrit, de tels plans nont aucun intrt quand on ne connat rien de la population. Mais on
dispose trs souvent dinformation auxiliaire sur la population. Cette information peut servir organiser
le tirage en tapes (plans de sondage complexes - plusieurs degrs, en plusieurs phases...), choisir
avec une plus grande probabilit certains individus. Les plans de sondage complexes sont constitus de
plans lmentaires qui sont trs souvent des plans SI. On verra ces questions dans les chapitres suivants.

3.1.3 Estimation dun total par les valeurs dilates


X
On est maintenant en mesure destimer le total yk , dune variable dtude sur une population
U
U . Un plan de sondage dont les probabilits dinclusion sont des k et kl a donn un chantillon s et
on a observ yk , k s. Il est clair que chaque lment observ doit reprsenter plusieurs lments de
U . On estimera donc le total de y par une somme des valeurs observes dilates : chaque yk observ est
multipli par un poids wk 1. Le choix de ces poids dpend du plan de sondage ou des probabilits
dinclusion correspondantes. Les poids peuvent dpendre galement de caractristiques de la population.
Nous le verrons notamment dans lestimation par rgression. X
On cherche un estimateur linaire cest--dire de la forme : b ty = wk yk o les wk doivent tre
s
choisis daprs le plan de sondage. On veut que cet estimateur soit sans biais. crivons
X donc lesprance
ty , en remplaant, comme on la dja fait, la somme sur des indices alatoire (
de b ) par une somme
X s
sur des indices fixes ( ).
U
X  X  X
E(bty ) = E wk yk = E wk yk 1 k (s) = E (wk yk 1 k (s))
s U U

Pour que cet estimateur soit sans biais, il faut donc que wk yk E(11k (s)) = yk , do le choix
1
wk =
k
et lestimateur ainsi dfini est :
X yk
tyU = b
b t = . (3.5)
s k

Dfinissons les valeurs dilates : yk = (1/k )yk . Alors,


X X
ty =
b yk = yk 1 k (s). (3.6)
s U
28 CHAPITRE 3. CAS GNRAL

ty est appel estimateur par les valeurs dilates ou estimateur de Horvitz-Thompson. On supprime la
b
rfrence la population ou la variable quand il ny a pas dambiguit.
Les wk sont les poids de sondage. On interprte wk comme le nombre, pas ncessairement entier, din-
dividus de la population U reprsents par lobservation k de lchantillon. Dans les plans de sondage
complexes, un poids peut ne pas tre linverse dune probabilit dinclusion.

Exemple. Estimation du total dans un plan BE(). Lestimateur du total ty , par les valeurs dilates est :

1X
ty =
b yk .
s

X
Enfin, la taille N de la population scrit comme un total : N = 1. On peut donc lestimer sans
U
biais par
X 1
N
b= . (3.7)
s k

3.1.4 Variance de lestimateur par les valeurs dilates


Vu lcriture (3.6), on cherche la variance dune combinaison linaire de v.a. corrles. On obtient
(le montrer titre dexercice) :
X X XX
var(b
ty ) = var( yk ) = var( yk 1 k (s)) = kl yk yl (3.8)
s U U
PP P P
o U zkl dsigne kU lU zkl . Une fois observ que cette variance nest autre quune somme
sur U U avec des probabilits dinclusion kl , on 1 que lestimateur (sans biais) par les valeurs dilates
de cette somme est :
XX
var(
c b tyU ) = kl yk yl
(3.9)
s

o kl = kl . Mais cet estimateur sans biais prsente quelques inconvnients : il peut prendre des
kl
valeurs ngatives (cf exercice), de plus les kl interviennent en dnominateur et si certains sont nuls, cette
formule nest pas applicable. Enfin, cette somme double peut tre difficile calculer. Cest pourquoi il
existe des formules dapproximation que nous verrons plus loin. Pour linstant, nous examinons ce qui
se passe dans un plan de taille fixe.

Variance de lestimateur par les valeurs dilates pour un plan de taille fixe. La variance (3.8) de
lestimateur du total scrit pour un plan de taille fixe (le montrer titre dexercice) :

1 XX
tyU ) =
var(b kl (yk yl )2 (3.10)
2 U

Lobservation faite aprs (3.8) sapplique ici aussi pour trouver un estimateur sans biais. Donc si les kl
sont positifs
1XX
var(
c b tyU ) = kl (yk yl )2 (3.11)
2 s

est un estimateur sans biais de var(b


tyU ). On lappelle estimateur de Sen-Yates-Grundy de la variance.

Vrification de (3.10). Il suffit de dvelopper cette expression et dexploiter le lemme.

1. Exercice : vrifiez, ce nest pas difficile, que lestimateur (3.9) est bien sans biais.
3.2. ESTIMATION DUNE MOYENNE PAR VALEURS DILATES 29

Exemples

Plan SI revoir le chapitre 2.


Plan BE de paramtre . Variance de lestimateur du total dans ce plan. La formule (3.8) sapplique di-
rectement. On obtient :
1 X 2
var(btyU ) = y (3.12)
U k
Cest un total sur U . On crit ensuite lestimateur de ce total par les valeurs dilates :

1 X yk2
var(
c b tyU ) =
s

Commentaires.
(1) Si un plan est de taille fixe il est clair que la covariance de deux indicatrices dinclusion est ngative :
si k est dans lchantillon, les chances pour un autre individu l dy tre diminuent. Chaque terme de
(3.10) est donc positif et il en est de mme pour lestimateur (3.11).
(2) Les estimateurs (3.9) et (3.11) ne prennent pas ncessairement les mmes valeurs.
(3) On voit sur (3.10) que si on avait yk constant alors la variance serait nulle. Supposons quil existe
une variable x > 0, connue pour chaque individu de U , telle que yk ' cxk pour une certaine constante
c > 0, alors il serait judicieux de choisir pour estimer ty , un plan de taille fixe avec k xk car
yk = yk /xk = c. Cest un exemple dutilisation dinformation auxiliaire pour dfinir le plan de sondage.
(4) Pour beaucoup de plans il est difficile de mettre en pratique (3.11). Aussi des approximation ont-elles
t tudies. Sappuyant sur des arguments thoriques, Brewer (2002) propose notamment lapproxima-
tion : X 1
var(
c
f b tyU ) = (c1 k )(yk btys )2 (3.13)
s k n
o
n1
ck =
n k
Ce choix de ck convient pour des plans de sondage pouvant donner une grande varit dchantillons.
Nous nessaierons pas de justifier cette expression mais a ne nous empchera pas de lutiliser pour
simplifier des estimations de variance dans diffrentes circonstances.

3.2 Estimation dune moyenne par valeurs dilates


Etant donn un plan de sondage de probabilits dinclusion k , kl , on estime le total tyU par les-
timateur de Horwitz-Thompson, b t donn par (3.5). La moyenne est y U = N1 tyU . Si N , la taille de la
population est connue, on peut utiliser lestimateur :
1
yU = b
b t (3.14)
N
de variance (voir 3.8) :
1 XX
kl yk yl
N2 U
Il arrive que la taille de la population ne soit pas connue avec prcision. Dans ce cas on utilise au lieu
de (3.14), lestimateur de Hajek :
X
t
b yk /k
yes = = Xs (3.15)
Nb 1/k
s
30 CHAPITRE 3. CAS GNRAL

Observons que cest un rapport destimateurs linaires. Nous tudierons ses proprits dans le chapitre
consacr lestimation dun ratio. On utilise galement cet estimateur quand les k sont trs htrognes.
En effet, si lchantillon contient un individu qui a une trs faible chance de sortir, son poids est trs lev
et la moyenne risque dtre surestime.

Exemple Les caribous vivants sur la plaine ctire dAlaska, ont t compts partir dun avion
(exemple de Thompson). La rgion est -peu-prs rectangulaire et stend en direction Nord-Sud sur
une largeur de 286 miles. Elle a t partitionne par des lignes Nord-Sud distantes dun mile. 15 lignes
ont t tires selon un plan SI et davion on compte les caribous dans la zone stendant un demi-mile
de part et dautre de la ligne. Les nombres de caribou observs sont : 1, 50, 21, 98, 2, 36, 4, 29, 7, 15, 86,
10, 21, 5 et 4. Estimons le nombre total de caribous dans la zone et et la variance de cet estimateur.

Corrig. La population est forme des lignes (ou des bandes) quon peut tirer. Il y en a N = 286
(, 0.5, 1.5, , 285.5 miles dun bord). Notons yk le nombre de caribous dans la bande k ou vi-
sibles depuis la ligne k. La moyenne de lchantillon est y s = 25.93333 et Sys 2 = 919.0667. Do :
2 1 1
ty = 286 25.93333 = 7 416.932 ' 7 417 et var(
b c bty ) = 286 ( 15 286 )919.0667 = 4 748 879.

3.3 Effet plan


Les plans de sondage simples que nous avons prsents sont rarement utiliss seuls. Ce sont le plus
souvent les lments dun plan de sondage complexe quun statisticien denqute est amen construire.
Schmatiquement, le budget dont on dispose permet dinterroger un certain nombre dindividus et on se
pose la question du choix du plan : faut-il btir un plan complexe ou bien peut-on se contenter du plan
SI ? On est donc amen comparer la prcision dun plan quelconque celle dun plan SI de mme taille
par le rapport des variances des estimateurs.

D FINITION. On appelle, effet plan (design effect, Deff) dun certain plan p, fournissant un estimateur
sans biais de ty , le rapport :
var(bt,p )
t ) =
Deff(p, b ,
var(t,SI )
b

cest--dire le rapport de la variance de lestimateur du total dans ce plan la variance de lestimateur du


total dans le plan SI, pour une mme taille dchantillon.
On trouve sur Internet de nombreux exemples dutilisation du Deff. Par exemple le rapport compa-
rant les niveaux dducation des jeunes dans plusieurs pays de lOCDE, rapport PISA 2000, contient
une discussion du Deff du plan de sondage choisi pour interroger lchantillon dlves 2 . Le document 3
contient une tude empirique des effets plans dans divers sondages sur la sant et la dmographie orga-
niss par les Nations Unies.

Nous illustrons maintenant la technique en calculant le Deff du plan BE. Les estimateurs du total par
les valeurs dilates dans le plan SI(N, n) et dans le plan BE sont respectivement :

1X
t = N y s ,
b t =
b yk
s

Ils sont sans biais. Pour calculer le Deff du plan BE, il faudrait que les deux plans soient de mme taille.
Or le plan BE est de taille alatoire. Aussi nous dcidons de prendre le paramtre du plan BE tel que
lesprance de la taille de lchantillon dans le plan BE gale n. Dans ce plan E(ns ) = N , donc, n tant

2. http ://www.pisa.oecd.org/tech/chap12/b.htm
3. http ://unstats.un.org/unsd/HHsurveys/ch12draft.pdf
3.3. EFFET PLAN 31

fix, on choisit, = n/N . Dautre part, on a calcul la variance de lestimateur par les valeurs dilates
du total dans le plan SI (2.3) et dans le plan BE (3.12) :

1f 2 1 X 2
t ) = N 2
t = N y s , varSI (b SyU varBE (b
t ) = y .
U k
b
n
Par des manipulations de statistique lmentaire on obtient :
X 1 1
yk2 = (N 1)SyU
2
+ N (y U )2 = [1 + 2
]N SyU
U N (CVyU )2

On reporte cette expression dans la variance du plan BE et on remplace par n/N . Il vient :

varBE (b t ) 1 1 1
t ) =
Deff(BE, b =1 + 2
'1+ 2
.
varSI (t )
b N (CVyU ) (CV yU )

On note que ce Deff est toujours > 1. Cela na rien dtonnant puisque dans le plan BE, la taille est
alatoire et on peut donc slectionner un chantillon de taille trs petite, voire nulle. Ce Deff est une
fonction dcroissante de CVyU .
32 CHAPITRE 3. CAS GNRAL
Chapitre 4

Etude de deux plans particuliers : le plan


avec remise probabilits ingales et le
plan systmatique.

Nous considrons ici deux plans de sondage simples et couramment utiliss.

4.1 Tirage avec remise


Tirage probabilits constantes. On a dj considr le tirage de m objets dans une population U de
N , avec remise entre deux tirages. A chaque tirage, un lment particulier de la population est tir avec
la probabilit 1/N . Llment k apparat donc 0 fois avec la probabilit (1 N1 )m . Do sa probabilit
dinclusion dans lchantillon : k = 1 (1 N1 )m ' N m
, cest--dire la probabilit quil soit tir au
moins une fois.
Tirage probabilitsPingales. Maintenant, associons chaque lment k une probabilit pk de sortir
m
un tirage : pk > 0, U pk = 1. La probabilit dinclusion de k est k = 1 (1 pk ) . Si pk est
faible, k ' mpk . Ce dveloppement suggre un estimateur :
m
1 X yki
tpwr =
b (4.1)
m pki
i=1

On lappelle estimateur de Hansen-Hurwitz. Examinons cette formule. Notons Zi la variable discrte


associe au tirage i, qui prend la valeur yk /pk avec la probabilit pk . Les Zi , i = 1, , m sont ind-
pendantes, car les tirages se font avec remise, et identiquement distribues. Par construction :

E(Zi ) = ty .

et  2
X yk
var(Zi ) = pk ty .
pk
U

Notons V1 , la variance de Zi :  2
X yk
V1 = pk ty .
pk
U
1 Pm
tpwr
On voit que b est la valeur prise par Z = m i=1 Zi . Do on obtient :

1
E(b
tpwr ) = ty var(b
tpwr ) = V1 .
m

33
34 CHAPITRE 4. DEUX PLANS PARTICULIERS

Lestimateur sans biais usuel de V1 est


m m
1 X 1 X yki b
Vb1 = (zi z)2 = ( tpwr )2 ,
m1 m1 pki
i=1 i=1

avec zi , ralisation de Zi , i = 1, , m.et


1
var(
c b tpwr ) = Vb1
m
Commentaires.
1. Lexpression de V1 suggre que si lon pouvait choisir pk = yk , on aurait une variance destimateur
nulle. Evidemment on ne connait pas les yk mais si lon disposait dune variable x > 0 peu
prs proportionnelle y, connue pour chaque P individu de la population, il serait judicieux de
choisir pk xk et prcisment : pk = xk / U xk . Cette situation est un exemple dutilisation
dinformation auxiliaire pour dfinir le plan de sondage.
2. Comme on fait des tirages avec remise, il peut arriver si m est petit, quon tire la mme unit tous
les tirages. Quelle est la probabilit dobtenir la mme unit en deux tirages ? Que suggrez-vous
donc comme expression gnrale pour lestimation de V1 ?
PN 2
Rponses : q = i=1 pi et q 0 + (1 q) Vb1 .

4.2 Plan systmatique


4.2.1 Notions lmentaires sur le plan systmatique
Considrons quelques exemples.
1. Pour un sondage auprs des visiteurs dun salon, dune foire, auprs des usagers dun service
public, on na souvent pas de liste mais on peut choisir dinterroger un sortant tous les r sortants.
2. Supposons quun ensemble de dossiers dpaisseur peu prs constante soit stock dans 12 ta-
gres de 60 cm de longueur chacune et quon veuille tirer un chantillon de 100 dossiers. Si le
rangement nest pas li la variable dtude, on peut procder ainsi : il y a 60 X 12 = 720 cm de
dossiers. On peut prendre un dossier tous les r = 720/100 = 7,2cm. Pour amorcer le tirage, on tire
un nombre uniforme sur (0, 7.2) et on dmarre partir du dossier le plus proche du rsultat (Levy-
Lemeshow p. 112). On na pas de liste des dossiers mais une organisation qui permet dy accder.
3. Supposons quon veut contrler des comptes de socits. Certaines ont une activit importante,
dautres une activit moindre. On a une ide du volume de lactivit par les rsultats de lanne
prcdente. Dans ce cas on comprend que faire un tirage systmatique dune entreprise toutes les a
dans une liste alphabtique, nest pas efficace car cette technique slectionne indiffremment des
socits petites ou grandes. Nous verrons dans les complments, une extension du tirage syst-
matique avec probabilits proportionnelles la taille, dans lexemple la taille est mesure par une
variable dactivit de lanne prcdente.

Dfinition dun tirage systmatique


Soit une population qui se prsente dans un certain ordre. Soit N la taille de la population et n la
taille de lchantillon tirer. Supposons pour simplifier lcriture que : N = na. On appelle a le pas
dchantillonnage ou de tirage. Pour tirer un chantillon de taille n dans cette population, suivant un plan
systmatique :
on tire un premier lment r uniformment sur les a premiers lments de la population,
4.2. PLAN SYSTMATIQUE 35

TABLE 4.1 Population et chantillons dans le plan systmatique

Grappe ou chantillon Lchantillon est form des lments :


s1 1, a + 1, 2a + 1, (n 1)a + 1

sr r, a + r, 2a + r, (n 1)a + r

sa a, 2a, 3a, na

on prend comme chantillon, sr form des lments r, r + a, r + 2a, .


Ceci est illustr sur la table (4.1). Observons que pour un ordonnancement particulier de la population, il
ny a que a chantillons possibles. Chacun de ces a chantillons forme une grappe au sens de la thorie
des sondages : une grappe est un sous ensemble de la population tel que ds quun lment dune grappe
est tir, on tire tous les individus de la grappe. (Le tirage en grappe sera
 abord dans le chapitre consacr
N
aux plans deux degrs.) Par comparaison, dans un plan SI, il y a n chantillons possibles.
Chaque lment appartient un et un seul chantillon, tous les chantillons ont les mmes chances
(1/a) de sortir. La probabilit dinclusion dun lment k est k = 1/a, mais :

1/a si k et l appartiennent au mme chantillon
kl =
0 sinon
P
Estimation du total Notons tsr = sr yk , ty = t se dcompose en
a
X
ty = tsr
r=1

et lestimateur du total par les valeurs dilates est :

t = ats
b (4.2)

o ts est le total de lchantillon s tir. Sa variance sobtient partir des kl . On obtient


a
X
varSYS (b
t ) = a (tsr t)2 (4.3)
r=1
Pa
o t = (1/a) r=1 tsr .

Estimation de la moyenne La moyenne est estime par


a 1
y = ts = ts = y s
b (4.4)
N n
dont la variance dans le plan systmatique est
a
1 X
varSYS (y ) =
b (tsr t)2 (4.5)
nN
r=1

Il ny a pas destimateur sans biais de la variance varSYS (b t ) pour le plan systmatique. On peut
sinspirer de lestimation de la variance dans le cas du plan SI. On pose :

2 1 X
Sys = (yk ysr )2 .
r
n1 s
r
36 CHAPITRE 4. DEUX PLANS PARTICULIERS

et lestimation suggre par le plan SI est :


N 2 (1 f ) 2
Vb = Sysr . (4.6)
n
Cet estimateur surestime la variance si les chantillons quon peut obtenir, tant donn lorganisation de
la population, sont trs htrognes (cest--dire sont forms de valeurs trs variables).
Les sondages systmatiques sont souvent utiliss pour des donnes gographiques comme lillustrent
les deux exemples suivants.

Exemple 1 Pour un sondage sur une zone gographique rectangulaire formes de parcelles rectangulaires
de dimensions constantes, il est intressant de faire un sondage systmatique, car on peut couvrir ainsi
tout le territoire.
Exemple 2 Pour mesurer le niveau du pesticide dieldrin sur une certaine portion de rivire, on a dcoup
le cours de la rivire en segments dgales longueurs puis chacun de ces segments en deux zones de sur-
faces voisines (rive gauche et rive droite). Ensuite par un plan systmatique on peut choisir un chantillon
de zones dans lesquelles on mesurera le pesticide. Voir lexemple numrique en fin de chapitre.
Exemple de mise en oeuvre pratique.
http://www.ats.ucla.edu/stat/sas/faq/svy_sas_rss.htm

SAS FAQ How do I analyze survey data with a repeated systematic


sampling design?

This example is taken from Levy and Lemeshows Sampling of Populations.

page 109 repeated systematic sampling


This example uses the wloss2 data set.

NOTE: The PSUs are listed on the cluster statement in SAS.


Also, the coloring in the (enhanced) program editor window does not work properly
with the cluster statement, so dont think that you have specified the statement
incorrectly just because the keyword "cluster" does not turn blue.

proc surveymeans data = wloss2 n = 54 sum std mean;


weight wt1;
cluster cluster;
var xi;
run;

The SURVEYMEANS Procedure

Data Summary

Number of Clusters 6 Number of Observations


18 Sum of Weights 162

Statistics

Std Error
Variable Mean of Mean Sum Std
Dev
------------------------------------------------------------------------
XI 4.500000 0.530548 729.000000
85.948822
------------------------------------------------------------------------
4.2. PLAN SYSTMATIQUE 37

4.2.2 Complments sur le tirage systmatique


Nous approfondissons maintenant ltude du tirage systmatique et en particulier lestimation de la
variance. La matrise des complments qui suivent, nest pas indispensable en premire lecture.
Dabord nous identifions les cas o lapproximation de la variance par la formule du plan SI est
acceptable. Ensuite nous voyons comment, en tirant plusieurs chantillons plus petits, on peut obtenir
une autre estimation de variance. Puis, nous supposons que nous avons une information auxiliaire : on
connait xk , k U et xk est trs lie, dans un sens prciser, la variable dtude yk . Cette information
auxiliaire peut tre par exemple, le volume dactivit de lanne prcdente dans lexemple des socits,
la position dune zone par rapport lamont, dans lexemple de la mesure dun pesticide dans une rivire.
Nous verrons deux faons de la prendre en compte pour amliorer lestimation du total.

Dcomposition de lANOVA
La dcomposition de la variance en variance inter groupe et variance intra groupe se rencontre en
ANOVA et dans beaucoup de mthodes statistiques. Ici un groupe est un chantillon possible dans un
tirage systmatique.
Notons ysr la moyenne arithmtique sur lchantillon. La somme des carrs totale,
X
SST = (yk y U )2 ,
U

se dcompose en une somme des carrs intergroupes ou interchantillons,


a
X
SSB = n(y sr y U )2
r=1

et une somme des carrs intragroupes ou intra-chantillons,


a X
X
SSW = (yk y sr )2 .
r=1 ksr

SST = SSB + SSW. (4.7)

Revenant au tirage systmatique, nous observons que

t ) = N SSB
varSYS (b (4.8)

Lestimation par tirage systmatique sera donc dautant plus efficace que la variabilit interchantillons
est faible, ou, considrant la dcomposition de lANOVA, que la variabilit intra-chantillon est grande,
autrement dit que les chantillons sont htrognes.
On utilise deux mesures dhomognit des chantillons.
1 Le coefficient dhomognit , obtenu de la faon suivante. Considrons un modle dANOVA un
facteur prenant a niveaux (le facteur chantillon), estim sur la population U considre comme
un chantillon dune population infinie. Le coefficient de dtermination ajust de cette rgression 1
est :
SSW/(N a) N 1 SSW
=1 =1
SST /(N 1) N a SST

1. Indication : tout cours sur lanalyse de variance un facteur ou sur le modle linaire, contient les calculs ncessaires.
38 CHAPITRE 4. DEUX PLANS PARTICULIERS

2 On utilise aussi le coefficient


n SSW n N a
=1 =1 (1 ). (4.9)
n 1 SST n1N 1

Notons que cest une fonction monotone croissante de .


Lun ou lautre de ces coefficients permettent de prciser lorganisation de la population dans laquelle
est fait le tirage systmatique et de comprendre les proprits de lestimateur correspondant. Examinons
. On a
a1
min = max = 1
N a
= Na1a arrive quand la variabilit intra chantillons est la mme que la variabilit totale, donc
SSB = 0. Dans ce cas, la variance du plan systmatique est nulle. Si ' min , lapproximation (4.6)
par la formule du plan SI, surestime la variance. Un intervalle de confiance pour le total, bas sur cet
estimateur de variance est trop large. On dit quil est conservatif.

Prcisions : soit b un estimateur sans biais de et V ()


b une estimation de la variance de .
b Un intervalle
d

de confiance approch, 95% pour est : [b 1.96(V ())


d b .5 ]. On admet, ce qui est souvent correct, que
b est approximativement normalement distribu, do la valeur 1.96 qui est le quantile dordre 97.5% de
la loi normale centre rduite. Si V ()
b surestime la variance, lintervalle contient b avec une probabilit
d
suprieure 0.95.

= 1 quand la variabilit intra chantillons est nulle : dans chaque chantillon toutes les valeurs de
y sont identiques. Dans ce cas, un plan systmatique napporte rien par rapport un plan SI. Si ' 1,
lapproximation (4.6) est satisfaisante.
En rsum, un tirage systmatique sera efficace quand le pas de tirage, combin avec lorganisation
de la population donnent des chantillons trs htrognes. De faon complmentaire, on peut observer
que si le pas de tirage, combin avec lorganisation de la population donnent des chantillons forms
de valeurs qui fluctuent peu dans chaque chantillon, faire n observations de valeurs proches entre elles
nest pas trs efficace, car elles donnent une information redondante.

Bonnes pratiques.
1 Quand on ne dispose daucune information sur la population, on peut faire un graphique des valeurs
chantillonnes contre leur numro de tirage, pour voir leur volution.
2 Si lon a accs toute la population avant dy faire le tirage et quon na pas dautres informations sur
cette population, il est prudent den faire dabord un tri alatoire.
3 Si lon dispose dune information auxiliaire, par exemple une variable x, connue sur U telle que
yk ' a0 + a1 xk , il est recommand de trier la population suivant x avant de faire le tirage. Cela
augmente lhtrognit des chantillons.
Une autre criture de la variance est trs parlante. Remplaons dans (4.8), SSW par son expression
en fonction de et SST , on obtient lcriture alternative :

N
t ) = SST (1 + (n 1))
varSYS (b (4.10)
n
Lexpression parallle pour la variance de la moyenne est :

1 SST 1 2
varSYS (b
y) = (1 + (n 1)) ' SyU (1 + (n 1)) (4.11)
n N n
4.2. PLAN SYSTMATIQUE 39

Estimation de la variance
Nous avons dj signal quil ny a pas destimateur sans biais de la variance varSYS (b
t ) pour le plan
systmatique. Nous examinons maintenant quelques solutions alternatives.

Estimation de la variance inspire du cas du plan SI Nous avons dj examin les proprits de
lapproximation par la formule du plan SI, en fonction de lhtrognit des chantillons.

Tirages systmatiques rpts Si on peut rpter des tirages systmatiques avec diffrents points de
dpart, on obtient diffrentes estimations de la mme quantit (total ou moyenne) et on peut ensuite
dduire une estimation de la variance. Cest ce que nous illustrons maintenant pour lestimation de la
moyenne.
Etant donn la population de taille N , on doit tirer un chantillon systmatique de taille n. On peut
N
le tirer en une fois avec un pas de tirage a = ou bien tirer m chantillons systmatiques de taille
n
N
n0 = n/m et chacun avec un pas a0 = m .
n X
Chaque chantillon sj , j = 1, , m donne une estimation sans biais : y j = (1/n0 ) yk de la
sj
moyenne y U et une estimation de variance :

2 1 X
Sys = (yk y j )2 .
j
n0 1 s
j

On dduit immdiatement une estimation sans biais de y U :


m
1 X
y=
b yj .
m
j=1

Passons lestimation de la variance. On va distinguer deux cas selon que les points de dpart ont t
choisis avec ou sans remise.
Avec remise Les m points de dpart sont choisis indpendamment et un estimateur sans biais de la
y est
variance de b
m
1 X
var(
c by) = y)2
(y j b
m(m 1)
j=1

Sans remise Maintenant les m points de dpart sont choisis sans remise. Les y j sont des valeurs choi-
sies sans remise parmi a valeurs possibles. Utilisant notre connaissance du plan SI, on obtient
lestimateur sans biais de var(b
y) :
m
1 X
(1 f ) y)2
(y j b
m(m 1)
j=1

o f = m/a est le taux de sondage dans la population des points de dpart possibles.

Approximation de la variance quand on dispose dune information auxiliaire Supposons mainte-


nant quon dispose dune variable auxiliaire xk , k U telle que yk ' a0 + xk . La population est trie
suivant les x. On peut donc considrer que

yk ' yk+l
40 CHAPITRE 4. DEUX PLANS PARTICULIERS

si k et l ne sont pas trop loigns. Supposons n pair et imaginons la population partitionne en m =


n/2 strates 2 : U1 , , Um de taille N/m = 2a. La premire strate est forme des lments numros
1, 2, , 2a, la deuxime des lments 2 a + 1, , 4 a... Dans la reprsentation de la population sous
forme de tableau (4.1), la strate 1 est forme des deux premires colonnes, la strate 2 des deux suivantes...
Lchantillonnage systmatique fournit des chantillons de taille 2 dans chacune des strates : pour la
strateP 1, lments r et a + r si cest lchantillon qui commence en r qui est tir. Le total dans la strate
h est 2ha k=(h1)2a+1 yk . Lchantillon sh de taille 2 tir dans Uh est y(h1)2a+r , y(h1)2a+r+a o r est le
point de dpart des tirages. On vrifie que
2
Sysh
= (1/2)(y(h1)2a+r y(h1)2a+r+a )2 .
tyUh = a(y(h1)2a+r + y(h1)2a+r+a ) et
Dautre part, b
var(
c b tyUh ) = (4a)2 (1/2 1/2a)Sys
2
h

= a2 (1 1/a)(y(h1)2a+r y(h1)2a+r+a )2 ,
tyU est
qui est lapproximation par plan SI. Enfin, lestimation de la variance de b
m
X
var(
c b tyU ) = a2 (1 1/a) (y(h1)2a+r y(h1)2a+r+a )2 ,
h=1
Enfin lestimation de la variance de la moyenne est :

m
X
var(
c b y U ) = (1/N )2 a2 (1 1/a) (y(h1)2a+r y(h1)2a+r+a )2
h=1
m
1 X
= (1 f ) 2 (y(h1)2a+r y(h1)2a+r+a )2
n
h=1

o f = n/N .
On peut tendre lide de ces strates fictives des strates glissantes et non disjointes.
Question. Quel est lintrt de former ces pseudo strates laide dlments que lon sait prendre des
valeurs proches 3 ?

Tirage systmatique proportionnel la taille


Nous voyons maintenant une technique de tirage systmatique adapte lexemple X des socits
controler. Notons xk la mesure de taille de lunit k, connue quel que soit k et tx = xk ; les xk sont
U
une information auxiliaire. Les tapes de ce tirage sont les suivantes :
1. Soit n la taille de lchantillon quon doit tirer. Si une unit a une mesure de taille tx /n elle est
retire de la population et est mise doffice dans lchantillon.
2. Posons pi = xi /tx et i = npi .
3. On forme Vk = ki=1 pi , k U et V0 = 0.
P

4. On gnre une observation u, dune v.a. Unif(0, 1).


5. Lchantillon est form des units : k1 telle que Vk1 1 < u Vk1 , k2 telle que Vk2 1 < u + 1
Vk2 , , kn telle que Vkn 1 < u + n 1 Vkn .
On voit que la probabilit que lunit k soit dans lchantillon est la longueur de lintervalle [Vk1 , Vk ],
cest--dire la quantit k . Dans cette mthode beaucoup de probabilit dinclusion dordre 2 sont nulles.
Des approximations de la variance du total ont t proposes.
2. Dfinition : une strate est une sous-population pour laquelle on a un plan de sondage, alors quun domaine est une
sous-population sans plan de sondage spcifique. Le plan stratifi est tudi dans le chapitre 5.
3. Rponse : on a toujours intrt fabriquer des strates homognes.
Chapitre 5

Sondage stratifi

Dans cet e-thme nous tudions les plans de sondage stratifi et en particulier le plan simple stratifi
(STSI). Nous donnons les estimateurs de Horvitz-Thomson associs ce plan pour lestimation dun
total, dune moyenne et de la variance de ces estimateurs. Nous prsentons aussi diffrentes mthodes
pour laffectation de la taille dchantillon aux strates.

5.1 Introduction
Exemples

1 Une rgion contient un certain nombres dcoles primaires. On doit en constituer un chantillon. Si
lon fait un tirage simple dcoles dans la liste des coles de la rgion, que peut-il se passer ? On
peut obtenir par hasard :
1 surtout des coles de faible effectif ce qui biaiserait les rsultats si lon sintressait une va-
riable lie la taille de lcole, comme la dpense annuelle en lectricit par cole,
2 seulement des coles rurales, ce qui biaiserait les rsultats si la caractristique tudie dpend du
caractre rural/urbain de lcole, comme la proportion dlves utilisant les cars de ramassage
scolaire,
3 des coles rparties dans toute la rgion, sans quelles soient pour autant trs diffrentes, ce qui
occasionnerait des cots levs de collecte des donnes.
On voit sur cet exemple quon doit choisir un plan dchantillonnage qui tient compte autant que
possible, des diffrences entre niveaux moyens de la variable dtude et de la rpartition gogra-
phique de la population, dans diffrentes sous-populations quon appelle strates.
2 On doit estimer le chiffre daffaire total des entreprises dun certain secteur (on doit recourir un
sondage car les donnes compltes ne seront disponibles quau bout dun temps trop long par raport
aux dcisions prendre). Or les entreprises sont deffectifs trs variables et le chiffre daffaire est
li la taille de lentreprise. On voit que si lon prlve lchantillon par un plan simple, on aura une
grande variabilit de lestimateur avec par exemple un chantillon essentiellement form de petites
entreprises et une forte sous-estimation. On a donc intrt mesurer la variable chiffre daffaire
sur des entreprises de diffrentes tailles, cest--dire dcouper lensemble des entreprises en
strates dfinies partir de la taille et chantillonner dans les diffrentes strates. Tenant compte
de notre prcdente observation sur la variabilit, on voudrait chantillonner proportionnellement
plus dentreprises de grande taille que de petite taille. Le plan stratifi est un plan de sondage
qui tient compte de ces considrations. Cest une technique simple qui peut grandement amliorer
lefficacit.

41
42 CHAPITRE 5. SONDAGE STRATIFI

Pour complter la description de cet exemple, notons que la variable taille a servi faire des classes
de tailles homognes en vue davoir des entreprises de chiffre daffaire proche dans chaque classe
mais nest pas utilise autrement.

Rsum du cadre gnral : le plan stratifi est un plan dans lequel :


1 la population tudie est partitionne en strates,
2 un plan de sondage est dfini pour chaque strate,
3 on tire dans chaque strate un chantillon, indpendamment des chantillons tirs dans les autres strates.
Dans cette leon, nous tudierons dans un cadre simple laffectation de lchantillon des classes pr-
existantes.
Observation. La possibilit de dfinir des strates (ou une stratification) correspond lexistence dune va-
riable auxiliaire dans la base de donnes. Dans lexemple des coles a peut tre la rgion o est installe
lcole, le caractre urbain/rural de sa commune. Dans lexemple des entreprises a peut tre leffectif
salari, discrtis pour donner des classes.

5.2 Plan stratifi gnral


Notations. La population U est partitionne en H sous-populations ou strates : U1 , , UH . La variable
dtude est y, yk la valeur de y pour llment k.

Caractristiques.

Sur la population Pour la strate h


Effectif N = card(U ) Nh = card(Uh )
Total tyU tyUh
Moyenne yU y Uh
Variance 2
SyU 2
SyU h

On a les relation suivantes :


H
X
N= Nh = N
h=1

H
X
tyU = tyUh ,
h=1

H
X Nh
yU = y Uh .
N
h=1

Pour chaque strate Uh on choisit un plan de sondage, de probabilits dinclusion h,k indpendant des
plans des autres strates et on tire un chantillon sh , lchantillon total est s = H
S
h=1 sh . Lestimateur du
total est videmment la somme des estimateurs des totaux sur les strates. X
yk
On forme b th estimateur de Horwitz-Thompson (H-T) de tyUh : b th = h .
sh
5.3. PLAN STSI 43

Lestimateur de H-T par stratification de tyU est la somme des estimateurs sur les diffrentes strates :

H
X
tyU, =
b th .
b
h=1

tyU, est la somme des variances.


Comme les diffrents plans sont indpendants, la variance de b

H
X
varST (b
tyU, ) = var(b
th )
h=1

Nous examinons maintenant le plan stratifi avec plan SI dans chaque strate.

5.3 Plan STSI


Le plan STSI est un plan stratifi avec plan SI dans chaque strate.

Echantillonnage. h {1, 2, , H}, on note nh leffectif quon choisit de tirer dans Uh , sh lchan-
tillon obtenu et fh = nh /Nh le taux de sondage dans la strate h. Sur Uh lestimateur du total est donc

Nh X
th =
b yk = Nh y sh ,
nh
ksh

de variance :
1 1
th ) = Nh2 (
var(b )S 2 ,
nh Nh yUh
X
2
o SyU = 1/(N 1) (yk y Uh )2 est la variance de y sur Uh . Lestimateur du total sur U est
h h
kUh
la somme des estimateurs des totaux sur les diffrentes strates :
H
X H
X
tU =
b th =
b Nh y sh (5.1)
h=1 h=1

Sa variance est la somme des variances sur les diffrentes strates :

H
X
varSTSI (b
tU, ) = var(b
tyUh h )
h=1
H  
X 1 1
= Nh2 2
SyU . (5.2)
nh N h h
h=1

Enfin on en prend un estimateur par substitution :

H  
X 1 1
var
c STSI (b
tyU, ) = Nh2 2
Sys (5.3)
nh Nh h
h=1

Tenant compte de ce quon sait du plan SI, on voit que : est sans biais pour tyU , sa variance est estime
sans biais par (5.3).
44 CHAPITRE 5. SONDAGE STRATIFI

5.3.1 Estimation dune moyenne


Dans le plan STSI, lestimateur de la moyenne y U est :

H
X Nh
yU =
b y sh (5.4)
N
h=1

et sa variance est estime par :


H  
1 X 2 1 1 2
Nh Sys (5.5)
N2 nh Nh h
h=1

5.4 Affectation aux strates


5.4.1 Affectation optimale pour estimer le total
Les strates tant dfinies, on choisit de sonder suivant un plan STSI et on doit maintenant choisir les
effectifs chantillonner dans les diffrentes strates. Sur (5.3) on voit que la variance de lestimateur du
total est de la forme
H
X Ah
V = B
nh
h=1
2 2
PH 2
o Ah = Nh SyUh et B = h=1 Nh SyUh . Supposons que le cot dun sondage soit de la forme :
X
C = c0 + nh ch (5.6)
h

o c0 est un cot (en Euros) fixe indpendant des units tires et ch le cot dune unit chantillonne
dans la strate h. Etant donn une enveloppe budgtaire de C Euros, on doit rpartir lchantillon de
manire minimiser la variance totale. Par la technique du multiplicateur de Lagrange (cf louvrage de
Till par exemple), ou par des techniques plus simples (cf louvrage de Srndal et al.), on obtient
r
Ah Nh SyU
nh proportionnel cest--dire nh h
ch ch
De cette proportionnalit on dduit les tailles optimales
r
Ah p
nh = (C c0 ) /(i Ai ci )
ch

Nh SyU 1
= (C c0 )( h ) PH
ch i=1 Ni SyUi ci

En particulier sil ny a pas de cot fixe et si les cots marginaux sont constants : c0 = 0, ch = 1 alors
la contrainte de cot total revient une contrainte de taille : n, et laffectation optimale est donne par

Nh SyUh
nh = n PH . (5.7)
i=1 Ni SyUi

Il faut donc chantillonner dautant plus dindividus dans une strate quelle est de taille leve (Nh grand)
ou quelle est trs disperse (SyUh grand). Il reste une difficult pour mettre en uvre cette ide : on ne
connat pas les SyUh . On va donc sintresser dautres affectations, bases sur une information partielle
ou approximative.
5.4. AFFECTATION AUX STRATES 45

5.4.2 Autres affectations de lchantillon aux strates


Affectation proportionnelle au total de y On choisit les tailles qui vrifient :
tyUh
nh = n (5.8)
tyU

On voit quelle revient laffectation optimale quand les coefficients de variation sont gaux :
SyUh
= cte h
y Uh

Affectation proportionnelle la taille On choisit les tailles qui vrifient :


Nh
nh = n PH (5.9)
i=1 Ni

Cette affectation est optimale quand les cart-types dans les strates sont gaux. On lemploie parfois
quand on ignore tout des dispersions dans les strates.

Affectation x-optimale Supposons quon dispose dune variable auxiliaire : xk observe pour tout
k U et telle que :

yk ' 0 + 1 xk , k U
2
On voit que SyU ' 12 SxU
2 et quune affectation possible est :
h h

Nh SxUh
nh = n PH . (5.10)
i=1 N i SxU i

Affectation proportionnelle au total de x


txUh
nh = n (5.11)
txU

Complments.
1. Si dans une affectation optimale on obtient un nh0 > Nh0 alors on tire tous les individus de la
strate et on fait une affectation optimale de n Nh0 lments aux autres strates. La contribution
de la strate h0 la variance est nulle.
2. On ntudie pas dans ce cours le choix des strates. Pour les dfinir on peut avoir recours aux
techniques danalyse des donnes comme la classification quon met en uvre sur des variables
auxiliaires.
3. Souvent un mme sondage doit servir tudier plusieurs variables dtude. Plusieurs choix daf-
fectations sont possibles. Par exemple on peut choisir laffectation qui minimise une combinaison
linaire des variances (5.2). Pour deux variables dtude y1 et y2 , exprimes dans les mmes units,
ceci revient chercher les nh qui minimisent
H
X w1 Sy21 Uh + w2 Sy22 Uh
Nh2 avec w1 , w2 0, w1 + w2 = 1
nh
h=1

sous la contrainte (5.6). On choisit w1 et w2 en fonction de limportance de la prcision requise


pour chaque variable.
46 CHAPITRE 5. SONDAGE STRATIFI

5.5 Poststratification
5.5.1 Dfinition de lestimateur poststratifi
Reprenons lexemple des revenus de la section 1. A dfaut de pouvoir prlever des chantillons s-
pars dhommes et de femmes on peut, une fois lchantillon prlev sans tenir compte du sexe, noter
le sexe et la variable dtude pour poursuivre lanalyse. On peut incorporer aprs chantillonnage la
connaissance des effectifs des sous-populations. Cette prise en compte des strates aprs chantillonnage
est appele post-stratification.

Post-stratification dans un plan SI. La population U est partitionne en H sous-populations comme


prcdemment et le niveau moyen de la variable y est a priori diffrent dune strate lautre. On tire
un chantillon s dans U de n lments par plan SI. On observe k s : yk et la strate X de k. On note
T
sh = s Uh le sous chantillon observ dans la strate h, nh la taille de sh et y sh = (1/nh ) yk , h =
sh
1, , H. Lestimateur post-stratifi de tyU est
H
X
tpostyU =
b Nh y sh (5.12)
h=1

La diffrence essentielle par rapport (5.1) est que maintenant la moyenne y sh est un quotient de 2 v.a.
(par rapport au mcanisme de sondage) alors que dans le plan STSI, nh nest pas alatoire.

5.5.2 Proprits de lestimateur poststratifi.


On a :
1 Le total tyU est estim sans biais par : b
tpostyU .
2 La variance de tpostyU est :
b
 
X 1 1
var(b
tpostyU ) = Nh2 SyU
2
E (5.13)
h
nh N h
h

Pour la moyenne on a :
y postyU = H Nh
P
1 y U est estim sans biais par : b h=1 Wh y sh , avec Wh = N , part en effectif de la strate
Uh dans la population totale.
2 La variance de by postyU est :
 
X
2 2 1 1
var(by postyU ) = Wh SyUh E . (5.14)
nh Nh
h
 
1
Il ny a pas dexpression analytique pour E nh . Si on fait un dveloppement lordre 1 de
 
E n1h on obtient, voir ci-dessous :
X Nh
y postyU ) '
var(b S2 (5.15)
nN yUh
h

Si on fait un dveloppement lordre 2 on obtient :


"  2 #
X N N N n N Nh 1
var(by postyU ) ' Wh2 SyU
2
+ . (5.16)
h
nNh nNh N N 1 Nh
h

On estime ces variances en remplaant dans (5.15) et (5.14), les SyU2 par leurs estimations Sys2 .
h h
Remarque. Il peut arriver que certains nh soient 1 et il faut dans ce cas revoir la dfinition des strates.
5.5. POSTSTRATIFICATION 47

Approximation de E(1/nh ) On a rencontr dans (5.13) E(1/nh ). Cette esprance sapproche par un
dveloppement de Taylor lordre 1 ou 2 de 1/nh au voisinage de E(nh ).

Dtails.
P
1- Notons dabord que nh = kU 1 k (s) 1 k (Uh ). Comme on tire dans U suivant un plan SI, on obtient
n
E(nh ) = Nh = nWh ,
N
et
 
XX Nh 1
var(nh ) = 1 k (Uh ) 1 l (Uh )cov(11k (s), 1 l (s)) = = Nh f (1 f ) 1 .
k,lU N 1
n
o f = N.
2- Dautre part, le dveloppement lordre 2 de 1/x au voisinage de x0 6= 0 est :

1 1 x x0 (x x0 )2
' + .
x x0 x20 x30

Appliquons ce rsultat lapproximation de 1/nh , pour une certaine strate h et prenons lesprance
mathmatique des deux cts de la relation. Il vient :
 2
1 1 var(nh ) N N N n N Nh
E( ) ' + 0 + = = + (5.17)
nh nWh n3 Wh3 nNh nNh N N 1

3 Notons enfin que si on se limite lordre 1 on a :


 
1 1
E ' ,
nh nWh

et on obtient des approximations plus grossires.


48 CHAPITRE 5. SONDAGE STRATIFI
Bibliographie

[1] P. ARDILLY ; Techniques de sondages ; Technip ; 2006.


[2] W. G. COCHRAN ; Sampling techniques ; Wiley ; 1977.
[3] S. L. LOHR ; Sampling : Design and Analysis . Duxbury Press ; 1999
[4] K.E. SRNDAL, B. SWENSON, J. WRETMANN ; Model Assisted Survey Sampling ; Sprin-
ger ; 1992.
[5] S.K. THOMPSON ; Sampling ; Wiley ; 1992
[6] Y. TILL ; Thorie des sondages chantillonnage et estimation en populations finies Cours et
exercices avec solutions ; Dunod ; 2001

Le livre de Srndal et collaborateurs couvre une grande quantit de questions, rigoureusement et


avec des notations commodes. Nous nous en inspirons souvent. Il nest pas conseill de lutiliser comme
ouvrage dinitiation. Louvrage de Lohr est assez peu mathmatis mais contient une grande quantit
dexemples inspirs de situations concrtes trs varies. Les exemples du livre de Thompson concernent
particulirement les populations biologiques : animaux, espces. Louvrage dArdilly (en franais) est
dune lecture trs agrable et ses exemples concernent souvent la statistique officielle. Le livre de Co-
chran est trs riche, dtaill et prend beaucoup de ses exemples dans les enqutes agricoles. Le livre de
Till (en franais) est un bon expos thorique.

49

Vous aimerez peut-être aussi