Cours de Sondage
Cours de Sondage
Cours de Sondage
Cours de sondage
Chapitres 1 5
Cette introduction pose les problmes de base auxquels rpondent les techniques de sondage. Nous
introduisons la notion dalatoire propre aux sondages et un certain nombre de dfinitions utiles pour
clarifier bon nombre de situations concrtes. Nous prsentons aussi la bibliographie et quelques sites
internet utiles.
N
X X 1 X
tyU = yk abrg conventionnellement en yk et y U = yk .
U N U
k=1
On appelle paramtre dintrt, la fonction des yk , k U quon veut estimer, par exemple tyU ou y U .
On est souvent amen estimer dautres paramtres que le total dune variable. Par exemple un
revenu par tte R dans une rgion est un rapport de totaux ou ratio :
X
yk
R = XU
zk
U
o yk et zk dsignent respectivement
X le revenu et la taille du mnage k de la population U des mnages
de la rgion. Si la taille zk , de la population nest pas connue, lestimation de y U revient lesti-
U
mation dun ratio.
Plan de sondage. Un plan de sondage est un mcanisme alatoire de tirage des individus ou units
de U qui formeront lchantillon. Ce cours sintresse notamment au choix du plan de sondage.
A chaque application dun plan de sondage sur une population on doit obtenir un chantillon diff-
rent.
Si la collecte de lchantillon est faite suivant un plan de sondage 1 on obtient partir de lchantillon :
(1) une estimation du paramtre dintrt, (2) une estimation de la variance de lestimateur du paramtre
dintrt.
1. Il y a dautres faons de collecter de linformation, nous en dirons quelques mots la fin du chapitre.
3
4 CHAPITRE 1. INTRODUCTION AUX SONDAGES
Cest la dmarche probabiliste qui permet dobtenir une mesure de prcision de lestimation. Laspect
alatoire est donc crucial. Un sondage qui se limite fournir une estimation de total ou de moyenne, sans
donner une estimation de lcart-type de cette estimation nest pas scientifiquement acceptable. Cest
malheureusement le cas de la plupart des sondages publis dans la presse.
Si lon pouvait mesurer y sur chaque individu de la population on ne ferait pas un sondage mais un recen-
sement et il ny aurait plus de problme destimation. Seulement il est souvent trs coteux, peu raliste,
voire impossible de mesurer la variable dtude sur toute la population et on doit donc se contenter de
lobservation de y sur un chantillon alatoire.
Si dans une situation particulire, recensement et sondage sont tous deux possibles, on choisit lun plu-
tt que lautre suivant : la prcision exige dans la connaissance du paramtre dintrt, la nature de la
dcision qui sera prise daprs cette connaissance, le partage cot/imprcision permis par le problme, le
temps dont on dispose pour fournir le rsultat. Ainsi, beaucoup de rsultats statistiques relatifs aux entre-
prises (chiffre daffaire, niveau des commandes...) ne sont connus exhaustivement que longtemps aprs
la priode de temps concerne. Des rsultats bass sur un sondage et des prvisions sont donc souvent
publis avant que les donnes exhaustives ne soient disponibles.
Rsum. Un plan de sondage est un mcanisme probabiliste qui permet dobserver une variable y sur un
chantillon s de la population U dont on veut estimer une caractristique (par exemple la moyenne de y
sur U ). La mthode destimation de la caractristique doit fournir :
un estimateur de la caractristique,
la variance de cet estimateur,
des estimations bases sur s de ces deux quantits.
En pratique, les dfinitions de population, units ... ne sont pas toujours limpides ou allant de soi. De
plus le mcanisme qui permet daccder aux individus est souvent complexe.
La fabrication de plans de sondage adapts lorganisation et laccessibilit de la population par len-
qute est une tche importante et dlicate. Un certain nombre de dfinitions permettent didentifier les
situations quon rencontre.
par taille... et il est utile de noter quune base de sondage est une organisation de la population
chantillonne. Il arrive quon ait plusieurs bases de sondage pour un mme problme. Il arrive
aussi quon nait pas de base de sondage pour une population, cas par exemple dune population
danimaux sauvages.
Dfaut de couverture (noncoverage). Le fait quil existe des individus de la population cible qui ne
sont pas dans la base de sondage.
Biais de slection (selection bias). Le biais qui survient quand une partie de la population cible nest pas
dans la population chantillonne. Par exemple, si on veut tudier les revenus des mnages dune
commune et quon oublie les travailleurs migrants, on va trouver des revenus plus levs quils ne
le sont en vrit. Causes classiques de ce biais : Nonrponse, recours au volontariat pour obtenir
des rponses ...
Biais de mesure Il survient quand linstrument de mesure tendance donner une valeur qui scarte
de la vraie mesure dans une direction particulire. Par exemple, dans des sondages sur la vg-
tation, on dcoupe la surface en parcelles et on choisit un chantillon de parcelles. On compte
le nombre de plantes dans chaque parcelle. Que faire des plantes en bordure de parcelle ? Si un
observateur a tendance les compter toutes, il fournira une estimation du nombre total de plantes
suprieur la ralit. Autre exemple : les gens peuvent ne pas dire la ralit (sous dclaration de
revenus, d ge), une question peut tre mal comprise.
1.2.2 Exercice
Un certain nombre de situations sont dcrites dans les exemples ci-dessous. Dans chaque cas dcrire
la population cible, la base de sondage, la population chantillonne, les units dchantillonnage, et les
units dobservation.
Architectes Un chantillon de 8 architectes ou cabinets darchitectes doit tre choisi dans une ville
parmi les 14 qui y exercent. Pour choisir cet chantillon, chaque architecte est contact par tl-
phone dans lordre dapparition dans lannuaire des Pages jaunes. Les 8 premiers qui ont accept
de rpondre constituent lchantillon.
Livres Pour estimer le nombre de livres qui ont besoin dtre relis, un bibliothcaire tire, dans une table
de nombres au hasard, 100 emplacements de livres sur les rayonnages. Il va ensuite en chacun de
ces emplacements et note si le livre qui sy trouve a besoin dtre reli ou non.
Presse Environ 16 500 femmes ont retourn le questionnaire "Healthy Women Survey" insr dans le
numro de sept. 1992 de la revue "Prevention". Le numro de mai 93 de cette revue rendait compte
du sondage en crivant : "92% de nos lectrices valuent leur sant comme excellente, trs bonne
ou bonne."
Parfois on choisit les individus interrogs sans recourir un mcanisme probabiliste. Il est clair que,
dans ce cas, on ne peut rien dire de la prcision des estimations fabriques aprs une telle collecte.
Exemples de mthodes non probabilistes A loppos du sondage alatoire qui donne un chantillon
probabiliste il existe des mthodes non probabilistes.
Mthode des units type. On a observ par exemple que telle commune vote comme la France et
donc on va interroger les habitants de la commune sur leurs choix pour la prochaine lection. On
attribue la France en gnral les choix de cette commune. Ceci na videmment aucune valeur
scientifique et dailleurs on ne sait pas mesurer la prcision dune telle extrapolation.
chantillonnage au jug. On prlve un chantillon en se fondant sur certains jugements au sujet de
lensemble de la population. Cette mthode peut-tre utile pour prparer un questionnaire pour une
enqute. Elle permet de lister les sujets quil faudra poser. La prparation dune enqute recourt
souvent la technique des groupes de discussion, en Marketing notamment.
6 CHAPITRE 1. INTRODUCTION AUX SONDAGES
chantillonnage par quotas. Cest lune des formes les plus courantes dchantillonnage non pro-
babiliste. Il seffectue jusqu ce quun nombre prcis dunits (de quotas) pour diverses sous-
populations ait t slectionn. Si cette slection est effectue dans la rue, comme cest souvent
le cas pour des enqutes sociologiques ou grand public, le risque est que lenquteur slectionne
certaines personnes plutt que dautres sur leur aspect notamment. Ceci peut entraner un biais.
Mais si un sondage par quotas est effectu dans une base informatise, laspect potentiellement
subjectif de la slection disparat.
Exemples.
Certains oiseaux font leurs nids dans des vieux arbres. Dans une zone donne, il est assez facile
de compter les vieux arbres dune certaine espce. Pour compter le nombre de nids doiseaux
dans la zone divise en parcelles, on peut saider du nombre de vieux arbres mesur par exemple
daprs des photos, puis compter le nombre de nids dans un chantillon de parcelles. Linformation
auxiliaire est xk , le nombre de vieux arbres de la parcelle k, connu pour toutes les parcelles de la
zone.
La rcolte de bl dune rgion doit tre estime. On peut prlever un chantillon de parcelles
dont on mesure la rcolte et saider de lestimation vue dun expert pour toutes les parcelles.
Linformation auxiliaire est lestimation xk , faite par lexpert, de la rcolte de la parcelle k, ceci
pour toutes les parcelles de la zone.
On doit estimer le nombre moyen de fois quune personne dge compris entre 15 ans et 30 ans,
habitant dans une certaine rgion, va au cinma chaque mois. Or on sait que les habitants de zones
urbaines vont plus souvent au cinma que les habitants de zones rurales. Pour tenir compte de cette
information on dcide de faire un plan de sondage diffrenciant les deux types de zones. Ici x est
le statut urbain/rural du lieu de rsidence dun individu de la population tudie.
Dans ces trois exemples linformation auxiliaire permet damliorer lestimation du total ou de la
moyenne de la variable dtude. Cette amlioration peut se faire deux niveaux :
au moment de la dfinition du plan de sondage, cest le cas du troisime exemple ou lon fait ce
qui sappelle un plan stratifi, tudi au chapitre 5,
une fois lchantillon obtenu. Dans ce cas linformation auxiliaire sert corriger les poids des
observations chantillonnes, cest le cas des deux premiers exemples. Lestimation par rgression,
tudi au chapitre 7, entre dans cette catgorie de mthodes.
1.4 Notations
Nous reprenons et compltons les notations qui seront utilises dans ce cours.
X P
Si A U , yk kA yk .
A
1.5. DCOMPOSITION DE LANOVA 7
N
2 1 X 1 X
SyU = (yk y U )2 = (yk y U )2 (1.1)
N 1 N 1
k=1 kU
La somme sur tous les couples (k, l), k, l U dune certaine quantit gk,l dfinie sur chacun de ces
couples est note :
XX
gk,l .
U
1 X
Syz U = (yk y U )(zk z U )
N 1
kU
et
var(Y ) = E(var(Y |X)) + var(E(Y |X))
Cadre des sondages. On peut avoir deux plans de sondages, donc deux mcanismes probabilistes, em-
bots : on fait un premier tirage suivant un plan, pI (.), qui donne un chantillon sa puis un tirage suivant
un autre plan, pII (.|sa ) dans lchantillon sa obtenu au premier tirage, qui donne un autre chantillon s.
Il est trs utile, dans cette situation, de dcomposer un calcul desprance mathmatique en :
et un calcul de variance en :
Une fois quon a des rponses claires ces questions, on peut envisager la conception du question-
naire, sa ralisation, son administration et lanalyse de ses rsultats.
Le site de Statistique Canada contient un dveloppement trs clair sur la conception des question-
naires 3 et lanalyse denqutes. Le site de lAmerican Statistical Association 4 : contient un certain
nombre de documents tlchargeables sur la conception, ladministration et lanalyse des questionnaires.
Avec un moteur de recherche, les mots-clefs : "questionnaire design" survey, donnent un grand nombre
de sites consacrs au sujet.
Le site de lUniversit dIllinois 7 rfrence un ensemble de sites, journaux... consacrs aux sondages.
Le site de la Washington Statistical Society 8 donne des principes pour construire de bons graphiques
et bien visualiser les donnes.
On trouve sur le site 9 des adresses de cours de sondages gratuits dans le domaine des sciences so-
ciales.
Citons aussi le site de lUS Environmental statistical agency 11 et de NC state University 12 qui r-
pondent des questions frquentes sur les sondages.
Pour lanalyse de donnes issues de plans de sondages complexes avec le logiciel R, voir la page
officielle du package survey de T. Lumley 13 .
Avec un moteur de recherche, les mots-clefs : sampling survey, donnent un grand nombre de sites
consacrs au sujet.
3. http ://www.statcan.ca/francais/edu/power/ch2/questionnaires/questionnaires_f.htm
4. http ://www.amstat.org/sections/SRMS/index.html
5. http ://www.insee.fr/fr/home/home_page.asp
6. http ://www.statcan.ca/francais/edu/power/toc/contents_f.htm
7. http ://www.srl.uic.edu/srllink/srllink.htm
8. http ://www.science.gmu.edu/ wss/methods/#Graphics
9. http ://gsociology.icaap.org/methods/sampling.html
10. http ://www.davidhaziza.com/index_fichiers/Page341.htm
11. http ://www.epa.gov/nheerl/arm/surdesignfaqs.htm
12. http ://www2.chass.ncsu.edu/garson/pa765/sampling.htm
13. http ://faculty.washington.edu/tlumley/survey/
10 CHAPITRE 1. INTRODUCTION AUX SONDAGES
Chapitre 2
Dans ce chapitre nous tudions le plan simple probabilits gales sans remise (plan SI) et le plan
simple propabilits gales avec remise. Nous posons le vocabulaire et les outils qui serviront constam-
ment par la suite : plan de sondage et probabilits dinclusion. Nous retrouverons ces probabilits din-
clusion comme un outil fondamental dans ltude des plans probabilits ingales.
2.1 Introduction
Dfinition. Un plan de sondage sur une population U est un mcanisme probabiliste dcrit avec
prcision qui permet dobtenir un chantillon alatoire, s, dlments de U . En termes un peu plus so-
lennels,
X cest une probabilit : p() dfinie sur S lensemble des parties de U : p(s) 0 s S et
p(s) = 1. Lalatoire en sondage provient dabord de la variabilit de lchantillon tir dans la po-
S
pulation finie fixe. La taille dun plan de sondage est la taille des chantillons quil gnre. Elle peut tre
constante, on parle alors de plan de taille fixe, ou bien alatoire pour des plans que nous rencontrerons
ultrieurement.
2.2.1 Plan SI
On se fixe comme paramtre une taille n dchantillon et on tire n individus, sans ordre et sans
remise dans la population des N individus. Dans le plan SI il y a N
n chantillons possibles et quipro-
11
12 CHAPITRE 2. PLAN SIMPLE SANS REMISE
bables 1 Ceci estune application directe des techniques de dnombrement vues en calcul des probabilits
lmentaire. N n
n et CN sont deux notations pour dsigner la mme chose : le nombre de parties n l-
ments parmi un ensemble N lments. Pour une prsentation dans le cadre de la thorie des sondages
on peut consulter Till, 2001.. La loi de probabilit sur les chantillons est donc :
(
p(s) = N1 si card(s) = n
(n)
p(s) = 0 si card(s) 6= n
o S dsigne llment alatoire dont s est une ralisation et s parcourt lensemble S des N
n chantillons
1
possibles. On a vu que chaque yk apparat dans N
n1 termes. Lesprance mathmatique de la variable
alatoire y S est donc
N 1
n1 1
X
E(y S ) = N yk = y U .
n
n U
Ainsi, dans le plan SI, la moyenne sur lchantillon est un estimateur sans biais de la moyenne sur la
population.
On peut montrer (nous obtiendrons ce rsultat aprs avoir introduit les variables indicatrices dinclu-
sion) que
2 2
n SyU SyU
var(y S ) = 1 = (1 f ) . (2.1)
N n n
1. Rfrences
2.2. DEUX PLANS SIMPLES PROBABILITS GALES 13
Remarque. Parlant dun estimateur, nous aurions du crire : SyS2 et non S 2 qui est une estimation. Mais
ys
pour ne pas alourdir les notations nous noterons le plus souvent s lchantillon que ce soit une ralisation
ou un lment alatoire.
Finalement un estimateur sans biais de la variance de lestimateur y s de la moyenne y U est :
2 2
n Sys Sys
c S) = 1
var(y = (1 f ) . (2.2)
N n n
Cest un estimateur sans biais : E(btyU ) = tyU . On peut considrer que chaque lment de lchantillon
reprsente N/n lments de la population, ou encore yk est dilate par le facteur N/n pour construire
tyU est :
lestimateur du total. La variance de b
2
SyU
tyU ) = N 2 var(y s ) = N 2 (1 f )
var(b , (2.3)
n
elle est estime sans biais par :
2
Sys
var(
c b tyU ) = N 2 var(y
c s ) = N 2 (1 f ) . (2.4)
n
Exercice
On considre une population de N = 5 individus, pour lesquels on connat les valeurs de la variable
y : y1 = 3, y2 = 1, y3 = 0, y4 = 1, y5 = 5. On choisit un plan SI avec une taille dchantillon n = 3.
1. Donner les valeurs de la moyenne, de la mdiane et de la variance de la variable y dans la popula-
tion. Lister tous les chantillons possibles de taille n = 3. Quelle est la probabilit de slection de
chaque chantillon ?
2. Pour un chantillon donn, on estime la moyenne (respectivement la mdiane) de la population.
Calculer les valeurs de ces estimateurs pour chaque chantillon et en dduire que lestimateur de
la moyenne est sans biais alors que lestimateur de la mdiane est biais.
2 de S 2 et en dduire que cet estimateur est sans
3. Pour chaque chantillon, calculer lestimateur Sys yU
biais.
Indications :
1. Il y a 10 chantillons possibles de taille 3 et puisque le plan est un plan SI, ces chantillons sont
quiprobables.
2. Calculer les moyennes arithmtiques des estimateurs de la moyenne dune part et de la mdiane
dautre part. Comparer avec les vraies valeurs calcules la question prcdente.
2 (un par chantillon), en faire la moyenne arithmtique et comparer la vraie
3. Calculer les Sys
2
valeur SyU .
14 CHAPITRE 2. PLAN SIMPLE SANS REMISE
n n
kk var(11k (S)) = 1 = f (1 f ) (2.5)
N N
n(n 1) n n f (1 f )
kl cov(11k (S), 1 l (S)) = = . (2.6)
N (N 1) N N N 1
Comme on pouvait sy attendre, la covariance kl est ngative car le plan tant de taille fixe, si on sait
que k s, les chances davoir l s diminuent.
et donc
1X 1X n
E(y S ) = yk E(11k (S)) = yk = y U .
n U n U N
Notons que grce aux indicatrices dinclusion on a remplac dans (2.7) lcriture de lesprance dun
nombre alatoire de termes par celle dun nombre certain de termes, qui ne pose pas de problme. Dautre
part,
1 X
var(y S ) = 2 var yk 1 k (S) ,
n U
et
1 XX
var(y S ) = 2 yk yl kl .
n U
Dans cette expression,
XX f (1 f ) X X X
yk yl kl = yk yl + f (1 f ) y2 (2.8)
U N 1 U, k6=l U k
f (1 f ) X X f (1 f ) X 2 X
= yk yl + yk + f (1 f ) y2. (2.9)
N 1 U N 1 U U k
On a utilis le fait que dans le plan SI, kl ne prend que deux valeurs selon que k 6= l ou k = l. Une
identit lmentaire de la statistique descriptive nous donne :
X X t2yU
y2 = 2
(yk y U ) + .
U k U N
Reportant cette expression dans (2.8), on obtient (2.1). On voit lintrt de la substitution faite en (2.7) :
on a remplac une somme sur s, ensemble alatoire par une somme sur U , non alatoire.
2.3. ESTIMATION DUNE PROPORTION 15
1 X
E(Yi ) = yk = y U ,
N U
et
X 1 N 1 2
var(Yi ) = (yk y U )2 = 2
SyU ' SyU ,
U N N
si N est suffisamment grand. On obtient
m
!
X
E (1/m) Yi = yU ,
i=1
m
!
X 1 2
var (1/m) Yi = S , (2.10)
m yU
i=1
yki dsigne la ieobservation du tirage. Observons que ce sont les formules de la statistique classique.
Correction de population finie. Comparons les variances des estimateurs de la moyenne dans les deux
plans avec et sans remise : (2.10) et (2.1). Le facteur1 f dans (2.1) est 1 f = 1 n/N ' 1 si N est
grand , n. On appelle 1 f la correction de population finie (abrge en anglais en f.p.c.). Si le taux
de sondage f = n/N est faible, cest--dire si lchantillon est de petite taille par rapport la population
finie, on a
1 2
tyU ) ' N 2 SyU
varSI (b , (2.11)
n
expression qui nincorpore pas de correction de population finie, la diffrence de (2.3).
Exemples.
1. Estimer la proportion de familles hbergeant une personne ge dpendante dans une certaine ville.
2. Estimer la proportion de clients dune banque susceptibles dacheter un nouveau produit de la
banque.
Introduisons une variable indicatrice y, avec yk = 1 si lindividu k (famille ou banque dans les exemples)
a la caractristique, yk = 0 si lindividu k na pas laXcaractristique. Le nombre total dindividus ayant
la caractristique dans U est videmment : tyU = yk et la proportion dindividus ayant la carac-
U
tristique dans la population est p = tyU /N = y U . Une proportion est donc la moyenne dune variable
indicatrice et les rsultats obtenus pour une moyenne sappliquent immdiatement. On les rassemble
maintenant dans le cas dun plan SI.
16 CHAPITRE 2. PLAN SIMPLE SANS REMISE
1 X 1 N
Sy2 U = (yk y U )2 = (N p N p2 ) = p(1 p) (2.12)
N 1 U N 1 N 1
2
SyU ' p(1 p) si N assez grand (2.13)
Soit s un chantillon sur U , obtenu par un plan SI de taille n. Lestimateur de la proportion p par les
valeurs dilates est :
1X
pbs = yk . (2.14)
n s
Sa variance est
1 1 2 1 1 N
var(b
ps ) = SyU = p(1 p) (2.15)
n N n N N 1
Si N/(N 1) ' 1, un estimateur approximativement sans biais de cette variance est
1 1 n 1f
var(b
c ps ) = pbs (1 pbs ) = pbs (1 pbs ) (2.16)
n N n1 n1
Si on peut ngliger la correction de population finie :
1
c ps ) '
var(b pbs (1 pbs ) (2.17)
n1
2.4 Estimation dun total et dune moyenne sur une sous-population (do-
maine)
Exemple. On fait un sondage auprs des mnages dune rgion pour savoir combien dheures en
moyenne les mnages consacrent par mois soccuper dune personne ge dpendante. Il est clair que
cette moyenne ne concerne que les mnages hbergeant une personne dpendante. Comme on ne dispose
pas de la liste de tels mnages, on va tirer un chantillon de mnages auxquels on demandera sils
hbergent une personne ge dpendante et combien de temps ils y consacrent. On tire un chantillon
dans une population qui contient la population qui nous intresse.
Situation. On tire s, chantillon sur U suivant un plan SI(N, n), mais on est intress par leTtotal ou
la moyenne de la variable dtude sur Ud , sous-population de U , de taille Nd . On note sd = s Ud , de
taille nd . X
On estime la moyenne y Ud par b y Ud = (1/nd ) yk = y sd .
sd
Etudions les proprits de cet estimateur. Il faut observer dabord que si nd est connue, cest--dire,
conditionnellement nd , on prlve nd individus dans une population de taille Nd = N Wd , suivant un
plan SI. Par consquent
1 1
E(y sd |nd ) = y Ud et var(y sd |nd ) = SU2 d y.
nd Nd
2.5. PRCISION DUN SONDAGE 17
Do :
E(y sd ) = E(E(y sd |nd )) = E(y Ud ) = y Ud
et
var(y sd ) = E(var(y sd |nd )) + var(E(y sd |nd )),
Le deuxime terme du ct droit est nul puisque la moyenne conditionnelle est constante, le premier
terme est
1 1 2 2 1 1
E(var(y sd |nd )) = E SUd y = SUd y E .
nd Nd nd Nd
Enfin, le dveloppement de Taylor lordre 1 de 1/nd au voisinage de E(nd ) donne :
1
E(1/nd ) ' .
nPd
Do,
1 1
var(y sd ) ' ( )S 2
nWd Nd Ud y
quon estime par :
1 1
c sd ) '
var(y Ss2d y .
nd N d
Ainsi, en premire approximation, on estime la moyenne sur un domaine Ud comme si on avait fait un
plan SI(Nd , nd ).
Lestimateur correspondant pour tyUd est :
tyUd = Nd y sd .
b
Notons que y s et b
tyU ont le mme coefficient de variation.
b N (, var())
b
o z1/2 est le quantile dordre 100(1 /2)% de la variable normale centre rduite et o on a
remplac la variance par une estimation de celle-ci. On prend souvent = 5% et alors z0.975 = 1.96.
On appelle marge derreur absolue la demi-longueur de lIC. En sondages dans une population finie,
on utilise galement ce type dapproximation dun intervalle de confiance. Cest ce que nous voyons
maintenant.
Exemples.
Intervalle de confiance pour une moyenne. Par un plan SI, population de taille N , chantillon de taille
n, on estime la moyenne y U de y par y s de variance (2.1), estime par (2.2). Lintervalle de confiance
pour y U 100(1 )% est :
r r
1 1 1 1
y s z1/2 SyU ; y s + z1/2 SyU (2.22)
n N n N
que lon appelle marge derreur relative. Cest la demi-longueur, en pourcentage, de lintervalle de
confiance au niveau 100(1 )% rapporte la quantit estime.
Intervalle de confiance pour un total. Le parallle de (2.22) pour le total ty est :
" r r #
1 1 1 1
btyU z1/2 N SyU ; b tyU + z1/2 N SyU (2.25)
n N n N
Intervalle de confiance pour une proportion. Pour une proportion p moyenne dune indicatrice y,
(2.22) prend la forme :
" r r r r #
1 1 N 1 1 N
pb z1/2 p(1 p) ; pb + z1/2 p(1 p) (2.26)
n N N 1 n N N 1
Taille dchantillon pour estimer une moyenne. Supposons donc un niveau 100(1 )% fix.
CVyU est propre la population U et on ne peut donc pas le choisir. On doit agir sur n pour diminuer la
marge derreur. Ainsi, si on veut une marge derreur relative de , on doit choisir n tel que
zCVyU
o z = z1/2 . Si la taille de la population est grande, 1/N est ngligeable et la condition sur n devient :
z 2 CV2yU
n . (2.29)
2
Mais on ne connat videmment pas CVyU . On doit lestimer sur un premier chantillon de petite taille.
20 CHAPITRE 2. PLAN SIMPLE SANS REMISE
Taille dchantillon pour estimer une proportion. Avec les notations du prcdent paragraphe,
pour N suffisamment grand, on doit choisir n tel que :
r r
1 1p
z ,
n p
cest-- dire :
z 2 (1 p)
n . (2.30)
2 p
On peut vrifier que (1 p)/p dcroit de 0 quand p croit de 0 1. Si lon sait que p est suprieur
une certaine valeur p0 , on pourra choisir :
z 2 (1 p)
n' .
2 p 0
Marge derreur absolue. Au lieu de sintresser la marge derreur relative, on peut sintresser la
marge derreur absolue, la demi-longueur de lintervalle de confiance
Taille dchantillon pour estimer une moyenne en contrlant lerreur absolue. Partant de (2.23) et
(2.29), tant donn un niveau de confiance fix et une marge derreur choisie, l et si on suppose N grand
on voit quon doit prendre un chantillon de taille n vrifiant
z 2 SyU
2
n (2.31)
l2
Taille dchantillon pour estimer une proportion en contrlant lerreur absolue. Partant de (2.26), tant
donn un niveau de confiance fix et une marge derreur choisie, l sur la proportion estimer, on voit
quon doit prendre un chantillon de taille n vrifiant
N p(1 p)
n l2
. (2.32)
p(1 p) + z2
(N 1)
z 2 p(1 p)
n . (2.33)
l2 (N 1)
Taille dchantillon pour estimer un total en contrlant lerreur absolue. Il est immdiat de transposer
ce quon a obtenu pour une moyenne un total. Si on doit estimer un total avec une marge derreur l, et
si on suppose N grand, on voit sur (2.25) que la condition devient :
N 2 z 2 SyU
2
n (2.34)
l2
Exemple Un club de photographes amateurs a 1800 membres. On veut estimer le nombre moyen de
pellicules utilises par an par membre. On sait que par le pass, la moyenne et lcart-type du nombre
de pellicules taient respectivement 6 et 4. On choisit un niveau de confiance de 95%. Quelle taille
dchantillon faut-il prendre pour estimer (1) le nombre moyen de pellicules avec une marge derreur
relative de 7% ? (2) le nombre total de pellicules avec une erreur absolue de 400 2 ?
2
2. Rponse : pour (1), on applique (2.29) : n 1.962 (4/6)
.072
= 348.44 arrondi 349. Pour (2), (2.34) donne n
(1800 1.96 4/400)2 = 77.79. En prenant un chantillon de 78 membres on estimera le nombre total de pellicules utilises
avec une marge derreur de moins de 400 pellicules, 95%.
2.6. ESTIMATION DUN RATIO 21
R est ce quon appelle un ratio, cest--dire le rapport de deux totaux sur une mme population.
Exemple 2. La proportion dlecteurs qui, dans une lection prsidentielle, choisissent un candidat
particulier est le rapport :
Nombre de votants qui choisissent le candidat / Nombre de suffrages exprims.
Cette proportion doit tre estime comme un ratio car la taille de la population, cest--dire le
nombre dlecteurs qui votent nest pas connue.
Cas du plan SI. On tire dans une population U de taille N un chantillon s suivant un plan SI(N, n) et
on observe yk et zk , k s. On estime le ratio, R, par le quotient des estimateurs des moyennes :
ys
R = (2.35)
zs
Nous admettrons provisoirement que la variance de cet estimateur sestime par :
1 1 2
var(
c R) = 2 (1 f ) Sy Rz,s
(2.36)
zs n b
Exemple numrique
data wolf;
input subregion wolf moose;
datalines;
1 8 190
2 15 370
3 9 460
4 27 725
5 14 265
6 3 87
22 CHAPITRE 2. PLAN SIMPLE SANS REMISE
7 12 410
8 19 675
9 7 290
10 10 370
11 16 510
;;;
Exemple 1 Au dbut du 19esicle, il nexiste pas en France de recensement, mais un rgistre des nais-
sances est tenu dans chaque commune. Partant de cette situation, pour estimer la population de la France,
Laplace considre un chantillon de communes, fait le recensement de leur population, mesure le rapport
R = population totale de ces communes/ nombre de naissances de ces communes
Considrant que ce rapport doit tre peu prs stable sur les communes il en dduit une estimation de la
population totale :
R nombre total de naissances en France.
Le nombre de naissances est une information auxiliaire : elle est connue pour toutes les communes de
France et elle est corrle avec la population.
Exemple 2 Un chalutier doit estimer le poids des poissons de taille suprieure une certaine longueur
dans un chalut pour dcider sil dcharge le chalut bord ou sil le rejette la mer. Pour faire cette
estimation, on peut videmment mesurer le poids de tels poissons dans un chantillon. La taille de la po-
pulation des poissons dans le chalut nest pas connue. Mais il est facile de peser le chalut et lchantillon.
Notons U la population des poissons dans le chalut, xk le poids du poisson k et yk tel que yk = le poids
du poisson k sil est de taille suprieure
P P 25cm, yk = 0 sinon. Comme il est facile de peser le chalut, on
peut galement estimer R = U yk / U zk . Enfin, on peut faire Plhypothse
P que, sur un chantillon s
tir dans le chalut suivant
P un plan alatoire simple, on doit
P avoir y
s k / s k ' R. Lestimation de ce
x
rapport multipli par U xk fournit une estimation de U yk .
2.7. ESTIMATION PAR RATIO 23
tyU
tyU = txU = txU R.
txU
Lestimateur par ratio de tyU est :
tyra = txU R.
b b
A un facteur constant prs (txU ), cest lestimateur dun ratio. On peut donc utiliser ce quon a racont
pour les ratios. Nous admettrons provisoirement quune estimation de var(b tyra ) est donne par :
x2U 2 2
var(tyra ) = N
1
1 2
(Sys 2RS b 2 S 2 ) = xU N 2
b yx,s + R 1
1 2
Sy
xs b . (2.37)
c b
x2s n N x2s n N Rxs
x2U
Il est important dobserver quau facteur prs, souvent proche de 1, lapproximation de la variance
x2s
ci-dessus est la variance du total des rsidus yk Rx
b k.
Exercice : Un quartier dans une certaine ville est form de 3000 mnages rassemblant 10 000 personnes.
Pour tudier lintrt dinstaller un dispensaire mdical dans le quartier, on veut estimer le nombre total
de consultations quont eu les personnes de ce quartier lan dernier. On veut un rsultat 10% maximum,
de la vraie valeur, avec un niveau de confiance de 95%. Un sondage prliminaire portant sur 10 mnages
donne les rsultats rassembls dans le tableau ci-dessous. Dterminer la taille dchantillon ncessaire
pour faire ltude avec la prcision requise.
Dans ce chapitre, nous tendons les rsultats obtenus dans le chapitre prcdent pour le plan simple
avec remise des plans de sondages gnraux
kk var(11k (S)) = k (1 k )
25
26 CHAPITRE 3. CAS GNRAL
f (1 f )
var(11k (S)) = f (1 f ) cov(11k (S), 1 l (S)) = (3.1)
N 1
Plan BE Pour tirer des individus suivant ce plan dans une population de taille N , on se donne comme
paramtre un nombre tel que 0 < < 1 et on tire des nombres k , k = 1, , N indpendants suivant
la loi uniforme sur (0, 1) (Unif(0, 1)). Si k < alors on inclut llment k dans lchantillon. On voit
que le plan BE donne des chantillons s de taille alatoire ns : on ne sait pas davance quelle sera la taille
de lchantillon tir. Elle varie de 0 N . On notera ce plan : BE().
On vrifie sans difficult que la loi de ns dans ce plan est binomiale de paramtres N et . Suppo-
sons connue la taille n de lchantillon ; lchantillon doit tre choisi parmi tous ceux de taille n. Tous
les individus ont les mmes chances dtre slectionns. On peut montrer, mais nous ladmettrons, que
conditionnellement la taille, la loi de probabilit des chantillons est celle du plan SI. On a ainsi une
description complte du plan BE.
Une
X utilisation des indicatrices dinclusion : Supposons par exemple quon doive calculer
premire
E wk yk , o les wk sont des poids connus et yk , k s sont les valeurs observes dans le sondage
s
suivant le plan p. Cette esprance
X est lesprance
X dun nombre alatoire de termes, ce nest donc pas la
somme des esprances. Mais wk yk = wk yk 1 k (s). Ceci est une somme de N termes, quel
s U
que soit lchantillon, et on peut crire :
X X X
E wk y k = E wk yk 1 k (S) = E (wk yk 1 k (S))
s U U
X X
= wk yk E(11k (S)) = wk yk k .
U U
Cette technique qui consiste remplacer une somme sur un ensemble alatoire par une somme sur un
ensemble certain, reviendra constamment dans ce cours.
Par exemple, elle permet
X de calculer lesprance mathmatique et la variance de la taille dun chan-
tillon. Comme nS = 1 k (S), on obtient :
U
X XX
E(nS ) = k var(nS ) = kl .
U U
Evidemment, pour un plan de taille fixe, la variance de la taille est nulle, ce qui entrane des relations sur
les kl que nous examinons maintenant.
Cas dun plan de taille fixe. Pour un plan de taille fixe les probabilits dinclusion vrifient les pro-
prits rassembles dans le lemme suivant.
3.1. SONDAGE PROBABILITS INGALES 27
[Lexercice qui suit et la dmonstration du lemme ne sont pas faire en premire lecture de ce chapitre.]
Exercice. Vrifier que les probabilits dinclusion du plan SI ont bien ces proprits.
X
Indications pour la dmonstration du lemme. On sait que k est lesprance mathmatique de la
U
PX
taille, do (3.2). Ensuite, la taille tant fixe, sa variance est nulle : kl = 0, on dtaille en
U
tenant compte de (3.2) et on obtient (3.3). Enfin on obtient (3.4) en exprimant que, pour un plan de taille
fixe, la covariance entre 1 k et la taille, est nulle.
Commentaire gnral. On peut se demander pourquoi on fait des plans de sondage probabilits in-
gales. En vrit, de tels plans nont aucun intrt quand on ne connat rien de la population. Mais on
dispose trs souvent dinformation auxiliaire sur la population. Cette information peut servir organiser
le tirage en tapes (plans de sondage complexes - plusieurs degrs, en plusieurs phases...), choisir
avec une plus grande probabilit certains individus. Les plans de sondage complexes sont constitus de
plans lmentaires qui sont trs souvent des plans SI. On verra ces questions dans les chapitres suivants.
Pour que cet estimateur soit sans biais, il faut donc que wk yk E(11k (s)) = yk , do le choix
1
wk =
k
et lestimateur ainsi dfini est :
X yk
tyU = b
b t = . (3.5)
s k
ty est appel estimateur par les valeurs dilates ou estimateur de Horvitz-Thompson. On supprime la
b
rfrence la population ou la variable quand il ny a pas dambiguit.
Les wk sont les poids de sondage. On interprte wk comme le nombre, pas ncessairement entier, din-
dividus de la population U reprsents par lobservation k de lchantillon. Dans les plans de sondage
complexes, un poids peut ne pas tre linverse dune probabilit dinclusion.
Exemple. Estimation du total dans un plan BE(). Lestimateur du total ty , par les valeurs dilates est :
1X
ty =
b yk .
s
X
Enfin, la taille N de la population scrit comme un total : N = 1. On peut donc lestimer sans
U
biais par
X 1
N
b= . (3.7)
s k
o kl = kl . Mais cet estimateur sans biais prsente quelques inconvnients : il peut prendre des
kl
valeurs ngatives (cf exercice), de plus les kl interviennent en dnominateur et si certains sont nuls, cette
formule nest pas applicable. Enfin, cette somme double peut tre difficile calculer. Cest pourquoi il
existe des formules dapproximation que nous verrons plus loin. Pour linstant, nous examinons ce qui
se passe dans un plan de taille fixe.
Variance de lestimateur par les valeurs dilates pour un plan de taille fixe. La variance (3.8) de
lestimateur du total scrit pour un plan de taille fixe (le montrer titre dexercice) :
1 XX
tyU ) =
var(b kl (yk yl )2 (3.10)
2 U
Lobservation faite aprs (3.8) sapplique ici aussi pour trouver un estimateur sans biais. Donc si les kl
sont positifs
1XX
var(
c b tyU ) = kl (yk yl )2 (3.11)
2 s
1. Exercice : vrifiez, ce nest pas difficile, que lestimateur (3.9) est bien sans biais.
3.2. ESTIMATION DUNE MOYENNE PAR VALEURS DILATES 29
Exemples
1 X yk2
var(
c b tyU ) =
s
Commentaires.
(1) Si un plan est de taille fixe il est clair que la covariance de deux indicatrices dinclusion est ngative :
si k est dans lchantillon, les chances pour un autre individu l dy tre diminuent. Chaque terme de
(3.10) est donc positif et il en est de mme pour lestimateur (3.11).
(2) Les estimateurs (3.9) et (3.11) ne prennent pas ncessairement les mmes valeurs.
(3) On voit sur (3.10) que si on avait yk constant alors la variance serait nulle. Supposons quil existe
une variable x > 0, connue pour chaque individu de U , telle que yk ' cxk pour une certaine constante
c > 0, alors il serait judicieux de choisir pour estimer ty , un plan de taille fixe avec k xk car
yk = yk /xk = c. Cest un exemple dutilisation dinformation auxiliaire pour dfinir le plan de sondage.
(4) Pour beaucoup de plans il est difficile de mettre en pratique (3.11). Aussi des approximation ont-elles
t tudies. Sappuyant sur des arguments thoriques, Brewer (2002) propose notamment lapproxima-
tion : X 1
var(
c
f b tyU ) = (c1 k )(yk btys )2 (3.13)
s k n
o
n1
ck =
n k
Ce choix de ck convient pour des plans de sondage pouvant donner une grande varit dchantillons.
Nous nessaierons pas de justifier cette expression mais a ne nous empchera pas de lutiliser pour
simplifier des estimations de variance dans diffrentes circonstances.
Observons que cest un rapport destimateurs linaires. Nous tudierons ses proprits dans le chapitre
consacr lestimation dun ratio. On utilise galement cet estimateur quand les k sont trs htrognes.
En effet, si lchantillon contient un individu qui a une trs faible chance de sortir, son poids est trs lev
et la moyenne risque dtre surestime.
Exemple Les caribous vivants sur la plaine ctire dAlaska, ont t compts partir dun avion
(exemple de Thompson). La rgion est -peu-prs rectangulaire et stend en direction Nord-Sud sur
une largeur de 286 miles. Elle a t partitionne par des lignes Nord-Sud distantes dun mile. 15 lignes
ont t tires selon un plan SI et davion on compte les caribous dans la zone stendant un demi-mile
de part et dautre de la ligne. Les nombres de caribou observs sont : 1, 50, 21, 98, 2, 36, 4, 29, 7, 15, 86,
10, 21, 5 et 4. Estimons le nombre total de caribous dans la zone et et la variance de cet estimateur.
Corrig. La population est forme des lignes (ou des bandes) quon peut tirer. Il y en a N = 286
(, 0.5, 1.5, , 285.5 miles dun bord). Notons yk le nombre de caribous dans la bande k ou vi-
sibles depuis la ligne k. La moyenne de lchantillon est y s = 25.93333 et Sys 2 = 919.0667. Do :
2 1 1
ty = 286 25.93333 = 7 416.932 ' 7 417 et var(
b c bty ) = 286 ( 15 286 )919.0667 = 4 748 879.
D FINITION. On appelle, effet plan (design effect, Deff) dun certain plan p, fournissant un estimateur
sans biais de ty , le rapport :
var(bt,p )
t ) =
Deff(p, b ,
var(t,SI )
b
Nous illustrons maintenant la technique en calculant le Deff du plan BE. Les estimateurs du total par
les valeurs dilates dans le plan SI(N, n) et dans le plan BE sont respectivement :
1X
t = N y s ,
b t =
b yk
s
Ils sont sans biais. Pour calculer le Deff du plan BE, il faudrait que les deux plans soient de mme taille.
Or le plan BE est de taille alatoire. Aussi nous dcidons de prendre le paramtre du plan BE tel que
lesprance de la taille de lchantillon dans le plan BE gale n. Dans ce plan E(ns ) = N , donc, n tant
2. http ://www.pisa.oecd.org/tech/chap12/b.htm
3. http ://unstats.un.org/unsd/HHsurveys/ch12draft.pdf
3.3. EFFET PLAN 31
fix, on choisit, = n/N . Dautre part, on a calcul la variance de lestimateur par les valeurs dilates
du total dans le plan SI (2.3) et dans le plan BE (3.12) :
1f 2 1 X 2
t ) = N 2
t = N y s , varSI (b SyU varBE (b
t ) = y .
U k
b
n
Par des manipulations de statistique lmentaire on obtient :
X 1 1
yk2 = (N 1)SyU
2
+ N (y U )2 = [1 + 2
]N SyU
U N (CVyU )2
On reporte cette expression dans la variance du plan BE et on remplace par n/N . Il vient :
varBE (b t ) 1 1 1
t ) =
Deff(BE, b =1 + 2
'1+ 2
.
varSI (t )
b N (CVyU ) (CV yU )
On note que ce Deff est toujours > 1. Cela na rien dtonnant puisque dans le plan BE, la taille est
alatoire et on peut donc slectionner un chantillon de taille trs petite, voire nulle. Ce Deff est une
fonction dcroissante de CVyU .
32 CHAPITRE 3. CAS GNRAL
Chapitre 4
E(Zi ) = ty .
et 2
X yk
var(Zi ) = pk ty .
pk
U
Notons V1 , la variance de Zi : 2
X yk
V1 = pk ty .
pk
U
1 Pm
tpwr
On voit que b est la valeur prise par Z = m i=1 Zi . Do on obtient :
1
E(b
tpwr ) = ty var(b
tpwr ) = V1 .
m
33
34 CHAPITRE 4. DEUX PLANS PARTICULIERS
t = ats
b (4.2)
Il ny a pas destimateur sans biais de la variance varSYS (b t ) pour le plan systmatique. On peut
sinspirer de lestimation de la variance dans le cas du plan SI. On pose :
2 1 X
Sys = (yk ysr )2 .
r
n1 s
r
36 CHAPITRE 4. DEUX PLANS PARTICULIERS
Exemple 1 Pour un sondage sur une zone gographique rectangulaire formes de parcelles rectangulaires
de dimensions constantes, il est intressant de faire un sondage systmatique, car on peut couvrir ainsi
tout le territoire.
Exemple 2 Pour mesurer le niveau du pesticide dieldrin sur une certaine portion de rivire, on a dcoup
le cours de la rivire en segments dgales longueurs puis chacun de ces segments en deux zones de sur-
faces voisines (rive gauche et rive droite). Ensuite par un plan systmatique on peut choisir un chantillon
de zones dans lesquelles on mesurera le pesticide. Voir lexemple numrique en fin de chapitre.
Exemple de mise en oeuvre pratique.
http://www.ats.ucla.edu/stat/sas/faq/svy_sas_rss.htm
Data Summary
Statistics
Std Error
Variable Mean of Mean Sum Std
Dev
------------------------------------------------------------------------
XI 4.500000 0.530548 729.000000
85.948822
------------------------------------------------------------------------
4.2. PLAN SYSTMATIQUE 37
Dcomposition de lANOVA
La dcomposition de la variance en variance inter groupe et variance intra groupe se rencontre en
ANOVA et dans beaucoup de mthodes statistiques. Ici un groupe est un chantillon possible dans un
tirage systmatique.
Notons ysr la moyenne arithmtique sur lchantillon. La somme des carrs totale,
X
SST = (yk y U )2 ,
U
t ) = N SSB
varSYS (b (4.8)
Lestimation par tirage systmatique sera donc dautant plus efficace que la variabilit interchantillons
est faible, ou, considrant la dcomposition de lANOVA, que la variabilit intra-chantillon est grande,
autrement dit que les chantillons sont htrognes.
On utilise deux mesures dhomognit des chantillons.
1 Le coefficient dhomognit , obtenu de la faon suivante. Considrons un modle dANOVA un
facteur prenant a niveaux (le facteur chantillon), estim sur la population U considre comme
un chantillon dune population infinie. Le coefficient de dtermination ajust de cette rgression 1
est :
SSW/(N a) N 1 SSW
=1 =1
SST /(N 1) N a SST
1. Indication : tout cours sur lanalyse de variance un facteur ou sur le modle linaire, contient les calculs ncessaires.
38 CHAPITRE 4. DEUX PLANS PARTICULIERS
= 1 quand la variabilit intra chantillons est nulle : dans chaque chantillon toutes les valeurs de
y sont identiques. Dans ce cas, un plan systmatique napporte rien par rapport un plan SI. Si ' 1,
lapproximation (4.6) est satisfaisante.
En rsum, un tirage systmatique sera efficace quand le pas de tirage, combin avec lorganisation
de la population donnent des chantillons trs htrognes. De faon complmentaire, on peut observer
que si le pas de tirage, combin avec lorganisation de la population donnent des chantillons forms
de valeurs qui fluctuent peu dans chaque chantillon, faire n observations de valeurs proches entre elles
nest pas trs efficace, car elles donnent une information redondante.
Bonnes pratiques.
1 Quand on ne dispose daucune information sur la population, on peut faire un graphique des valeurs
chantillonnes contre leur numro de tirage, pour voir leur volution.
2 Si lon a accs toute la population avant dy faire le tirage et quon na pas dautres informations sur
cette population, il est prudent den faire dabord un tri alatoire.
3 Si lon dispose dune information auxiliaire, par exemple une variable x, connue sur U telle que
yk ' a0 + a1 xk , il est recommand de trier la population suivant x avant de faire le tirage. Cela
augmente lhtrognit des chantillons.
Une autre criture de la variance est trs parlante. Remplaons dans (4.8), SSW par son expression
en fonction de et SST , on obtient lcriture alternative :
N
t ) = SST (1 + (n 1))
varSYS (b (4.10)
n
Lexpression parallle pour la variance de la moyenne est :
1 SST 1 2
varSYS (b
y) = (1 + (n 1)) ' SyU (1 + (n 1)) (4.11)
n N n
4.2. PLAN SYSTMATIQUE 39
Estimation de la variance
Nous avons dj signal quil ny a pas destimateur sans biais de la variance varSYS (b
t ) pour le plan
systmatique. Nous examinons maintenant quelques solutions alternatives.
Estimation de la variance inspire du cas du plan SI Nous avons dj examin les proprits de
lapproximation par la formule du plan SI, en fonction de lhtrognit des chantillons.
Tirages systmatiques rpts Si on peut rpter des tirages systmatiques avec diffrents points de
dpart, on obtient diffrentes estimations de la mme quantit (total ou moyenne) et on peut ensuite
dduire une estimation de la variance. Cest ce que nous illustrons maintenant pour lestimation de la
moyenne.
Etant donn la population de taille N , on doit tirer un chantillon systmatique de taille n. On peut
N
le tirer en une fois avec un pas de tirage a = ou bien tirer m chantillons systmatiques de taille
n
N
n0 = n/m et chacun avec un pas a0 = m .
n X
Chaque chantillon sj , j = 1, , m donne une estimation sans biais : y j = (1/n0 ) yk de la
sj
moyenne y U et une estimation de variance :
2 1 X
Sys = (yk y j )2 .
j
n0 1 s
j
Passons lestimation de la variance. On va distinguer deux cas selon que les points de dpart ont t
choisis avec ou sans remise.
Avec remise Les m points de dpart sont choisis indpendamment et un estimateur sans biais de la
y est
variance de b
m
1 X
var(
c by) = y)2
(y j b
m(m 1)
j=1
Sans remise Maintenant les m points de dpart sont choisis sans remise. Les y j sont des valeurs choi-
sies sans remise parmi a valeurs possibles. Utilisant notre connaissance du plan SI, on obtient
lestimateur sans biais de var(b
y) :
m
1 X
(1 f ) y)2
(y j b
m(m 1)
j=1
o f = m/a est le taux de sondage dans la population des points de dpart possibles.
yk ' yk+l
40 CHAPITRE 4. DEUX PLANS PARTICULIERS
= a2 (1 1/a)(y(h1)2a+r y(h1)2a+r+a )2 ,
tyU est
qui est lapproximation par plan SI. Enfin, lestimation de la variance de b
m
X
var(
c b tyU ) = a2 (1 1/a) (y(h1)2a+r y(h1)2a+r+a )2 ,
h=1
Enfin lestimation de la variance de la moyenne est :
m
X
var(
c b y U ) = (1/N )2 a2 (1 1/a) (y(h1)2a+r y(h1)2a+r+a )2
h=1
m
1 X
= (1 f ) 2 (y(h1)2a+r y(h1)2a+r+a )2
n
h=1
o f = n/N .
On peut tendre lide de ces strates fictives des strates glissantes et non disjointes.
Question. Quel est lintrt de former ces pseudo strates laide dlments que lon sait prendre des
valeurs proches 3 ?
Sondage stratifi
Dans cet e-thme nous tudions les plans de sondage stratifi et en particulier le plan simple stratifi
(STSI). Nous donnons les estimateurs de Horvitz-Thomson associs ce plan pour lestimation dun
total, dune moyenne et de la variance de ces estimateurs. Nous prsentons aussi diffrentes mthodes
pour laffectation de la taille dchantillon aux strates.
5.1 Introduction
Exemples
1 Une rgion contient un certain nombres dcoles primaires. On doit en constituer un chantillon. Si
lon fait un tirage simple dcoles dans la liste des coles de la rgion, que peut-il se passer ? On
peut obtenir par hasard :
1 surtout des coles de faible effectif ce qui biaiserait les rsultats si lon sintressait une va-
riable lie la taille de lcole, comme la dpense annuelle en lectricit par cole,
2 seulement des coles rurales, ce qui biaiserait les rsultats si la caractristique tudie dpend du
caractre rural/urbain de lcole, comme la proportion dlves utilisant les cars de ramassage
scolaire,
3 des coles rparties dans toute la rgion, sans quelles soient pour autant trs diffrentes, ce qui
occasionnerait des cots levs de collecte des donnes.
On voit sur cet exemple quon doit choisir un plan dchantillonnage qui tient compte autant que
possible, des diffrences entre niveaux moyens de la variable dtude et de la rpartition gogra-
phique de la population, dans diffrentes sous-populations quon appelle strates.
2 On doit estimer le chiffre daffaire total des entreprises dun certain secteur (on doit recourir un
sondage car les donnes compltes ne seront disponibles quau bout dun temps trop long par raport
aux dcisions prendre). Or les entreprises sont deffectifs trs variables et le chiffre daffaire est
li la taille de lentreprise. On voit que si lon prlve lchantillon par un plan simple, on aura une
grande variabilit de lestimateur avec par exemple un chantillon essentiellement form de petites
entreprises et une forte sous-estimation. On a donc intrt mesurer la variable chiffre daffaire
sur des entreprises de diffrentes tailles, cest--dire dcouper lensemble des entreprises en
strates dfinies partir de la taille et chantillonner dans les diffrentes strates. Tenant compte
de notre prcdente observation sur la variabilit, on voudrait chantillonner proportionnellement
plus dentreprises de grande taille que de petite taille. Le plan stratifi est un plan de sondage
qui tient compte de ces considrations. Cest une technique simple qui peut grandement amliorer
lefficacit.
41
42 CHAPITRE 5. SONDAGE STRATIFI
Pour complter la description de cet exemple, notons que la variable taille a servi faire des classes
de tailles homognes en vue davoir des entreprises de chiffre daffaire proche dans chaque classe
mais nest pas utilise autrement.
Caractristiques.
H
X
tyU = tyUh ,
h=1
H
X Nh
yU = y Uh .
N
h=1
Pour chaque strate Uh on choisit un plan de sondage, de probabilits dinclusion h,k indpendant des
plans des autres strates et on tire un chantillon sh , lchantillon total est s = H
S
h=1 sh . Lestimateur du
total est videmment la somme des estimateurs des totaux sur les strates. X
yk
On forme b th estimateur de Horwitz-Thompson (H-T) de tyUh : b th = h .
sh
5.3. PLAN STSI 43
Lestimateur de H-T par stratification de tyU est la somme des estimateurs sur les diffrentes strates :
H
X
tyU, =
b th .
b
h=1
H
X
varST (b
tyU, ) = var(b
th )
h=1
Nous examinons maintenant le plan stratifi avec plan SI dans chaque strate.
Echantillonnage. h {1, 2, , H}, on note nh leffectif quon choisit de tirer dans Uh , sh lchan-
tillon obtenu et fh = nh /Nh le taux de sondage dans la strate h. Sur Uh lestimateur du total est donc
Nh X
th =
b yk = Nh y sh ,
nh
ksh
de variance :
1 1
th ) = Nh2 (
var(b )S 2 ,
nh Nh yUh
X
2
o SyU = 1/(N 1) (yk y Uh )2 est la variance de y sur Uh . Lestimateur du total sur U est
h h
kUh
la somme des estimateurs des totaux sur les diffrentes strates :
H
X H
X
tU =
b th =
b Nh y sh (5.1)
h=1 h=1
H
X
varSTSI (b
tU, ) = var(b
tyUh h )
h=1
H
X 1 1
= Nh2 2
SyU . (5.2)
nh N h h
h=1
H
X 1 1
var
c STSI (b
tyU, ) = Nh2 2
Sys (5.3)
nh Nh h
h=1
Tenant compte de ce quon sait du plan SI, on voit que : est sans biais pour tyU , sa variance est estime
sans biais par (5.3).
44 CHAPITRE 5. SONDAGE STRATIFI
H
X Nh
yU =
b y sh (5.4)
N
h=1
o c0 est un cot (en Euros) fixe indpendant des units tires et ch le cot dune unit chantillonne
dans la strate h. Etant donn une enveloppe budgtaire de C Euros, on doit rpartir lchantillon de
manire minimiser la variance totale. Par la technique du multiplicateur de Lagrange (cf louvrage de
Till par exemple), ou par des techniques plus simples (cf louvrage de Srndal et al.), on obtient
r
Ah Nh SyU
nh proportionnel cest--dire nh h
ch ch
De cette proportionnalit on dduit les tailles optimales
r
Ah p
nh = (C c0 ) /(i Ai ci )
ch
Nh SyU 1
= (C c0 )( h ) PH
ch i=1 Ni SyUi ci
En particulier sil ny a pas de cot fixe et si les cots marginaux sont constants : c0 = 0, ch = 1 alors
la contrainte de cot total revient une contrainte de taille : n, et laffectation optimale est donne par
Nh SyUh
nh = n PH . (5.7)
i=1 Ni SyUi
Il faut donc chantillonner dautant plus dindividus dans une strate quelle est de taille leve (Nh grand)
ou quelle est trs disperse (SyUh grand). Il reste une difficult pour mettre en uvre cette ide : on ne
connat pas les SyUh . On va donc sintresser dautres affectations, bases sur une information partielle
ou approximative.
5.4. AFFECTATION AUX STRATES 45
On voit quelle revient laffectation optimale quand les coefficients de variation sont gaux :
SyUh
= cte h
y Uh
Cette affectation est optimale quand les cart-types dans les strates sont gaux. On lemploie parfois
quand on ignore tout des dispersions dans les strates.
Affectation x-optimale Supposons quon dispose dune variable auxiliaire : xk observe pour tout
k U et telle que :
yk ' 0 + 1 xk , k U
2
On voit que SyU ' 12 SxU
2 et quune affectation possible est :
h h
Nh SxUh
nh = n PH . (5.10)
i=1 N i SxU i
Complments.
1. Si dans une affectation optimale on obtient un nh0 > Nh0 alors on tire tous les individus de la
strate et on fait une affectation optimale de n Nh0 lments aux autres strates. La contribution
de la strate h0 la variance est nulle.
2. On ntudie pas dans ce cours le choix des strates. Pour les dfinir on peut avoir recours aux
techniques danalyse des donnes comme la classification quon met en uvre sur des variables
auxiliaires.
3. Souvent un mme sondage doit servir tudier plusieurs variables dtude. Plusieurs choix daf-
fectations sont possibles. Par exemple on peut choisir laffectation qui minimise une combinaison
linaire des variances (5.2). Pour deux variables dtude y1 et y2 , exprimes dans les mmes units,
ceci revient chercher les nh qui minimisent
H
X w1 Sy21 Uh + w2 Sy22 Uh
Nh2 avec w1 , w2 0, w1 + w2 = 1
nh
h=1
5.5 Poststratification
5.5.1 Dfinition de lestimateur poststratifi
Reprenons lexemple des revenus de la section 1. A dfaut de pouvoir prlever des chantillons s-
pars dhommes et de femmes on peut, une fois lchantillon prlev sans tenir compte du sexe, noter
le sexe et la variable dtude pour poursuivre lanalyse. On peut incorporer aprs chantillonnage la
connaissance des effectifs des sous-populations. Cette prise en compte des strates aprs chantillonnage
est appele post-stratification.
La diffrence essentielle par rapport (5.1) est que maintenant la moyenne y sh est un quotient de 2 v.a.
(par rapport au mcanisme de sondage) alors que dans le plan STSI, nh nest pas alatoire.
Pour la moyenne on a :
y postyU = H Nh
P
1 y U est estim sans biais par : b h=1 Wh y sh , avec Wh = N , part en effectif de la strate
Uh dans la population totale.
2 La variance de by postyU est :
X
2 2 1 1
var(by postyU ) = Wh SyUh E . (5.14)
nh Nh
h
1
Il ny a pas dexpression analytique pour E nh . Si on fait un dveloppement lordre 1 de
E n1h on obtient, voir ci-dessous :
X Nh
y postyU ) '
var(b S2 (5.15)
nN yUh
h
On estime ces variances en remplaant dans (5.15) et (5.14), les SyU2 par leurs estimations Sys2 .
h h
Remarque. Il peut arriver que certains nh soient 1 et il faut dans ce cas revoir la dfinition des strates.
5.5. POSTSTRATIFICATION 47
Approximation de E(1/nh ) On a rencontr dans (5.13) E(1/nh ). Cette esprance sapproche par un
dveloppement de Taylor lordre 1 ou 2 de 1/nh au voisinage de E(nh ).
Dtails.
P
1- Notons dabord que nh = kU 1 k (s) 1 k (Uh ). Comme on tire dans U suivant un plan SI, on obtient
n
E(nh ) = Nh = nWh ,
N
et
XX Nh 1
var(nh ) = 1 k (Uh ) 1 l (Uh )cov(11k (s), 1 l (s)) = = Nh f (1 f ) 1 .
k,lU N 1
n
o f = N.
2- Dautre part, le dveloppement lordre 2 de 1/x au voisinage de x0 6= 0 est :
1 1 x x0 (x x0 )2
' + .
x x0 x20 x30
Appliquons ce rsultat lapproximation de 1/nh , pour une certaine strate h et prenons lesprance
mathmatique des deux cts de la relation. Il vient :
2
1 1 var(nh ) N N N n N Nh
E( ) ' + 0 + = = + (5.17)
nh nWh n3 Wh3 nNh nNh N N 1
49