TD3 Stats 2010 Corrige PDF

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 12

TD L1 AES - Statistique descriptive 2010 Chapitre 3 : Statistiques permettant de rsumer une srie Corrig

Exercice 1 Ci-dessous, un tableau deffectif dans lequel les salaris sont distribus par ge et par tablissement. Ce tableau est issu du tableau exhaustif de lannexe 1 .

Les donnes de l'annexe sont disponible au format Excel : http://www.mazerolle.fr/Statistique-descriptive/TD2010/AnnexeTD2010.xlsx (ou xls)

Question 1 Calculer lge modal au niveau de lentreprise (tous tablissements confondus), ainsi quau niveau de chaque entreprise.

Le mode est la valeur ou la modalit la plus frquente. Lge tant un critre quantitatif, il prend diffrentes valeurs. Nous avons vu dans le TD 1 quil y avait en tout 42 ges de 18 ans inclus 59 ans inclus, mais que certains ges avaient un effectif nul (par exemple, il ny a aucun salari de 26 ans parmi la population des 130 salaris).

Dans ltablissement A, lge modal est unique. Il est de 27 ans. Il y a 5 salaris de 27 ans et cest donc la valeur 27 ans qui revient le plus souvent. Dans ltablissement B, lge modal est unique aussi : cest 18 ans, ge qui revient 7 fois. Dans, ltablissement C, il y a 8 modes : 19 ans, 20 ans, 25 ans, 28 ans, 29 ans, 34 ans, 42 ans et 59 ans. Dans ltablissement C, la srie des ges est multimodale. Au niveau de lentreprise entire (les 130 salaris), lge modal est unique, cest 18 ans (ge qui revient 10 fois en tout). Question 2 partir des chiffres donns dans le tableau de lexercice 1, calculer lge moyen des salaris de chacun des tablissements A, B et C, ainsi que lge moyen des 130 salaris (dans ce dernier cas, quels sont les deux mthodes de calcul ?). Lge moyen dans chaque tablissement se calcule en faisant la somme des produits de chaque ge par leffectif correspondant, puis en divisant cette somme par leffectif total de ltablissement. Pour connatre lge moyen au niveau des 3 tablissements pris ensemble, on peut procder de deux faons : Soit on fait la somme des produits de chaque ge par leffectif correspondant, puis on divise cette somme par leffectif total des 130 salaris. Soit on pondre lge moyen dans chaque tablissement par la proportion des effectifs de cet tablissement dans leffectif total et on additionne les 3 moyennes ainsi pondre. Si on procde cette faon, il faut conserver tous les chiffres aprs la virgule quand on calcule les ges moyens au niveau de chaque tablissement.

Le tableau ci-aprs montre le calcul des ges moyens par tablissement, ainsi que le calcul de lge moyen au niveau de lensemble par les deux mthodes.

Calcul des ges moyens

Lge moyen dans ltablissement A est de 33 ans. Il est pratiquement de 33 ans aussi dans ltablissement B. Dans ltablissement C, il est de 35,7 ans, presque 36 ans. Au niveau de lentreprise entire, lge moyen est gal 33,2 ans. Ce chiffre sobtient soit en faisant la somme de toutes les colonnes effectif x ge , soit en effectuant lopration suivante (formule de dcomposition de la moyenne) : (0,4615385 x 33,033333) + (0,3076923 x 31,55) + (0,2307692 x 35,7333333) = 33,2 4

Exercice 2 Ci-dessous, un tableau o les salaires sont distribus par tablissement et par sexe et classs par ordre croissant. Ce tableau est issu du tableau exhaustif de lannexe. Salaires annuels (en milliers deuros), par tablissement et par sexe

Question 1 Pour chacune des 6 sries de salaires, dterminer la mdiane (salaire mdian), ainsi que les quartiles et lintervalle interquartile. La mdiane est la valeur de la variable (et dans certains cas, la modalit du caractre) qui partage la population, dont les units statistiques ont pralablement t classes par ordre croissant des valeurs (de la variable considre), en deux sous populations gales. Mthode de calcul Toujours se ramener une srie : Si les donnes se prsentent sous forme d'une distribution, convertir la distribution en srie. Classer la srie : Une fois la srie constitue, l'ordonner en classant les chiffres par ordre croissant. On dsignera par k le rang dune valeur dans la srie Dterminer si la srie comprend un nombre pair ou impair dunits statistiques : Soit n le nombre dunits statistiques. Deux cas peuvent alors se prsenter : celui ou n est pair et celui ou n est impair.

a) n est pair Dans ce cas la mdiane est gale la moyenne arithmtique de a(k) et de a (k+1) o k est tel que n = 2k [k=n/2] et o a(k) et a (k+1) sont les valeurs associes k et k+1 b) n est impair Dans ce cas la mdiane est gale a (k+1) o k est dfini par (n-1)/2, soit n= 2k+1 o a(k+1) est la valeur associe k+1 et

Dans le tableau ci-aprs, lorsque dans une colonne, deux chiffres sont souligns en jaune, il faut faire la moyenne des deux pour obtenir la mdiane car la srie est impaire. Lorsquil ny a quun seul chiffre surlign en jaune, ce chiffre correspond la mdiane, car la srie est impaire .

* On obtient les rsultats suivants pour la mdiane :

Les quartiles sont les trois valeurs qui partagent la population, dont les units statistiques ont pralablement t classes par ordre croissant de valeurs (de la variable considre), en quatre sous populations de mme taille. On les dsigne respectivement par Q1, Q2 et Q 3. Dans ce qui suit, nous utiliserons la formule employe par le logiciel EXCEL de Microsoft Le calcul de Qi (i=1,2 ou 3) seffectuera ds lors au moyen la formule suivante : Qi = a(k) + [ f x [ a(k+1) - a(k)] ] Sachant que Q2=Me a dj t calcul, on aura donc seulement Q1 et Q3 calculer : Ce qui varie selon que lon calcule Q1 et Q3, cest k et f. Ces deux valeurs sont calcules partir de la formule : g = [(1/4) (n-1)] +1 pour Q1 et g = [(3/4) (n-1)] +1 pour Q3 Une fois que lon a dfinit g, on peut en dduire k , f et a(k) : k reprsente le rang de la valeur dans le classement et est gal la partie entire de g f est la partie dcimale de g (si g na pas de partie dcimale, f=0) a(k) est la valeur associe au rang k et a (k+1) est la valeur associe au rang k+1.

Appliquons cette formule la srie des 16 salaires fminins de ltablissement A. Pour Q1 : g = [(1/4)(16-1)]+1=4,75 Par consquent k= 4 et f = 0,75. On a donc a(k) = a(4) = 20 et a(k+1)=a(5) = 20. Ds lors : Q1 = 20 + [0,75 x (20-20)] = 20 Pour Q3 : g = [(3/4) (16-1)] +1 = [(3/4) (20-1)] + 1=12,25

Par consquent k= 12 et f = 0,25. On a donc a(k) = a(12) = 23 et a (k+1)=a(13)=24. Ds lors : Q3 = 23 + [0,25 x (24-23)] = 23,25

Reste calculer lintervalle interquartile : IIQ = Q3 Q1 = 23,25 20 = 3,25 Pour les 5 autres sries, la dmarche tant la mme, seuls les rsultats sont donns (voir le tableau ci-aprs ou figurent les rsultats pour les 6 sries) :

Question 2 Calculer la variance et la moyenne des salaires dans les 3 tablissements. A titre dexemple, montrons le calcul dtaill de la variance dans le cas des salaires des femmes du groupe C, soit la srie de valeurs {18, 18, 22, 24, 26, 27,113}. La formule de la variance est :

Sachant que xi reprsente ici les diffrentes valeurs possibles du salaire dans la srie. Le x surmont dune barre reprsente le salaire moyen qui est gal :

Puis calculons la variance laide dun tableau comme indiqu dans le chapitre 3 du cours :

En appliquant le mme calcul aux 6 sries du tableau, nous obtenons les 6 variances demandes.

Question 3 Sachant que la variance totale et la moyenne totale des salaires au niveau de lentreprise (130 salaris) sont respectivement gales 675,206213 et 32,038462, appliquer la formule de dcomposition de la variance des salaires entre les six groupes, afin de montrer quel pourcentage de la variance totale sexplique par la variance lintrieur des groupes (intra-groupe) et quel pourcentage de la variance sexplique par la variance entre les groupes (intergroupes). Calculer aussi lcart-type total et le coefficient de variation total. La variance totale des salaires peut se dcomposer ainsi (voir le chapitre 3 du cours) : Variance totale = Composante intra population + Composante inter population La composante intra population est la moyenne pondre des variances de chaque groupe et se calcule comme suit : Composante intra : (nAF/n) V(AF)+ (nAH/n) V(AH) + (nBH/n) V(BF)+ (nBH/n) V(BH) + (nCF/n) V(CF)+ (nCH/n) V(CF) O nAF+ nAH + nBF+ nBH + nCF+ nCH = n (par exemple nAF reprsente le nombre de salaris fminins de ltablissement A, nAH le nombre de salaris masculins de ltablissement A, etc.) et o V(AF), V(AH), V(BF), V(BH), V(CF), V(CH) sont les variances des salaires dans chaque groupe. Dans notre exemple, cela donne (en remplaant les V(AF), V(AH), etc. par les valeurs calcules la question prcdente) : (16/130)V(AF) + (44/130)V(AH)+(16/130)V(BF)+(24/130)V(BH) +(7/130)V(CF)+(23/130)V(CH)= 651,703834 La composante inter population est la variance pondre des salaires moyens de chaque groupe et se calcule comme suit : Composante inter : (nAF/n) (salaire moyen des femmes du groupe A salaire moyen total)2+
(nAH/n) (salaire moyen des hommes du groupe A salaire moyen total)2+ (nBF/n) (salaire moyen des femmes du groupe B salaire moyen total)2+ (nBH/n) (salaire moyen des hommes du groupe B salaire moyen total)2+ (nCF/n) (salaire moyen des femmes du groupe C salaire moyen total)2+ (nCH/n) (salaire moyen des hommes du groupe C salaire moyen total)2

10

Dans notre exemple, cela donne : (16/130)(29,1875 - 32,0384615) + (44/130) (31,3863636 - 32,0384615) + (16/130) (22 - 32,0384615) + (24/130) (34,2083333 - 32,0384615) + (7/130) (35,4285714 - 32,0384615) + (23/130) (38,9565217 - 32,0384615) = 23,5023787 On vrifie que : 651,703834 + 23,5023787 = 675,206213 On peut facilement calculer le pourcentage de chaque composante dans la variance totale et lon voit que cest la variance des salaires lintrieur des groupes qui explique lessentiel de la variance totale (96,5%).

Ces calculs sont rsums dans le tableau ci-aprs. On peut ainsi calculer Ecart-type total des salaires Lcart-type total est gal la racine carre de la variance totale. Ecart-type total = Racine carre (675,206213) = 25,9847304 Coefficient de variation total Le coefficient de variation total est gal lcart-type total divis par la moyenne totale et multipli par 100 : (25,9847304/32,0384615)*100=81,1048007

11

12

Vous aimerez peut-être aussi