Analyse Donnees
Analyse Donnees
Samuel MAYOL
S. Mayol - Lanalyse des donnes
UTILISATIONS
La statistique est lensemble des mthodes scientifiques partir desquelles sont recueillies, prsentes, rsumes et analyses les donnes. Deux niveaux: Stat. Descriptive sert dcrire des ensembles nombreux et dgager lessentiel de linformation qui en rsulte. Stat. Thorique permet dnoncer et dlaborer des lois.
S. Mayol - Lanalyse des donnes
I - TABLEAUX STATISTIQUES
1) CAS D'UNE SEULE VARIABLE Le tableau brut se prsente sous la forme suivante: Le nombre d'individus observ tant en gnral important, le tableau prcdent ne permet pas d'analyser l'information obtenue. Il est donc ncessaire de crer un tableau plus synthtique o les observations identiques (possdant la mme modalit) ont t regroupes.
S. Mayol - Lanalyse des donnes
Pour une variable qualitative, les modalits sont susceptibles dtre classes en groupes dindividus. Pour une variable quantitative, les modalits ne sont pas classes Exemple: le sexe est une variable qualitative alors que lge ne lest pas. Nanmoins toutes les variables peuvent tre transformes en variable qualitative, par regroupement. Ainsi, le variable ge peut permettre une classification des individus en classes dge.
On dsire crer un tableau appel tableau de contingence donnant le nombre d'individus possdant simultanment la modalit i de variable1 et la modalit j de variable2 qui se prsentera sous la forme suivante:
II - TENDANCE CENTRALE
1) MODE C'est la valeur observe d'effectif maximum. Variable discrte: classer les donnes par ordre croissant. Celle d'effectif maximum donne le mode. Il est fortement conseill d'utiliser le diagramme en btons pour dterminer le mode. En effet, deux valeurs conscutives xi , xi+1 peuvent avoir le mme effectif maximum; on parlera d'intervalle modal [xi , xi+1]. Il peut aussi y avoir un mlange de deux populations qui conduit un diagramme en btons o apparaissent deux bosses; on considrera deux modes. Il est dconseill, sauf raison explicite, d'envisager plus de deux modes. Variable classe: la classe modale correspond la classe ayant l'effectif maximum. Il est fortement conseill d'utiliser l'histogramme pour dterminer le mode. Comme pour le cas discret, on peut avoir deux classes modales. Toutes les valeurs de la classe pouvant priori se raliser, on ne se contentera pas de dterminer la classe modale. Une des valeurs de cette classe sera le mode. Certains auteurs prconisent par simplicit de prendre le centre de la classe modale. Il est prfrable cependant de tenir compte des classes adjacentes de la manire suivante:
2) MEDIANE Les valeurs tant ranges par ordre croissant, c'est la valeur de la variable qui spare les observations en deux groupes d'effectifs gaux. Variable discrte: la dtermination peut s'obtenir partir du tableau statistique en recherchant la valeur de la variable correspondant une fonction cumule gale n/2 (effectif cumul) ou 12 (frquence cumule). Il est encore plus facile de lire sur les graphiques cumulatifs les abscisses des points d'ordonne n/2 (effectif cumul) ou 12 (frquence cumule). Si tout un intervalle a pour image n/2 ( 12 pour la frquence), on parlera d'intervalle mdian (on peut prendre le milieu de l'intervalle comme mdiane)
Variable classe: l'abscisse du point d'ordonne n/2 ( 12 pour la frquence)se situe en gnral l'intrieur d'une classe. Pour obtenir une valeur plus prcise de la mdiane, on procde une interpolation linaire. La valeur de la mdiane peut tre lue sur le graphique ou calcule analytiquement.
3) MOYENNE ARITHMETIQUE Si xi sont les observations d'une variable discrte ou les centres de classe d'une variable classe,
La moyenne arithmtique est un paramtre de tendance centrale plus utilis que les autres de par ses proprits algbriques: a) Pour plusieurs populations d'effectifs n1, n2, ....., nk, de moyennes respectives moyenne globale = moyenne des moyennes
4) QUANTILES
Ce sont des caractristiques de position. Il y a 1 mdiane M qui spare les observations en 2 groupes d'effectifs gaux 3 quartiles Q1, Q2, Q3 qui sparent les observations en 4 groupes d'effectifs gaux 9 dciles D1, D2, ..., D9 qui sparent les observations en 10 groupes d'effectifs gaux 99 centiles C1, C2, ..., C99 qui sparent les observations en 100 groupes d'effectifs gaux La dtermination de ces caractristiques est identique celle de la mdiane. Les quartiles sont obtenus lorsqu'on a cumul 25, 50, 75% de la population Les dciles sont obtenus lorsqu'on a cumul 10, 20,...., 90% de la population Les centiles sont obtenus lorsqu'on a cumul 1, 2,...., 99% de la population Remarque: la notion de dciles et de centiles n'a de sens que s'il y a beaucoup d'observations et donc essentiellement pour une variable classe.
S. Mayol - Lanalyse des donnes
III - DISPERSION
Comme leur nom l'indique, ces caractristiques essayent de synthtiser par une seule valeur numrique la dispersion de toutes les valeurs observes. 1) TENDUE C'est la diffrence entre la plus grande et la plus petite observation 2) INTERVALLE INTER-QUARTILE C'est la diffrence entre le troisime et le premier quartile
3) VARIANCE ET ECART-TYPE
Si xi sont les observations d'une variable discrte ou les centres de classe d'une variable classe, la variance
On utilise plus couramment l'cart-type qui est la racine carre de la variance et qui a l'avantage d'tre un nombre de mme dimension que les donnes (contrairement la variance qui en est le carr) La variance est un paramtre de dispersion plus utilis que les autres de par ses proprits algbriques:
4) COEFFICIENT DE VARIATION
C'est un coefficient qui permet de relativiser l'cart-type en fonction de la taille des valeurs. Il permet ainsi de comparer la dispersion de sries de mesures exprimes dans des units diffrentes
IV - LA CORRELATION
Lorsqu'on observe deux variables quantitatives sur les mmes individus, on peut s'intresser une liaison ventuelle entre ces deux variables. Le coefficient de corrlation r permet de mesurer un lien entre deux variables continues X et Y, sans que celui-ci ne soit forcment un lien de causalit. Il est calcul avec la formule.
COV (X;Y)
Linterprtation de la valeur de r est la suivante r proche de 0 = pas de lien entre X et Y r proche de 1 = lien fort et dans le mme sens r proche de -1 = lien fort en sens contraire Exemple On mesure sur 7 enfants leur ge et le nombre dheures passes par jour devant la tlvision. Observe t-on un lien ?
X= AGE Y= TEMPS 5 2 6 2 7 2 13 4 15 3 18 3 10 2
X Y X2 Y2 XY
5 2 25 4 10
6 2 36 4 12 X Y X2 Y2 XY
7 2 49 4 14
Do VAR (X) = 132,57-10,572 = 20,85 VAR (Y) = 7,14-2,572 = 0,54 COV (X,Y) = 29,57 - 10,57x2,57 = 2,4 r = 0,72 La corrlation est donc assez forte, et le temps pass devant la tlvision semble augmenter avec lge. Cependant, il faut savoir si ce rsultat est significatif, cest dire si ce coefficient de corrlation est significativement diffrent de 0. Le test z de Fisher permet de le savoir. Dans ce test, on cherche savoir si le coefficient de corrlation es t diffrent ou non dune certaine valeur r0 = 0
S. Mayol - Lanalyse des donnes
Pour effectuer ce test, on calcule la quantit (Z-Z0)(n-3) o n est le nombre dindividus et 1+r0 1-r0 1+r et Z0 = 0,5Ln 1-r Si cette quantit est suprieure 2, les deux coefficients de corrlation r0 et r sont significativement diffrents lun de lautre.
Z0 = 0,5Ln
Ici Z = 1,8 Le coefficient de corrlation 0,72 nest donc pas significativement diffrent de 0, ce qui signifie que le lien entre lge et le temps pass devant la tlvision nest pas significatif sur cet chantillon. La raison cela est bien sr la taille beaucoup trop faible lchantillon S. Mayol -de Lanalyse des donnes
IV - LA REGRESSION
Faire une rgression linaire entre une variable expliquer et des Variables explicatives X1, X2, X3, , cest trouver la meilleure quation du type Y = a1X1+a2X2+a3X3++anXn+b Le t de Student permet de savoir si cette variable est significative. Elle lest lorsque la valeur absolue de t est suprieure 1,96.
VI - LE KHI DEUX
Le test du khi 2, not c 2 , permet de savoir si un lien observ entre deux variables est significatif. Pour utiliser ce test, les variables doivent tres qualitatives. Testons par exemple le lien entre le genre des consommateurs et la possession dun vtement de marque Dyna, spcialise dans le sport.
Possdent un Dyna Ne possdent pas de Dyna
Total
10 20 30
40 30 70
50 50 100
S. Mayol - Lanalyse des donnes
Ce tableau indique, par exemple, que 20 femmes possdent un Dyna La proportion de femmes qui possdent un Dyna est donc de 40%. Chez les hommes, elle est de 20%. Les femmes semblent donc plus susceptibles dacheter cette marque. Toutefois cette diffrence observe entre hommes et femmes pourrait uniquement rsulter de fluctuations engendres par un chantillon trop petit. Il faut donc vrifier que cette diffrence nest pas due lchantillonnage. c 2 =n
cases
-1
O case = effectif de chacune des 4 cases du tableau ligne et colonne = ligne et colonne du tableau o se trouve cette case n = nombre total dindividus
2=100
402 50X70
302 50X70
102 50X30
202 50X30
-1
c 2 = 4,76
Le lien entre deux variables est statistiquement significatif quand Le c 2 calcul est suprieur au c 2 critique, qui dpend de la taille du tableau donn. Quand les deux variables ont chacune deux modalits, comme cest Le cas dans cet exemple, le degr de libert v est gal (nombre de lignes -1) X (nombre de colonnes -1) Ici (2-1)X(2-1) = 1 Avec un v=1, on obtient un c 2 critique = 3,84
Le test du c 2 permet galement de vrifier sil y a accord entre des effectifs issus de la ralit et des effectifs supposs partir dune thorie. Dans ce cas on calcul les effectifs thorique de chaque phnomne observ. Le calcul du c 2 seffectue selon la formule c 2 cal =
Exemple : les donnes suivantes concernent la consommation dun jus de fruit auprs dun chantillon de 220 femmes.
S. Mayol - Lanalyse des donnes
0-1 enfant
regulirement
occasionnellement
2 enfants 30 50 40 120
+2 ans 8 45 10 63
5 20 12 37
2 enfants
+2 ans
Total
regulirement
occasionnellement
8* 19 19 37
23 63* 34 120
12 33 18* 63
43 115 62 220
* 37x19,5% = 8
* 120x52,3% = 63
* 63x28,2% = 18
(10-12)2 (34-40)2 (18-10)2 = 14,79 + + 10 34 18 Le nombre de degrs de liberts ici est gal 4. La lecture de la table du de Pearson indique que la probabilit dindpendance est infrieure 1%. Le nombre denfants explique bien la propension acheter des jus de fruits.
L'analyse en composantes principales est une technique de statistique descriptive qui calcule les axes principaux du nuage des observations regroupes selon les modalits de la variable valuer. Les cartes factorielles sont des reprsentations graphiques issues de cette analyse. Ce sont des graphiques en deux dimensions, chacune reprsentant un des axes. Les critres d'valuation et les modalits de la variable valuer sont positionnes sur ce graphique. L'interprtation de leur position relative donnera des indications sur les rapport qu'entretiennent les variables.
Le pourcentage de variance qui caractrise chacun des axes est indiqu au cot de chacun des axes. La fonction Choisir les axes permet de modifier les composantes de la carte. L'analyse en composantes principales suppose le calcul pralable des coefficients de corrlations entre deux couples de critres. On peut galement prsenter ces coefficients sous la forme de la Matrice des corrlations ou du Diagramme des corrlations (graphique dans lequel les variables corrles sont relies par un trait dont l'paisseur est fonction du coefficient de corrlation).
SECURITE
Nb. cit.
Frq.
Non rponse 25 12,5% Pas du tout 7 3,5% Plutt non 17 8,5% Moyennement 61 30,5% Plutt oui 45 22,5% Tout fait 45 22,5% TOTAL OBS. 200 100% Moyenne = 3,59 Ecart-type = 1,09 CONFORT Nb. cit. Frq.
Non rponse 25 12,5% Pas du tout 4 2,0% Plutt non 14 7,0% Moyennement 69 34,5% Plutt oui 78 39,0% Tout fait 10 5,0% TOTAL OBS. 200 100% Moyenne = 3,43 Ecart-type = 0,81
Non rponse 25 12,5% Pas du tout 5 2,5% Plutt non 11 5,5% Moyennement 85 42,5% Plutt oui 69 34,5% Tout fait 5 2,5% TOTAL OBS. 200 100% Moyenne = 3,33 Ecart-type = 0,76
CONFORT
86.2% de la variance est explique par les deux axes reprsents. Chaque observation est reprsente par un point.
1,00 0,42
1,00
La carte montre les positions des 3 critres et les coordonnes des 175 observations.
La carte montre les positions des 3 critres et les coordonnes des 175 observations.
Femme Homme
Oui
F1 F2 F3 F4 F5 S1 S2
F1 15 5 10
F2 52 27 25
F3 19 9 10
F4 17 8 9
F5 S1 S2 - 5 10 - 27 25 - 9 10 - 8 9 65 37 28 37 86 28 - 82
La carte montre les positions des 7 modalits et les coordonnes des 168 observations. 42.7% de la variance est explique par les deux axes reprsents..
Le tableau est le tableau des effectifs (tableau de Burt) pour les 7 modalits. Les non-rponses ont t ignores. F1 : Oui F2 : Sans doute F3 : Probablement pas F4 : Non F5 : Ne sait pas S1 : Homme S2 : Femme
Le tableau donne, pour les 2 premiers axes factoriels, les contributions relatives (positives et ngatives) des modalits. Les non-rponses ont t ignores.