Cours Acp 2019 2020
Cours Acp 2019 2020
Cours Acp 2019 2020
0,5
F2 (33,33 %)
II.2. Les résultats d'une ACP et leur utilisation pour la synthèse de l'information contenue dans un fichier de données
Pour mieux voir la différence d'utilisation d'une ACP avec une méthode de régression, reprenons les données sur les stations de
ski de Savoie. Nous verrons au fur et à mesure des résultats comment on fait l'interprétation d'une ACP.
II.2.1. Les statistiques simples et la matrice de corrélation
Tout d'abord, l'analyse des statistiques simples (moyenne, écart-type, quartiles, coefficient de variation, asymétrie, aplatissement)
permet de voir si les données sont correctement réparties. En effet, des données présentant une asymétrie ou un étalement
importants méritent une attention particulière, pour éventuellement détecter des valeurs aberrantes, entre autres.
Coefficient Asymétrie Aplatisseme
Echantillon Minimum Maximum 1er Quartile Médiane 3ème Quartile Moyenne Ecart-type (n) de variation (Pearson) nt (Pearson)
prixforf 42,000 160,000 81,750 95,500 140,000 104,688 32,096 0,307 0,316 -0,884
altmin 500,000 1850,000 1137,500 1400,000 1550,000 1322,813 328,484 0,248 -0,417 -0,263
altmax 1600,000 3450,000 2275,000 2600,000 2837,500 2566,750 479,913 0,187 -0,210 -0,675
pistes 4,000 129,000 26,000 34,000 71,000 50,063 33,454 0,668 0,953 -0,187
kmfond 0,000 80,000 9,500 22,000 36,500 27,500 22,757 0,828 0,988 -0,069
remontee 4,000 110,000 17,000 23,000 45,750 33,813 25,229 0,746 1,376 1,305
Elle nous permet de voir les liens les plus significatifs entre variables, prixforf altmax
positifs ou négatifs. On peut tracer à partir de cette matrice un schéma
des corrélations. Puisque toutes les corrélations significatives (en gras) pistes remontee
sont positives, on peut faire un schéma comme suit :
altmin kmfond
On voit ainsi mieux que les variables prixforf, altmax, pistes et remontee sont toutes corrélées positivement deux à deux, alors
que altmin et kmfond ne paraissent pas liées à d'autres caractéristiques. Donc pour cet ensemble de stations, plus l'altitude max
est élevée, plus le nombre de pistes, le nombre de remontées et le prix du forfait sont élevés.
Prenons, pour compléter notre idée du evie fecondite gini.revenu sco1519 salmoy ecartHF tx.diplome mortinf
schéma des corrélations, un autre evie 1.000 -0.027 -0.355 0.072 0.747 -0.061 0.509 -0.551
exemple, où certaines corrélations sont fecondite -0.027 1.000 0.334 -0.544 0.027 0.020 0.096 0.243
significativement négatives. C'est le gini.revenu -0.355 0.334 1.000 -0.471 -0.488 0.293 -0.297 0.644
cas pour les données démographiques sco1519 0.072 -0.544 -0.471 1.000 0.205 -0.149 0.320 -0.611
salmoy 0.747 0.027 -0.488 0.205 1.000 -0.156 0.617 -0.494
dans les pays de l'OCDE.
ecartHF -0.061 0.020 0.293 -0.149 -0.156 1.000 -0.062 0.047
tx.diplome 0.509 0.096 -0.297 0.320 0.617 -0.062 1.000 -0.425
mortinf -0.551 0.243 0.644 -0.611 -0.494 0.047 -0.425 1.000
Voici la matrice des corrélations entre Variables SAU PBS évolPBS m40 femmes céréales partSAU forêt
les variables : SAU 1 0,322 0,018 0,302 -0,276 0,446 0,535 -0,140
PBS 0,322 1 0,437 -0,184 -0,156 0,622 0,277 -0,491
évolPBS 0,018 0,437 1 -0,256 -0,110 0,161 0,049 -0,204
m40 0,302 -0,184 -0,256 1 -0,286 -0,284 0,334 0,039
femmes -0,276 -0,156 -0,110 -0,286 1 0,027 0,188 0,059
céréales 0,446 0,622 0,161 -0,284 0,027 1 0,388 -0,366
partSAU 0,535 0,277 0,049 0,334 0,188 0,388 1 -0,603
forêt -0,140 -0,491 -0,204 0,039 0,059 -0,366 -0,603 1
et le schéma des corrélations, disposé en 2 colonnes de variables, les corrélations positives sont intra-colonnes :
évolPBS m40
m40
céréales
partSAU
Valeur propre
80
axe
Remarque. Il existe d'autres règles de choix du nombre d'axes. La règle de l'éboulis combinée avec celle de Kaiser est une des
meilleures. En effet, on commence par regarder combien de valeurs propres sont supérieures à la moyenne. Puis on regarde si la
dernière valeur propre retenue (supérieure à la moyenne) est suffisamment éloignée de celle qui la suit (inférieure à la moyenne).
Si oui, on reste sur la décision de la règle de Kaiser, si non, on coupera au saut plus important le plus près.
La prise en compte de la part d'inertie expliquée peut faire pencher la balance vers plus d'axes ou moins d'axes que ce que la
règle de Kaiser amène.
II.2.3. Les représentations graphiques des individus et des variables
On a déjà vu que les variables étaient représentées par des cercles de corrélation, et les individus par des nuages de points.
Coordonnées des variables et représentation graphique :
Coordonnées des variables :
Variables (axes F1 et F2 :
F1 F2 F3 F4 F5 F6
74,00 %)
prixforf 0,926 0,107 -0,079 -0,106 0,336 -0,036
altmin -0,084 0,825 0,475 -0,294 -0,032 0,009
altmax 0,640 0,543 -0,033 0,540 -0,059 -0,004
1
pistes 0,952 -0,080 -0,123 -0,161 -0,103 0,187 altmin
0,75
kmfond 0,361 -0,487 0,779 0,158 0,026 0,014 altmax
0,5
F2 (20,79 %)
F2 (20,79 %)
1 ValCenis StMartin
LesMenuires
StSorlin
LaNorma
LesKarellis Tignes
Valmeinier
Valloire
Pralognan
LaRosière
0
StFrancois Valmorel
LeCorbier
Bessans Méribel
Bellecombe
Crest-Voland LesArcsLaPlagne
-1
Aussois LaTaniaCourchevel
Flumet
-2 Arèches
LesSaisies
LesAillons
-3 -2 -1 0 1 2 3 4 5
F1 (53,21 %)
II.3.1. Imaginer un tableau de données sur lequel on peut réaliser une ACP. Décrire les variables et les individus. Poser une
question pertinente à laquelle on pourrait répondre par cette ACP.
II.3.2. Quelle est la différence entre une ACP réduite et une ACP non réduite ?
II.3.3. Décrire ce qu’est une valeur propre. Citer au moins deux propriétés de ces valeurs propres dans une ACP réduite.
II.3.4. Quels sont les deux principaux types de graphique que l’on représente dans un résultat d’ACP ?
II.3.5. Pourquoi analyse-t-on les corrélations entre les composantes principales et les variables initiales ?
II.3.7. Décrire ce qu’est le cosinus carré pour une variable, puis pour un individu.