Cours Acp 2019 2020

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 8

IUT STID Carcassonne – Cours analyse des données –ACP p 1/8

ANALYSE DES DONNEES


II. ANALYSE EN COMPOSANTES PRINCIPALES
Sylvie Viguier-Pla

II.1. Les données, le but de l'ACP et les étapes


II.1.1. Les données, présentation par l’exemple
L'ACP est une méthode permettant de visualiser de façon synthétique un ensemble de variables quantitatives mesurées sur un
ensemble d'individus, et de voir comment les individus se positionnent dans les liens entre ces variables.
Le tableau des données se présente comme celui destiné à une étude par régression. C'est le but de la méthode qui diffère, puisque,
contrairement à la régression, il n'y a pas de variable à expliquer, mais un ensemble de variables à synthétiser.
Considérons pour commencer un exemple simple de tableau de données (avec p=3 et n=4) : élève math français anglais
e1 0 2 3
e2 0 0 3
e3 4 2 1
Les étapes de l'ACP sont les suivantes e4 4 0 1

données de départ données centrées données réduites composantes principales


E M F A centrage = E Mc Fc Ac réduction = E Mr Fr Ar rotation = E C1 C2 C3
e1 0 2 3 soustraction e1 -2 1 1 division par e1 -1 1 1 multiplication e1 -racine(2) 1 0
e2 0 0 3 de la e2 -2 -1 1 l'écart-type e2 -1 -1 1 matricielle e2 -racine(2) -1 0
e3 4 2 1 moyenne e3 2 1 -1 e3 1 1 -1 par une e3 racine(2) 1 0
e4 4 0 1 e4 2 -1 -1 e4 1 -1 -1 "matrice de e4 racine(2) -1 0
moy 2 1 2 moy 0 0 0 moy 0 0 0 rotation" moy 0 0 0
var 4 1 1 var 4 1 1 var 1 1 1 var 2 1 0
nuage (M,F) : (à tracer)

On retiendra de ces étapes que :


- Des données de départ, où les lignes sont les individus et les colonnes des variables, un ensemble d'étapes fait arriver au tableau
des composantes principales, de même nombre de lignes et de colonnes que le tableau de départ, les lignes étant toujours les
individus de départ, mais les colonnes n'ont plus la même signification, elles sont chacune un résumé des variables de départ.
- L'inertie totale du nuage des individus (qui est un nuage dans un espace à p dimensions), est égale à la somme des variances
des variables. Elle est la même pour le tableau de données réduites (c'est-à-dire p) que pour le tableau des composantes
principales.
- Les variances des composantes principales sont appelées valeurs propres. Elles sont ordonnées dans l'ordre décroissant.
On appelle aussi les composantes principales des "axes", "dimensions", "facteurs". Le vocabulaire qu'on emploiera, qui a une
signification bien précise dans un contexte plus mathématique, utilisera indifféremment ces termes pour désigner la même notion,
c'est-à-dire les différents résumés de l'ensemble des variables.
On représente graphiquement les Observations (axes F1 et F2 : 100,00
Variables (axes F1 et F2 :
variables par un cercle des %)
100,00 %)
corrélations, et les individus par un
nuage de points, ce qui donne les F
1
graphes ci-contre. 0,75
1,5
e1 e3
Une corrélation entre deux variables 1
F2 (33,33 %)

0,5
F2 (33,33 %)

pouvant être vue comme le cosinus 0,25 0,5


de l'angle entre ces deux variables, 0 A M
0
les angles entre les variables dans le -0,25
-0,5 -0,5
cercle des corrélations permet de
-0,75 -1
retrouver le fait que les variables A e2 e4
-1
et M ont une corrélation –1 entre -1-0,75-0,5-0,25 0 0,250,50,75 1 -1,5
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
elles, et que F est "orthogonal" à A et
M, c'est-à-dire de corrélation nulle F1 (66,67 %) F1 (66,67 %)
avec A et M.
L'interprétation des axes à partir d'un cercle des corrélations se fait de la manière suivante :
L'axe 1, qui est corrélé positivement avec M et négativement avec A, est un axe qui oppose les élèves meilleurs en M et moins
bons en A (qui seront ceux de droite sur le nuage) aux élèves de caractéristique opposée (à gauche).
L'axe 2, qui est corrélé positivement avec la variable F, ordonne les élèves selon leur importance pour cette variable. Ceux du
bas du nuage seront ceux de moins bonne note, et ceux du haut de meilleure note en F.
Dans cet exemple simple, on retrouve sur l'axe 1 le fait que les élèves e1 et e2 sont les moins bons en M et les meilleurs en A,
contrairement aux élèves e3 et e4, et sur l'axe 2 le fait que les élèves e2 et e4 sont les moins bons en F, et e1 et e3 les meilleurs.
D'autres éléments d'aide à l'interprétation seront utiles dans des cas plus complexes (et complets).
II.1.2. ACP réduite et ACP non réduite.
IUT STID Carcassonne – Cours analyse des données –ACP p 2/8
Dans l’exemple ci-dessus, l’ACP a consisté à pratiquer une rotation du nuage des individus mesurés avec des variables
préalablement réduites. On dit qu’on fait une ACP réduite. Il faut savoir que cette réduction des variables peut être omise, parfois
par choix plutôt arbitraire, d’autres fois par nécessité. Voici quelques éléments qui diffèrent entre les deux types d’ACP.
ACP non réduite ACP réduite
Données Variables exprimées dans la même unité, Variables exprimées dans des unités de mesure
Avec des valeurs du même ordre de grandeur différentes, ou d’ordre de grandeur trop différentes
Valeurs Somme=somme des variances des variables de Somme=somme des variances des variables réduites,
propres départ c’est-à-dire p=nombre de variables
Autres L’ACP réduite se prête mieux que la non réduite à la représentation des variables par cercle des corrélations,
résultats puisque les variables ne sont pas réduites au départ, mais l’interprétation telle qu’elle est pratiquée dans ce cours
reste valable pour les deux types d’ACP.

II.2. Les résultats d'une ACP et leur utilisation pour la synthèse de l'information contenue dans un fichier de données
Pour mieux voir la différence d'utilisation d'une ACP avec une méthode de régression, reprenons les données sur les stations de
ski de Savoie. Nous verrons au fur et à mesure des résultats comment on fait l'interprétation d'une ACP.
II.2.1. Les statistiques simples et la matrice de corrélation
Tout d'abord, l'analyse des statistiques simples (moyenne, écart-type, quartiles, coefficient de variation, asymétrie, aplatissement)
permet de voir si les données sont correctement réparties. En effet, des données présentant une asymétrie ou un étalement
importants méritent une attention particulière, pour éventuellement détecter des valeurs aberrantes, entre autres.
Coefficient Asymétrie Aplatisseme
Echantillon Minimum Maximum 1er Quartile Médiane 3ème Quartile Moyenne Ecart-type (n) de variation (Pearson) nt (Pearson)
prixforf 42,000 160,000 81,750 95,500 140,000 104,688 32,096 0,307 0,316 -0,884
altmin 500,000 1850,000 1137,500 1400,000 1550,000 1322,813 328,484 0,248 -0,417 -0,263
altmax 1600,000 3450,000 2275,000 2600,000 2837,500 2566,750 479,913 0,187 -0,210 -0,675
pistes 4,000 129,000 26,000 34,000 71,000 50,063 33,454 0,668 0,953 -0,187
kmfond 0,000 80,000 9,500 22,000 36,500 27,500 22,757 0,828 0,988 -0,069
remontee 4,000 110,000 17,000 23,000 45,750 33,813 25,229 0,746 1,376 1,305

De même, nous avons déjà examiné Matrice de corrélation (Pearson (n)) :


la matrice de corrélation, que nous Variables prixforf altmin altmax pistes kmfond remontee
rappelons ici : prixforf 1 -0,007 0,576 0,858 0,212 0,816
altmin -0,007 1 0,221 -0,152 -0,110 -0,144
altmax 0,576 0,221 1 0,488 0,025 0,441
pistes 0,858 -0,152 0,488 1 0,262 0,930
kmfond 0,212 -0,110 0,025 0,262 1 0,342
remontee 0,816 -0,144 0,441 0,930 0,342 1
Les valeurs en gras sont significativement différentes de 0 à un niveau de signification alpha=0,05

Elle nous permet de voir les liens les plus significatifs entre variables, prixforf altmax
positifs ou négatifs. On peut tracer à partir de cette matrice un schéma
des corrélations. Puisque toutes les corrélations significatives (en gras) pistes remontee
sont positives, on peut faire un schéma comme suit :
altmin kmfond

On voit ainsi mieux que les variables prixforf, altmax, pistes et remontee sont toutes corrélées positivement deux à deux, alors
que altmin et kmfond ne paraissent pas liées à d'autres caractéristiques. Donc pour cet ensemble de stations, plus l'altitude max
est élevée, plus le nombre de pistes, le nombre de remontées et le prix du forfait sont élevés.
Prenons, pour compléter notre idée du evie fecondite gini.revenu sco1519 salmoy ecartHF tx.diplome mortinf
schéma des corrélations, un autre evie 1.000 -0.027 -0.355 0.072 0.747 -0.061 0.509 -0.551
exemple, où certaines corrélations sont fecondite -0.027 1.000 0.334 -0.544 0.027 0.020 0.096 0.243
significativement négatives. C'est le gini.revenu -0.355 0.334 1.000 -0.471 -0.488 0.293 -0.297 0.644
cas pour les données démographiques sco1519 0.072 -0.544 -0.471 1.000 0.205 -0.149 0.320 -0.611
salmoy 0.747 0.027 -0.488 0.205 1.000 -0.156 0.617 -0.494
dans les pays de l'OCDE.
ecartHF -0.061 0.020 0.293 -0.149 -0.156 1.000 -0.062 0.047
tx.diplome 0.509 0.096 -0.297 0.320 0.617 -0.062 1.000 -0.425
mortinf -0.551 0.243 0.644 -0.611 -0.494 0.047 -0.425 1.000

Ici il y a des corrélations positives et négatives. Le schéma va corr >0 corr<0


dans ce cas être disposé en 2 colonnes de variables. Les liens evie mortinf
intra-colonnes représenteront des corrélations positives, le lien salmoy fecondite
entre colonnes représentera la corrélation négative. tx.diplome
sco1519 gini.revenu
IUT STID Carcassonne – Cours analyse des données –ACP p 3/8
Autre exemple : considérons les 95 départements de la métropole française (hors Paris), et certaines variables liées à
l'agriculture (données Agreste du recensement agricole 2010, et wikipédia), à savoir :
Variable Description
SAU Surface Agricole Utile moyenne par exploitation, ha
PBS Production Brute Standard moyenne, Euros
PBSévol évolution de la PBS de 2000 à 2010 =(PBS2010-PBS2000)/PBS2000, %
m40 part des moins de 40 ans parmi les exploitants, %
femmes part des femmes parmi les exploitants, %
céréales part de la SAU cultivée en céréales, %
partSAU part de la superficie du département en SAU, %
forêt part de la superficie du département en forêt, %
Tableau des données :
No CodeDépartement SAU PBS évolPBS m40 femmes céréales partSAU forêt
1 01 Ain 60,4 90 45,6 20,1 21 39,6 42,94 31,00
2 02 Aisne 97,5 187,3 17,3 21,5 24 49,4 66,95 16,60
3 03 Allier 88,1 76 28,4 20,9 25,3 21 66,26 16,70
4 04 Alpes-de-Hte-Provence 66,5 60,4 17,6 18,7 27,3 16,9 20,95 49,10
5 05 Hautes-Alpes 53,4 47,8 14 22,9 24,4 9,9 17,28 34,01
6 06 Alpes-Maritimes 22,2 48,3 33,4 10,8 28,6 0,3 9,77 52,29
7 07 Ardèche 27,3 55 29,6 19,6 24,8 8,7 23,24 45,40
8 08 Ardennes 101,4 122,7 22,4 19,5 23,4 35,7 57,76 28,40
9 09 Ariège 49,6 39,5 3,6 18,2 28,6 17,5 27,03 40,90
10 10 Aube 71,5 201,9 18,8 22,5 29,8 54,6 62,40 22,40
11 11 Aude 30,8 55,6 6,3 17,9 30,5 22,5 36,49 28,39
12 12 Aveyron 57,4 65,3 11 21,5 28,5 12,2 59,74 28,00
13 13 Bouches-du-Rhône 30,4 91 -4,6 16,2 27 24,4 29,21 21,31
14 14 Calvados 57,4 85,9 31,5 17,8 29,7 27,3 68,65 8,20
15 15 Cantal 61,4 52,9 7,3 23,5 25,5 3,3 60,73 26,41
16 16 Charente 56,5 107 36,2 16,6 27,8 37,3 61,48 19,69
17 17 Charente-Maritime 58,4 104,3 29,5 17,3 26,4 47,3 62,68 14,90
18 18 Cher 113,6 123 29,3 19,6 24,8 44,6 59,76 23,50
19 19 Corrèze 44 43,4 14,2 18,8 30,8 5,5 39,07 45,30
20 21 Côte-d'Or 93,5 146,9 27,7 21,8 22,5 41 52,23 36,09
21 22 Côtes-d'Armor 46,3 195,5 34,8 19,9 28,4 38,1 63,73 11,81
22 23 Creuse 68,9 52,3 16,6 21,1 28,6 10,2 57,25 29,79
23 24 Dordogne 35,7 67,4 17,8 15 30,3 25,7 34,18 43,00
24 25 Doubs 65,7 82,5 22,8 27,7 19,2 11,1 41,96 40,79
25 26 Drôme 32 88 15,2 18,2 25,4 31,8 31,29 43,40
26 27 Eure 75,1 105,6 49,1 16,3 27,5 49,1 62,41 20,99
27 28 Eure-et-Loir 104,3 127 28,2 16,5 23,6 63,8 76,63 12,01
28 29 Finistère 49,5 219,8 39 19,2 24,3 32 57,24 11,01
29 2A Corse-du-Sud 63 39,2 27,6 16,7 21,8 0 15,64 55,90
30 2B Haute-Corse 58 79,1 4,5 17,6 24,1 1,1 22,53 37,70
31 30 Gard 23,9 73,5 12,3 17,7 28,2 20,5 27,41 37,01
32 31 Haute-Garonne 51,6 51,6 23,1 15,8 31 42,2 52,47 19,70
33 32 Gers 57,3 76,5 18,2 15,2 28,2 44,5 71,48 13,50
34 33 Gironde 25,7 164,7 27,4 16,9 29,9 17 24,20 47,60
35 34 Hérault 18,6 48,8 35,1 16,1 27,6 11,3 30,32 32,50
36 35 Ille-et-Vilaine 46,4 129,7 38,8 19,4 31 33,8 65,89 8,30
37 36 Indre 92,7 85,7 24,7 17,8 25,7 40,7 66,66 17,10
38 37 Indre-et-Loire 68,6 122,2 32 18,7 25,9 49,8 54,21 24,50
39 38 Isère 38,3 51,7 25,9 19 22,1 33,8 32,47 32,20
40 39 Jura 59,7 81,6 31,6 21,6 18,7 21,6 37,68 44,21
41 40 Landes 36,5 111,7 46,5 16,2 31,1 63,4 22,83 61,70
42 41 Loir-et-Cher 84 144,1 10,4 17,8 22,2 55,2 45,46 32,00
43 42 Loire 41 52,9 29,2 23,7 21,5 11,2 48,85 26,40
44 43 Haute-Loire 45 50,3 15,9 22,9 22,2 14,3 46,26 37,19
45 44 Loire-Atlantique 62,1 152,5 66,3 22 25,1 21,7 59,60 8,10
46 45 Loiret 93,5 133,6 27,2 16,8 24,3 62,5 52,44 26,41
47 46 Lot 43,7 59,5 29,7 16,5 30,5 12,9 42,84 41,00
48 47 Lot-et-Garonne 39,4 82,5 20,7 14,5 31,5 41,6 53,03 23,89
49 48 Lozère 91,5 44,5 11,1 26 26,9 5 46,78 44,90
50 49 Maine-et-Loire 55,6 195,8 42,4 23,3 22,5 30,6 64,00 11,40
51 50 Manche 37,7 81,5 58,6 17,5 30,4 13,3 71,93 4,40
52 51 Marne 39,3 185,7 7,9 19,9 35,7 51 67,96 16,60
53 52 Haute-Marne 136 149,5 40,8 23,8 20,5 40,3 49,17 39,20
54 53 Mayenne 49,1 108,4 34,7 19,9 32,4 26,9 76,56 6,80
55 54 Meurthe-et-Moselle 99,6 114,4 19,5 21,3 19,2 41,8 51,76 30,50
56 55 Meuse 110,6 126,8 17,9 21,3 21,6 44,1 52,96 35,90
57 56 Morbihan 48,7 183,1 44,3 20 27,6 35,1 53,96 16,40
58 57 Moselle 84,3 90,9 36 20,2 22,4 37,4 50,86 27,61
59 58 Nièvre 106,5 99,1 32,4 21,6 19,6 24,6 54,31 32,90
60 59 Nord 52,7 141 26,1 21,9 21,6 42,6 62,02 7,74
61 60 Oise 109,8 159,2 12,8 17,2 26,8 53,7 62,92 20,80
62 61 Orne 67,1 94,2 40,3 18,8 29,4 29,6 65,13 15,60
63 62 Pas-de-Calais 68,8 140,5 31,3 23,3 23,7 47,7 69,48 6,90
64 63 Puy-de-Dôme 53,1 51,7 16,8 20,2 27,8 20,3 49,17 31,99
65 64 Pyrénées-Atlantiques 27,6 51,4 19,4 20 30,4 31,1 43,19 27,50
66 65 Hautes-Pyrénées 24,7 35,6 13,1 15,9 29,7 37,2 28,50 29,10
IUT STID Carcassonne – Cours analyse des données –ACP p 4/8
67 66 Pyrénées-Orientales 18 64,4 19 18,4 26,7 1,7 18,15 34,11
68 67 Bas-Rhin 30 86,8 27,7 16,4 28,7 55,1 41,52 36,19
69 68 Haut-Rhin 25,6 89,3 26,3 16,4 30,2 58,5 39,49 40,40
70 69 Rhône 23,3 63 23,3 21,7 21,9 18,9 42,67 21,51
71 70 Haute-Saône 83,8 92,7 30,3 24,7 20,6 31,1 43,64 41,60
72 71 Saône-et-Loire 67,3 120,1 37 22,7 21,3 17,2 60,34 21,70
73 72 Sarthe 69,5 149 42,5 19,9 26,8 40,2 59,48 17,19
74 73 Savoie 42,4 51 74,6 21,2 22 6 19,31 30,91
75 74 Haute-Savoie 40,2 52,8 54,3 24,3 21,5 8,5 28,55 38,81
76 76 Seine-Maritime 61,4 109,7 31,2 18,8 25,6 35,8 63,30 15,71
77 77 Seine-et-Marne 127,3 174,2 16,2 17,7 24 60,9 56,78 23,09
78 78 Yvelines 94 136,5 28,7 17,6 26 61,6 39,03 31,52
79 79 Deux-Sèvres 69,9 127,3 37,5 20,7 23,2 37,6 75,06 8,10
80 80 Somme 85,6 155,6 20,8 19,3 24,9 51,7 75,41 9,00
81 81 Tarn 49 61,2 11,6 19,5 29,6 33,3 51,77 28,40
82 82 Tarn-et-Garonne 39,8 67,6 17,8 16,8 30,2 37,8 56,59 18,50
83 83 Var 12,3 77,6 30 13,8 32,3 9,7 11,15 58,30
84 84 Vaucluse 18,8 114,8 13,9 17,9 29,6 17,3 31,18 36,89
85 85 Vendée 76,1 192,1 61,1 21,7 21,8 34,3 69,98 5,19
86 86 Vienne 91,9 101,3 21 17,3 24,8 46,9 67,85 15,99
87 87 Haute-Vienne 60,5 53,3 25,4 19 28,4 11,4 52,78 26,99
88 88 Vosges 69,3 85,4 32,4 22,3 21,9 19,7 37,73 47,70
89 89 Yonne 97,6 155,2 23,5 21,1 21,7 52,3 56,18 30,29
90 90 Territoire de Belfort 45,4 59,6 24,6 17,1 19,5 30,9 33,58 43,02
91 91 Essonne 110,3 142,3 23,7 18,5 26,2 62,8 46,64 21,62
92 92 Hauts-de-Seine 1,4 41,8 -48,1 22,2 11,1 0 0,07 85,23
93 93 Seine-Saint-Denis 30,6 309,2 128,7 2,9 17,6 53,2 3,76 3,81
94 94 Val-de-Marne 18,8 206,5 46,4 9,8 19,7 57,9 4,07 10,20
95 95 Val-d'Oise 98,6 170,8 14,9 14,6 26,4 58,4 46,39 16,37

Voici la matrice des corrélations entre Variables SAU PBS évolPBS m40 femmes céréales partSAU forêt
les variables : SAU 1 0,322 0,018 0,302 -0,276 0,446 0,535 -0,140
PBS 0,322 1 0,437 -0,184 -0,156 0,622 0,277 -0,491
évolPBS 0,018 0,437 1 -0,256 -0,110 0,161 0,049 -0,204
m40 0,302 -0,184 -0,256 1 -0,286 -0,284 0,334 0,039
femmes -0,276 -0,156 -0,110 -0,286 1 0,027 0,188 0,059
céréales 0,446 0,622 0,161 -0,284 0,027 1 0,388 -0,366
partSAU 0,535 0,277 0,049 0,334 0,188 0,388 1 -0,603
forêt -0,140 -0,491 -0,204 0,039 0,059 -0,366 -0,603 1
et le schéma des corrélations, disposé en 2 colonnes de variables, les corrélations positives sont intra-colonnes :

SAU femmes corrélation négative

PBS forêt corrélation positive

évolPBS m40

m40

céréales

partSAU

II.2.2. Les valeurs propres


Elles permettent d'effectuer un choix du nombre de composantes principales à retenir pour l'interprétation. Dans l'exemple simple
du début (tableau 4 x 3), nous n'avions pas discuté de ce choix car la 3ème composante principale était nulle. Nous savons que les
composantes principales ont des valeurs d'autant plus petites qu'on avance dans leur rang. Mais à partir de quel moment décide-
t-on que la composante ne mérite plus interprétation ?
Voici les valeurs propres de l'ACP de notre tableau sur les Valeurs propres :
stations de ski en Savoie : F1 F2 F3 F4 F5 F6
Valeur propre 3,193 1,247 0,855 0,475 0,169 0,061
Variabilité (%) 53,209 20,789 14,254 7,922 2,810 1,016
Le choix du nombre d'axes à interpréter se fait sur la base de
% cumulé 53,209 73,998 88,252 96,174 98,984 100,000
règles. On donne ci-après les plus utilisées.
- La règle de Kaiser. Elle consiste à retenir les axes pour lesquels les valeurs propres sont supérieures à 1 (1 étant la moyenne de
l'ensemble des valeurs propres). Il est à noter qu'on peut aussi avoir des résultats d'ACP dont la somme des valeurs propres n'est
pas égale à p (cas de l'ACP non réduite). Dans ce cas, il faut adapter cette règle de Kaiser et retenir les valeurs propres supérieures
à la moyenne des valeurs propres, et non plus à 1.
IUT STID Carcassonne – Cours analyse des données –ACP p 5/8
Dans notre exemple, le nombre de variables p=6, est bien la somme des valeurs propres. On retiendra donc 2 axes pour
l'interprétation.
- La part d'inertie. Dans le tableau des valeurs propres ci-dessus figurent une ligne appelée "Variabilité(%)", et une autre appelée
"% cumulé". La première correspond au pourcentage que représente la valeur propre de l'axe par rapport à la somme des valeurs
propres, c'est-à-dire p. La seconde correspond au cumul de ces pourcentages jusqu'à l'axe concerné.
Le choix du nombre d'axes se fait par l'exigence d'un certain minimum de variabilité expliquée.
Par exemple, pour l'axe 2, le calcul de la variabilité est : 20,789%=1,247/6 et le % cumulé est 73,998=20,789+53,209. Cela
signifie que le deuxième axe comporte 20,789 de la variance (ou variabilité, ou inertie) totale du nuage, et que le plan (1,2)
totalise 73,998% de cette variance totale.
Si on souhaite interpréter au minimum 80% de la variance, il faudra interpréter 3 axes. Si 70% minimum suffisent, il faut
interpréter 2 axes.
- La règle de l'éboulis. Elle consiste à retenir les 2 premiers axes au Scree plot
moins, puis de "couper" l'éboulis (ou scree plot) des valeurs propres entre
les valeurs propres dont la différence est maximum.
3,5 100

Dans l'exemple, les différences entre valeurs propres à partir de la 3

Valeur propre
80

Variabilité cumulée (%)


deuxième sont : 2,5
2 60
vp(2)-vp(3)= 0,392
vp(3)-vp(4)= 0,380 1,5 40
vp(4)-vp(5)= 0,307 1
20
vp(5)-vp(6)=0,108. 0,5

La différence maximum est entre les axes 2 et 3, on retient donc 2 axes. 0 0


F1 F2 F3 F4 F5 F6

axe

Remarque. Il existe d'autres règles de choix du nombre d'axes. La règle de l'éboulis combinée avec celle de Kaiser est une des
meilleures. En effet, on commence par regarder combien de valeurs propres sont supérieures à la moyenne. Puis on regarde si la
dernière valeur propre retenue (supérieure à la moyenne) est suffisamment éloignée de celle qui la suit (inférieure à la moyenne).
Si oui, on reste sur la décision de la règle de Kaiser, si non, on coupera au saut plus important le plus près.
La prise en compte de la part d'inertie expliquée peut faire pencher la balance vers plus d'axes ou moins d'axes que ce que la
règle de Kaiser amène.
II.2.3. Les représentations graphiques des individus et des variables
On a déjà vu que les variables étaient représentées par des cercles de corrélation, et les individus par des nuages de points.
Coordonnées des variables et représentation graphique :
Coordonnées des variables :
Variables (axes F1 et F2 :
F1 F2 F3 F4 F5 F6
74,00 %)
prixforf 0,926 0,107 -0,079 -0,106 0,336 -0,036
altmin -0,084 0,825 0,475 -0,294 -0,032 0,009
altmax 0,640 0,543 -0,033 0,540 -0,059 -0,004
1
pistes 0,952 -0,080 -0,123 -0,161 -0,103 0,187 altmin
0,75
kmfond 0,361 -0,487 0,779 0,158 0,026 0,014 altmax
0,5
F2 (20,79 %)

remontee 0,939 -0,133 -0,032 -0,187 -0,200 -0,156


0,25 prixforf
Coordonnées des individus et représentation graphique :
0 remont
Coordonnées des observations : pistes
-0,25 ee
Observation F1 F2 F3 F4 F5 F6
-0,5 kmfond
LesAillons -0,952 -1,975 0,326 0,151 -0,134 0,342
-0,75
LesArcs 3,281 -0,699 -1,235 0,668 0,163 0,310
Arèches -0,973 -1,858 0,004 0,942 0,280 0,101 -1
-1 -0,75-0,5-0,25 0 0,250,50,75 1
Aussois -1,383 -1,259 -1,711 1,801 -0,113 -0,074
Bessans -2,036 -0,420 2,934 0,314 -0,206 0,119
Bonneval -1,450 2,259 0,011 0,363 -0,271 -0,086 F1 (53,21 %)
LeCorbier -1,287 -0,141 0,429 -1,206 0,023 0,048
Courchevel 2,536 -1,254 0,728 0,031 0,006 0,207
Crest-Voland -1,953 -0,681 -0,657 -1,125 0,164 -0,049
Flumet -2,174 -1,560 -0,729 -0,871 -1,172 -0,587
LesKarellis -1,066 0,623 0,693 0,072 -0,091 0,052
LesMenuires 1,443 0,835 -0,061 0,572 0,397 -0,207
Méribel 1,864 -0,287 -0,398 0,352 0,169 -0,299
LaNorma -0,976 0,752 -0,614 0,448 0,073 -0,176
Bellecombe -1,438 -0,460 -0,812 -0,397 0,098 0,022
LaPlagne 4,550 -0,697 0,980 0,079 -0,690 -0,420
Pralognan -1,338 0,130 0,245 0,010 0,177 -0,049
LaRosière -0,375 0,143 -0,803 0,390 0,837 -0,179
LesSaisies -0,720 -1,959 1,854 0,053 0,498 -0,123
StFrancois -0,673 -0,062 1,166 0,411 0,307 0,030
StMartin 1,498 0,933 0,013 0,475 0,327 -0,277
StSorlin -1,302 0,731 0,036 0,214 -0,106 0,073
LaTania 1,447 -1,410 -1,671 -1,611 0,130 0,071
Tignes 4,290 0,639 0,650 -0,092 -0,628 0,035
IUT STID Carcassonne – Cours analyse des données –ACP p 6/8
LaToussuire -1,115 1,300 0,314 -0,695 0,182 -0,102
Observations (axes F1 et F2 : 74,00 %)
ValCenis -0,962 0,811 -0,546 0,422 -0,613 0,110
Valfréjus -1,496 1,259 -0,381 0,298 -0,211 -0,058
ValdIsère 1,457 1,287 0,445 -1,320 0,798 -0,182 3
Valloire 0,461 0,360 -0,238 -0,383 -0,224 0,656
Bonneval ValThorens
Valmeinier 0,313 0,516 -0,370 -0,414 -0,187 0,557
Valmorel 0,367 -0,005 -0,465 -0,161 0,381 -0,030 2
ValThorens 0,160 2,149 -0,140 0,209 -0,363 0,166 LaToussuire
Valfréjus ValdIsère

F2 (20,79 %)
1 ValCenis StMartin
LesMenuires
StSorlin
LaNorma
LesKarellis Tignes
Valmeinier
Valloire
Pralognan
LaRosière
0
StFrancois Valmorel
LeCorbier
Bessans Méribel
Bellecombe
Crest-Voland LesArcsLaPlagne
-1
Aussois LaTaniaCourchevel
Flumet
-2 Arèches
LesSaisies
LesAillons
-3 -2 -1 0 1 2 3 4 5

F1 (53,21 %)

II.2.4. Aides à l'interprétation des axes


Pour savoir quelles variables donnent du sens à chaque axe et quelles variables il est inutile d'interpréter, on examine
- pour les variables, les cosinus carrés, qui ne sont autres que les carrés des coordonnées des variables :
Cosinus carrés des variables :
F1 F2 F3 F4 F5 F6
prixforf 0,857 0,012 0,006 0,011 0,113 0,001
altmin 0,007 0,680 0,225 0,086 0,001 0,000
altmax 0,409 0,295 0,001 0,292 0,003 0,000
pistes 0,907 0,006 0,015 0,026 0,011 0,035
kmfond 0,131 0,237 0,606 0,025 0,001 0,000
remontee 0,882 0,018 0,001 0,035 0,040 0,024

- pour les individus, les contributions et les cosinus carrés :


Contributions des observations (%) : Cosinus carrés des observations :
F1 F2 F3 F4 F5 F6 F1 F2 F3 F4 F5 F6
LesAillons 0,887 9,770 0,389 0,149 0,331 6,004 LesAillons 0,179 0,769 0,021 0,004 0,004 0,023
LesArcs 10,54 1,225 5,572 2,938 0,494 4,919 LesArcs 0,807 0,037 0,114 0,033 0,002 0,007
Arèches 0,926 8,653 0,000 5,833 1,452 0,521 Arèches 0,176 0,642 0,000 0,165 0,015 0,002
Aussois 1,871 3,974 10,694 21,320 0,237 0,282 Aussois 0,197 0,164 0,302 0,335 0,001 0,001
Bessans 4,057 0,441 31,448 0,647 0,784 0,720 Bessans 0,317 0,013 0,658 0,008 0,003 0,001
Bonneval 2,059 12,79 0,000 0,864 1,366 0,375 Bonneval 0,283 0,688 0,000 0,018 0,010 0,001
LeCorbier 1,622 0,050 0,674 9,564 0,010 0,117 LeCorbier 0,499 0,006 0,056 0,438 0,000 0,001
Courchevel 6,294 3,942 1,937 0,006 0,001 2,189 Courchevel 0,750 0,183 0,062 0,000 0,000 0,005
Crest-Voland 3,732 1,163 1,575 8,315 0,498 0,122 Crest-Voland 0,635 0,077 0,072 0,211 0,004 0,000
Flumet 4,628 6,097 1,941 4,989 25,47 17,64 Flumet 0,465 0,239 0,052 0,075 0,135 0,034
LesKarellis 1,112 0,972 1,753 0,034 0,153 0,138 LesKarellis 0,562 0,192 0,238 0,003 0,004 0,001
LesMenuires 2,038 1,746 0,013 2,155 2,916 2,201 LesMenuires 0,629 0,210 0,001 0,099 0,048 0,013
Méribel 3,400 0,207 0,579 0,815 0,530 4,569 Méribel 0,878 0,021 0,040 0,031 0,007 0,023
LaNorma 0,932 1,417 1,379 1,321 0,098 1,595 LaNorma 0,446 0,265 0,177 0,094 0,002 0,015
Bellecombe 2,024 0,531 2,407 1,037 0,177 0,026 Bellecombe 0,666 0,068 0,212 0,051 0,003 0,000
LaPlagne 20,27 1,216 3,510 0,041 8,816 9,026 LaPlagne 0,908 0,021 0,042 0,000 0,021 0,008
Pralognan 1,752 0,042 0,220 0,001 0,580 0,123 Pralognan 0,942 0,009 0,032 0,000 0,016 0,001
LaRosière 0,138 0,051 2,356 1,002 12,99 1,643 LaRosière 0,083 0,012 0,381 0,090 0,414 0,019
LesSaisies 0,507 9,617 12,557 0,018 4,595 0,770 LesSaisies 0,064 0,476 0,426 0,000 0,031 0,002
StFrancois 0,443 0,010 4,971 1,111 1,742 0,045 StFrancois 0,218 0,002 0,654 0,081 0,045 0,000
StMartin 2,198 2,181 0,001 1,485 1,982 3,926 StMartin 0,637 0,247 0,000 0,064 0,030 0,022
StSorlin 1,660 1,339 0,005 0,300 0,210 0,273 StSorlin 0,739 0,233 0,001 0,020 0,005 0,002
LaTania 2,050 4,979 10,200 17,064 0,314 0,258 LaTania 0,221 0,209 0,294 0,274 0,002 0,001
Tignes 18,01 1,022 1,543 0,056 7,311 0,064 Tignes 0,937 0,021 0,022 0,000 0,020 0,000
LaToussuire 1,216 4,234 0,361 3,179 0,615 0,536 LaToussuire 0,349 0,475 0,028 0,136 0,009 0,003
ValCenis 0,905 1,649 1,091 1,170 6,962 0,615 ValCenis 0,378 0,269 0,122 0,073 0,153 0,005
Valfréjus 2,192 3,972 0,530 0,585 0,825 0,175 Valfréjus 0,545 0,386 0,035 0,022 0,011 0,001
ValdIsère 2,077 4,150 0,724 11,452 11,82 1,705 ValdIsère 0,332 0,259 0,031 0,273 0,100 0,005
Valloire 0,208 0,325 0,207 0,965 0,934 22,05 Valloire 0,207 0,126 0,055 0,143 0,049 0,419
Valmeinier 0,096 0,668 0,501 1,125 0,645 15,92 Valmeinier 0,096 0,262 0,135 0,168 0,034 0,305
Valmorel 0,132 0,000 0,791 0,171 2,694 0,046 Valmorel 0,257 0,000 0,414 0,050 0,278 0,002
ValThorens 0,025 11,58 0,071 0,286 2,449 1,411 ValThorens 0,005 0,949 0,004 0,009 0,027 0,006

II.2.5. Interprétation des axes


Signification des axes grâce aux statistiques sur les variables.
On remarque que la somme des cosinus carrés pour chaque ligne égale 1, ce qui fait une moyenne des cosinus carrés égale à 1/6.
IUT STID Carcassonne – Cours analyse des données –ACP p 7/8
Si on considère les variables dont le cosinus carré est supérieur à 1/6, nous pouvons les citer dans le tableau suivant, en relevant
aussi le signe de leur coordonnée :
signe coordonnée - +
axe 1 prixforf, altmax, pistes, remontee
axe 2 kmfond altmin, altmax
On peut en déduire que l'axe 1 est un axe d'échelle qui ordonne les stations de ski selon leur importance pour les valeurs de
prixforf, altmax, pistes et remontee.
De même, l'axe 2 oppose les stations pour lesquelles kmfond est élevé et altmin, altmax sont faibles (stations de coordonnée
négative) aux stations pour lesquelles kmfond est faible et altmin, altmax sont élevées (stations de coordonnée positive sur axe
2).
Remarque : l'axe 1 reflète le schéma des corrélations. On retrouve les 4 variables inter-corrélées positivement du même côté.
Interprétation de la position des individus.
La somme des contributions de l'ensemble des individus sur chaque axe égale 1 (ou 100%). Ce qui signifie qu'avec tous les
individus on arrive à 100% de la variance de l'axe. C'est pour cette raison que la moyenne des contributions égale 1/n.
Dans notre exemple, n=32 individus, ou stations, donc la contribution moyenne égale 1/32.
Relevons les individus dont la contribution est supérieure à 1/32 sur les axes 1 et 2.
signe coordonnée - +
axe 1 Bessans, Crest-Voland, Flumet LesArcs, Courchevel, Méribel, LaPlagne, Tignes
axe 2 Les Aillons, Arèches, Aussois, Courchevel, Bonneval, LaToussuire, ValFréjus, ValdIsère,
Flumet, Les Saisies, LaTania ValThorens
On peut en déduire que l'axe 1 doit le sens qu'on a expliqué plus haut (c'est-à-dire ordonne les stations selon leur grandeur,
globalement) au fait que les stations LesArcs, Courchevel, Méribel, LaPlagne et Tignes ont dans l'ensemble des valeurs élevées
pour les variables prixforf, altmax, pistes, kmfond et remontee, alors qu'à l'opposé les stations Bessans, Crest-Voland et Flumet
ont de faibles valeurs.
Le fait que l'axe 2 est l'axe d'opposition qu'on a décrit est surtout dû au fait que les stations Bonneval, LaToussuire, ValFréjus,
ValdIsère et ValThorens sont des stations d'altitude avec peu de kmfond, alors qu'à l'opposé les stations Les Aillons, Arèches,
Aussois, Courchevel, Flumet, Les Saisies et LaTania sont moins en altitude, et avec beaucoup de kmfond.
La prise en compte des cosinus carrés permet de terminer l'interprétation, en citant les individus qui ont une position interprétable
dans la signification donnée aux axes.
Pour les individus, les cosinus carrés ont la même propriété que pour les variables, à savoir que pour chaque individu ligne, la
somme des cosinus carrés égale 1. Il en découle que le cosinus carré moyen égale 1/6, quand il y a 6 axes.
Citons ces individus dont le cosinus carré dépasse la moyenne :
signe coordonnée - +
axe 1 LesAillons, Arèches, Aussois, Bessans, Bonneval, LesArcs, Courchevel, LesMénuires, Méribel,
LeCorbier, Crest-Voland, Flumet, Les Karellis, LaPlagne, StMartin, LaTania, Tignes, ValdIsère,
LaNorma, Bellecombe, Pralognan, StFrançois, Valloire, Valmorel
StSorlin, LaToussuire, ValCenis, ValFréjus
axe 2 Les Aillons, Arèches, Courchevel, Flumet, Les Bonneval, LesKarellis, LesMenuires, LaNorma,
Saisies, LaTania StMartin, StSorlin, LaToussuire, ValCenis, ValFréjus,
ValdIsère, Valmeinier, ValThorens
Les stations de signe négatif sur l'axe 1 sont celles qui se positionnent comme à faible valeur dans cet ordre selon les variables
prixforf, altmax, pistes, kmfond et remontee, celles qui sont de coordonnée positive se positionnent comme à fortes valeurs pour
ces mêmes variables. A noter que toutes les stations qui contribuent sont bien reconstituées, c'est-à-dire ont un cosinus carré
supérieur à la moyenne.
Les stations de coordonnée négative sur l'axe 2 sont celles qui ont beaucoup de km de fond et sont à altitude moyenne à faible,
alors que celles de coordonnée positive sont à altitude élevée et avec peu de kmfond. A noter que toutes celles qui contribuent
sont bien reconstituées, sauf une, Aussois. Cette station contribue à l'inertie de l'axe 2 comme station ayant une coordonnée
élevée sur cet axe, donc avec des caractéristiques marquées pour altmin, altmax et kmfond, mais qui ne se positionne pas par
rapport à cet axe. En regardant les données, on voit qu'elle a une altmin très faible (500m), mais en même temps une altmax
supérieure à la moyenne (2750m), et un nombre de kmfond supérieur à la moyenne. Si on interprétait sa position, négative sur
l'axe 2, on serait amené à dire que cette station a de faibles altmin et max, alors que ce n'est pas le cas. C'est ce qui explique son
cosinus carré faible.
De même, pour chaque station mal représentée sur un axe, on peut expliquer pourquoi cette mauvaise reconstitution. On peut en
conclure que cette aide à l'interprétation que sont les cosinus carrés est indispensable à une interprétation raisonnable des axes.
Ces axes peuvent être considérés comme de nouvelles variables synthétiques, l'axe 1 résumant l'importance de la station, l'axe 2
résumant l'orientation piste ou fond de la station, quand orientation il y a (ce qui n'est pas le cas de toutes les stations, on l’a vu
pour la station d'Aussois).
II.3. Les individus supplémentaires
Une application supplémentaire d'une analyse factorielle est le positionnement d'individus sur les graphiques de l'ACP alors
qu'ils n'ont pas participé au calcul des composantes principales.
IUT STID Carcassonne – Cours analyse des données –ACP p 8/8
Prenant l'exemple des stations de ski. Un maire d'une commune du massif qui n'a pas encore sa station peut vouloir savoir
comment il se situerait dans cette "carte du marché des stations de ski savoyardes" s'il ouvrait une station avec des caractéristiques
qu'il projette. Il peut ainsi, en faisant varier les caractéristiques projetées, faire varier son positionnement, qui pourra l'aider dans
son choix.
Supposons que le projet aura les caractéristiques suivantes :
prixforf altmin altmax pistes kmfond remontee
80 1100 2800 10 20 8
Pour positionner ce projet sur le premier plan de l'ACP, il faut transformer préalablement ces coordonnées comme l'ont été les
coordonnées des autres stations, par le centrage et la réduction :
variable prixforf altmin altmax pistes kmfond remontee
valeurs du projet 80 1100 2800 10 20 8
valeurs centrées -24,688 -222,813 233,250 -40,063 -7,500 -25,813
v. centrées réduites -0,769 -0,678 0,486 -1,198 -0,330 -1,023
puis il faut procéder à la rotation, qui permet d'avoir les coordonnées de la station sur les axes de l'ACP. Cette rotation consiste
en une multiplication vectorielle entre les coordonnées et chaque vecteur propre (le vecteur propre F1 pour avoir la coordonnée
sur le premier axe de l'ACP, F2 pour l'avoir sur le 2ème axe, …). Voici les vecteurs propres, les détails des multiplications et les
coordonnées résultantes :
Vecteurs propres : v cent
F1 F2 F3 F4 F5 F6 réduite Vcr * F1 Vcr * F2 Vcr * F3 Vcr * F4 Vcr * F5 Vcr * F6
prixforf 0,518 0,096 -0,085 -0,154 0,818 -0,148 -0,7692 -0,3985 -0,0739 0,0656 0,1181 -0,6295 0,1135
altmin -0,047 0,738 0,513 -0,427 -0,077 0,036 -0,6783 0,0320 -0,5008 -0,3482 0,2893 0,0521 -0,0244
altmax 0,358 0,486 -0,036 0,783 -0,144 -0,017 0,4860 0,1740 0,2362 -0,0173 0,3807 -0,0698 -0,0085
pistes 0,533 -0,072 -0,133 -0,234 -0,250 0,759 -1,1975 -0,6382 0,0858 0,1591 0,2803 0,2992 -0,9088
kmfond 0,202 -0,436 0,842 0,229 0,064 0,056 -0,3296 -0,0666 0,1437 -0,2775 -0,0756 -0,0212 -0,0185
remontee 0,526 -0,119 -0,035 -0,271 -0,487 -0,630 -1,0231 -0,5378 0,1218 0,0355 0,2776 0,4983 0,6451
total -1,4351 0,0128 -0,3828 1,2704 0,1292 -0,2016
Pour cette nouvelle station fictive, on ne peut pas calculer de contribution. En effet, elle n'a pas servi au calcul de la variance de
chaque axe. Par contre, on peut calculer le cosinus carré sur chaque axe. Sa norme étant égale à la somme des carrés de ses
coordonnées, soit 3,8774, son cosinus carré sur l'axe 1 égale (-1,4351)²/3,8774=0,5312. Sur l'axe 2, il n'égale que 0,00004. On
peut donc donner un sens à sa position sur l'axe 1 : c'est une station qui sera petite par son domaine alpin, son tarif et son altitude
maximum, mais elle n'est pas profilée comme petite ni grande sur son aspect domaine de fond.
En faisant varier les caractéristiques du projet, on peut chercher une position optimale, en un sens choisi par les porteurs, par
rapport aux autres stations.

II.3. Quelques questions de compréhension

II.3.1. Imaginer un tableau de données sur lequel on peut réaliser une ACP. Décrire les variables et les individus. Poser une
question pertinente à laquelle on pourrait répondre par cette ACP.

II.3.2. Quelle est la différence entre une ACP réduite et une ACP non réduite ?

II.3.3. Décrire ce qu’est une valeur propre. Citer au moins deux propriétés de ces valeurs propres dans une ACP réduite.

II.3.4. Quels sont les deux principaux types de graphique que l’on représente dans un résultat d’ACP ?

II.3.5. Pourquoi analyse-t-on les corrélations entre les composantes principales et les variables initiales ?

II.3.6. Décrire ce qu’est une composante principale.

II.3.7. Décrire ce qu’est le cosinus carré pour une variable, puis pour un individu.

Vous aimerez peut-être aussi