Correction Examen
Correction Examen
Correction Examen
1°) Vrai : Plus les variables sont corrélés sont plus elles sont dépendants entre elles, cela veut dire
que les premiers axes expliquent à un pourcentage significatif les informations des données.
2°) Vrai : Pour chaque individu, la qualité de sa représentation est définie par le carré du cosinus de
l’angle entre l’axe de projection et le vecteur. Plus la valeur est proche de 1(c'est-à-dire éloigné du
centre de gravité), meilleure est la qualité de représentation.
3°) Vrai : plus la variance des coordonnées des individus est grand sur un axe plus le pourcentage
d’inertie est élevée sur l’axe ce qui veut dire que la variance des coordonnées des individus est plus
important sur l’axe 1 que sur l’axe 2 car le premier a une inertie plus grande que le deuxième.
4°) Faux : dans une probabilité significative, plus l’angle entre les variables sont fermes plus les
variables sont corrélées sur un axe donné. Mais deux variables peuvent être superposées sur un axe
et S’éloignées sur un autre. Ainsi, deux variables superposées ne sont pas nécessairement très
corrélées. Il vaut mieux examiner un facteur sur un plan que sur un axe. Il est prudent de se méfier
de l’association étroite que l’on accorderait à deux points i et j à la vue d’un seul plan factoriel. Cette
proximité sur un plan peut être contredite par des coordonnées très différentes (signe opposé) sur
un autre facteur (i.e. : ne pas se contenter d’examiner le plan F1F2, envisager également F1F3 et
F2F3).
5°) Vrai : Le centre de gravité a pour valeur égal à 0 et que toutes individus proche de cette centre de
gravité auront probablement des valeurs proche de 0. Et un individu proche du centre de gravité est
mal représenté ainsi on en déduit que sa valeur est proche de 0.
6°) Faux : Le pourcentage d’inertie du premier plan factoriel d’un ACP dans une analyse composante
principale n’est pas obligatoirement faible, car il est déterminé en fonction des individus et des
Variables (quantitative)
D’après les données, l’analyse en composantes des 100 variables seul 5 ont été projetés. Cela
révèle une approximation du pourcentage d’inertie de :
EXERCICE 15.4 :
Question 1 : décrire le jeu de données
Réponse : nous avons dans le tableau (TAB. 15. 1) 34 individus (villes), 12 variables et chaque variable
est de type liste
Question 2 : que pouvez vous dire à partir des données centrées-réduites (Tableau 15. 2)
Réponse : Le tableau de données centré et réduit nous donnes quelques informations, on voit par
exemple qu’à Ajaccio en juillet et aout on a des valeurs de -2,05 et -2,09 cela signifie qu’à ces deux
mois la précipitation est très basse à Ajaccio. Si les valeurs d’une variable suivent une loi normale
alors 95% des valeurs centré et réduite sont entre -1,96 et 1,96. Même si on ce pas si les valeurs
suivent une loi normal, une valeur centré et réduite de -2 est très extrême donc en Ajaccio il ne pleut
pratiquement pas en juillet et aout. En revanche à Biarritz il pleut pendant toute l’année surtout en
septembre, octobre, novembre et décembre.
Réponse : L’analyse en composantes principales notée ACP sur ce jeu de données à pour objectif de
déterminer des profils pluviométriques similaires : c'est-à-dire on veut savoir s’il ya, parmi ces 34
villes française, des villes plus pluviales et de voir sil ya des mois ou les précipitations se ressemblent :
si une ville qui pleut beaucoup dans un mois donné, pleut elle plus dans un autre mois.
Question 5 : les variables on été centrées et réduites avant l’analyse. La réduction était-elle
indispensables ?
Réponse : Non ce n’était pas indispensable car elles ont tous la même unité, le millimètre. Mais la
réduction conduit à accorder la même importance à chaque variable. Et si on ne réduit pas on donne
plus d’importance aux variables qui ont une variabilité plus grande.
Question 7 : quelles sont les villes qui contribuent le plus à la construction des deux premiers axes ?
Réponse : la figure 15.4 nous montre que les corrélations d’avril et septembre sont très proche de 1
│ci1│>√ λ1 =1,98 c'est-à-dire que les villes contribuent le plus à la formation de l’axe 1
sont les villes dont leur corrélation en valeur absolue est supérieure à 1,98 et ces villes sont :
Besançon, Biarritz, Brest, Bordeaux, Clermont-Fd, Grenoble, Lille, Limoges, Marseille,
Orléans, Paris et Reims. Celles qui villes contribuent le plus à la formation de l’axe 1, dans ces
villes qu’on vient d’énumérer sont Besançon, Biarritz et Brest.
│ci2│>√ λ2 =1,42 c'est-à-dire que les villes contribuent le plus à la formation de l’axe 2
sont les villes dont leur corrélation en valeur absolue est supérieure à 1,42 et ces villes sont :
Ajaccio, Besançon, Clermont-Fd, Dijon, Grenoble, Lyon, Marseille, Montpellier, Nancy, Nice,
Nîmes, Perpignan, Strasbourg, Toulon et Vichy. Parmi elles, celles qui contribuent le plus à la
formation de l’axe 2 sont : Ajaccio, Nice et Toulon.
Question 8 : Interpréter les facteurs principaux de l’ACP (à l’aide du graphe des individus et de celui
des variables actives et illustratives)
Réponse :
Fig. 15.4 – ACP sur la pluviométrie : graphe des variables (graphe FactoMineR)
Le graphique "cercle de corrélations" donne une représentation des caractéristiques de la
pluviométrie des 34 villes française sur les deux premiers axes factoriels. Les données étant ici
centrées réduites, les coordonnées de ces caractéristiques sur les axes sont les coefficients de
corrélations entre les variables et les composantes principales. Ainsi :
- le premier facteur est corrélé significativement négativement avec tous les tous les variables actives
(mois).
-le deuxième facteur est corrélé négativement avec les mois de janvier, mars, décembre, févier,
novembre et octobre et positivement avec les mois de juillet, juin, aout, mai, avril et septembre.
La variable illustrative "% hauteur d’eau mai à aout" qui a été projetée a posteriori dans le plan
factoriel, est corrélé avec le deuxième axe factoriel.
Les variables, avril septembre et janvier, sont bien représentés sur l’axe 2 et la variable illustrative
insolation annuelle sur l’axe 1.
Fig. 15.3 – ACP sur la pluviométrie : graphe des individus (graphe FactoMineR)
L’interprétation interne de la représentation des individus s’effectue toujours à partir de celle des
variables actives. Ainsi, relativement à l’ensemble des villes de France :
- le premier facteur n’oppose pas les villes à partir des variables actives mais des variables
illustratives, car ce facteur est négativement corrélé à tous les variables actives ce qui veut dire qu’à
ce lieu tous les villes ont la même signification. Mais si on se base sur les variables illustratives, le
premier facteur oppose les villes qui ont plutôt un taux d’hauteur d’eau élevé à mai jusqu'à aout
(Clermont-Fd, Reims, Marseille…) aux villes qui ont un taux d’hauteur d’eau élevé à mai jusqu'à
aout(Besançon, Brest, Biarritz) (interprétation externe – variables illustratives).
- Quant au deuxième facteur, il oppose les pays ayant une précipitation significativement élevés aux
mois de janvier, mars, décembre, févier, novembre et octobre et une faible précipitation aux mois
de juillet, juin, aout, mai, avril et septembre (Nice, Ajaccio et Toulon), aux pays caractérisés par une
précipitation importante aux mois de juillet, juin, aout, mai, avril et septembre et une précipitation
faible aux mois de janvier, mars, décembre, févier, novembre et octobre c’est le cas notamment de
la Strasbourg et du Besançon.
Question 9 : A partir du cercle des corrélations que pouvez-vous dire concernant les corrélations
suivantes :
Février – mars : L’angle plutôt fermé que forment les points “février” et “mars” indique que
ces 2 variables sont assez bien corrélées entre elles.
Février— juin : l’angle droit formé par “février” et “juin” indique que ces deux variables sont
indépendantes entre elles.
Latitude – longitude : l’angle quasi droit formé par “latitude” et “longitude” indique que ces
deux variables sont aussi indépendantes entre elles et sont malle représentées car elles sont
proches du centre.
Question 10 : vrai ou faux si faux corrigés la phrase proposée.
Réponse :
- Une ville pluvieuse en juillet est également pluvieuse en octobre : Faux
Correction : une ville pluvieuse en juillet n’est pas pluvieuse en octobre car les points “juillet”
et “octobre” forme un angle droit ce qui montre qu’ils sont indépendantes entre elles.
- La variable janvier est bien représenté sur l’axe 1 : Faux
Correction : la variable janvier est très éloigné de l’axe 1, on peut conclure qu’il est peu
représenté par cet axe
- La ville de vichy a joué le rôle le plus important dans la construction de l’axe 2 : Faux
Correction : La ville qui a joué le rôle le plus important de l’axe 2 est la ville Toulon qui à la
corrélation la plus élevé sur cet axe
- La coordonnée d’une variable sur un axe est un indicateur de sa qualité de représentation
par l’axe : vrai
- Les villes ayant une forte insolation annuelle ont une faible pluviométrie les mois d’hivers :
Vrai