Data Minig

Télécharger au format docx, pdf ou txt
Télécharger au format docx, pdf ou txt
Vous êtes sur la page 1sur 10

UNIVERSITÉ DE TOAMASINA

FACULTÉ DES SCIENCES ET TECHNOLOGIE


--------------------------------------------------
MENTION : MATHÉMATIQUES INFORMATIQUE ET
APPLICATION

Fouille de données
(Examen session rattrapage)

Nom : RABEARIMANANA
Prénom : Tsirinantenaina Jean Odèle
Parcours : Génie Informatique
Niveau : M2
Codage : 015

Année Universitaire : 2022 - 2023


Etude des données relatives à l’activité des femmes françaises

Pour la mise en œuvre de l’AFC et de répondre les questions, l’installation et chargement des
packages FactoMineR, gplots sont nécessaire.

1. Le tableau de contingence à partir du fichier FamilleActivite.txt.


Premièrement, On va définir la location du répertoire de travail. Il existe une
commande getwd() qui permet d’afficher la location du problème de travail sous la forme
d’une chemin absolu.
Ensuite, nous lisons le fichier FamilleActivite.txt à partir de la fonction read.table().
La fonction read.table() permet de lire un fichier dans un format tabulaire et de créer une
dataframe à partir de ce dernier.

- L’argument header=T permet de spécifier que la première ligne de jeu de données


correspond aux intitulé des colonnes.
- L’argument sep= « » indique que la séparation de colonne est un espace.

Les valeurs de n= 3 et p =3.

On convertie le tableau de contingence en une matrice K par la fonction as.matrix.


La commande as.matrix est utilisée pour convertir un objet en une matrice en
utilisant les données de l'objet. Dans R, un objet peut être de différents types tels que vecteur,
liste, data.frame, etc. La fonction as.matrix permet de transformer ces objets en une
représentation matricielle.

2. Les valeurs et leurs interprétations en français pour l’enquête des paramètres.

La fonction rowSums() permet de calculer la somme des valeurs pour chaque ligne
d’une matrice ou d’une data.frame et la fonction colSum() permet de calculer la somme
des valeurs pour chaque colonne. Enfin, la commande sum() calcule toutes les valeurs
contenus dans la matrice.

Interprétation :
o Ici la somme des valeurs de la première ligne est 261, la somme des valeurs de la
deuxième ligne est 555 et la somme des valeurs de la troisième ligne est 908.
o Ici que la somme des valeurs de la première colonne est 284, la somme des valeurs de
la deuxième colonne est 1123 et la somme des valeurs de la troisième colonne est 317.
o La somme de toutes les valeurs de la matrice K est 1724.
3. Calculons le tableau de conjointe et affichons avec 4 décimales.
Pour calculer la probabilité conjointe des valeurs dans une matrice, on divise chaque
élément de la matrice par la somme totale de tous les éléments de la matrice. La commande
round() est utilisé pour arrondir un nombre à un nombre spécifié de décimale.

4. Exécution de la commande balloonplot.

Commande balloonplot permet de créer un graphique de type "balloon plot". Ce type de


graphique est utilisé pour visualiser les résultats d'une Analyse Factorielle des
Correspondances (AFC) en mettant en évidence les contributions des variables (ou
catégories) aux axes factoriels.

Dans une distribution de probabilité, la somme totale des probabilités doit être égale à
1. Cela est dû à la nature des probabilités, qui représentent la mesure de la certitude ou de
l'incertitude associée à chaque événement dans un ensemble donné.

Lorsque nous avons une distribution de probabilités pour une variable discrète, la somme des
probabilités de toutes les catégories de cette variable doit être égale à 1. Cela signifie que l'un
des événements possibles doit se produire, car l'ensemble de tous les événements possibles
représente l'espace des probabilités complet. C'est pourquoi la somme totale des probabilités
doit être égale à 1 dans une distribution de probabilité valide. Cela est une propriété
fondamentale des probabilités et est essentiel pour interpréter correctement les résultats d'une
analyse probabiliste.

5. Calculons le tableau profils lignes (probabilité conditionnelles) et les profils colonne.

 Le tableau profils lignes :

 Le tableau profils colonne

Affichage des tableaux profils lignes et colonnes avec la commande balloonplot.

 Tableau profils ligne par la commande balloonplot :


 Tableau profils colonne par la commande balloonplot :

6. Exécution d’une AFC par la commande res=CA(K).


La commande CA() effectue une Analyse Factorielle des Correspondances (AFC) sur les
donnée catégorielles.

Affichage du résultat :
7. Les qualités de représentation du premier axe factoriel, du deuxième axe factoriel et
du premier plan factoriel.

La commande res$col$contrib[,1] extrait les contributions des variables à la première


dimension(premier axe) de l’axe 1. Ces contributions indiquent l’importance de chaque
variable dans la formation de l’axe 1.

La commande res$col$contrib[,2] extrait les contributions des variables à la


deuxième dimension(deuxième axe) de l’AFC. Ces contributions indiquent l’importance
de chaque variable dans la formation de l’axe 2.

8. Examinassions des éléments lignes et colonnes qui s’opposent sur cet axe et qui ont
une contribution importante.
9. Le nuage des profils lignes N(I)
 Calculons le centre de gravité de N (I).

Affichage de centre de gravité par la commande balloonplot.


 Calculons le tableau Lift(J)

10. Le nuage de profils colonnes.

 Calculons le centre de gravité de N(I)


 Calculons le tableau Lift(J)

Vous aimerez peut-être aussi