Approches basées sur la classification dans l’exploration de données

La classification est le traitement consistant à trouver un groupe de modèles (ou fonctions) qui décrivent et distinguent des classes de données ou des concepts, dans le but d’avoir la capacité d’utiliser le modèle pour prédire la catégorie d’objets dont l’étiquette de classe est inconnue. Le modèle déterminé dépend de l’investigation d’un ensemble d’informations de données d’apprentissage (c’est-à-dire des objets de données dont l’étiquette de classe est connue). Le modèle dérivé pourrait également être représenté sous diverses formes, telles que des règles de classification (si – alors), des arbres de décision et des réseaux de neurones. L’exploration de données a un type de classificateur différent : une classification est une forme d’analyse de données qui extrait des modèles décrivant des classes de données importantes. Ces modèles sont appelés classificateurs. Par exemple, nous pouvons créer un modèle de classification pour les banques afin de catégoriser les requests de prêt.

Une approche générale de la classification :

La classification est un processus en deux étapes impliquant,

Étape d’apprentissage : C’est une étape où le modèle de classification doit être construit. Dans cette phase, les données d’entraînement sont analysées par un algorithme de classification.

Étape de classification : c’est une étape où le modèle est utilisé pour prédire les étiquettes de classe pour des données données. Dans cette phase, les données de test sont utilisées pour estimer la précision des règles de classification.

Algorithmes de classification de base :

Induction de l’arbre de décision :

  • L’induction d’arbre de décision est l’apprentissage d’arbres de décision à partir de tuples d’apprentissage étiquetés par classe.
  • Étant donné un tuple X, pour lequel l’étiquette de classe d’association est inconnue, les valeurs d’attribut des tuples sont testées par rapport à l’arbre de décision.
  • Un chemin tracé de la racine au node feuille, qui contient la prédiction de classe pour le tuple.
  • Ces arbres sont ensuite convertis en règles de classification.
  • Les arbres de décision sont plus faciles à interrompre s’ils n’ont besoin d’aucune connaissance de domaine

Classification bayésienne naïve :

  • Ce sont des classificateurs statistiques.
  • Ils peuvent prédire les probabilités d’appartenance à une classe, telles que la probabilité qu’un tuple donné appartienne à une classe particulière.
  • Les classificateurs naïfs supposent que l’effet d’une valeur d’attribut sur une classe est indépendant des valeurs des autres attributs.
  • La formule mathématique de cette classification est,

                                                     P(H|X)=P(X|H)P(X)/P(X)

où H est une hypothèse et p(H|X) est une probabilité que H tienne la preuve donnée pour le tuple X (données observées)

p(X|H) est la probabilité a posteriori de X conditionnée sur H 

Classification basée sur des règles :

  • Les règles sont un bon moyen de représenter des informations ou des connaissances.
  • Un classificateur basé sur des règles utilise un ensemble de règles IF-THEN pour la classification et est représenté par

                                                     IF  condition THEN rules

  • La partie SI est appelée précondition et la partie ALORS est appelée règle conséquente.
  • Cela implique que ce n’est que si la condition est remplie que la partie suivante (ALORS) s’exécutera.

 

Voyons maintenant comment classer Outlier. Une base de données peut contenir des objets de données qui ne correspondent pas au comportement général ou au modèle de l’info . Ces objets de données sont des valeurs aberrantes. L’investigation des données OUTLIER est comprise comme OUTLIER MINING. Une valeur aberrante peut également être détectée ou classifiée à l’aide de tests statistiques qui supposent un modèle de distribution ou de probabilité pour l’information, ou à l’aide de mesures de distance où les objets ayant une petite fraction de voisins « proches » dans l’espace sont considérés comme des valeurs aberrantes. Plutôt que d’utiliser des mesures factuelles ou de distance, les techniques basées sur l’écart distinguent les exceptions / valeurs aberrantes en inspectant les différences dans les principaux attributs des choses au cours d’un groupe.

La détection des valeurs aberrantes (également appelée détection des anomalies) est le processus de recherche d’objets de données avec des comportements très différents des attentes. Ces objets sont appelés valeurs aberrantes ou anomalies. La détection des valeurs aberrantes est essentielle dans de nombreuses applications en plus de la détection des fraudes telles que l’aide médicale, la sécurité publique, la détection des dommages industriels, le traitement des images, la surveillance des réseaux de capteurs/vidéo et la détection des intrusions.

En général, les valeurs aberrantes sont souvent classées en trois catégories, à savoir les valeurs aberrantes globales, les valeurs aberrantes contextuelles (ou conditionnelles) et les valeurs aberrantes collectives. Examinons chacune de ces catégories.

Valeurs aberrantes globales : au cours d’un ensemble de données donné, un objet de connaissance peut être une valeur aberrante globale s’il s’écarte de manière significative du reste de l’ensemble d’informations. Les valeurs aberrantes globales sont parfois appelées anomalies ponctuelles et sont le seul type de valeurs aberrantes. La plupart des méthodes de détection des valeurs aberrantes visent à trouver des valeurs aberrantes globales.

Valeurs aberrantes contextuelles: au cours d’un ensemble de données donné, un objet de connaissance pourrait également être une valeur aberrante contextuelle s’il s’écarte significativement par rapport à un contexte spécifique de la chose. Les valeurs aberrantes contextuelles sont également appelées valeurs aberrantes conditionnelles car elles dépendent du contexte choisi. Par conséquent, dans la détection de valeurs aberrantes contextuelles, le contexte doit être spécifié comme un voisinage de la définition de la matière. Contrairement à la détection globale des valeurs aberrantes, dans la détection contextuelle des valeurs aberrantes, le fait qu’un objet de connaissance soit une valeur aberrante dépend non seulement des attributs comportementaux mais également des attributs contextuels. Les valeurs aberrantes contextuelles sont une généralisation des valeurs aberrantes locales, une notion introduite dans les approches d’analyse des valeurs aberrantes basées sur la densité. Un objet au cours d’un ensemble de données peut être une valeur aberrante locale si sa densité s’écarte de manière significative de la zone locale au cours de laquelle il se produit.

Valeurs aberrantes collectives : au cours d’un ensemble de données donné, un sous-ensemble d’objets de connaissance forme une valeur aberrante collective si les objets dans leur ensemble s’écartent considérablement de l’ensemble de données. Il est important de noter que les objets de données individuels peuvent ne pas être des valeurs aberrantes. Contrairement à la détection globale ou contextuelle des valeurs aberrantes, dans la détection collective des valeurs aberrantes, nous devons penser non seulement au comportement des objets individuels, mais également à celui des groupes d’objets. Par conséquent, pour détecter les valeurs aberrantes collectives, nous aimerions connaître l’arrière-plan de la connexion entre les objets de données, comme les mesures de distance ou de similarité entre les objets.

Post automatically translated

Article written by aravindharavindh and translated by Acervo Lima. The original can be accessed here. Licence: CCBY-SA

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

12 + onze =