Cours I.A.A
Cours I.A.A
Cours I.A.A
Chapitre 0
Le terme intelligence artificielle date de 1956, lors de la conférence de Darmouth par John
McCarthy, Marvin Lee Minsky, Shannon, Allen Newell, Hebert Simon et Rochester. Cela étant,
l’IA tire naissance d’une fusion d’idées provenant de plusieurs disciplines (Philosophie,
Mathématique, Logique, Psychologie, Ophtalmologie, Cybernétique, Linguistique, etc).
L’intelligence artificielle a connu le succès de ce qu’il énonce une problématique fondamentale : la
possibilité de concevoir une machine intelligente. En quoi consiste La machine intelligente ? Pour
pouvoir répondre à cette question, nous allons utiliser deux approches :
Première approche : Une machine est dite intelligente lorsqu’elle est capable de reproduire le
comportement humain dans un domaine spécifié ou non.
Deuxième approche : Une machine est dite intelligente lorsqu’elle est capable de modéliser le
fonctionnement d’un être humain.
0.2. DEFINITIONS
D’après le LAROUSSE ; l’adjectif artificiel se dit de tout ce qui est produit par une technique
humaine.
En dépit de ces définitions, la définition de l’intelligence artificielle n’est universelle car chaque
auteur a une compréhension propre de ce terme.
En vertu de ces définitions, nous disons que l’intelligence artificielle est la science qui étudie les
moyens nécessaires permettant la substitution de l’homme par la machine dans l’accomplissement
des tâches nécessitant des capacités intellectuelles.
2
Le concept de l’intelligence artificielle forte fait référence à la construction des machines capables
non seulement de produire un comportement humain intelligent, mais aussi d’éprouver une
impression d’une réelle conscience de soi, de vrais sentiments et une compréhension de ses propres
raisonnements. Bref, on cherche à égaler l’homme, voire même le dépasser.
Le concept de l’intelligence artificielle faible fait référence à la construction des machines capables
de simuler l’intelligence humaine en vue d’aider l’homme dans l’accomplissement de ses tâches
tel que le système expert. Bien que ces machines puissent produire le comportement humain, elles
sont inconscientes de ce comportement et n’éprouvent aucun sentiment humain. Il s’agit d’une
approche pragmatique de l’ingénieur.
monde de Backgammon est un programme depuis quelques années déjà et cela sera
vraisemblablement aussi le cas pour le jeu d'échecs dans peu de temps. Le jeu de Go
résiste beaucoup plus aux efforts des programmeurs de jeux.
• la reconnaissance de la parole : les progrès sont beaucoup plus lents qu'on ne l'imaginait
mais constants. On est encore loin de pouvoir produire un logiciel capable de reconnaître
les paroles d'un locuteur quelconque et cela essentiellement parce que la compréhension
d'un mot, d'une phrase requiert beaucoup d'informations extra langagières (le contexte, la
connaissance du monde dans lequel nous vivons interviennent de manière fondamentale).
Un Dictaphone automatique a malgré tout été proposé dans le commerce en 1994 mais il
ne fonctionne que si le locuteur sépare chacun des mots et n'effectue aucune liaison.
• La reconnaissance de l'écriture : même la reconnaissance de l'écriture dactylographiée
n'est pas un problème facile (bien qu'on commence à trouver sur le marché des logiciels
très performants). L'écriture manuscrite pose des problèmes autrement plus ardus : cela
n'est pas étonnant dans la mesure où cette tâche peut nous poser à nous aussi des
problèmes insolubles. Certains chercheurs essaient de reconstituer le mouvement de la
main à partir du texte qu'elle a écrit afin de comprendre ce qui a été écrit.
• La reconnaissance des visages : longtemps considéré comme un des problèmes les plus
difficiles de l'intelligence artificielle, il semble que l'on obtienne des résultats intéressants
en utilisant des réseaux neuronaux.
• la robotique. Il y a déjà longtemps que des robots industriels ont fait leur apparition dans
les usines. On appelle robot de la première génération, ceux qui sont capables d'exécuter
une série de mouvements préenregistrés. Un robot de la deuxième génération est doté de
moyens de perception visuelle lui permettant de prendre certaines décisions. Un robot de
la troisième génération, objet des recherches actuelles, doit acquérir une plus grande
autonomie comme se déplacer dans un environnement inconnu. On est encore loin du
robot domestique ou ménager.
• l'apprentissage. L’idée est d’avoir un logiciel qui devrait avoir des capacités
d'apprentissage autonome pour pouvoir être véritablement qualifié d’intelligent.
• les réseaux neuronaux. Un réseau de neurones formels est un modèle rudimentaire du
cerveau humain, chaque cellule neuronale étant décrite comme une fonction à seuil
possédant une sortie et dont les entrées sont reliées à d'autres neurones. Il est pourtant
possible d'effectuer des tâches non triviales à l'aide de tels réseaux (la reconnaissance des
formes et en particulier des visages en étant l'exemple le plus frappant). Ces réseaux
partagent plusieurs propriétés importantes avec le cerveau humain : répartition de
l'information sur l'ensemble du réseau (où se trouve la mémoire dans le cerveau ?),
programmation non explicite (nous ne savons pas non plus ce que nous savons), etc.
• les systèmes complexes adaptatifs : on regroupe sous ce vocable les algorithmes
génétiques et les modèles de vie artificielle. Il s'agit là, énoncé de manière abusivement
succincte, d'étudier comment des populations soumises à des lois simples et naturelles
convergent naturellement vers des formes organisées.
• Grâce à l’IA, l’homme est dispensé de certains travaux difficiles, répétitifs ou pénibles (exemple
des robots domestiques, système expert etc.).
• Les machines n’ont pas de contraintes physiques, ni besoin de manger.
D’après plusieurs auteurs, les perspectives de l’intelligence artificielle peuvent avoir des
inconvénients dans la mesure où les machines devenaient plus intelligentes que les hommes et
incontrôlées. Si tel est le cas, elles peuvent prendre le contrôle des hommes, voire même les
exterminer. De la même manière que la conception de ces machines faisait partie des activités
intellectuelles de l’homme, elles peuvent aussi à leur tour créer des machines beaucoup plus
intelligentes qu’elles- mêmes.
5
Chapitre 1
INTRODUCTION
Les offres commerciales actuelles proposent des logiciels d'extraction et d'analyse ; ils permettent
de collecter des informations provenant de sources différentes et d'exploiter ces données au travers
d'interfaces utilisateurs. Néanmoins ces outils ne proposent pas une solution intégrée de conception
et de développement des systèmes décisionnels. De plus, ils ne répondent pas entièrement aux
caractéristiques des applications actuelles telles que la modélisation des données complexes et la
gestion de leur évolution [Gatziu, et al 1999] [Pedersen, Jensen 1999]
Les entreprises soucieuses de leur progrès, tentent à satisfaire continuellement leurs clients
potentiels. Ceci les oblige à prendre les décisions adéquates en vue de répondre aux exigences du
marché. L’analyse de ce marché repose sur la quantité importante d’informations provenant de
différentes sources.
L’informatique permet de traiter de manière objective ces informations circulant dans l’entreprise
car la maitrise de ces informations se trouvant au centre des activités de l’entreprise, constitue un
enjeu très capital dans un environnement livré à la concurrence. Pour survivre dans un tel
environnement, la plupart d’entreprises optimisent leurs méthodes et emploient une stratégie
d’amélioration continuelle en anticipant des événements de plusieurs types : évolution du marché,
conservation de la clientèle, création de goût chez les consommateurs, etc. Elle doit également
profiler ses clients afin de mieux les satisfaire.
Cette analyse peut se faire en exploitant les entrepôts de données (ED) d’une part et les outils de
data Mining d’autre part, car l’aide à la décision peut nécessiter de comprendre plus profondément
les chiffres et les faits de l’entreprise. Le résultat issu de cette analyse va devoir remettre en cause
certain choix, soit prendre des risques concentrés sur des secteurs d’activités ou au contraire
s’élargir sur des nouveaux secteurs d’activités. Partant de ce fait, les entreprises ont senti le besoin
et la nécessité de prendre certaines décisions pour répondre aux attentes de clients. Bref, elle va
devoir prendre des décisions ; des décisions stratégiques ayant une forte répercussion sur la santé
6
financière de l’entreprise. Pour cela, l’entreprise doit définir des indicateurs précis et contrôler le
mieux possible les mouvements de passation de commande.
La connaissance de l’environnement décisionnel est un élément vital dans la prise de décision.
Par exemple la connaissance de clients et de leur comportement d’achat constitue un élément
décisionnel pour le lancement d’un produit. Les entreprises possèdent donc, le volume de
données important aux formats généralement hétérogènes, ce qui nécessite l’utilisation d’un outil
permettant l’exploitation efficace et performante de ces données pour aider l’entreprise à la prise
de décision, d’où l’utilisation des entrepôts de données (ED).
Cette approche vise à extraire des données de bases de production, à les assembler, par sujet, à les
organiser, à les transformer et à les résumer pour l’aide à la décision. Pour mieux connaître sa
clientèle, une entreprise peut décider d’effectuer une classification basée sur le comportement des
clients. Ceci implique la nécessité de mettre en place des outils de data Mining. Ces outils
reposent en général sur des techniques basées sur les statistiques, la classification ou l’extraction
de règles associatives.
Dans cette situation, une entreprise utilisera un systèmeinformatique décisionnel pour s’aider
dans cette prise des décisions.Ce système permet donc d’assurer lacroissance d’une entreprise et
les entrepôts de données, constituant principald’un tel système ont d’autre fonctions à part la
sauvegarde de données archivées ; ils apportent une aide bien précieuse aux dirigeants des
sociétés en leurs fournissant une vue synthétique de leurs entreprises ; une connaissance qu’ils ne
sauraient extraire autrement que par le Data Mining.
Sous le modèle du taylorisme et jusque dans les années 80-90, les organisations étaient organisées
de manière pyramidale. Les décisions étaient prises au sommet de la pyramide et les ordres étaient
transmis de manière descendante et unilatérale à tous les niveaux opérationnels. Dans ce type
d’organisation, les décideurs étaient seulement les dirigeants de l’organisation.
Ce type d’organisation était efficace tant que le marché était localisé et qu’il suffisait de produire
pour vendre. Depuis nous sommes confrontés à une complexité grandissante du marché liée :
À la mondialisation : les concurrents sont plus nombreux, plus innovants, mieux armés.
À une modification des comportements d’achats : l’organisation se doit d’être centrée
client. En effet, les produits sont de plus en plus personnalisés (on parle de onetoone).
Au fait que le monde va de plus en plus vite : le critère de délai de livraison ou de
disponibilité de l’information 7 jours du 7, 24h sur 24 associé à la mondialisation et la
personnalisation du besoin client, démultiplie la complexité de l’écosystème de
l’organisation.
Afin de pouvoir répondre à cette complexité grandissante du marché, l’entreprise dans les années
90, puis avec le web dans les années 2000 a amorcé une mutation de son organisation. Une des
conséquences de cette modification latente des organisations est que les cadres opérationnels
sont devenus autant de décideurs de terrain. D’où la nécessité d’un outil d’aide à la décision
orienté Data warehouse ou Data Mining.
7
C’est au début des années 1990 que les entreprises commençaient de plus en plus à s’intéresser de
l’informatique décisionnelle. Aujourd’hui la situation de marché est telle que la plupart des
entreprises possèdent un système d’information décisionnel. Celui-ci pourra être plus au moins
complexe et élaboré, allant du simple tableau sous Excel à l’entrepôt des données. Le service
attendu d’un système décisionnel est d’avoir une vue synthétique de l’entreprise, ceci dans le but
de pouvoir prendre des décisions stratégiques concernant les directions et engagements à prendre.
Il existe deux grandes catégories des systèmes d’informations, les systèmes opérationnels et les
systèmes décisionnels. Les premiers s’occupent de la gestion de l’opérationnel de l’entreprise et les
seconds sont utilisés pour prendre du recul et servir de support aux décisions de l’entreprise et des
dirigeants.
Une décision est le résultat d’un processus comportant le choix conscient entre plusieurs solutions
en vue d’atteindre un objectif.
L’efficacité des services d’une entreprise dépend de la qualité de ses décisions, donc améliorer
l’habilité à prendre des décisions, c’est optimiser l’usage des ressources dont dispose l’entreprise.
La maturité du système décisionnel peut fortement varier d’une entreprise à l’autre, certaine
bénéficiant de l’expérience déjà acquise dans ce domaine alors que d’autre se lance dans un terrain
inconnu. L’entrepôt permet aux entreprises d’avoir un système qui regroupe au même endroit les
informations qui jusqu’à lors étaient éparpillé dans une multitude d’applications ou systèmes
différents et souvent non intégrés entre eux.
L’architecture décisionnelle autour de laquelle sont bâtis les systèmes d’aide à la décision assure le
processus de transformation des données en informations à usage décisionnelle. Ces informations à
usage décisionnel contribuent à l’amélioration des performances des savoir-faire structurés sous
forme de processus métiers, et la connaissance contenue dans les ressources utilisées apporte des
8
moyens pour l’amélioration de la prise de décision. Cette prise de décision est fortement l’exécution
des processus.
Cette nouvelle utilisation de l’information contenue dans les bases opérationnelles des entreprises,
a donné lieu à l’élaboration de nouveaux systèmes dédiés à l’analyse et à la prise de décision. Ces
systèmes regroupent un ensemble d’informations et d’outils mis à la disposition des décideurs pour
supporter de manière efficace la prise de décision. Ainsi, un système décisionnel est un système
d’information dédié aux applications décisionnelles.
Les systèmes décisionnels peuvent être illustrés en cinq étapes et permettent de répondre aux
questions suivantes :
Les besoins des utilisateurs peuvent être regroupés en quatre catégories : Simuler, Analyser les
données, Produire des états de gestion, Suivre et Contrôler. Face à ces besoins, les systèmes
décisionnels proposent les fonctionnalités suivantes :
a) Simuler
a.1) Gestion des modèles de calcul (calcul automatique d’ensemble de données complexe en
fonction : de paramètres entrés par l’utilisateur et de règles de gestion) ;
a.2) Elaboration collaborative ;
b) analyser les données
b.1) Fonctionnalités OLAP (Etablissement d’analyses dynamiques multidimensionnelles
avec possibilité de trier, filtrer, zoomer à l’intérieur des données) ;
b.2) Fonctionnalités avancées de datamining. Ensemble de techniques statistiques
sophistiquées permettant de faire apparaître des corrélations, des tendances et des
prévisions
c) Produire des états de gestion
Fonctionnalité de reporting. Requêteurs permettant de produire de façon simple et rapide des
tableaux de données incorporant des calculs plus ou moins sophistiqués ;
d) Suivre et contrôler
d.1) Elaboration de tableaux de bords. Production et diffusion automatique à fréquence
régulière de tableaux de bord regroupant des données hétérogènes ;
d.2) Emission d’alerte. Génération conditionnelle de messages sur différents supports
(Email, Sms…) plus ou moins complexes en fonction de configuration de données.
Il est rare que l’ensemble de ces fonctionnalités soient mises en place dans une entreprise. Les
mises en œuvre sont en outre souvent réalisées par domaine fonctionnel (les ventes, achats…). Par
ailleurs il n’existe pas, de produit couvrant l’ensemble de ces fonctionnalités. Chaque progiciel, en
fonction de son origine et du positionnement que souhaite lui donner son éditeur, est plus ou
moins avancé sur l’un ou l’autre thème.
Il est donc crucial de déterminer précisément ses besoins présents, et futurs, ainsi que les
contraintes liées à son organisation ou à son activité avant de choisir une solution.
Les apports des systèmes décisionnels sont néanmoins réels. Ils peuvent être classés en deux
catégories :
a) L’amélioration de l’efficacité de la communication et de la distribution des
informations de pilotage ;
b) L’amélioration du pilotage des entreprises résultant de meilleures décisions, prises
plus rapidement.
Si le premier point est aisément compréhensible, présente peu de risque de mise en œuvre et pose
peu de problème d’évaluation ce n’est clairement pas en revanche une source de gains
significative. Il sera très difficile, le plus souvent, de justifier les coûts d’un projet sur cette seule
promesse.
La seconde catégorie à nettement plus de potentiel de gains mais il faut bien reconnaître que les
risques de ne pas atteindre les objectifs initiaux sont réels, sans parler des énormes difficultés
d’évaluation des bénéfices escomptés.
10
Les bénéfices de ce type les plus souvent cités sont les suivants :
• Unicité des chiffres, une seule vérité acceptée par tous,
• Meilleure planification,
• Amélioration de la prise de décision,
• Amélioration de l’efficacité des processus,
• Amélioration de la satisfaction des clients et des fournisseurs,
• Amélioration de la satisfaction des employés.
Architecture
Chapitre 3 :
Le Data Warehouse
III.1 Introduction
L’entreposage de données est une collection de données intermédiaire qui permet de stocker les
information provenant des sources externes, des applications de productions, d’Internet… , ces
données sont alimentées par le biais des outils informatique appelés ETL « Extract, Transform,
Load» et qui sont structurées de manière historisés , intégrés, datés, et non volatiles dans l’entrepôt
de données.
Ne vous êtes-vous jamais demandé comment est choisi l’emplacement des produits dans une grande
surface ? Si c’est par pur « feeling » du responsable ou bien par une stratégie marketing bien plus
élaborée… Ou bien encore par quel moyen, la publicité nominative (postal ou par mail) est bien
souvent en relation directe avec nos habitudes de consommations ? La réponse tient en un mot : le
data warehouse.Dés que nous achetons un produit, émettons un appel téléphonique, en quelques
mots : toutes actions liées à l’activité d’une entreprise est stockés dans un data warehouse pour en
être analyse, via des outils de data mining afin de nous étudier. Ceci dans un but bien précis : celui
de nous connaître afin de mieux identifier nos besoins.
« Ne pas anticiper, c’est déjà mourir », Aujourd’hui, toute entreprise doit pouvoir anticiper des
événements de plusieurs type : évolution du marché, fluctuation de la consommation. Elles doivent
également « profiler » ses clients afin de mieux les satisfaire, voir même de savoir créer un nouveau
besoin chez les consommateurs. Elle va devoir remettre en cause certain choix, prendre des risques,
se recentrer sur des secteurs d’activité ou au contraire s’élargie sur des nouveaux. Bref, elle va
devoir prendre des décisions. Des décisions stratégiques ayant une forte répercussion sur la santé
financière de l’entreprise. Dans cette situation, une entreprise utilisera un système décisionnel pour
s’aider dans cette prise de décision. Mais ces entrepôts de données, constituant principale d’un
système informatiquedécisionnel ont bien d’autres fonctions. Ils apportent une aide bien précieuse
aux dirigeants des sociétés en leur fournissant une vue synthétique de leur entreprise. Une
connaissance qu’ils ne sauraient extraire autrement. Pour cela, le data warehouse doit contenir
l’ensemble des données de l’entreprise.
Une fois que le Data Warehouse est crée, on peut mettre en place de reporting et d’analyse pour
différents service, en suite on va construire par service un mini Data Warehouse qui contiendra
uniquement les données qui sont utilisées au sein du service, ce mini Data Warehouse est appelé
Data Mart. Ce dernier vise une problématique précise avec un nombre d’utilisateur plus restreint,
répondant chacun à une nécessité claire identifiée et définie. Les dirigeants veulent également
analyser les années mise à leur disposition et visualiser les informations (indicateurs) par rapport
aux différents axes d’analyse, ce qui nécessite de s’appuyer sur une information pré-packagée et
fortement structurée.
12
Les outils OLAP répondent à ces besoins. «Un data warehouse ne s'achète pas, il se construit.
»Pour utiliser à bon escient un produit, il faut le connaître. Cela est également vrai pour un data
warehouse.
« Les données ne naissent pas pertinentes, elles les deviennent... » Le but ultime d’un data
warehouse est de corréler toutes les informations qu’il contient afin de fournir au décideur un
schéma et/ou une connaissance plus ou moins détaillée de la problématique soumise. Mais un data
warehouse aussi bien pensé soit-il, n’est rien sans de bon outils de recherche.
Un entrepôt de donnée peut contenir plusieurs téraoctets de donnée. Il faut donc des outils
spécialisés dans la recherche d’information dans cet environnement. Cet outil, ou cet ensemble
d’outils est appelé data mining.
L’atout principal d’une entreprise réside dans les informations qu’elle possède. Les informations
se présentent généralement sous deux formes : les systèmes opérationnels qui enregistrent les
données et le Data Warehouse. En bref, les systèmes opérationnels représentent l’emplacement de
saisie des données, et l’entrepôt de données l’emplacement de restitution.
b) Modélisation
Le rôle primordial d’un data warehouse apparaît ainsi évident dans une stratégie descensionnelle.
L’alimentation du data warehouse en est la phase la plus critique, En effet, importer des données
inutiles apportera de nombreux problèmes. Cela consommera des ressources système et du temps.
De plus, cela rendra les services d’analyses plus lents. Autre point à prendre en compte et la
périodicité d’extraction des données.
Effectivement, le plus souvent, les opérations de collecte de données sont coûteuses en ressource.
Il faut donc trouver un équilibre entre le délai acceptable entre deux mises à jours des tables du
data warehouse et les ressources consommées. Comme nous l’avons indiqué, le Data warehouse
est le centre de chaîne décisionnelle, les utilisateurs n’auront accès qu’aux outils de requête et
d’analyse. Toutes parties de l’alimentation et celles de restitution des données sont gérées par une
équipe informatique interne ou externe à l’entreprise spécialisée en gestion de base de données et
en décisionnel.
Ce titre amène naturellement à définir la position de l’entreprise par rapport au sujet “ le Data
warehouse ”. Une entreprise se doit en permanence de pouvoir se situer par rapport à la
concurrence, mais également par rapport à la demande et à ce qu’elle peut offrir. C’est sur ces
points qu’un système décisionnel intervient.
L’entreprise construit un système décisionnel pour améliorer sa performance, elle doit décider et
anticiper en fonction de l’information disponible et capitaliser sur ses expériences.
a) Entreprise : est une organisation dotée d’une mission et d’un objectif métier. Elle doit
sa raison d’être et /ou sa pérennité au travers de différent objectifs (sécurité,
développement, rentabilité …). Par voie de conséquence, cette organisation humaine est
dotée d’un centre de décision.
b) Rôle de décideur : il peut être le responsable de l’entreprise, le responsable d’une
fonction ou d’un secteur. Il est donc celui qui engage lapérennité ou la raison d’être de
l’entreprise.pour ces raisons, il doit s’entourer de différents moyens lui permettant une
prise de décision la plus pertinente. Parmi ces moyens, les Data Warehouse ont une place
primordiale. En effet, ils contiennent les données de toute l’activité de l’entreprise. Le
principal problème réside dans l’exploitation de ces informations. Pour cela, il est
primordial de penser au data mining.
Dans notre monde actuel, fait de communications, une entreprise pour survivre doit
pouvoir se situer face à la concurrence, connaître son rapport offre / demande. Pour cela,
il faut se connaître, et l’informatique décisionnelle, au travers d’un data warehouse
apporte tous les éléments de réponse.
a) Intégrées
Les données de l’entrepôt proviennent de différentes sources éventuellement hétérogènes.
L’intégration consiste à résoudre les problèmes d’hétérogénéité des systèmes de stockage, des
modèles de données, de sémantique de données.
b) Orientées sujet
Le Data Warehouse est organisé au tour des sujets majeurs de l’entreprise. L’intérêt de cette
organisation est de disposer de l’ensemble des informations utiles sur un sujet le plus souvent
transversal aux structures fonctionnelles et organisationnelles de l’entreprise. c) Non volatiles
Tout se conserve, rien ne se perd : cette caractéristique est primordiale dans les entrepôts de
données. En effet, et contrairement aux bases de données classiques, un entrepôt de données est
accessible en ajout ou en consultation uniquement. Les modifications ne sont autorisées que pour
des cas particuliers (correction d’erreurs…etc.).
d) Historisées
La conservation de l’évolution des données dans le temps, constitue une caractéristique majeure
des entrepôts de données. Elle consiste à s’appuyer sur les résultats passés pour la prise de
décision et faire des prédictions ; autrement dit, la conservation des données afin de mieux
appréhender le présent et d’anticiper le futur.
e) Résumées
Les informations issues des sources de données doivent être agrégées et réorganisées afin de
faciliter le processus de prise de décision.
L’entrepôt de données doit comporter un module de traitement des requêtes, exprimées dans un
langage, doté d’opérateurs puissants, pour l’exploitation de la richesse du modèle.
III.2.1Modélisation Entité/Relation
Cette modélisation est une discipline qui permet d’éclairer les relations microscopique entre les
données. Dans sa forme la plus simple, elle permet de supprimer toute redondance de données.
Ceci apporte de nombreux avantages au niveau du traitement des transactions, qui deviennent
alors très simples et déterministes.
III.2.2Modélisationmensionnelle
16
Cette modélisationest une méthode de conception logique qui vise à présenter les données sous une
forme standardisée intuitive et qui permet des accès hautement performants. Elle adhère totalement
à la dimensionnalité ainsi qu’à une discipline qui exploite le modèle relationnel en le limitant
sérieusement. Chaque modèle dimensionnel se compose d’une table contenant une clé multiple,
table des faits, et d’un ensemble de tables plus petite nommées, tables dimensionnelles. Chacune de
ces dernières possède une clé primaire unique, qui correspond exactement à l’un des composants de
la clé multiple de la table des faits.
Dans la mesure où elle possède une clé primaire multiple reliée à au moins deux clés externes, la
table des faits exprime toujours une relation n,n (plusieurs à plusieurs).
Le modèle dimensionnel possède un grand nombre d’avantages dont le modèle entité/relation est
dépourvu. Premièrement, le modèle dimensionnel est une structure prévisible et standardisée. Les
générateurs d’états, outils de requête et interfaces utilisateurs peuvent reposer fortement sur le
modèle dimensionnel pour faire en sorte que les interfaces utilisateurs soient plus compréhensibles
et que le traitement soit optimisé. La deuxième force du modèle dimensionnel est que la structure
prévisible du schéma en étoile réside aux changements de comportement inattendus de l’utilisateur.
Toutes les dimensions sont équivalentes. La troisième avantage du modèle dimensionnel réside dans
le fait qu’il est extensible à pour accueillir des données et des besoins d’analyse non prévus au
départ. Ainsi, il est possible d’accomplir :
Un schéma est un ensemble d’objets de la base de données tels que les tables, des vues, des vues
matérialisé, des index et des synonymes. La conception du schéma d’un Data Warehouse est guidée
par le modèle des données source et par les besoins utilisateurs. L’idée fondamentale de la
modélisation dimensionnelle est que presque tous les types de données peuvent être représentés
dans un cube de données, dont les cellules contiennent des valeurs mesurées et les angles les
dimensions naturelles de données.
Les deux types d’objet les plus courants dans les schémas de Data Warehouse sont les tables de
faits et les tables de dimension.
a) Tables de faits
La table de faits est la clef de voûte du modèle dimensionnel où sont stockés les indicateurs de
performances. Le concepteur s’efforce de considérer comme indicateurs les informations d’un
processus d’entreprise dans un système d’information. Les indicateurs étant les données les plus
17
volumineuses d’un système d’information, on ne peut se permettre de les dupliquer dans d’autres
tables mais de les rationaliser au sein de la table de faits.
Une table de faits comprend généralement des colonnes de deux types : celles qui contiennent des
faits numériques (souvent appelés indicateurs) et celles qui servent de clé étrangère vers les tables
de dimension. Une table de faits peut contenir des faits détaillés ou agrégées. Les tables contenant
des faits agrégés sont souvent appelées tables agrégées. Une table de faits contient généralement de
faits de même niveau d’agrégation. La plupart des faits sont additifs, mais ils peuvent être semi
additifs ou non additifs.
Les faits additifs peuvent être agrégés par simple addition arithmétique. C’est par exemple le cas
des ventes. Les faits non additifs ne peuvent pas être additionnés du tout.
C’est le cas des moyennes. Les faits semi additifs peuvent être agrégés selon certaines dimensions
mais pas selon d’autres. C’est le cas, par exemple des niveaux de stock. Une table de faits doit être
définie pour chaque schéma. Du point de vue de la modélisation, la clé primaire de la table de faits
est généralement une clé composée qui est formée de toutes les clés étrangères associées.
b) Tables de dimensions
Une dimension est une structure comprenant une ou plusieurs hiérarchies qui classe les données en
catégories. Les dimensions sont des étiquettes descriptives fournissant des informations
complémentaires sur les faits, qui sont stockées dans les tables de dimension. Il s’agit normalement
de valeurs textuelles descriptives. Plusieurs dimensions distinctes combinées avec les faits
permettant de répondre aux questions relatives à l’activité de l’entreprise.
Les données de dimension son généralement collectées au plus bas niveau de détail, puis agrégées
aux niveaux supérieurs en totaux plus intéressants pour l’analyse, ces agrégations ou cumuls
naturels au sein d’une table de dimension sont appelés des hiérarchies. Les hiérarchies sont des
structures logiques qui utilisent les niveaux ordonnées pour organiser les données.
Pour une dimension temps, par exemple, une hiérarchie peut agréger les données selon le niveau
mensuel, le niveau trimestriel, le niveau annuel. Au sein d’une hiérarchie, chaque niveau est
connecté logiquement aux niveaux supérieurs et inférieurs. Les valeurs des niveaux inférieurs sont
agrégées en valeurs de niveau supérieur.
Un schéma en étoile est caractérisé par une ou plusieurs tables de faits, très volumineuses, qui
contiennent les informations essentielles du Data Warehouse et par un certain nombre de tables de
dimension, beaucoup plus petites, qui contiennent chacune des informations sur les entrées
associées à un attribut particulier de la table de faits. Une interrogation en étoile est une jointure
entre une table de faits et un certain nombre de table de dimensions. Chaque table de dimension est
jointe à la table de faits à l’aide d’une jointure de clé primaire à clé étrangère, mais les tables de
dimension ne sont pas jointes entre elles.
Dans un schéma en étoile, une table centrale de faits contenant les faits à analyser, référence les
tables de dimensions par des clefs étrangères. Chaque dimension est décrite par une seule table dont
les attributs représentent les diverses granularités possibles.
18
Les schémas en étoile présentent les avantages suivants : ils fournissent une correspondance
directe et intuitive entre les entités fonctionnelles analysées par les utilisateurs et la conception du
schéma. Ils sont pris en charge par un grand nombre d’outils décisionnels. La manière la plus
naturelle de modéliser un Data Warehouse est la représenter par un schéma en étoile dans lequel
une jointure unique établit la relation entre la table de faits et chaque table de dimension. Un
schéma en étoile optimise les performances en contribuant à simplifier les interrogations et à
raccourcir les temps de réponse. Les schémas en étoile présentent néanmoins quelques limites. La
table centrale peut devenir très volumineuse, sa taille maximale étant déterminée par le produit
des nombres de lignes des tables de dimension. En outre, les tables de dimension ne sont plus
normalisées. Elles sont donc plus volumineuses et plus difficiles à tenir à jour car elles
contiennent beaucoup de données dupliquées.
Dimensions 2
Dimensions 1
Id_dim2
Id_dim1
Id_f (Pk)
Id_dim1 (Fk)
Id_dim2 (Fk )
Dimensions 3
Id_dim3 (Fk)
Id_dim4 (Fk)
Dimensions 4 Id_dim3
Id_dim4
Les schémas en flocons normalisent les dimensions pour éliminer les redondances. Autrement dit,
les données de dimension sont stockées dans plusieurs tables et non dans une seule table de grande
taille. Cette structure de schéma consomme moins d’espace disque, mais comme elle utilise
davantage de tables de dimension, elle nécessite un plus grand nombre de jointures de clé
secondaire. Les interrogations sont par conséquent plus complexes et moins performantes.
Dans un schéma en flocon, cette même table de faits, référence les tables de dimensions de premier
niveau, au même titre que le schéma en étoile. La différence réside dans le fait que les dimensions
sont décrites par une succession de tables (à l’aide de clefs étrangères) représentant la granularité
de l'information. Ce schéma évite les redondances d’information mais nécessite des jointures lors
des agrégats de ces dimensions.
Le principal avantage du schéma en flocons est une amélioration des performances des
interrogations due à des besoins réduits en espace de stockage sur disque et la petite taille des
tables de dimension à joindre. Le principal inconvénient de ce schéma est le travail de maintenance
supplémentaire imposé par le nombre accru de tables de dimension.
19
Dimensions 5
Id_dim5
Dimensions 2
Dimensions 1
Id_dim2
Id_dim1 Id_dim 5
Id_f (Pk)
Id_dim1 (Fk)
Id_dim2 (Fk) Dimensions 3
Id_dim3 (Fk)
Id_dim4 (Fk)
Dimensions 4 Id_dim3
Id_dim 6
Id_dim4
Dimensions 6
Id_dim 6
Pour conclure, les différences entre ces trois modèles sont faibles et ne peuvent donner lieu à des
comparaisons de performance. Ce sont des schémas issus de la modélisation dimensionnelle utilisés
par les outils décisionnels.
L’ETL
Une fois la structure du datawarehouse définie, les données doivent être insérées. L’outil qui va
permettre le remplissage de notre base est l’ETL (Extract-Transform-Loading). Comme son nom
l’indique, il commence par extraire les données provenant de différentes sources (Excel,
MySQL…), les transforme si besoin est, puis les charge dans le datawarehouse.
Les systèmes opérationnels, bases de données indispensable à la vie d’une entreprise, permet d’avoir
une activité journalière (gestion de stocks, base de fournisseurs/clients, etc.). Ceci n’est pas le rôle
d’un data warehouse, couplé à des outils de data mining il n’a pour unique but de faciliter la prise
de décision en apportant une vue synthétisée de l’ensemble des données de l’entreprise éparpillées
dans toutes ces bases opérationnelles.
Les données ayant été identifiées, elles doivent être extraites de leurs système sources, transformées
puis acheminées jusqu’aux serveurs de présentation. Elles sont ensuite mise à disposition dans le
but d’être utilisées efficacement par les clients du Data Warehouse.
L’élaboration de l’architecture et l’établissement des priorités doivent en premier lieu être piloté
par les besoins métier.L’architecture du Data Warehouse présente les processus et les outils qui
s’appliquent aux données. Elle répond aux comment récupérer les données sources, comment leur
donner une forme répondant aux besoins et comment les placer à un endroit accessible ? Les outils,
les utilisateurs, le code, tout ce qui donne vie à l’entrepôt de données fait partie de l’architecture.
Ces composants constituent les pompes et les canalisations qui régulent les flux des données et les
dirigent au bon endroit au bon moment. Les emplacements d’origine et de destination des données
font également partie de l’architecture.
Deux sous-ensembles de l’architecture répondent à des besoins suffisamment distincts pour être
pris en considération séparément. Nous avons la zone de construction (back room) et les outils
frontaux(front room). La zone de construction effectue la collecte et la préparation des données.
Le termeacquisition des donnéesest également utilisé pour désigner la zone de construction.Les
outils frontaux sont chargés de livrer les données aux utilisateurs. On parle également d’accès aux
données.Ces deux parties disposent chacune de leurs propres composants de stockage de données.
21
D’un point de vue général, les données quittent les systèmes source pour la zone de préparation
grâce aux applications incluses dans la couche de services de préparation de données. Ce flux
est piloté par les métadonnées contenues dans le catalogue des métadonnées : données qui
décrivent les emplacements et les définitions des sources et des cibles, les transformations de
données, les périodicités des traitements et les dépendances. Une fois que les données sont
combinées et alignées dans la zone de préparation, le même groupe de services est utilisé pour
sélectionner, agréger et restructurer les données en leurs donnant un format exploitable par un
processus d’aide à la décision. Ces données sont chargées sur les plates-formes de serveurs de
présentation et relié par des dimensions et de faits conformes. (Une dimension conforme est une
dimension qui a la même signification dans toutes les tables de faits avec lesquelles elle peut
être liée).
28
Supposons que votre entreprise ait décidée de construire un Data Warehouse. Vous avez défini
les besoins et la portée de votre application et vous avez crée un projet conceptuel. Vous devez
ensuite traduire vos besoins en une solution système. Pour ce faire, vous créez la conception
logique et la conception physique du Data Warehouse.
Une conception logique est conceptuelle et abstraite. A ce stade, il n’est pas nécessaire de s’intéresser
aux détails de l’implémentation physique. Il suffit de définir les types d’informations correspondant à
vos besoins. L’une des techniques utilisée pour modéliser vos besoins logiques en matière
d’informations est la modélisation entité/relation (E/R).
La modélisation E/R consiste à identifier les données importantes (entités), leurs propriétés (attributs)
et les liens entre entités (relations). Dans le cadre de la modélisation, une entité représente une tranche
d’informations. Dans les bases de données relationnelles, une entité correspond souvent à une table, un
attribut est un composant d’une entité qui permet de définir l’unicité de cette entité. Dans les bases de
données relationnelles, un attribut correspond à une colonne. Pour garantir la cohérence des données,
vous devez utiliser des identifiant uniques. Un identifiant unique est ajouté aux tables pour permettre
de distinguer les éléments qui apparaissent à différents endroits.
En pratique, il s’agit habituellement d’une clé primaire. La technique de modélisation entité/relation est
traditionnellement associée à des modèles très normalisés comme les applications OLTP. Elle est
néanmoins utile pour la conception de Data Warehouse, sous la forme d’une modélisation
multidimensionnelle.
Dans le cadre d’une telle modélisation, vous identifiez les informations qui appartiennent à une table
de faits centrale et celles qui appartiennent à une table de dimension associées. Vous identifiez les sujets
ou champs de données, vous définissez les relations entre ces sujets et vous nommez les attributs
correspondant à chaque sujet.
La conception logique doit inclure un ensemble d’entités et d’attributs correspondant à des faits et des
tables de décision, un modèle de transformation des données opérationnelles source en informations
orientées sujet dans le schéma de Data Warehouse cible.
Un Data Mart est un entrepôt qui stock des données provenant de systèmes opérationnels ou d’autre
sources, conçu pour répondre aux besoins spécifiques d’un département ou d’un groupe d’utilisateurs
en termes d’analyse, de contenu, de présentation et de facilité d’emploi. Les informations y sont
stockées dans un format qui est familier aux utilisateurs. Un Data Mart ressemble en fait à un Data
Warehouse sauf qu’il est moins générique. Une approche courante consiste à maintenir des informations
détaillées au niveau du Data warehouse et à les synthétiser dans un Data mart pour chaque groupe ou
département fonctionnel. Un autre choix de conception consiste à créer des Data marts pour chaque
département puis à fusionner ultérieurement ces données dans l’entrepôt global. Chacune de ces
méthodes présente l’avantage de centraliser les informations pour les utilisateurs finaux.
Les Data Marts représentent de toute évidence une réponse rapide aux besoins des différents
départements de l’entreprise. Leur coût moindre et leur facilité d’emploi permettent une
implémentation rapide et un retour à l’investissement presque immédiat. Il faut toutefois être
prudent lorsque des Data marts sont ainsi crées pour plusieurs divisions. Ces dernières utilisent
souvent des représentations différentes de certains concepts de gestion. Par exemple, les
départements finances et marketing peuvent tous deux effectué un suivi des ventes réalisées par
l’entreprise, mais défini différemment ce concept. Plus tard, si un employé du marketing a besoin
de recueillir certaines informations à partir du Data Marts des finances, l’entreprise sera
confrontée à un problème. Par conséquent, une vision unifiée est nécessaire même pour
concevoir des Data marts par département.
III.6 OLAP
III.6.1 Présentation
données. Le modèle OLAP sera celui du Data Warehouse, il sera construit pour sélectionner et
croiser plusieurs données provenant des sources diverses afin d’en tirer une information
implicite. Ceci a évolué pour aboutir à une méthode d’analyse permettant aux décideurs un accès
rapide et de manière pertinente présentée sous divers angles, dimensions sous forme de cube.
L’outil OLAP repose sur la restructuration et le stockage des données dans un format
multidimensionnel issues de fichiers plats ou de bases de données relationnelles. Ce format
multidimensionnel est connu sous le nom d’hyper cube, ce dernier organise les données le long
de dimensions. Ainsi, les utilisateurs analysent les données suivant les axes propres à leur métier.
OLAP est un mode de stockage prévu pour l’analyse statistique des données. Une base de
données OLAP peut se représenter comme un cube à N dimensions où toutes les intersections
sont pré calculées.
Il est plus facile et plus cher à mettre en place, il est conçu exclusivement pour l’analyse
multidimensionnelle avec un mode de stockage optimisé par rapport aux chemins d’accès
prédéfinis. MOLAP repose sur un moteur spécialisé, qui stocke les données dans format tabulaire
propriétaire (Cube). Pour accéder aux données de ce cube, on ne peut pas utiliser le langage de
requête SQL, il faut utiliser une API spécifique.
Il est plus facile et moins cher à mettre en place, il est moins performant lors des phases de
calculs. En effet, il fait appel à beaucoup de jointure et donc les traitements sont plus
conséquents. Il superpose au dessu des SGBD/R bidimensionnels un modèle qui représente les
données dans un format multidimensionnel. ROLAP propose souvent un composant serveur,
pour optimiser les performances lors de la navigation dans les données. Il est déconseillé
d’accéder en direct à des bases de données de production pour faire des analyses tout simplement
pour des raisons des performances.
HOLAP est une solution hybride entre les deux (MOLAP et ROLAP) qui recherche un bon
compromis au niveau du coût et de la performance. HOLAP désigne les outils d’analyse
multidimensionnelle qui récupèrent les données dans de bases relationnelles ou
multidimensionnelles, de manière transparente pour l’utilisateur. Ces trois notions se retrouvent
surtout lors du développement des solutions. Elles dépendent du software et hardware. Lors de
la modélisation, on ne s’intéresse qu’à concevoir une modélisation orientée décisionnelle,
indépendamment des outils utilisés ultérieurement.
Requêtes MDX
Parmi les dimensions du cube initial, certaines servent d’axes (un axe contient les
membres issus d’un dépliage et/ou d’un cubage) pour le résultat (clause SELECT) et d’autres de
tranchage (clause WHERE) mais pas les deux à la fois.
Pour MDX, les mesures constituent une dimension, et peuvent donc faire l’objet d’un axe ou
d’un tranchage.
Affichons par exemple, le montant des ventes, avec en colonne l’année 2002 et en ligne la
région PACA :
Remarques :
– n’oublier ni les accolades dans la clause SELECT ni les parenthèses dans la clause WHERE
;
– rappel : dès qu’un intitulé contient une espace, un accent ou commence par un chiffre, il faut le
délimiter par des crochets ;
– si l’intitulé utilise un crochet fermant], employer les doubles crochets fermants :
– pour des raisons qui deviendront claires, si l’intitulé contient une quote ’, alors il faut la doubler :
[K’’sChoice]
– la syntaxe complète des noms de membres dans un cube est : dimension .niveau .membre
– s’il n’y a pas de confusion possible on peut omettre la dimension et/ou le niveau ;
– si dans un même niveau plusieurs membres ont le même nom, préciser autant de parents que
nécessaire pour les distinguer : dimension . [ancêtre le plus ancien] ... [grand-père] . [père] .member
Clause SELECT
Remarques :
– il n’y a pas de confusion possible entre MEMBERS et CHILDREN puisque l’un s’applique à un
niveau, l’autre à un membre : dimension .niveau . MEMBERS dimension .niveau .membre .
CHILDREN
– on peut aussi utiliser : dimension. MEMBERS (les membres de tous les niveaux de la dimension)
dimension. CHILDREN (les membres du niveau le plus élevé)
6
– avant d’utiliser l’opérateur : s’assurer de l’ordre dans lequel sont stockés les membres.
Mesures
On peut afficher plusieurs mesures à la fois. Mais comme le résultat d’une requête n’autorise
qu’une valeur par cellule, il faut aligner les mesures selon un axe :
Les mesures forment donc naturellement une dimension nommée measures dans
chaque cube. On précise quelle mesure afficher dans la clause WHERE quand on en veut qu’une
(c’est une tranche du cube).
Et on est obligé d’en préciser au moins une, sans quoi une mesure est choisie par défaut.
Clause WHERE
On peut effectuer plusieurs découpes sur le cube. Reprenons par exemple la requête précédente :
SELECT temps.annee.MEMBERS ON COLUMNS,
{measures.montant, measures.NbCommandes} ON ROWS
FROM ventes
WHERE (produits.marque.Channel, geographie.pays.Italie)
Résultat : sur tous les articles de la marque Channel et pour l’Italie seulement
Remarques :
Une requête MDX autorise jusqu’`a 127 axes, mais évidemment on ne peut pas dépasser le nombre de
dimensions du cube +1 (avec la dimension measures). Les cinq premiers axes sont
: COLUMNS, ROWS, PAGES, SECTIONS et CHAPTERS. Au-delà il faut utiliser :
AXIS(5), ..., AXIS(126).
7
Résultat : les intitulés de colonne et une seule ligne de résultats (pas d’intitulé de ligne)
SELECT
FROM ventes
WHERE (measures.montant)
Résultat : une cellule contenant le montant total des ventes de toutes les années pour tous les produits
et partout (c’est un mauvais exemple)
SQL Server est une collection de composants avec un moteur de base de données et le client
composants
8
Le développement d’applications clientes pour visualiser les données contenues dans le serveur
peut s’appuyer sur différentes technologies.
SQL Native Client sera adopté comme modèle d’accès aux données dans les nouveaux
programmes écrits en VB.Netou C# qui souhaitent travailler avec SQL Server mais aussi dans
les programmes existants lorsque ces dernierssouhaitent travailler avec des éléments spécifiques
à SQL Server, comme le type XML, par exemple.
Cliquer sur ok
Cliquer sur le bouton suivant
15
Créer votre vue en glissant à partir de table de fait chaque clé étrangère vers la table de dimension
correspondante
18
Création du CUBE
Clic sur droit sur Cubes
Clic sur nouveau cube
Clic sur suivant
Clic sur suivant
Cocher la case de table de fait
Clic sur suivant, suivant, suivant, suivant, Termier
20
Double cliquer sur chacune de dimension et glisser les attributs vers la gauche
21
Chapitre 4
IV.0 Généralités sur le Data mining
Les objectifs du Data Mining peuvent être regroupés dans trois axes importants :
1. Prédiction (What-if) : consiste à prédire les conséquences d’un événement (ou d’une
décision), se basant sur le passé.
2. Découverte de règles cachées : découvrir des règles associatives, entre différents
événements (Exemple : corrélation entre les ventes de deux produits).
3. Confirmation d’hypothèses : confirmer des hypothèses proposées par les analystes et
décideurs, et les doter d’un degré de confiance.
K – Means
Nbre_Classe
Inertie( )
Centre( )
Affect( )
IV.0.2Apprentissage Automatique
est la fonction d’étiquetage. Les , k = 1,…, c sont les étiquettes des classes avec c
= card( le nombre total de classes (une classe n’est associée qu’à une seule
étiquette). La reconnaissance consiste alors à affecter à une nouvelle observation non
étiquetée, une étiquette de classe par comparaison avec est appelé classifieur.
Un classifieur est une fonction mathématique ou un algorithme qui réalise les tâches
d’affectation.
Ce classifieur peut être construit en utilisant les réseaux de neurones, l’arbre de décision, le
SVM ou les réseaux de bayes.
Par exemple, Construisons un classifieur bayesien, qui permet de distinguer les femmes
et les hommes en fonction de leurs tailles. (L’espace de description est à une dimension:
la taille).
Supposons que les densités de probabilité de la taille t (en mètres) pour les classes femme et
homme soient des gaussiennes: à titre d’exemple, soit et
Avec respectivement l’écart type pour les hommes et pour les femmes, et
respectivement la taille moyenne pour les hommes et pour les femmes.
2.5
2 Hommes
Femmes
1.5
1
1.9
0.5
Taille (en m)
Figure 1.3. : Distribution des individus (femmes et hommes,) en fonction de la taille
0
1.5 1.6 1.7 2 2.1
1.8
La classification automatique
Introduction
Le développement des moyens informatiques (Matériels, Logiciels) a permis dans plusieurs
domaines (Médecine, Economie, Biologie) le stockage et la gestion de grandes masse de
données. Mais hélas, il est difficile, lorsque ce volume de données est considérable, de tirer des
enseignements utiles sur les données, car celles – ci à cause de son volume élevé, vont masquer
les connaissances utiles pour la prise de décision. C’est ainsi que les méthodes de Data Mining
se sont développées pour pallier à cette difficulté.
26
Les méthodes hiérarchiques ont pour objectif de créer des classes par construction d’une
arborescence, et on trouve ici des classes emboitées. Pour trouver des classes disjointes il faut
donc couper cette arborescence à un certain niveau selon le nombre des classes fixé par
l’utilisateur. L’agrégation s’effectue à l’aide des indices de similarité ou dissimilarité.
Pour les méthodes de partitionnement direct, on fixe Le nombre de classes contenues dans les
données, ensuite on définit la distance pour l’agrégation des individus. Dans cette famille, on
distingue les méthodes de nuées dynamiques et les méthodes de centre mobile appelée aussi K-
moyenne(ou K- Means). La méthode des K-moyennes [Duda1973] (ou centre mobile) est une
méthode de partitionnement direct, K étant alors le nombre de classes fixé par l’utilisateur.
Cette méthode agrège les individus autour de centre de gravité de manière à minimiser l’inertie
intra-classe.
C’est en 1991[Diday 1991] que l’analyse de données symboliques a été introduite par Diday.
Il améloiré la définition d’une variable afin de pouvoir décrire un individu par des variables yh
à description symbolique de la manière suivante :Soit X l’ensemble d’instance à classer, soit Δ h
l’ensemble d’arrivé. yh est définie par l’application :
C’est le cas d’une variable Yh qui peut être décrite par plusieurs valeurs du domaine
d’observation 0 h.
• si le domaine d’observation 0h est quantitatif (continu, discret) ou qualitatif
ordinal, la description multivaluée de Yh est un intervalle de valeurs et le domaine
d’arrivée Δh de Yh est l’ensemble des intervalles fermés bornés sur 0h . Par
exemple, la variable Yh = coût d’hospitalisation pour une intervention peut être Yh
(intervention) = [5161,9236].
La notion de ressemblance (ou Proximite) a fait l’objet d’importantes recherches dans des
domaines extrêmement divers. Pour qualifier cet opérateur, plusieurs notions comme la
similarité, la dissimilarité ou la distance peuvent être utilisées [Bisson, 2000].
IV.1.4 Définition
Nous appelons similarité ou dissimilarité toute application à valeurs numériques qui permet de
mesurer le lien entre les individus d’un même ensemble. Pour une similarité le lien entre deux
individus sera d’autant plus fort que sa valeur est grande. Pour une dissimilarité le lien sera
d’autant plus fort que sa valeur dissimilarité est petite [68].
28
IV.1.6. Distance
Un opérateur de ressemblance défini sur l’ensemble
d’individus est dit distance, s’il vérifie en plus des deux propriétés
(1) et (2) les propriétés d’identité et d’inégalité triangulaire suivantes :
3. (propriété de d’identité)
4. (inégalité triangulaire)
La distance la plus utilisée pour les données de type quantitatives continues ou discrètes est la
distance de Minkowski d’ordre α définie dans Rm par :
29
Où , si :
• est la distance de city-block ou Manhattan.
(1.4)
• est la distance de Tchebychev définie comme suit :
(1.5)
Dans certains cas, l’utilisateur désire analyser les variables à la place des individus. Ceci
requière la définition d’un opérateur capable d’évaluer la proximité entre ces variables
d’analyse.
L’incertitude sur une variable Yi (respectivement un couple de variables
aléatoires (Yi, Yj)) peut être mesurée par ‘entropie notée H(Yi) (respectivement H(Yi,,Yj)).
La quantité notée I(Yi : Yj), appelée information mutuelle, mesure l’information transmise entre
Yi et Yj.
IV.2.1. Introduction
IV.2.2. Définitions
a) Définition 1
La classification automatique ou analyse de clusters (clustering en anglais), est la tâche qui
segmente une population hétérogène en un certain nombre de groupes, plus homogènes, appelés
clusters.
b) Définition 2
La classification désigne l’ensemble des processus aptes à être exécutés par l’ordinateur pour
constituer les hiérarchies des classes ou de simples partitions établies à partir d’un tableau de
données. La classification consiste à créer une typologie de classe à partir d’un ensemble
d’objets.
31
Pour grouper les objets, nous allons utiliser un critère de classification qui mesure la qualité de
toutes les partitions en k classes.
calcul des centres se fait après l’affectation des individus dans leurs classe s respectives.
Mais avec K-means qui est une variante de centre mobile, dès qu’on affecte un individu
dans une classe, on recalcule directement le centre, ce qui accélère convergence de
l’algorithme. Nous verrons au chapitre suivant le Fuzzy c-means (FCM) qui est une
extension floue de K-means. FCM est un processus itératif qui permet d’obtenir comme
résultat la matrice de partition floue (U= ) laquelle contient les degrés
d’appartenance de chaque objet à chacune des k classes.
La méthode des centres mobiles due à Forgy [Forgy, 1965] est la plus classique et très
utilisée. Elle procède comme suit : dans une première étape, elle consiste à tirer
aléatoirement k individus de la population. Ces individus représentent les centres
provisoires des k classes qui formeront la partition initiale. Ensuite, les autres individus
sont regroupés autour de ces k centres en affectant chacun d’eux au centre le plus
proche.
Cette méthode a connu des améliorations comme la méthode des k-moyennes (k means)
de Mac Queen. Avec l’approche kmeans, les centres sont recalculés après chaque
affectation d’un individu dans une classe, plutôt que d’attendre l’affectation de tous le s
individus avant de mettre à jour les centres. Cette approche conduit généralement à de
meilleurs résultats que la méthode des centres mobiles et la convergence est également
plus rapide.
Les expériences montrant que le nombre d’itérations nécessaires à l’algorithme pour converger
est assez faible. Cet algorithme est adapté à des tableaux des grandes tailles, sa complexité
étant linéaire. Une méthode de classification plus générale existe, ces sont les nuées
dynamiques.
34
La méthode dite des nuées dynamiques est l’une des méthodes de partitionnement dite de «
réallocation » pouvant avantageusement s’appliquer sur une grande population (grand ficher
numérique ou grand tableau) avec un critère de qualité de la partition obtenue. Les algorithmes
des nuées dynamiques sont itératifs et optimisent un critère mathématique.
Cette méthode a été développé par Diday et se distingue principalement des approches
précédentes par le mode de représentation des classes appelé aussi noyau. Ce dernier peut être
son centre de gravité (dans ce cas nous retrouvons l’approche des centres mobiles), un ensemble
d’individus, une distance (l’approche des distances adaptatives), une loi de probabilité (la
décomposition de mélanges), l’axe factoriel etc.
Soient :
Chaque classe est représentée par son centre Ai, également appelé noyau, constitué du petit
sous-ensemble de la classe qui minimise le critère de dissemblance.
Les éléments constitutifs d’un noyau sont appelés étalons. Ce genre de noyau a pour certaines
applications, un meilleur pouvoir descriptif que des centres ponctuels.
Chaque individu , est par conséquent, caractérisé par sa masse i et par la distance
d vi,Ai qui le sépare du noyau de sa classe.
L’algorithme est une succession d’appels à ces deux fonctions, il se présente de la manière
suivante :
a) Initialisation
- Le choix (au hasard ou non) des k premiers noyaux, A10 ,...,Am 0...,Ak0 , induisant la première
partition P0 de l’ensemble I et k classes C10 ,...,Cm0...,Ck0.
- Par l’exécution de sur ces noyaux et on poursuit les autres étapes jusqu’à l’arrêt de
l’algorithme.
L’algorithme se termine soit lorsque deux itération successives conduisent à la même partition,
soit lorsqu’un critère judicieusement choisi (par exemple, la mesure de la variance intra classes)
cesse de décroître de façon sensible (convergence), soit encore lorsqu’un nombre maximal
d’itération fixé à priori est atteint.
1°) P A
C) Convergence de l’algorithme
Il s’agit de montrer que la variance intra classes ne peut que décroître (ou rester
stationnaire) entre l’étape t et l’étape t +1 de l’algorithme.
Supposons que les n individus i à classifier de l’ensemble I soient munis chacun de sa
masse relative i. Nous nous intéressons bien entendu, à la quantité « critère » qui vaut :
36
K n
-A l’étape t : v(t) = v t i d2 i, Gq t 1
i 1 i Cqt
i 1 i CQt 1
G
Où d2 i, qt 1 d2 est le carré de la distance entre l’individu v i et le centre de gravité
K n
i 1 i Cqt
Nous allons donc montrer que : v(t) > v(t) > v(t+1) Notons
la somme des masses i pour i Cqt .
n
Début
I (Pi )
i 1
Migration V
On construit P en affectant chaque
individu au noyau le plus proche.
Appel de la fonction
Imprimer :
P(P 1, …, Pk) ; I (P i) ; W (L, P)=
k
I ( Pi )
Fin
38
Il s’agit de représenter des individus sur un arbre hiérarchique, dont chaque nœud porte le nom
de ’’Palier’’ ; chaque palier d’une hiérarchie sur I correspond à un groupe d’individus de I. Ces
individus sont plus proches entre eux (au sens de la mesure de ressemblance choisie) que les
niveaux de palier correspondant est bas. On peut définir une hiérarchie de la manière suivante
:
Soit X une matrice de données n x p définie par
où I est un ensemble de n objectifs (lignes, observations, instances, individus) et J est un
ensemble de p variables (colonnes, attributs)
IV.2.3.5.1. Définition
Soit I un ensemble fini non vide. H est une hiérarchie de I
s’il satisfait aux axiomes suivants : H i : axiome
d’intersection
L’ensemble I tout entier, ainsi que toutes les parties réduites à un élément appartiennent
à H. I Є H
Une hiérarchie peut être vue comme un ensemble de partitions emboitées. Graphiquement, une
hiérarchie est souvent représentée par une structure arborescente représentée par un arbre
hiérarchique dit aussi dendrogramme
Dendrogramme Partitions emboitées
f,g
d,e
c
b,a
a b c d e f g
Figure 1.5. Partition emboitées
Il existe deux types de familles de méthodes hiérarchique : une descendante, dite divisive, et
une ascendante dite agglomérative. La première moins utilisée, consiste à partir d’une seule
classe regroupant tous les objets, à partager celleci en deux. Cette opération est répétée à chaque
itération jusqu’à ce que toutes les classes soient réduites à des singletons. La seconde qui est la
plus couramment utilisée consiste, à partir des objets (chacun est dans sa propre classe), à
agglomérer les classes les plus proches, jusqu’à obtenir une classe qui contient tous les objets.
39
A) Indice d’agrégation
B) Proposition
1) Partir de la partition P0
2) Construire une nouvelle partition minimisant δ (h 1, h 2 )
3) Recommencer l’opération (2) jusqu’à ce que toutes les classes soient réunies en une
seule.
La stratégie utilisée par ces méthodes pour choisir la variable de division (parmi celles
caractérisant les individus) ainsi que la valeur de coupure (c pour les variables
40
quantitatives, et les groupes de modalités pour les variables qualitatives) repose sur
l’optimisation d’un critère d’évaluation bien déterminée (par exemple le diamètre d’une
partition donné par la plus grande dissimilarité entre deux individus d’une même classe:
ainsi nous choisissons la classe et la coupure qui fournissent une partition de petit
diamètre).
Lorsque l’ensemble des objets est décrit par un ensemble de variables binaires, souvent on
est amené à utiliser l’algorithme de K-means pour la classification des objets.
Autrement dit, le critère utilisé est celui de l’inertie intra – classe. Les centres de classe
sont par conséquent de nature différente de données à classifier 0,1. Afin de respecter le
principe d’homogénéité on impose aux centres d’avoir la même structure que les données
et de cette façon il suffit de chercher à minimiser le critère suivant à l’aide de l’algorithme
des nuées dynamiques :
avec
41
Chapitre 5
Apprentissage Artificiel
L'exploitation des fichiers client d'une entreprise est souvent faite par un expert
ou un programme expert qui utilise des règles explicites pour cibler un segment
de clientèle susceptible d'être intéressé par un nouveau produit. Mais ces règles
peuvent être acquises automatiquement, par un apprentissage dont le but est de
fournir de nouvelles connaissances expertes, à la fois efficaces et intelligibles pour
l'expert.
Les réseaux de neurones sont utilisés comme outils de modélisation par apprentissage, qui
permettent d’ajuster des fonctions non linéaires. Le problème d’apprentissage consiste à
construire une fonction f (ou machine) à partir des données (x 1 , y1), …, (xn, yn ) de sorte que
f(X) soit une bonne approximation de la réponse souhaitée Y. souvent, on choisit f de manière
à minimiser un critère fonctionnel. Par exemple, on peut former la somme des erreurs
quadratiques
n
E= (yi f (xi ))2 et chercher à rendre cette somme la plus petite possible.
i 1
En général, l’apprentissage des réseaux de neurones est effectué de sorte que pour une entrée
particulière présentée au réseau corresponde une cible spécifique.
L’ajustement des poids se fait par comparaison entre la réponse du réseau (ou sortie) et la
cible, jusqu’à ce que la sortie corresponde (au mieux ?) à la cible.
L’objectif de ce chapitre est de mettre au point un classifieur automatique basé sur le réseau de
neurones. Ce classifieur aura pour rôle d’affecter chaque individu dans sa classe. La topologie
de notre réseau de neurones est simple : nous considérons un réseau de neurones à une seule
couche cachée et ce réseau a une structure d’un graphe biparti. Nous avons exploité
l’algorithme de retro propagation de gradient pour ajuster les poids synaptiques.
43
E = (yi f (xi ))2 et chercher à rendre cette somme la plus petite possible.
i 1
Les réseaux de neurones sont utilisés comme outils de modélisation par apprentissage,
qui permettent d’ajuster des fonctions non linéaires très générales à des ensembles de
points ; comme toute méthode qui s’appuie sur des techniques statistiques, l’utilisation
de réseaux de neurones nécessite que l’on dispose de données suffisamment
nombreuses et représentatives. Le neurone artificiel est calqué sur le modèle biologique.
Comportement global du
cerveau
Système et voies de
comm unication
Cir cuits
Neurone
b) Définition 2
Un RNA est un graphe pondéré G = (X, A, W), où
• X est un ensemble non vide et au plus dénombrable dont les éléments sont appelés
« neurone, ou processeur, ou unité de calcul » du réseau.
• A est une famille d’éléments du produit cartésien XxX x, y / x, y X les
éléments de A sont appelés : synapse et sur chaque synapse et associé un poids w
46
C) Définition 3
Un RNA est une fonction paramétrée qui est la composition d’opérateurs mathématiques
simples appelés neurones formels (ou plus simplement neurones).
Un neurone est une fonction algébrique non linéaire, paramétrée, a valeurs bornées, de
variables réelles appelées entrées.
x1 x2 xn
Figure 3. 5. Un neurone réalise une fonction non linéaire bornée y = f (x 1, ... xn ; w1,...wp)
où les {x j} sont les entrées et les {wj} sont des paramètres
Le biais wo peut être envisagé comme le coefficient de pondération de l'entrée n°0, qui
prend toujours la valeur 1 :
Ces modèles ont été fortement inspirés par le système nerveux biologique. On peut
entraîner un réseau de neurone pour une tâche spécifique (reconnaissance de caractères
par exemple) en ajustant les valeurs des connections (ou poids) entre les éléments
(neurone).
En général, l’apprentissage des réseaux de neurones est effectué de sorte que pour une entrée
particulière présentée au réseau corresponde une cible spécifique.
L’ajustement des poids se fait par comparaison entre la réponse du réseau (ou sortie) et
la cible, jusqu’à ce que la sortie corresponde au mieux à la cible. On utilise pour ce type
d’apprentissage dit supervisé, un nombre conséquent de pair entrée/sortie. En ce qui
concerne le fonctionnement de RNA, nous distinguons deux phases : La première est
habituellement le calcul de la somme pondérée des entrées selon l’expression suivante
Figure 3.8.a Fonction à Figure 3.8.b Fonction sigmoïde Figure 3.8.c Fonction gaussienne
seuil
Où :
Un réseau de neurone est non bouclé lorsque sont graphe d’interconnexion ne contient
pas des circuits (Figure 3.12)
Un réseau de neurone est bouclé lorsque sont graphe d’interconnexion contient des
circuits (Fig.3.13)
52
Les réseaux de neurones disposés suivant cette architecture sont aussi appelés "perceptrons
multicouche" (ou MLP pour Multi-Layer Perceptrons).
)
l = 1,2
53
où ) est la fonction d’activation des neurones de la couche l. On peut réécrire les équations
ci – dessus sous forme matricielle comme suit :
Dans le cadre de cette thèse, nous utiliserons le réseau de neurones non bouclé, à une
seule couche cachée. Ce réseau se structure en trois couches successives. La couche
d’entrée permet de saisir le vecteur de caractéristiques x, et la couche de sortie fo urnit la
prédiction. Les entrées sont redistribuées sur des unités cachées intermédiaires à la
sortie. Ces unités cachées forment la seconde couche. Un réseau de neurones est
paramétré par un ensemble de poids wi j et de biais i .
Chaque unité effectue une somme pondérée de ses entrées, ajoute une
55
constante et évalue le résultat selon une fonction h . Les unités de sortie ont la même forme,
mais l’évaluation se fait selon une fonction 0 qui peut être différente de h .
X1
X2 Y
.
. Fonction de transfert
.
Xn
Mémoire
Locale ML
56
Ceci passe tout d’abord par le choix de l’architecture du réseau, ensuite déterminé au
cours d’une phase dite d’apprentissage, un ensemble de poids W permettant à cette
architecture de réaliser la tache associative demandée. L’apprentissage présenté ainsi est
qualifié de supervisé.
b) Définition
Etape 3 : t = t+1
Si la condition d’arrêt non remplie, aller à l’étape 2.
Avec Taux d’apprentissage
En résumé soit l’erreur d’apprentissage due aux poids
. Si la fonction d’activation est linéaire, cette erreur E s’écrit :
On voit donc que l’erreur E est un parabolique dans l’espace des poids.
Donc, E possède un seul minimum et il s’agit de trouver la valeur des poids correspondant
à ce minimum. Pour cela, la technique classique consiste à utiliser un algorithme de
descente de gradient. Pour cela, on part d’un point (dans l’espace des poids, espace de
dimension P+1) : ensuite, itérativement, on corrige ce point pour se rapprocher du
minimum de E. Pour cela, on corrige chaque poids d’une quantité proportionnelle au
gradient de E en ce point, cela dans chaque direction, donc par rapport à chacun des
59
poids. Ce gradient est donc la dérivée (partielle) de E par rapport à chacun des points.
Reste à déterminer le coefficient à appliquer à cette correction.
D’où :
ALGORITHME DE HEBB
Cet algorithme se déroule en 5 étapes de la manière suivante :
Etape 1 : initialisation des poids
Etape 2 : présentation d’une entrée de la base d’apprentissage
60
Solution
Etape 1 : initialisation des poids
Comme n = 0 donc
Nécessite : un seuil
Initialiser les aléatoirement Répéter
// E mesure l’erreur courante
fin pour
fin pour
jusque
fin pour
pour tous les poids faire
Avec :
fin pour
jusque
63
Avec :
E(t) la valeur du critère à l’instant t est la valeur de
Les paramètres du réseau sont modifiés suivant la règle du gradient comme suit :
En posant
:
64
Dans le cas où i est l’indice d’un neurone caché (1<l< L - 1) on peut vérifier aisément
que les fonctions de sensibilité satisfont la relation récurrente ci – dessous
ekx 1
On appelle fonction sigmoïde de paramètre k 0, la fonction k (x) 1 e kx 1 e kx
La dérivé de cette fonction sera utilisée dans la règle de mise à jour des poids par l’algorithme
e
de rétroprogration du gradient. x g ' (x) (1 e x ) 2 g(x).(1 g(x) (3)
Fin pour
Fin pour
// Mise à jour des poids
Pour toutes les couches l croissant de 0 à L-1 faire
Pour toutes les unités k de la couche l, k variant de 1 à faire
Pour tous les neurones m connectés sur la sortie du neurone k
de la couche l, m variant de 1 à
Fin pour
Fin pour
Fin pour
Fin pour
Fin tant que
66
Bibliothèque d’algorithmes
Interface
Description
structurelle du réseau
Réseau
Description
comportementale de
neurones (fonction de
transfert)
Simulateur
non
Fin de
l’apprentissage
Oui
Entrée d’une forme à
reconnaître Simulation
Oui
Ajout d’une
formed’apprentiss
age ?
non
non
Fin de la
session ?
Oui
Chapitre 6
Prédiction de données
Un arbre de décision est une structure qui permet de déduire un résultat à partir de
décisions successives. Pour parcourir un arbre de décision et trouver une solution il faut
partir de la racine. Chaque nœud est une décision atomique. Chaque réponse possible est
prise en compte et permet de se diriger vers un des fils du nœud. De proche en proche,
on descend dans l’arbre jusqu’`a tomber sur une feuille. La feuille représente la réponse
qu’apporte l’arbre au cas que l’on vient de tester.
Très souvent on considère qu’un nœud pose une question sur une variable, la valeur de
cette variable permet de savoir sur quels fils descendre. Pour les variables énumérées il
est parfois possible d’avoir un fils par valeur, on peut aussi décider que plusieurs
variables différentes mènent au même sous arbre. Pour les variables continues il n’est pas
imaginable de créer un nœud qui aurait potentiellement un nombre de fils infini, on doit
discrétiser le domaine continu (arrondis, approximation), donc décider de segmenter le
domaine en sous-ensembles. Plus l’arbre est simple, et plus il semble techniquement
rapide à utiliser.
En fait, il est plus intéressant d’obtenir un arbre qui est adapté aux probabilités des
variables à tester. La plupart du temps un arbre équilibré sera un bon résultat.
Si un sous arbre ne peut mener qu’`a une solution unique, alors tout ce sous -arbre peut
être réduit à sa simple conclusion, cela simplifie le traitement et ne change rien au résultat
final.
L’algorithme ID3 fut proposé par Quinlan en 1979 afin de générer des arbres de décisions
à partir de données. Imaginons que nous ayons à notre disposition un ensemble
d’enregistrements. Tous les enregistrements ont la même structure, à savoir un certain
nombre de paires attribut ou valeur. L’un de ses attributs représente la catégorie de
l’enregistrement. Le problème consiste à construire un arbre de décision qui sur la base
de réponses à des questions posées sur des attributs non cibles peut prédire correctement
la valeur de l’attribut cible.
Souvent l’attribut cible prend seulement les valeurs vrai, faux ou échec, succès.
Les principales idées sur lesquels repose ID3 sont les suivantes :
69
Ici, on voit bien que la procédure de classification à trouver qui à partir de la description
d'un client, nous indique si le client effectue la consultation de ses comptes par Internet,
c'est-à-dire la classe associée au client.
70
Choix du meilleur attribut : Pour cet algorithme deux mesures existent pour choisir le
meilleur attribut : la mesure d'entropie et la mesure de fréquence:
L'entropie ou le gain : Le gain (avec pour fonction i l'entropie) est également
appelé l'entropie de Shannon et peut se réécrire de la manière suivante :
Hs(C|A) = - Σi P(Xi) . Σk P(Ck|Xi).log(P(Ck|Xi))
Mesure de fréquence : (mieux en pratique)
Freq(a,E) = (1 / |Va|) . ΣPmax(Ea,v)
Age
jeune Agé
moyen
Non consultation
Consultation ?
Pour la branche correspondant à un âge moyen, on ne peut pas conclure, on doit donc
recalculer l'entropie sur la partition correspondante.
L'attribut qui a l'entropie la plus faible est « Etudes ». L'arbre devient alors :
Age
jeune âgé
moyen
Consul tation Non consultation
Etudes
Oui Non
Non consultation
Consultation
L'ensemble des exemples est classé et on constate que sur cet ensemble
d'apprentissage, seuls deux attributs sur les quatre sont discriminants.
72
VI.2.1. Présentation
Les Machines à vecteurs de support ou Support Vector Machine constituent une méthode
récente de classification par apprentissage supervisé, qui fut introduit par Vladimir
Vapnik en 1995. La montée en puissance de cette méthode est justifiée par les solides
bases théoriques qui la soutiennent.
Cette méthode repose, en effet, sur l’existence d’un séparateur linéaire dans un
espace approprié et l’utilisation d’une fonction noyau (Kernel) qui permettent une
séparation optimale des données.
Le but des SVM, dans le cas d’un problème de classification binaire, est de construire
une fonction de décision (séparateur) qui permet de mieux séparer les données et
maximiser la distance entre deux classe
H2 H
Y
H1
Les points (vecteurs) les plus proches de l’hyperplan, qui seuls sont utilisés pour sa
détermination, sont appelés vecteurs de support ;
On distingue, du point de vue de la séparation des données, les SVM linéaires (séparateur
linéaire) et les SVM non linéaires (Séparateur non linéaire).
On parle des SVM linéaires, lorsqu’il existe une fonction linéaire séparant l’ensemble
des données. Cependant ils sont abordées de deux manières, selon que les données sont
complètement séparables par la fonction ou pas.
E = , où :
Le Séparateur linéaire (fonction de décision) définie par les SVM, est donnée par :
= . +b, où :
appelé biais ;
Séparabilité Linéaire
74
On définit donc :
>0 Є et <0 Є .
Ou simplement , >0
Supposons que l’ensemble E des exemples soit linéairement séparable, comme décrit
dans la figure ci-dessous. La préoccupation consiste à déterminer un hyperplan tel que
la marge entre les deux classes soit maximale.
Y H2
H
H1
Vecteurs de Support
Si on suppose qu’il n’y a pas de données entre H1 et H2, la marge maximale est belle et
bien la distance entre H1 et H2.
75
Cependant, on peut rappeler que dans un plan (R2), la distance d’un point (x0,y0) par
rapport à une droite =0, est donnée par la formule suivante :
, Or pour les points situés sur les hyperplans H1 et H2, c’est-à-dire vecteurs
La maximisation de cette distance revient donc à minimiser , ce qui est à peu près
égal à minimiser ; à condition qu’il n’y ait pas de données (vecteurs) entre H1 et
H2, c’est-à-dire :
Les Conditions (i) et (ii) peuvent être combinées en une seule, soit :
. (iii)
(1)
La fonction objective étant convexe, le problème d’optimisation peut être résolu par la
méthode du Multiplicateur de Lagrange :
P(w,b, (2)
Le gradient de P devant être nul par rapport w et b, on écrit :
76
(3)
(4)
Q( (5)
S/C: et ,
(6)
(7)
(8)
Remarques
Les deux dernières lignes indiquent que pour toute donnée , soit , soit
En fait, seuls les vecteurs supports sont réellement utiles dans la construction du modèle
de prédiction. Si on les connaissait a priori, on pourrait construire ce modèle sans tenir
compte des autres vecteurs (exemples).
N’apparaissant pas dans le problème dual, le biais b est calculé à partir d’un vecteur de
support :
On a vu plus haut que la classe d’une donnée était donnée par le signe de la fonction de
décision ( .
Dans le cas où les données ne sont pas linéairement séparables, on essaie d’assouplir les
contraintes par l’introduction de termes d’erreur ( ) qui contrôle le dépassement :
Une donnée est bien classée si ; elle est dans la marge mais bien classée si
et est mal classée dans les autres cas. Ainsi, indique à quel point la donnée
peut être du mauvais côté : si est du mauvais côté de la séparatrice
(hyperplan), plus est loin de la séparatrice, plus est grand. Donc, est une
borne supérieure du nombre d'erreurs de classification.
(9)
(11)
(13)
(14)
Remarques
La seule différence entre les problèmes duales dans les cas séparables et non séparables
est que les valeurs des sont majorées par ; 19 /
Dans le cas des Machines à vecteurs de support à marge souple, une donnée peut être :
Un vecteur de support ( );
Mal classée (
80
Y H2
H
H1
Cette démarche s’appuie sur le théorème de Cover [1965] qui indique qu'un ensemble
d'exemples transformé de manière non linéaire dans un espace de plus grande dimension
a plus de chance d'être linéairement séparable que dans son espace d'origine.
Considérons l’application
81
E= , où : et Є {-1, +1}.
(15)
(16)
Avec
(18)
L'intérêt de ces fonctions noyaux est de rendre possible le calcul des produits scalaires
dans sans devoir explicitement transformer les données par la fonction , donc, sans
nécessairement connaître cette fonction .
82
(19)
Note
Il sied de signaler que seul le cas des données séparables linéairement dans l’espace
caractéristique a été abordé ci-haut. Cependant les données peuvent être aussi non
séparable linéairement dans cet espace. Dans ce cas, on applique la démarche utilisé e
dans les SVM linéaires, c’est-à-dire l’introduction des termes d’erreurs.
(20)
Fonction Noyau
Considérons un ensemble X des observations dans les données
83
Cette dernière condition se traduit par le fait que toutes les valeurs propres de la matrice
de Gram soit positives non nulles.
Linéaires :
Polynomial : ou
Bibliographie
1. Abraham, cerebral quotion of neuro fuzzy tevhniques-hype or hallelujah, school
of computing and information technology, Victoria, Australia.2000
11. Blayo F., Tour d’horizon sur les implémentations de réseaux de neurones , Cours
de la 3è école d’été du Cyrile, Université de Lion I, Juillet 1989.
16. Didaye, Leminaire j., Pauget j., Testw f., Elément d’analyse de données, Dunod
éditeur, 1982.
17. Didaye E., La méthode des nuées dynamiques, statistique appliquées, 19 (2),
pp.13-34, 1971.
18. Diday.E, La méthode des nuées dynamiques, Revue de Statistique Appliquée, vol.
19, n. 2, pp. 19-34, 1971.
29. Mbuyi Mukendi.E, Kafunda katalay.P et all, Data mining and neural network,
Extracting Knowledge from Hight Pressure Data Patients , IJCSI, Vol 9, May
2012.
30. Mbuyi Mukendi.E, Kafunda katalay.P et all, Data mining and neural network,
DMX use for Risk assement of complication of Hihgt Pressure, IJCSI, Vol 9,
septembre 2012