Cours ML S1

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 46

Information interne

Machine Learning

Aroua Hedhili Sbaï page 1


Information interne

Plan

●  Concepts et notions de base

●  Apprentissage non supervisé

●  Apprentissage supervisé

●  Apprentissage profond (Deep learning)

Aroua Hedhili Sbaï page 2


Information interne

Concepts et Notions de
base

Aroua Hedhili Sbaï page 3


Information interne

Introduction : exemple introductif

●  Affectation de prêt immobilier (banque, client)


Ä Analyse de dossier de prêt
Ä Variables explicatives (âge, salaire, statut, nombre d’enfants,…)
Ä Une fonction pour prévoir une prédiction

Aroua Hedhili Sbaï page 4


Information interne

Introduction : exemple introductif

●  Expert humain :
Ä Accumulé expérience considérable
Ä Connu par ses décisions justes
●  Système expert :
Ä Cogniticien extrait les connaissances
(entretiens)
Ä Savoir chez les experts humains
Ä Ne dépasse pas le niveau des experts
●  Système d’apprentissage :
Ä Extrait tout seul l’expertise à partir de données
Ä Découverte de nouvelles connaissances

Aroua Hedhili Sbaï page 5


Information interne

Motivations

Masse importante de données (millions de milliards


d’instances) :
•  BD très larges - Very Large Databases (VLDB)
•  Données multi-dimensionnelles (milliers d’attributs)
•  BD denses

Aroua Hedhili Sbaï page 6


Information interne

Motivation

●  Le Machine Learning envahit plus discrètement les


systèmes informatiques de toutes les entreprises. Lorsque
vous parcourez Internet ne serait-ce que quelques
minutes, une horde de systèmes d’apprentissage
automatique s’activent:
●  Certains analysent votre personnalité pour vous proposer
les produits qui vous correspondent le mieux,
●  d’autres sélectionnent les publicités qui attireront votre
attention,
●  et d’autres encore analysent votre comportement pour
s’assurer que vous n’êtes pas un fraudeur

page 7
Information interne

Motivation

●  Mais le Machine Learning n’est pas réservé aux géants du


web : qu’il s’agisse de prédire des séries temporelles
(comme les cours de la Bourse), de détecter des anomalies
de production, d’optimiser des centres d’appel, d’analyser
les profils des clients, ou encore de classer
automatiquement des documents, l’apprentissage
automatique s’est révélé d’une grande utilité dans une
multitude de domaines.

page 8
Information interne

Introduction

●  L’explosion des données


ü  Les outils de collecte automatique des données et les bases de
données conduisent à des masses énormes de données stockées
dans des entrepôts.
●  Submergés par les données, manque de connaissance!
●  Solutions: Entrepôts de données et/ou le big data et
fouille de données
ü  Entrepôts de données et analyse on-line
ü  Extraction de la connaissance intéressante (règles, régularités,
patterns, contraintes) à partir de grandes bases de données

Aroua Hedhili Sbaï page 9


Information interne

Définition du Machine Learning

L’apprentissage automatique (Machine Learning) est la science (et l’art) de


programmer les ordinateurs de sorte qu’ils puissent apprendre à partir de
données.

L’apprentissage automatique est la discipline donnant aux ordinateurs la capacité


d’apprendre sans qu’ils soient explicitement programmés. (Samuel, 1959)

Étant donné une tâche T et une mesure de performance P, on dit qu’un programme
informatique apprend à partir d’une expérience E si les résultats obtenus sur T,
mesurés par P, s’améliorent avec l’expérience E. (Mitchell, 1997)

Aroua Hedhili Sbaï page 10


Information interne

Définition de Machine Learning

●  Votre filtre anti-spam, par exemple, est un


programme d’apprentissage automatique qui peut
apprendre à identifier les e-mails frauduleux à
partir d’exemples de pourriels ou «spam» (par
exemple, ceux signalés par les utilisateurs) et de
messages normaux (parfois appelés « ham »).
●  Les exemples utilisés par le système pour son
apprentissage constituent le jeu d’entraînement (en
anglais, training set).
●  C h a c u n d ’ e u x s ’ a p p e l l e u n e o b s e r v a t i o n
d’entraînement (on parle aussi d’échantillon).

page 11
Information interne

Définition de Machine Learning

●  Dans l’exemple de spam:


Ä la tâche T consiste à identifier parmi les nouveaux e-
mails ceux qui sont frauduleux,
Ä l ’expérience E est constituée par les données
d’entraînement,
Ä et la mesure de performance P doit être définie (vous
pourrez prendre par exemple le pourcentage de courriels
correctement classés). Cette mesure de performance
parti- culière, appelée exactitude (en anglais, accuracy),
est souvent utilisée dans les tâches de classification.

page 12
Information interne

L’apprentissage automatique-un exemple

Un patient décrit par un ensemble d’attributs : âge, sexe,


pression sanguine, …

Ä La classe : attribut binaire concluant ou non à l’affectation du patient


par une maladie
Ä Apprentissage automatique : apprendre des règles de classification
à partir d’un ensemble de descriptions de patients

Aroua Hedhili Sbaï page 13


Information interne

L’apprentissage automatique-un exemple


●  Reconnaissance de caractères

3 6 Système de
… reconnaissance
3 6 de chiffres
… …
●  Comportement d’un « robot » autonome

Navigation pou accomplir une tâche


(e.g., collecter de la « nourriture »)

Aroua Hedhili Sbaï page 14


Information interne

L’apprentissage automatique-Schéma général

Nouvel Raisonnement
Environnement
exemple automatique

Echantillon (BD) Apprentissage automatique Connaissances


Expérience des experts Lois d’expertise

Aroua Hedhili Sbaï page 15


Information interne

Types de systèmes d’apprentissage automatique

●  Il existe tellement de types de systèmes


d’apprentissage automatique différents qu’il est
utile de les classer en grandes catégories :
Ä selon que l’apprentissage s’effectue ou non sous
supervision humaine (apprentissage supervisé,
non supervisé, semi-supervisé ou avec
renforcement),
Ä selon que l’apprentissage s’effectue ou non
progressivement, au fur et à mesure
(apprentissage en ligne ou apprentissage
groupé),

page 16
Information interne

Types de systèmes d’apprentissage automatique

Ä selon qu’il se contente de comparer les nouvelles


données à des données connues, ou qu’il détecte au
contraire des éléments de structuration dans les données
d’entraînement et construise un modèle prédictif à la
façon d’un scientifique (apprentissage à partir
d’observations ou apprentissage à partir d’un modèle).

●  Ces critères peuvent être combinés. Ainsi, un filtre anti-


spam dernier cri peut apprendre au fur et à mesure en
s’appuyant sur un modèle de réseau neuronal profond dont
l’apprentissage s’effectue sur des exemples de messages
indésirables ou non : ceci en fait un système supervisé
d’apprentissage en ligne à partir d’un modèle.

page 17
Information interne

L’apprentissage automatique-Apprentissage supervisé

●  L'apprentissage supervisé utilise des exemples étiquetés ou


classés. Ces étiquettes ou ces classes peuvent être vues comme
fournies par un professeur ou un superviseur, d'où le nom
d'apprentissage supervisé. Le but de l'apprentissage est alors de
produire une fonction de classification permettant de déterminer
la classe d'un exemple.

Aroua Hedhili Sbaï page 18


Information interne

L’apprentissage automatique-Apprentissage supervisé

●  On dispose d’un ensemble de données étiquetées par


un expert -> La base d’apprentissage

●  Objectif de l’apprentissage supervisé :


Ä Construire à partir de la base d’apprentissage des fonctions de
classement.
Ä Fonction de classement : reconnaître un attribut particulier (la
classe) à partir de la description d’un objet.

Aroua Hedhili Sbaï page 19


Information interne

L’apprentissage automatique-Apprentissage supervisé

Phase d’apprentissage:

Apprentissage Fonction de classement


f

Base
d’apprentissage
Phase de reconnaissance:
Fonction de classement
f

Aroua Hedhili Sbaï page 20


Information interne

L’apprentissage automatique-Apprentissage supervisé

π X X(π)=(X1(),……..,Xp(π))
population π
Espace de représentation
Ω Ω’ R

Y f?

Y(π) ensemble
des classes C

Population π
• Xi variables prédictives : les attributs
• y variable à prédire : la classe
Aroua Hedhili Sbaï [Zighed et al. 92] page 21
Information interne

Apprentissage supervisé - Exemple

●  Un exemple classique de tâche d’apprentissage


supervisé est la classification. Le filtre de spam en
constitue un bon exemple : son apprentissage
s’effectue à partir de nombreux exemples d’e-mails
accompagnés de leur classe (spam ou normal), à
partir desquels il doit apprendre comment classer
les nouveaux e-mails.

page 22
Information interne

Apprentissage supervisé - Exemple

●  Une autre tâche classique consiste à prédire une valeur


numérique cible (en anglais, target) telle que le prix d’une
voiture à partir des valeurs d’un certain nombre d’attributs
ou variables. Ces valeurs sont appelées les caractéristiques (en
anglais, features) d’une observation.
●  Ces variables, comme le kilométrage, l’âge, la marque, etc.,
sont appelées variables explicatives ou encore prédicteurs.
●  Une tâche de ce type est une régression. Pour entraîner le
système, vous devez lui donner beaucoup d’exemples de
voitures, en y intégrant à la fois les variables explicatives et
la variable à expliquer (les caractéristiques et les étiquettes).

page 23
Information interne

Apprentissage supervisé

●  Les plus importants algorithmes d’apprentissage


supervisé :
Ä K plus proches voisins
Ä Régression linéaire
Ä Régression logistique
Ä Machines à vecteurs de support
Ä Arbres de décision et forêts aléatoires
Ä Réseaux neuronaux

page 24
Information interne

L’apprentissage automatique-Apprentissage non supervisé

●  L'apprentissage non supervisé recherche des


régularités parmi un ensemble d'exemples.
●  Dans l’apprentissage non supervisé, les données
d’apprentissage ne sont pas étiquetées
●  Le système essaie d’apprendre sans professeur.

Aroua Hedhili Sbaï page 25


Information interne

Apprentissage non supervisé : exemple le clustering

●  On dispose d’une masse de données indifférenciées et


l’on désire si elles possèdent une quelconque structure
de groupes.

-> Clustering ou cluster Analysis

Ä Regrouper en classes des objets en se basant sur des similarités


entre eux .
Ä Maximiser la similarité intra-classe
Ä Minimiser la similarité inter-classes

Aroua Hedhili Sbaï page 26


Information interne

Apprentissage non supervisé

●  Les plus importants algorithmes d’apprentissage


non supervisé :
Ä K-moyennes
Ä Partitionnement hiérarchique
Ä Maximum de vraisemblance
Ä Apprentissage de règles d’association (Apriori,
Eclat)
Ä …

page 27
Information interne

Apprentissage semi supervisé

●  Certains algorithmes peuvent s’accommoder de


données d’apprentissage partiellement étiquetées,
comportant en général beaucoup de données sans
étiquette et quelques-unes avec. C’est ce qu’on
appelle l’apprentissage semi-supervisé

Aroua Hedhili Sbaï page 28


Information interne

Apprentissage semi supervisé-exemple

●  Certains services d’hébergement d’images tels que Google


Photos en constituent de bons exemples : une fois que vous
avez télécharge toutes vos photos de famille vers ce service,
ce dernier reconnaît automatiquement que la personne A
apparaît sur les photos 1, 5 et 11, tandis qu’une personne B
apparaît sur les photos 2, 5 et 7. C’est la partie non
supervisée de l’algorithme.

●  Exemple algorithme : les réseaux de conviction profonde


(Deep Belief Networks ou DBN)

page 29
Information interne

Apprentissage par renforcement

●  L’apprentissage par renforcement se base sur un ou plusieurs


agents. Il peut observer l’environnement, sélectionner et
accomplir des actions, et obtenir en retour des récompenses
(ou des pénalités sous la forme de récompenses négatives).

●  Il doit alors apprendre par lui-même quelle est la meilleure


stratégie, ou politique, pour obtenir au final autant de
récompenses que possible. Une politique définit quelle
action l’agent doit choisir face à une situation donnée.

Aroua Hedhili Sbaï page 30


Information interne

Apprentissage par renforcement

●  Ainsi, de nombreux robots mettent en œuvre des


algorithmes d’apprentissage par renforcement pour
apprendre à marcher.
●  Le programme AlphaGo de DeepMind, en 2016 il a battu
Lee Sedol, l’un des meilleurs joueurs de go au niveau
mondial. Il a mis au point sa tactique gagnante en analysant
des millions de parties, puis en jouant de nombreuses
parties contre lui-même.

Aroua Hedhili Sbaï page 31


Information interne

Apprentissage groupé et en ligne

●  Un autre critère utilisé pour classer les systèmes


d’apprentissage automatique consiste à savoir s’ils peuvent
ou non apprendre progressivement, à partir d’un flux de
données entrantes.

●  Dans l’apprentissage groupé (en anglais, batch learning), le


système est incapable d’apprendre progressivement: il doit
être entraîné avec toutes les données disponibles.
●  Ceci nécessite en général beaucoup de temps et de
ressources informatiques. Le système d’abord s’entraine
puis il est mis en production.

page 32
Information interne

Apprentissage groupé et en ligne

●  Dans l’apprentissage en ligne, le système est entraîné


progressivement en l’alimentant peu à peu avec des
observations, soit une à une, soit par petits groupes appelés
mini-lots (en anglais, mini-batches).
●  Chaque étape d’apprentissage est rapide et économique, ce
qui permet au système d’apprendre à partir de nouvelles
données au fur et à mesure de leur arrivée.
●  Les algorithmes d’apprentissage en ligne permettent aussi
d’entraîner des systèmes sur des jeux de données
extrêmement volumineux ne pouvant tenir en mémoire
principale

page 33
Apprentissage à partir d’observations /à partir d’un Information interne

modèle

●  A partir d’observation: La forme la plus banale


d’apprentissage consiste probablement à apprendre par
cœur.
●  Exemple: vous repéreriez uniquement les e-mails
absolument identiques à ceux préalablement repérés par des
utilisateurs. Ce n’est pas la pire solution, mais certainement
pas la meilleure non plus.
●  Ceci requiert une mesure de similarité entre deux e-mails.
Une mesure de similarité (très élémentaire) entre deux e-
mails pourrait être le nombre de mots qu’ils ont en
commun.

page 34
Apprentissage à partir d’observations /à partir d’un Information interne

modèle

●  A partir d’un modèle: il s’agit de généraliser à partir d’un


ensemble d’exemples qui consistent un modèle. Puis utiliser
le modèle construit pour effectuer des prédictions.

page 35
Information interne

Apprentissage automatique et les données

u  un tableau de données :
o  N lignes : les individus, les objets d’étude
o  P colonnes : les variables, les caractéristiques des objets
u  une base de données relationnelle :
o  des tables
o  des liens entre les tables
u  un entrepôt de données (data warehouse):
o  mise en commun de bases de données
o  agrégation de valeurs : nombre de commandes par client
u  Documents (Big Data):

Aroua Hedhili Sbaï page 36


Information interne

Définition-Données

●  Vectorielles

●  Séquences

●  Structurées

●  Temporelles

●  Spatiales

Aroua Hedhili Sbaï page 37


Information interne

Définition-Données

●  Vectorielles

●  Séquences

●  Structurés (ensemble de graphes ?)

●  Temporelles

●  Spatiales

page 38
Aroua Hedhili Sbaï
Information interne

Définition-Données

●  Vectorielles

●  Séquences

●  Structurés (ensemble de graphes ?)

●  Temporelles

●  Spatiales

Aroua Hedhili Sbaï page 39


Information interne

Définition-Données

●  Vectorielles

●  Séquences

●  Structurées

●  Temporelles

●  Spatiales

Aroua Hedhili Sbaï page 40


Information interne

Définition-Données

●  Vectorielles

●  Séquences

●  Structurées

●  Temporelles

●  Spatiales

Aroua Hedhili Sbaï page 41


Information interne

Définition-Données

●  Vectorielles

●  Séquences

●  Structurés

●  Temporelles

●  Spatiales

Aroua Hedhili Sbaï page 42


Information interne

Données et information intéressante

●  sciences de la vie
Ä médecine : patients et maladies, essais cliniques
Ä génomique : gènes, patients, tissus
●  marketing
Ä fiches clients
Ä traces d’usage (site web, communication mobile)
Ä achats
●  industrie
Ä senseurs : température, vibration
Ä images
Ä analyse physico-chimique

Aroua Hedhili Sbaï page 43


Information interne

Données et information intéressante

●  liens entre variables


Ä  corrélation
Ä  dépendance non linéaire
Ä  capacité de prédiction
●  liens entre individus
Ä  interactions significatives
Ä  groupes homogènes
●  liens entre évènements
Ä  dépendance logico-temporelle

Aroua Hedhili Sbaï page 44


Information interne

Données et information intéressante


●  sciences de la vie
Ä  lien entre tabagisme et maladies cardio-vasculaires
Ä  lien entre tabagisme et cancer du poumon
Ä  maladies génétiques : mutation , gène détérioré
●  marketing
Ä  évaluation du risque de défaillance pour un crédit
Ä  typologie des clients
Ä  recommandation de produits
●  industrie
Ä  identification de modes de fonctionnement normaux d’un matériel
Ä  qualité d’un produit à partir de mesures objectives

Aroua Hedhili Sbaï page 45


Information interne

Datasets- Exemple

●  Entrepôts de données en source libre bien connus :


Ä http://archive.ics.uci.edu/ml (entrepôt de Machine
Learning de l’Université d’Irvine, Californie)
Ä  https://www.kaggle.com/datasets (jeux de données
Kaggle)
Ä http://aws.amazon.com/fr/datasets (jeux de données
AWS d’Amazon)
Ä  http://dataportals.org
Ä  http://opendatamonitor.eu
Ä  http://quandl.com

page 46

Vous aimerez peut-être aussi