Cours ML S1

Information interne
Machine Learning
Aroua Hedhili Sbaï page 1

Information interne
Plan
●  Concepts et notions de base
●  Apprentissage non supervisé
●  Apprentissage supervisé
●  Apprentissage profond (Deep learning)

Information interne
Concepts et Notions de
base

Information interne
Introduction : exemple introductif
●  Affectation de prêt immobilier (banque, client)

Ä Analyse de dossier de prêt
Ä Variables explicatives (âge, salaire, statut, nombre d’enfants,…)
Ä Une fonction pour prévoir une prédiction

Information interne
Introduction : exemple introductif
●  Expert humain :
Ä Accumulé expérience considérable
Ä Connu par ses décisions justes
●  Système expert :
Ä Cogniticien extrait les connaissances
(entretiens)
Ä Savoir chez les experts humains
Ä Ne dépasse pas le niveau des experts
●  Système d’apprentissage :
Ä Extrait tout seul l’expertise à partir de données
Ä Découverte de nouvelles connaissances

Information interne
Motivations
Masse importante de données (millions de milliards

d’instances) :
•  BD très larges - Very Large Databases (VLDB)
•  Données multi-dimensionnelles (milliers d’attributs)
•  BD denses

Information interne
Motivation
●  Le Machine Learning envahit plus discrètement les

systèmes informatiques de toutes les entreprises. Lorsque
vous parcourez Internet ne serait-ce que quelques
minutes, une horde de systèmes d’apprentissage
automatique s’activent:
●  Certains analysent votre personnalité pour vous proposer
les produits qui vous correspondent le mieux,
●  d’autres sélectionnent les publicités qui attireront votre
attention,
●  et d’autres encore analysent votre comportement pour
s’assurer que vous n’êtes pas un fraudeur
page 7
Information interne
Motivation
●  Mais le Machine Learning n’est pas réservé aux géants du

web : qu’il s’agisse de prédire des séries temporelles
(comme les cours de la Bourse), de détecter des anomalies
de production, d’optimiser des centres d’appel, d’analyser
les profils des clients, ou encore de classer
automatiquement des documents, l’apprentissage
automatique s’est révélé d’une grande utilité dans une
multitude de domaines.
page 8
Information interne
Introduction
●  L’explosion des données

ü  Les outils de collecte automatique des données et les bases de
données conduisent à des masses énormes de données stockées
dans des entrepôts.
●  Submergés par les données, manque de connaissance!
●  Solutions: Entrepôts de données et/ou le big data et
fouille de données
ü  Entrepôts de données et analyse on-line
ü  Extraction de la connaissance intéressante (règles, régularités,
patterns, contraintes) à partir de grandes bases de données

Information interne
Définition du Machine Learning
L’apprentissage automatique (Machine Learning) est la science (et l’art) de

programmer les ordinateurs de sorte qu’ils puissent apprendre à partir de
données.
L’apprentissage automatique est la discipline donnant aux ordinateurs la capacité

d’apprendre sans qu’ils soient explicitement programmés. (Samuel, 1959)
Étant donné une tâche T et une mesure de performance P, on dit qu’un programme
informatique apprend à partir d’une expérience E si les résultats obtenus sur T,
mesurés par P, s’améliorent avec l’expérience E. (Mitchell, 1997)

Information interne
Définition de Machine Learning
●  Votre filtre anti-spam, par exemple, est un

programme d’apprentissage automatique qui peut
apprendre à identifier les e-mails frauduleux à
partir d’exemples de pourriels ou «spam» (par
exemple, ceux signalés par les utilisateurs) et de
messages normaux (parfois appelés « ham »).
●  Les exemples utilisés par le système pour son
apprentissage constituent le jeu d’entraînement (en
anglais, training set).
●  C h a c u n d ’ e u x s ’ a p p e l l e u n e o b s e r v a t i o n
d’entraînement (on parle aussi d’échantillon).
page 11
Information interne
Définition de Machine Learning
●  Dans l’exemple de spam:

Ä la tâche T consiste à identifier parmi les nouveaux e-
mails ceux qui sont frauduleux,
Ä l ’expérience E est constituée par les données
d’entraînement,
Ä et la mesure de performance P doit être définie (vous
pourrez prendre par exemple le pourcentage de courriels
correctement classés). Cette mesure de performance
parti- culière, appelée exactitude (en anglais, accuracy),
est souvent utilisée dans les tâches de classification.
page 12
Information interne
L’apprentissage automatique-un exemple
Un patient décrit par un ensemble d’attributs : âge, sexe,

pression sanguine, …
Ä La classe : attribut binaire concluant ou non à l’affectation du patient

par une maladie
Ä Apprentissage automatique : apprendre des règles de classification
à partir d’un ensemble de descriptions de patients

Information interne
L’apprentissage automatique-un exemple

●  Reconnaissance de caractères
3 6 Système de
… reconnaissance
3 6 de chiffres
… …
●  Comportement d’un « robot » autonome
Navigation pou accomplir une tâche

(e.g., collecter de la « nourriture »)

Information interne
L’apprentissage automatique-Schéma général
Nouvel Raisonnement
Environnement
exemple automatique
Echantillon (BD) Apprentissage automatique Connaissances

Expérience des experts Lois d’expertise

Information interne
Types de systèmes d’apprentissage automatique
●  Il existe tellement de types de systèmes

d’apprentissage automatique différents qu’il est
utile de les classer en grandes catégories :
Ä selon que l’apprentissage s’effectue ou non sous
supervision humaine (apprentissage supervisé,
non supervisé, semi-supervisé ou avec
renforcement),
Ä selon que l’apprentissage s’effectue ou non
progressivement, au fur et à mesure
(apprentissage en ligne ou apprentissage
groupé),
page 16
Information interne
Types de systèmes d’apprentissage automatique
Ä selon qu’il se contente de comparer les nouvelles

données à des données connues, ou qu’il détecte au
contraire des éléments de structuration dans les données
d’entraînement et construise un modèle prédictif à la
façon d’un scientifique (apprentissage à partir
d’observations ou apprentissage à partir d’un modèle).
●  Ces critères peuvent être combinés. Ainsi, un filtre anti-

spam dernier cri peut apprendre au fur et à mesure en
s’appuyant sur un modèle de réseau neuronal profond dont
l’apprentissage s’effectue sur des exemples de messages
indésirables ou non : ceci en fait un système supervisé
d’apprentissage en ligne à partir d’un modèle.
page 17
Information interne
L’apprentissage automatique-Apprentissage supervisé
●  L'apprentissage supervisé utilise des exemples étiquetés ou

classés. Ces étiquettes ou ces classes peuvent être vues comme
fournies par un professeur ou un superviseur, d'où le nom
d'apprentissage supervisé. Le but de l'apprentissage est alors de
produire une fonction de classification permettant de déterminer
la classe d'un exemple.

Information interne
●  On dispose d’un ensemble de données étiquetées par

un expert -> La base d’apprentissage
●  Objectif de l’apprentissage supervisé :

Ä Construire à partir de la base d’apprentissage des fonctions de
classement.
Ä Fonction de classement : reconnaître un attribut particulier (la
classe) à partir de la description d’un objet.

Information interne
Phase d’apprentissage:
Apprentissage Fonction de classement

f
Base
d’apprentissage
Phase de reconnaissance:
Fonction de classement
f

Information interne
π X X(π)=(X1(),……..,Xp(π))
population π
Espace de représentation
Ω Ω’ R
Y f?
Y(π) ensemble
des classes C
Population π
• Xi variables prédictives : les attributs
• y variable à prédire : la classe
Aroua Hedhili Sbaï [Zighed et al. 92] page 21
Information interne
Apprentissage supervisé - Exemple
●  Un exemple classique de tâche d’apprentissage

supervisé est la classification. Le filtre de spam en
constitue un bon exemple : son apprentissage
s’effectue à partir de nombreux exemples d’e-mails
accompagnés de leur classe (spam ou normal), à
partir desquels il doit apprendre comment classer
les nouveaux e-mails.
page 22
Information interne
Apprentissage supervisé - Exemple
●  Une autre tâche classique consiste à prédire une valeur

numérique cible (en anglais, target) telle que le prix d’une
voiture à partir des valeurs d’un certain nombre d’attributs
ou variables. Ces valeurs sont appelées les caractéristiques (en
anglais, features) d’une observation.
●  Ces variables, comme le kilométrage, l’âge, la marque, etc.,
sont appelées variables explicatives ou encore prédicteurs.
●  Une tâche de ce type est une régression. Pour entraîner le
système, vous devez lui donner beaucoup d’exemples de
voitures, en y intégrant à la fois les variables explicatives et
la variable à expliquer (les caractéristiques et les étiquettes).
page 23
Information interne
Apprentissage supervisé
●  Les plus importants algorithmes d’apprentissage

supervisé :
Ä K plus proches voisins
Ä Régression linéaire
Ä Régression logistique
Ä Machines à vecteurs de support
Ä Arbres de décision et forêts aléatoires
Ä Réseaux neuronaux
page 24
Information interne
L’apprentissage automatique-Apprentissage non supervisé
●  L'apprentissage non supervisé recherche des

régularités parmi un ensemble d'exemples.
●  Dans l’apprentissage non supervisé, les données
d’apprentissage ne sont pas étiquetées
●  Le système essaie d’apprendre sans professeur.

Information interne
Apprentissage non supervisé : exemple le clustering
●  On dispose d’une masse de données indifférenciées et

l’on désire si elles possèdent une quelconque structure
de groupes.
-> Clustering ou cluster Analysis
Ä Regrouper en classes des objets en se basant sur des similarités

entre eux .
Ä Maximiser la similarité intra-classe
Ä Minimiser la similarité inter-classes

Information interne
Apprentissage non supervisé
●  Les plus importants algorithmes d’apprentissage

non supervisé :
Ä K-moyennes
Ä Partitionnement hiérarchique
Ä Maximum de vraisemblance
Ä Apprentissage de règles d’association (Apriori,
Eclat)
Ä …
page 27
Information interne
Apprentissage semi supervisé
●  Certains algorithmes peuvent s’accommoder de

données d’apprentissage partiellement étiquetées,
comportant en général beaucoup de données sans
étiquette et quelques-unes avec. C’est ce qu’on
appelle l’apprentissage semi-supervisé

Information interne
Apprentissage semi supervisé-exemple
●  Certains services d’hébergement d’images tels que Google

Photos en constituent de bons exemples : une fois que vous
avez télécharge toutes vos photos de famille vers ce service,
ce dernier reconnaît automatiquement que la personne A
apparaît sur les photos 1, 5 et 11, tandis qu’une personne B
apparaît sur les photos 2, 5 et 7. C’est la partie non
supervisée de l’algorithme.
●  Exemple algorithme : les réseaux de conviction profonde

(Deep Belief Networks ou DBN)
page 29
Information interne
Apprentissage par renforcement
●  L’apprentissage par renforcement se base sur un ou plusieurs

agents. Il peut observer l’environnement, sélectionner et
accomplir des actions, et obtenir en retour des récompenses
(ou des pénalités sous la forme de récompenses négatives).
●  Il doit alors apprendre par lui-même quelle est la meilleure

stratégie, ou politique, pour obtenir au final autant de
récompenses que possible. Une politique définit quelle
action l’agent doit choisir face à une situation donnée.

Information interne
Apprentissage par renforcement
●  Ainsi, de nombreux robots mettent en œuvre des

algorithmes d’apprentissage par renforcement pour
apprendre à marcher.
●  Le programme AlphaGo de DeepMind, en 2016 il a battu
Lee Sedol, l’un des meilleurs joueurs de go au niveau
mondial. Il a mis au point sa tactique gagnante en analysant
des millions de parties, puis en jouant de nombreuses
parties contre lui-même.

Information interne
Apprentissage groupé et en ligne
●  Un autre critère utilisé pour classer les systèmes

d’apprentissage automatique consiste à savoir s’ils peuvent
ou non apprendre progressivement, à partir d’un flux de
données entrantes.
●  Dans l’apprentissage groupé (en anglais, batch learning), le

système est incapable d’apprendre progressivement: il doit
être entraîné avec toutes les données disponibles.
●  Ceci nécessite en général beaucoup de temps et de
ressources informatiques. Le système d’abord s’entraine
puis il est mis en production.
page 32
Information interne
Apprentissage groupé et en ligne
●  Dans l’apprentissage en ligne, le système est entraîné

progressivement en l’alimentant peu à peu avec des
observations, soit une à une, soit par petits groupes appelés
mini-lots (en anglais, mini-batches).
●  Chaque étape d’apprentissage est rapide et économique, ce
qui permet au système d’apprendre à partir de nouvelles
données au fur et à mesure de leur arrivée.
●  Les algorithmes d’apprentissage en ligne permettent aussi
d’entraîner des systèmes sur des jeux de données
extrêmement volumineux ne pouvant tenir en mémoire
principale
page 33
Apprentissage à partir d’observations /à partir d’un Information interne
modèle
●  A partir d’observation: La forme la plus banale

d’apprentissage consiste probablement à apprendre par
cœur.
●  Exemple: vous repéreriez uniquement les e-mails
absolument identiques à ceux préalablement repérés par des
utilisateurs. Ce n’est pas la pire solution, mais certainement
pas la meilleure non plus.
●  Ceci requiert une mesure de similarité entre deux e-mails.
Une mesure de similarité (très élémentaire) entre deux e-
mails pourrait être le nombre de mots qu’ils ont en
commun.
page 34
Apprentissage à partir d’observations /à partir d’un Information interne
modèle
●  A partir d’un modèle: il s’agit de généraliser à partir d’un

ensemble d’exemples qui consistent un modèle. Puis utiliser
le modèle construit pour effectuer des prédictions.
page 35
Information interne
Apprentissage automatique et les données
u  un tableau de données :
o  N lignes : les individus, les objets d’étude
o  P colonnes : les variables, les caractéristiques des objets
u  une base de données relationnelle :
o  des tables
o  des liens entre les tables
u  un entrepôt de données (data warehouse):
o  mise en commun de bases de données
o  agrégation de valeurs : nombre de commandes par client
u  Documents (Big Data):

Information interne
Définition-Données
●  Vectorielles
●  Séquences
●  Structurées
●  Temporelles
●  Spatiales

Information interne
●  Vectorielles
●  Séquences
●  Structurés (ensemble de graphes ?)
●  Temporelles
●  Spatiales
page 38
Aroua Hedhili Sbaï
Information interne
●  Vectorielles
●  Séquences
●  Structurés (ensemble de graphes ?)
●  Temporelles
●  Spatiales

Information interne
●  Vectorielles
●  Séquences
●  Structurées
●  Temporelles
●  Spatiales

Information interne
●  Vectorielles
●  Séquences
●  Structurées
●  Temporelles
●  Spatiales

Information interne
●  Vectorielles
●  Séquences
●  Structurés
●  Temporelles
●  Spatiales

Information interne
Données et information intéressante
●  sciences de la vie
Ä médecine : patients et maladies, essais cliniques
Ä génomique : gènes, patients, tissus
●  marketing
Ä ﬁches clients
Ä traces d’usage (site web, communication mobile)
Ä achats
●  industrie
Ä senseurs : température, vibration
Ä images
Ä analyse physico-chimique

Information interne
●  liens entre variables

Ä  corrélation
Ä  dépendance non linéaire
Ä  capacité de prédiction
●  liens entre individus
Ä  interactions significatives
Ä  groupes homogènes
●  liens entre évènements
Ä  dépendance logico-temporelle

Information interne

●  sciences de la vie
Ä  lien entre tabagisme et maladies cardio-vasculaires
Ä  lien entre tabagisme et cancer du poumon
Ä  maladies génétiques : mutation , gène détérioré
●  marketing
Ä  évaluation du risque de défaillance pour un crédit
Ä  typologie des clients
Ä  recommandation de produits
●  industrie
Ä  identification de modes de fonctionnement normaux d’un matériel
Ä  qualité d’un produit à partir de mesures objectives

Information interne
Datasets- Exemple
●  Entrepôts de données en source libre bien connus :

Ä http://archive.ics.uci.edu/ml (entrepôt de Machine
Learning de l’Université d’Irvine, Californie)
Ä  https://www.kaggle.com/datasets (jeux de données
Kaggle)
Ä http://aws.amazon.com/fr/datasets (jeux de données
AWS d’Amazon)
Ä  http://dataportals.org
Ä  http://opendatamonitor.eu
Ä  http://quandl.com
page 46

Cours ML S1

Transféré par

Droits d'auteur :

Formats disponibles

Cours ML S1

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours ML S1

Transféré par

Droits d'auteur :

Formats disponibles

Information interne

Aroua Hedhili Sbaï page 1

● Concepts et notions de base

● Apprentissage non supervisé

● Apprentissage profond (Deep learning)

Aroua Hedhili Sbaï page 2

Aroua Hedhili Sbaï page 3

Introduction : exemple introductif

● Affectation de prêt immobilier (banque, client)

Aroua Hedhili Sbaï page 4

Introduction : exemple introductif

Aroua Hedhili Sbaï page 5

Masse importante de données (millions de milliards

Aroua Hedhili Sbaï page 6

● Le Machine Learning envahit plus discrètement les

● Mais le Machine Learning n’est pas réservé aux géants du

● L’explosion des données

Aroua Hedhili Sbaï page 9

Définition du Machine Learning

L’apprentissage automatique (Machine Learning) est la science (et l’art) de

L’apprentissage automatique est la discipline donnant aux ordinateurs la capacité

Aroua Hedhili Sbaï page 10

Définition de Machine Learning

● Votre filtre anti-spam, par exemple, est un

Définition de Machine Learning

● Dans l’exemple de spam:

L’apprentissage automatique-un exemple

Un patient décrit par un ensemble d’attributs : âge, sexe,

Ä La classe : attribut binaire concluant ou non à l’affectation du patient

Aroua Hedhili Sbaï page 13

L’apprentissage automatique-un exemple

Navigation pou accomplir une tâche

Aroua Hedhili Sbaï page 14

L’apprentissage automatique-Schéma général

Echantillon (BD) Apprentissage automatique Connaissances

Aroua Hedhili Sbaï page 15

Types de systèmes d’apprentissage automatique

● Il existe tellement de types de systèmes

Types de systèmes d’apprentissage automatique

Ä selon qu’il se contente de comparer les nouvelles

● Ces critères peuvent être combinés. Ainsi, un filtre anti-

L’apprentissage automatique-Apprentissage supervisé

● L'apprentissage supervisé utilise des exemples étiquetés ou

Aroua Hedhili Sbaï page 18

L’apprentissage automatique-Apprentissage supervisé

● On dispose d’un ensemble de données étiquetées par

● Objectif de l’apprentissage supervisé :

Aroua Hedhili Sbaï page 19

L’apprentissage automatique-Apprentissage supervisé

Apprentissage Fonction de classement

Aroua Hedhili Sbaï page 20

L’apprentissage automatique-Apprentissage supervisé

Apprentissage supervisé - Exemple

● Un exemple classique de tâche d’apprentissage

Apprentissage supervisé - Exemple

● Une autre tâche classique consiste à prédire une valeur

● Les plus importants algorithmes d’apprentissage

L’apprentissage automatique-Apprentissage non supervisé

● L'apprentissage non supervisé recherche des

Aroua Hedhili Sbaï page 25

●  Concepts et notions de base

●  Apprentissage non supervisé

●  Apprentissage profond (Deep learning)

●  Affectation de prêt immobilier (banque, client)

●  Le Machine Learning envahit plus discrètement les

●  Mais le Machine Learning n’est pas réservé aux géants du

●  L’explosion des données

●  Votre filtre anti-spam, par exemple, est un

●  Dans l’exemple de spam:

Ä La classe : attribut binaire concluant ou non à l’affectation du patient

●  Il existe tellement de types de systèmes

Ä selon qu’il se contente de comparer les nouvelles

●  Ces critères peuvent être combinés. Ainsi, un filtre anti-

●  L'apprentissage supervisé utilise des exemples étiquetés ou

●  On dispose d’un ensemble de données étiquetées par

●  Objectif de l’apprentissage supervisé :

●  Un exemple classique de tâche d’apprentissage

●  Une autre tâche classique consiste à prédire une valeur

●  Les plus importants algorithmes d’apprentissage

●  L'apprentissage non supervisé recherche des

●  On dispose d’une masse de données indifférenciées et

Ä Regrouper en classes des objets en se basant sur des similarités

●  Les plus importants algorithmes d’apprentissage

●  Certains algorithmes peuvent s’accommoder de

●  Certains services d’hébergement d’images tels que Google

●  Exemple algorithme : les réseaux de conviction profonde

●  L’apprentissage par renforcement se base sur un ou plusieurs

●  Il doit alors apprendre par lui-même quelle est la meilleure

●  Ainsi, de nombreux robots mettent en œuvre des

●  Un autre critère utilisé pour classer les systèmes

●  Dans l’apprentissage groupé (en anglais, batch learning), le

●  Dans l’apprentissage en ligne, le système est entraîné

●  A partir d’observation: La forme la plus banale

●  A partir d’un modèle: il s’agit de généraliser à partir d’un

●  Structurés (ensemble de graphes ?)

●  Structurés (ensemble de graphes ?)

●  liens entre variables

●  Entrepôts de données en source libre bien connus :