Cours BI ENP 2019 PDF
Cours BI ENP 2019 PDF
Cours BI ENP 2019 PDF
• Définition et approfondissement de la
Business Intelligence
2
Système d’information
Définition et typologies
3
Donnée - Information - Connaissance
• Données : valeurs à l’état brut représentant des événements
qui ont eu lieu à l’intérieur ou en dehors des organisations.
Elles n’ont pas encore été organisées de façon à ce que les
utilisateurs puissent les comprendre et s’en servir (Laudon et
al., 2006, p.14)
Données Informations
5
Production de l’information
6
Donnée - Information - Connaissance
Connaissances
Apprentissage
Modèle
Filtre Programmes
interprétatif
Apprentissage
Environnement Résultat
7
Pyramide des connaissances
Connaissance
Maturité Systémique
Information
Donnée
8
C’est quoi un système d’information
Source: http://www.minicom.si
9
Ressources d’un SI
Ressources
technologiques
Ressources
organisationnel Ressources
les et humaines
managériales
10
11
Ressources technologiques
Ressources
technologiques
Ressources Ressources
technologiques technologiques
matérielles logicielles
12
Ressources technologiques matérielles
13
Périphériques d’entrée de données
• Technologies de saisie
14
Périphériques d’entrée de données
15
Périphériques et supports de stockage
16
Périphérique d’affichage et de sortie
17
Centre de traitement
18
Périphériques et supports de stockage
19
Périphérique de transfert et de communication
20
Ressources technologiques logicielles
21
Ressources humaines
Ressources
humaines
Managers et
Informaticiens
utilisateurs
22
21
Ressources humaines
• Les informaticiens
• Conseil
• Intégration et implantation
23
Ressources humaines
24
Ressources organisationnelles et managériales
• Processus d’affaires
• Prise de décision
• Programmes de formation
25
Typologie des systèmes d’information (1)
Niveau de Cadres
TYPES DE la stratégie dirigeants
FONCTIONS
SI
BENEFICIANT
DES SYSTEMES
Niveau de Cadres
la gestion intermédiaires
26
Typologie des systèmes d’information (2)
27
Business intelligence
• Benchmarking
28
Advanced planning systems
• La gestion de la demande.
• La planification de la distribution.
• Ordonnancement de la production
• La planification du transport.
29
Supplier Relationship Management
• Le design collaboratif
• Le sourcing
• La négociation
• L’approvisionnement
30
Customer Relationship Management
• SAV
31
Enterprise Ressource Planning
• La gestion commerciale
• La gestion de la logistique
• La gestion industrielle
32
Exemple : Traitement d’une commande dans une
entreprise
Préparer la Soumettre la
Ventes
commande commande
Fabrication
Assembler Expédier
et
le produit le produit
logistique
33
Vision fonctionnelle (traditionnelle)
Fonctions d’affaires
Limites organisationnelles
Vendeurs
Clients
Processus Processus Processus Processus
d’affaires d’affaires d’affaires d’affaires
Systèmes d’information
34
Vision intégrative : architecture d’un ERP
• Encaissement
Finance
• Compte débiteur
et
• Crédit du client
compatibilité
• Revenu
• Commandes
• Heures travaillées
• Prévisions de ventes Ventes Base de Ressources • Frais de main-d’œuvre
• Demandes de retour et marketing données humaines • Compétences
• Changements de prix unifiée
• Matériaux
Production • Calendriers de production
et logistique • Dates d’expédition
• Capacité de production
• Achats
35
Supply Chain Event Management
36
Manufacturing Execution System
• Objectif : préparation, exécution et suivi des tâches de production
• Principales fonctions :
• Ordonnancement
• Gestion de la maintenance
37
Supply Chain Execution Systems
38
Transport Management Systems
• Suivi du budget
39
Warehouse Management Systems
• Réception
• Entreposage, casage
• Préparation de commandes
40
Advanced Order Management (Order management
systems)
• Principales fonctions :
41
Défis des SI
42
Cloud computing
43
Modèles de déploiement du Cloud computing
• Cloud privé (ou interne) : conçu, exploité et géré par une entreprise donnée
• Cloud Hybride : cloud qui intègre au moins deux type de ceux évoqués
44
Avantages et inconvénients du cloud computing
• Avantages
• Inconvénients
• Difficulté de maîtrise du cycle de vie des applications due à la fréquence des actualisations
45
Services cloud
46
I. Systèmes
Transactionnels
et Bases de
Données
Gérer les données
47
Base de Données
48
Ensemble de données et d’informations !
49
Solutions éventuelles
Avoir des données n’est pas une raison pour avoir une base de données !
50
Problèmes potentiels liés aux données
P1 : Taille des données
P3 : Exactitude
P4 : Accès et sécurité
P5 : Redondance
P6 : Importance
51
P1 : Taille des données
Nombre de lignes
Combinaison de données (3 millions de lignes)
52
P1 : Taille des données
53
P2 : Facilité de manipulation
Type de manipulation
54
P3 : Exactitude
55
P4 : Accès et sécurité
56
P5 : Redondance
57
P6 : Importance
Perte de temps
Perte de données stratégiques
58
Pour faire face à ces problèmes
Disposer de données
60
SGBD
Logiciel permettant de créer et d’exploiter une BD, soit dire
61
62
SGBD Objet
SGBD Hiérarchique
SGBD Relationnel
SGBD NoSQL
SGBD Réseau
63
Base de données
Ensemble de tables
Table 1 Colonnes
Table 2
Lignes
Table 3
64
Un type de donnée déterminé
=
Elément le plus important
Colonnes
Ensemble de
données
répétées
65
: comment identifier une ligne en particulier pour pouvoir la consulter ou la m
66
Déterminer une clé primaire (PK) = valeur unique non répétitive
clés candidates
67
Types de clés
Clé primaire (primary key) : clé candidate qui a été sélectionnée pour identifier
d’une manière unique chaque occurence d’un type d’entité
Clé composite (composite key) : clé qui rassemble deux ou plusieurs attributs
68
Définition des relations entre les tables
69
Table Commande Clé étrangère
Une clé étrangère
NUMCOM DATECOM TOTCOM CODCLI (Foreign key) est clé
345 3478 qui sert à lier deux
543 2837 tables et à en
897 3478
assurer l’intégrité
456 3478
référentielle
∞
1 Table Client
CODCLI NOMCLI ADRCLI CPCLI VILLECLI TELCLI
3478
4567
2837
6345
70
Relation un-à-plusieurs
71
blème : lorsque nous n’avons pas une relations un-à-plus
Table Commande
NUMCOM DATECOM TOTCOM CODCLI
345 3478
543 2837
897 3478
456 3478
Table Produit
REFPROD DESIGN PRIX
DF678
PL576
FE456
UU543
72
Relation plusieurs-à-plusieurs
Table Commande
NUMCOM DATECOM TOTCOM CODCLI
345 3478
543 2837
897 3478
456 3478
1
Table
∞ CommandeProduit
NUMCOM REFPROD QUANCOM
73
73
Fonctions d’un SGBD
74
Que permet de faire un SGBD Relationnel ?
Assurer des
76
Outils de gestion basés sur des SGBD
• Les ERP
77
Conception d’une BD relationnelles
78
Etapes de la conception et réalisation d’une BD
79
Etapes de la conception et réalisation d’une BD
80
Modèle conceptuel
• exemple :
81
Modèle logique ou relationnel
• exemple:
82
Conception de BD: le modèle entité-association
Modèle entité-association :
83
Principes du modèle E/A : entité et classe d’entités
84
Principes du modèle E/A : attribut et identifiant
pour une entité donnée, un attribut possède une et une seule valeur
exemples :
Identifiant (ou clé) d’une classe d’entités : ensemble minimal d’attributs déterminant de manière
unique une entité dans la classe
85
Représentation graphique d’une classe d’entités
86
Principes du modèle E/A : association
• Association : relie plusieurs classes d’entités (deux ou plus)
• porte un nom
• exemple : l’association EST-FACTURÉ entre les classes PRODUIT et FACTURE matérialise le fait que les
produits sont facturés sur des factures
87
Cardinalité d’une association
Cardinalité d’une association A vis-à-vis d’une classe d’entités E :
nombre minimum et maximum de fois où une entité donnée de la classe E peut apparaître dans l’association A
Cardinalité minimum :
Cardinalité maximum :
88
Cardinalité d’une association : exemples
89
Cas particuliers d’associations
• dans ce cas on place des rôles sur les liens de sorte à les distinguer
90
Construction d'un modèle entité-association
91
Dictionnaire des données
mettre seulement les données élémentaires, c’est-à-dire les attributs ne pouvant pas être obtenus par calcul
Exemple :
92
Dépendances fonctionnelles (DF)
• Dépendance fonctionnelle d'un attribut A vers un attribut B : la connaissance de la valeur de A détermine
une valeur unique de B
• Généralisation aux cas de plusieurs attributs : la connaissance des attributs A1, A2,...,An détermine une
valeur unique de B
• Représentation graphique :
• Exemple :
93
Graphe de dépendances fonctionnelles
94
Graphe de DF et modèle entité-association
• Le graphe de DF facilite la construction du modèle entité-association en permettant de déterminer :
• 1. les identifiants
• 2. les classes d'entités : identifiants et attributs qui dépendent directement et uniquement d’eux
• Exemple :
95
Modèle logique des données : le modèle
relationnel
• Principe du modèle relationnel : toutes les données sont stockées dans des tables
• Relation ou table : ensemble des enregistrements (ou records) issus d’une classe d’entités ou d’une association
• Exemple :
97
Modèle relationnel et SGBD relationnel
• Les SGBD relationnels permettent de construire et manipuler des relations :
• le schéma (ou la structure) des relations : nom de relation + liste des attributs
• clé (ou clé primaire) d’une relation : sous-ensemble minimum d’attributs d’une relation qui détermine les autres
98
Passage du modèle entité-association au
relationnel
• A chaque classe d’entités correspond • A chaque association correspond une
une relation : relation :
99
Passage du modèle entité-association. au
relationnel (suite)
• Simplification le modèle relationnel:
• les associations binaires ayant une cardinalité 0,1 ou 1,1 vis-à-vis d’une classe d’entités peuvent être
supprimées en déplaçant l’identifiant relié
• clé étrangère
• exemple :
après simplification :
100
Cas particuliers pour le passage au relationnel
• Cas des associations réflexives
• on peut souvent supprimer ces tables sans perte d’information (Ceci ne s’applique qu’aux entités)
101
Exercice 1
102
Normalisation de la base de données
la normalisation de la base s’appuie sur des règles définies dans les différentes
formes
107
Première forme normale (1NF)
108
Deuxième forme normale (2NF)
• que tous les attributs ne faisant pas partie de ses clés dépendent des clés
primaires complètes.
109
Troisième forme normale (3NF)
• Aucun attribut ne faisant pas partie des clés ne dépend directement que des
clés primaires.
110
Exercice 2
111
Exercice 3
112
Exercice 3
• Ces relations ont pour signification:
• CLIENT (NUMCLI, NOMCLI, ADRCLI, CPCLI, VILLECLI, TELCLI): le client de n° NUMCLI a pour nom
NOMCLI, adresse ADRCLI, code postal CPCLI, ville VILLECLI et n° de tel. TELCLI.
• FAMILLE (CODFAM, LIBFAM): la famille de produits de code CODFAM a pour désignation LIBFAM.
• ACHAT (NUMCLI, DATE, REFPROD, QTE, PRIXUNIT): le client NUMCLI achète à la date DATE une
quantité QTE de produits de référence REFPROD au prix unitaire unitaire PRIXUNIT.
• PRODUIT (REFPROD, LIBPROD, LIBFAM, NUMVEN): le produit de référence REFPROD a pour libellé
LIBPROD, appartient à la famille de produits LIBFAM, et est géré par le vendeur ayant pour numéro
NUMVEN.
113
Exercice 3
114
II. Systèmes
Décisionnels et
Business
Intelligence
Analyser les données
117
Complexité du marché
Business
Intelligence
121
Processus global de résolution d’un problème
Critères
Environnement
Alternatives Décision
Problème
122
Processus de prise de décision
123
Source: Laudon et Laudon
Type de décision, niveaux de décision et besoin en
information
125
Décision dans le monde réel
1. Qualité de l’information
3. Inertie organisationnelle
126
1. Qualité de l’information
• Pertinence : Est-ce que les données sont adaptées à la réalité et concernent bien les
éléments recherchés ?
• Actualité : Est-ce que les données sont disponibles au moment voulu et sont à jour ?
127
2. Filtres des managers
• Attention sélective
128
3. Inertie organisationnelle
• Décisions : équilibre entre les intérêts des parties prenantes plutôt que la
meilleure solution pour l'organisation.
129
Prise de décision : entre ancienne école et
nouvelles technologies
• instinct ou intuition
130
Importance de la prise de décision
• Donc, il est logique que les entreprises qui font de meilleures décisions sont
plus efficaces à long terme.
132
L’aide à la décision
Informatique
Approches et Approches et
méthodes méthodes
scientifiques scientifiques
133
Prise de décision et systèmes d’aide et de support
134
Source: Laudon et Laudon
La Business Intelligence
Définition et architecture
136
Quelques affirmations de managers dans les
entreprises
• « Nous avons énormément de donnée dans notre entreprise, mais nous ne pouvons y
avoir accès »
• « Vous devez rendre facile pour les gestionnaires à avoir directement accès à des
données »
• « Nous voulons que les gens utilisent l'information pour soutenir davantage la prise de
décision fondée sur des faits »
137
Brève histoire de la BI
138
Vers une définition
139
Vers une définition
140
Objectifs de la BI en général et du DW en
particulier
141
Trois principaux besoins des entreprises
145
Architecture de la BI
Stockage
Logistique
Cubes multidimensionnels
Système Analyse exploratoire de données
opérationnel Analyse des séries
Entrepôt de Marketing chronologiques
données Forage de données (data mining)
Optimisation
Evaluation de
la performance
Données
externes
Outils d’ETL
Exploitation
Collecte
146
BI : démarche globale
147
Architecture illustrée de la BI
149
2. Stockage et organisation des données
• Une BD sur laquelle sont chargées, recopiées et ordonnées des données émanant de source
interne ou externe à l’entreprise. Elle constitue ainsi un référentiel global pour l’entreprise.
• Une BD partielle du DW qui cible et se focalise sur un sujet précis (fonction, division, métier, ...).
• Data webhouse
• Un data warehouse distribué qui est implémenté à travers le web sans emplacement central
• les méta-données sont «des données sur les données» enregistrées dans une base ou un
entrepôt. Ces méta-données sont stockées dans le dictionnaire de données.
150
3. Exploitation et analyse des données
• Data mining
151
Phase 1 : Intégration (Extraction,
transformation et chargement) des données
ETL (Extract Transform Load)
152
Le processus ETL
ERP
Source: http://www.alsic.be/
SGBD
1.Identifier les données provenant de différentes 4.Stocker les données de manière structurée dans
sources. l'entrepôt de données de sorte à ce qu’elles
soient facilement accessibles et optimisées pour
une analyse plus approfondie et l'établissement
2.Extraire et vérifier.
de rapports.
3.Convertir et combiner.
153
Data Staging Area dans le Processus ETL
154
ETL - Deux méthodes
Full Load Delta load
(initial, first, (Incremental,
destructive) refresh)
Intégrité des
Facilement assurée Difficile à garantir
données
155
Stratégie de chargement ETL : Push, Pull ou
Push/Pull
Push
Pull
Base source Staging area
Push/Pull
156
Stratégies ETL : Push, Pull ou Push/Pull
• Fréquence de chargement
157
Extract
• Autres.
158
à prendre en compte…
• Connaître les type de données (pour pouvoir les analyser) : entier, chaîne
de caractères, taille, ... (pas toujours simple : données SGBD vs fichier
plat)
• Filtrer les données : n’extraire que les données nouvelles par exemple
159
Transform
160
Transform
161
Load
• Charger les données dans des cibles hétérogènes qui peuvent être
structurées suivant deux principaux modèles :
162
ETL : d’un format source à un format cible
source: www.ibm.com
163
Les outils ETL - Trois catégories
165
Technologies complémentaires
166
Phase 2 : Stockage et organisation des
données
Data Warehousing
167
Définition d’un entrepôt de données (data
warehouse)
168
Architecture globale d’un Datawarehouse
Précurseur de la
Précurseur du data modélisation
warehousing dimensionnelle
171
... qui impliquent deux approches dominantes
Conglomérat de Data
Déploiement Data Warehouse
Marts
172
Le paradigme de Inmon
173
Le paradigme de Inmon
174
Le paradigme de Kimball
175
Le paradigme de Kimball
176
De toute manière, le point commun entre les deux
est que...
177
Modélisation (multi)dimensionnelle
178
Notions principales
179
Table de faits
181
Table de faits
182
Caractéristiques des faits
• Numériques ou mesurables
• Additives
• Semi-additives
• Non-additives
• Valeurs qui ne peuvent pas être agrégées (prix unitaire, ratios, etc.)
184
Table de dimension et hiérarchie
source : netapsys
185
Notions principales - la dimension
Attributs d'une dimension qui subirait des changements dans le temps. Cela
dépend de l'exigence métier si l'historique des modifications doit être conservé
dans l'entrepôt de données.
• Une dimension conforme peut être utilisée avec plusieurs tables de faits dans
une base de données unique ou dans plusieurs entrepôts de données ou
magasins de données.
189
Types de dimensions
Lorsque l'attribut de dimension est stocké dans le cadre d'une table de faits et
non dans une table de dimensions distincte. Ce sont essentiellement des clés
de dimension pour lesquelles il n'y a pas d'autres attributs.
Une table unique avec une combinaison d'attributs différents et non liés pour
éviter d'avoir un grand nombre de clés étrangères dans la table de faits. Les
dimensions dépotoirs sont souvent créées pour gérer les clés étrangères
créées en modifiant rapidement les dimensions.
190
Types de dimensions
191
Mesure Vs Attribut
• Attribut
• Mesure
• Dépend des événements (faits) qui sont contextualisés par des dimensions
192
La hiérarchie
• Hiérarchie Naturelle
• Hiérarchie artificielle
193
Exemple
Dimension
Fait
195
Dimension et Fait
Dimension
Fait
Choisir les
Choisir le Définir la Identifier Choisir les
dimension
processus granularité les faits mesures
s
197
Etape 1 : Choisir le processus
• Achats
• Commande
• Client
• Stock, ...
198
Etape 2 : Définir la granularité ou le grain
• Stock
199
Etape 3 et 4 : Choisir les dimensions et les faits
200
Etape 5 : Choisir les mesures
• Mesure additive
• Mesure semi-additive
• Mesure non-aditive
201
Schéma d’un entrepôt de données
202
Plusieurs schémas
203
Modélisation en Étoile
http://www-01.ibm.com/support/knowledgecenter/SS9UM9_8.1.0/com.ibm.datatools.dimensional.ui.doc/topics/c_dm_star_schemas.html?lang=fr
204
Modélisation en Étoile
205
Modélisation en Étoile
208
Modélisation en flocon
209
Modélisation en flocon
http://www-01.ibm.com/support/knowledgecenter/SS9UM9_8.1.0/com.ibm.datatools.dimensional.ui.doc/topics/c_dm_snowflake_schemas.html?lang=fr 210
Modélisation en flocon
213
Pour revenir à nos personnages...
214
Avantages
• Etoile
• Lisibilité
• Flocon
• Espace disque
215
Schéma Etoile Vs Schéma en Flocon
Source : http://www.bleent.com
216
Source: http://danlinstedt.com/about/data-vault-basics/ 217
Data Vault
• Satellite : données et
attributs qui décrivent les
hubs ou les liens
http://it.toolbox.com/blogs/bi-aj/part-4-modeling-one-model-for-persistence-and-access-with-data-vault-44762 219
Data Vault
http://bukhantsov.org/2012/04/what-is-data-vault/
220
Typologie des architectures
(Desrosiers, 2011 : adapté de Kimball)
• Architecture Hub-and-spoke
221
Magasins de données indépendants
222
Magasins de données indépendants
223
Architecture en bus de magasins de données
224
Architecture en bus de magasins de données
Datamarts développés par sujet/processus d’affaires, en se basant sur des dimensions conformes;
Entrepôt de données conceptuel, formé de magasins de données inter-reliés à l’aide d’une couche
d’intergiciels (middleware).
Avantages :
Inconvénients :
225
Architecture Hub-and-spoke
226
Architecture Hub-and-spoke
Entrepôt (hub) contient les données atomiques (c.-à-d. le niveau de détail le plus fin) et normalisées
(3FN)
Les données des datamarts suivent le modèle dimensionnel et sont principalement résumées ou
agrégées (pas atomique)
Avantages :
Inconvénients :
227
Entrepôt de données centralisé
228
Entrepôt de données centralisé
Avantages :
Inconvénients :
229
Architecture fédérée
230
Architecture fédérée
231
Du modèle entité/association au modèle
multidimensionnel
• MAIS :
232
Phase 3 : Exploitation et analyse des données
OLAP et Data Mining
236
OLTP Vs OLAP
• R-OLAP : Relational Online Analytical Processing => base son analyse sur
les ressources (bases de données) existantes
238
Cube multidimensionnel ou Hypercube OLAP
239
Fonctions d’extraction de l’information
• Opérations de sélection
• Dice (sous-cube)
• Opérations de rotation
• Opérations de forage
240
Fonction d’extraction de l’information
Pivoting
241
Slicing
• extraire une tranche du cube qui correspond à la valeur d’une dimension non-
découpées
244
Source : IBM
Dicing
245
Pivoting / Rotating
246
Source : IBM
Drill-down
247
Source : IBM
Drill-across
249
Source : IBM
Roll-up et Drill-down
• Il y a un besoin urgent de recourir à une nouvelle génération de théories et d’outils pour aider les
humains à extraire des informations utiles (des connaissances) des volumes de données
numériques en croissance rapide.
• Le Data Mining : une étape dans le processus KDD qui consiste à appliquer l'analyse des données
et les algorithmes de découverte qui produisent un recensement particulier de modèles sur les
données.
251
Le processus de KDD
252
OLAP vs Data Mining
253
CRISP-DM - Cross Industry Standard Process for
Data Mining
254
CRISP-DM - Cross Industry Standard Process for
Data Mining (CRISP-DM)
255
Cycle de vie du Data mining
256
Techniques utilisées selon leur appartenance
disciplinaire
Source:
https://faisalferoz.wordpress.com/2013/
06/15/map-of-data-mining-algorithms/
259
Au-delà de la BI
261
Big Data
Volume
BIG DATA
Vélocité Variété
262
Les trois V des Big Data