Introduction Aux Entrepôts de Données
Introduction Aux Entrepôts de Données
Introduction Aux Entrepôts de Données
PROJET
donnes
(2)
Bernard ESPINASSE
Professeur Aix-Marseille Universit (AMU)
Ecole Polytechnique Universitaire de Marseille
Septembre 2013
Bibliographie
Ouvrages :
! Benitez-Guerrero E., C. Collet, M. Adiba, Entrepts de donnes : Synthse et
analyse , Rapport de recherche IMAG NIMAG-RR - 99-1017-I, 1999.
! Franco J-M., Le Data Warehouse (Le Data Mining) . Ed. Eyrolles, Paris,
1997. ISBN 2-212-08956-2
! Gardarin G., Internet/intranet et bases de donnes , Ed. Eyrolles, 1999,
ISBN 2-212-09069-2.
! Han J., Kamber M., Data Mining: Concepts and Techniques , Morgan
Kaufmann Publishers, 2004.
! Kimball R., M. Ross, Entrepts de donnes : guide pratique de modlisation
dimensionnelle , 2dition, Ed. Vuibert, 2003, ISBN : 2-7117-4811-1.
Cours :
! Cours de F. Bentayeb, O. Boussaid, J. Darmont, S. Rabaseda, Univ. Lyon 2
! Cours de P. Marcel, Univ. de Tours
! Cours de G. Gardarin, Univ. de Versailles
! Cours de M. Adiba et M.C. Fauvet, Univ. Grenoble
! Cours de G. Gamper, Univ. Bolzano.
Plan
1. Introduction et dfinition dun entrept de donnes (ED)
2. Architecture fonctionnelle dun ED
3. Modlisation d'un ED
4. Implantation d'un ED
!
!
!
!
5. Alimentation dun ED
6. Exploitation dun ED
Entreposage des donnes : avant dtre charges dans lentrept, les donnes
slectionnes doivent tre :
extraites des sources (internes : BD oprationnelles, externes : BD et fichiers
notamment issus du Web)
soigneusement pures afin dliminer des erreurs et rconcilier les diffrentes
smantiques associes aux sources)
BD oprationnelles
Niveau de dtail des
! Trs dtaill
informations
Homognit des
! Informations homognes
informations
Fonctions de lentreprise
! Donnes organises par
concernes par les
processus fonctionnel
donnes
Comparaison de donnes ! Non : Archivage ou mise
sur plusieurs annes jour des donnes
! Consultation, mais surtout
Oprations ralises sur les
mise jour et ajout de
donnes
donnes
Entrept de donnes
! Donnes agrges,
mtadonnes
! Information pas
ncessairement homognes,
! intgration de donnes
souvent ncessaire
! Donnes orientes sujet
! Oui : Donnes non volatiles,
donnes historises
! Consultation de donnes
uniquement
Infocentre
Entrept
1 - Construction de la BD dcisionnelle :
!
!
!
!
10
2. Architecture fonctionnelle
dun entrept de donnes
!
!
!
!
11
12
Axe synthtique :
tablit une hirarchie dagrgation comprenant :
Donnes fortement
agrges
Axe
synthtique
Donnes agrges
Axe historique :
Donnes dtailles
Donnes dtailles
historises
Axe historique
13
14
lorganisation des donnes est faite selon un modle facilitant la gestion efficace
des donnes et leur historisation.
les donnes extraites sont adaptes pour laide la dcision (pour classe de
dcideurs, usage particulier, recherche de corrlation, logiciel de statistiques,...)
lorganisation des donnes est faite selon un modle facilitant les traitements
dcisionnels
15
16
Prsentation
Niveau exploitation
Entrept
Bd entrept
Exploration
Analyse
Client dcisionnel
Transformation,
fusion
Niveau fusion
Extraction, filtrage
Extraction, filtrage
Extraction, filtrage
Source
ODS Operational Data Store : regroupe les donnes intgres rcupres des sources
CDW Corporate Data Warehouse : regroupe les vues agrges
Introduction au entrepts de donnes - Bernard ESPINASSE -
17
Donnes externes
Niveau extraction
Donnes oprationnelles
BD lgataires
18
Niveau exploitation
Entrept
Exploration
Bd entrept
Client dcisionnel
Analyse
mdiateur
Niveau fusion
Niveau fusion :
Transformation, fusion
Extraction, filtrage
adaptateur
moniteur
Niveau exploitation :
Rapports, tableaux de bords, visualisation graphiques diverses,
Analyse et lexploration des donnes entreposes (OLAP)
Requtes complexes pour analyse de tendance, extrapolation, dcouverte de
connaissance, (Fouille de donnes)
Introduction au entrepts de donnes - Bernard ESPINASSE -
BD source
BD source
19
Source
Donnes externes
Extraction, filtrage
adaptateur
moniteur
BD source
BD lgataires
Extraction, filtrage
adaptateur
moniteur
BD source
Donnes oprationnelles
Niveau extraction
Introduction au entrepts de donnes - Bernard ESPINASSE -
20
composant logiciel dtectant les mises jour effectues sur la source dinformation
et reprerant les donnes envoyer lED pour sa mise jour ultrieure :
! Utilisation de triggers si les SGBD en disposent
! Sinon interrogation priodique de chaque base locale ou son journal afin
de rcuprer les mises jour effectues durant la dernire priode
21
Le mdiateur (mediator) :
Moteur OLAP :
composant logiciel permettant sur les donnes de lED ou des Magasins de
donnes :
! avant dtre dverses dans lED, les donnes doivent tre nettoyes,
transformes, rorganises et souvent filtres
22
23
24
Dictionnaire et mta-donnes
Le dictionnaire contient des informations (mta donnes) sur :
! toutes les donnes de lED.
! sur chaque tape lors de la construction de lED;
! sur le passage dun niveau de donnes un autre lors de lexploitation
de lED
25
26
Soit les donnes relatives aux ventes de 1999 dune entreprise de distribution :
27
28
Considrons plusieurs tables des ventes de chaque anne entre 1997 et 1999
On peut alors observer les donnes dans un espace 3 dimensions :
la dimension catgories produit
la dimension rgions
la dimension temps
Chaque intersection de ces dimensions reprsente une cellule comportant le montant
des ventes :
Un fait :
modlise le sujet de l'analyse
est form de mesures correspondant aux informations de l'activit analyse.
ces mesures sont numriques et gnralement valorises de faon continue,
on peut les additionner, les dnombrer ou bien calculer le minimum, le
maximum ou la moyenne.
Exemple : le fait de Vente peut tre constitu des mesures d'activits
suivantes :
quantit de produits vendus et
montant total des ventes
VENTE
fait
quantit
montant
mesure d'activit
30
Une dimension :
modlise un axe d'analyse
Ex: Dans l'exemple prcdent, le fait Vente peut tre analys suivant
diffrentes perspectives correspondant trois dimensions : la dimension Temps, la
dimension Geographie et la dimension Categorie :
TEMPS
GEOGRAPHIE
anne
trimestre
saison
mois
jour
rgion
dpartement
ville
CATEGORIE
typeProduit
gamme
nomProduit
couleur
32
! les SGBDR reprsentant plus de 80% des SGBD : ils sont principalement
envisags pour le dveloppement dED mais doivent tre adapts
! Ils doivent cependant tre adapts car ils nont pas les caractristiques
adquates pour rpondre aux besoins des ED.
33
34
Caractristiques :
structure simple
objets de l'analyse
nombreux champs
des table priphriques : les tables de dimensions :
dimensions de l'analyse
taille peu importante
peu de champs
35
36
TEMPS
VENTE
anne
trimestre
saison
mois
jour
anne
rgion
typProduit
quantit
montant
BASKET
CATEGORIE
PRODUCT
SALE
basketId
payment
typeProduit
gamme
nomProduit
couleur
basketId
customerId
promotionId
storeId
dateId
productId
quantit
prix
CUSTOMER
customerId
income
income range
gender
age
age range
GEOGRAPHIE
rgion
dpartement
ville
Schma en toile modlisant les analyses des quantits et des montants des mdicaments
dans les pharmacies selon 3 dimensions : le temps, la catgorie et la situation gographique
productId
productName
brand
brandGroup
subCategory
price
priceRange
DATE
PROMOTION
LOCATION
promotionId
startDate
endDate
discountType
storeId
storeName
city
region
country
dateId
day
month
quarter
year
37
Associ Ex 2 :
un fait :
38
39
40
SAISON
VENTE
nomSaison
jour
ville
nomProduit
quantit
montant
TYPE
TEMPS
jour
nomMois
nomSaison
MOIS
nomMois
numeroMois
trimestre
GEOGRAPHIE
typeProduit
CATEGORIE
nomProduit
typeproduit
nomGame
nomCouleur
GAMME
nomGamme
ville
dpartement
TRIMESTRE
trimestre
anne
dpartement
codePostal
rgion
ANNEE
anne
COULEUR
nomCouleur
REGION
rgion
DEPARTEMENT
Schma en constellation
42
Pr-agrgation
Un modle en constellation :
fusionne plusieurs modles en toile qui utilisent des dimensions communes.
comprend en consquence plusieurs faits et des dimensions communes ou non
Ex : Vente de mdicaments dans des pharmacies
TEMPS
VENTE
anne
trimestre
saison
mois
jour
MEDICAMENTS
PRESCRIPTION
catgorie
molcule
effetsSecondaires
posologie
anne
catgorie
rgion
nbMdicament
honoraires
anne
typeproduit
rgion
quantit
montant
CATEGORIE
1. une table des faits spars/ddis avec les tables pour les dimensions
correspondantes
typeproduit
gamme
nomProduit
couleur
2. dans la mme table des faits, en codant les niveaux hirarchiques dans
les tables de dimensions
GEOGRAPHIE
rgion
dpartement
ville
43
44
45
1.
2.
3.
Nettoyage et Transformation
4.
Chargement
46
TACHES
Extraction
Nettoyage
Transformation
Chargement
Rplication
Analyse
Transfert de donnes haut dbit
Test de qualit
Analyse des mta donnes
47
SUPPORT
accs aux diffrentes sources
recherche et rsolution des
inconsistances dans les sources
entre diffrents formats, langages, etc.
des donnes dans lentrept
des sources dans lentrept
Ex : dtection de valeurs non valides ou
inattendues
pour les trs grands entrepts
Ex : pour correction et compltude
aide la conception
48
49
Objectifs du nettoyage :
! rsoudre le problme de consistance des donnes au sein de chaque
source
! une centaine de type dinconsistances ont t rpertories
! 5 30 % des donnes des BD commerciales sont errones
! fonctions de conversion
! usage de dictionnaires de synonymes ou dabrviations
Dfinition de table de rgles :
Types dinconsistances :
! prsence de donnes fausses ds leur saisie :
! fautes de frappe
! diffrents formats dans une mme colonne
! texte masquant de linformation (e.g., N/A)
! valeur nulle
! incompatibilit entre la valeur et la description de la colonne
! duplication dinformation,
! persistance de donnes obsoltes
! confrontation de donnes smantiquement quivalentes mais syntaxiquement
diffrentes
50
51
valeur source
Mr
monsieur
Masculin
M
Msieur
remplac par
Valeur cible
M
M
M
M
M
Exemple de conversions :
52
Objectifs :
Objectif :
charger les donnes nettoyes et prpares dans lED
! des donnes :
! Equivalence de champs
! Equivalence denregistrements : fusion denregistrements
53
54
55
56
,.."//#*+#',3+18)*'+,#',#),#,+0$/&-/&,&'.-1,2
!
58;8?#15)&@*'45#+>51>'5<#+7#*15,20929:#&+()<)&*6#)4*6+1'*'0-#84-*#-0,7#8+,*6&;#10%+1*-#*+#
-*)*0#+33'(0! A+*#6-576+1#
Exploitation !"#$%%&'()*'+,-.#!)-/0+)12dun ED (2)
!
! /0%+1*#'-#703',07#<;#)#3*"%2#
=84&*'%&0#>401'0-?#),7#)#+,2$*&#
! Pour des les utilisateurs qui ont
besoin d'un accs rgulier des informations
d'une manire presque statique
=7')21)8-:#6'-*+21)8-:#0*(9?
Ex: les hpitaux doivent envoyer des rapports mensuels des agences
.#/0%+1*',2
nationales
! @),#<0#14,#)4*+8)*'()&&;#
! Un rapport est dfini par une requte (plusieurs requtes) et une mise en page
-#56+#,007#)#%")*+,%(diagrammes, histogrammes,+1#8),4)&&;
etc)
#',#),#,+0$/&-/&,&'.-1,2
Rapports (Reporting) :
'*'0-#84-*#-0,7#8+,*6&;#10%+1*-#*+#
! Les rapports peuvent tre excuts
! A+*#6-576+1#
(+4%&5B#),2#
25*)'&52#),)&3-'-
automatiquement ou manuellement
3*"%2#
#)#+,2$*&#
:#0*(9?
)&&;#
!
61
J. Gamper,
Free University of Bolzano, DWDM 2012-13
61
57
J. Gamper,
Free University of Bolzano, DWDM 2012-13
Introduction au entrepts de donnes - Bernard ESPINASSE -
67
58
Facilitent lanalyse
et linterprtation de donnes
!"#$%%&'()*'+,-.#/'-0)&'1)*'+,
convertissent des donnes complexes en images, graphiques en 2 et 3
! 23)%4'()&#%35-5,*)*'+,#+6#(+7%&58#35-0&*
dimensions, voire en animations
! 9+&+3:#-'15:#),;#6+37#45&%#*+#<'=5#)#>5**53#+=53='5?
Sont de plus en plus intgres dans les ED
59
68
60
61
62
! grande masse de donnes concernant les abonns et les appels est enregistre
! Plusieurs mois de description dtaille des appels comprenant, pour chaque
appel appelant, appel, heure et dure sont disponibles chez les oprateurs
En respectant les lois de scurit et libert, que peut-on faire de telles donnes ?
Couples ou non avec des informations comptables, lexploitation de ces
donnes regroupes en ED par des techniques danalyse et dexploration permet :
! Danalyser le trafic
! De mieux cerner les besoins des clients,
63
64
65
Projet :
! un des premiers entrepts en France
! plusieurs millions de dollars conomiss en sapercevant que les stocks de
coca-cola faisaient souvent dfaut...
! 1994 : 80 Go et 50 utilisateurs
! 2002 : + de 10 To, 1500 utilisateurs, 25000 requtes/jour
Solution : Teradata
Projet :
Le projet :
! 12 BD sources
! rcupration des donnes : 1,5 anne
! donnes rgionales et nationales
! parfois chez des prestataires de services
! parfois au prix dun intense lobbying
! en 2003 : environ 5 annes de travail
Solution :
! entreposage : SQL server
! DW de 3 bimestres, vid priodiquement
! 1,2 million dindividus
! 1 fait = 1 client
! 250 colonnes
! intgration faite la main priodiquement
Exploitation : progiciel de DM dvelopp spcifiquement
67
66
68