Projet BI
Projet BI
Projet BI
Entreprise Shiny
Ralis par :
Kyle XY
Sommaire :
I.
II.
III.
IV.
V.
VI.
VII.
Introduction
gnrale
.....3
Concepts
thoriques....
....4
Prsentation des outils
utiliss ...11
Ralisation
de
la
solution....13
Difficults
rencontres
..19
Conclusion.
..20
Annexe
...21
I.
Introduction gnrale :
II.
Concepts thorique
La chane dcisionnelle
Llment de base du systme dcisionnel est le datawarehouse ou
entrept de donnes. Cest une base de donnes trie, classe, afin den
sortir, grce des outils de restitution et danalyse, une information
stratgique.
La mise en place dun systme dcisionnel consiste donc rcuprer les
donnes de la base oprationnelle de lentreprise afin de constituer le
datawarehouse (Phase dalimentation) souhait. Par la suite, il faudra
traiter les donnes du datawarehouse par des phases de restitution et/ou
danalyse.
Lidentification du projet
La conception
Le dploiement
3. Modlisation OLAP :
OLAP
OLAP signifie On Line Analytical Processing . Le modle OLAP sera celui
du Datawarehouse. Il sera construit pour permettre des analyses prcises
et pertinentes. Plusieurs termes lis lOLAP ont t invents :
- R. OLAP : Relational OLAP
- M. OLAP : Multi demensional OLAP
- H. OLAP : Hybrid OLAP
Le R. OLAP est le plus facile et le moins cher mettre en place. Il est
cependant moins performant lors des phases danalyse et de calculs. En
effet, il fait appel beaucoup de jointures, et donc les traitements sont
plus consquents.
Le M OLAP est plus difficile et plus cher mettre en place. Cependant, on
se retrouve aprs avec des traitements beaucoup moins lourds et donc,
bien plus performant que pour le R. OLAP.
Le H. OLAP, enfin, est une solution hybride entre les deux, qui recherche
un bon compromis cot/performance.
Ces trois notions se retrouvent surtout lors du dveloppement des
solutions. Elles dpendent du soft et hardware. Lors de la modlisation, on
ne sintresse qu concevoir une modlisation oriente dcisionnelle,
indpendamment des outils utiliss ultrieurement.
Modle de base
Cest partir de lui que se construira la modlisation OLAP. Il sagit dun
modle classique des donnes qui devront tre contenues dans le
datawarehouse. Les modles des bases de donnes sources sont
ncessaires pour pouvoir connatre quelles sont les donnes disponibles. Il
faut aussi les recouper entre elles. En effet, deux situations sont
frquentes lorsque plusieurs sources sont croises :
- Des donnes portant le mme nom ont des significations diffrentes
- Des donnes portant des noms diffrents sont strictement
identiques.
Pour pouvoir tablir le modle de base, il faut donc bien avoir cern
quelles sont les donnes utiles et comment elles sont dfinies.
Modle en Flocon et en toile
Une fois le modle de base tabli, il va sagir de le retravailler dans une
optique plus dcisionnelle. On va le modifier en utilisant diffrents
procds :
niveaux de dtails les plus bas possibles. Dans notre exemple prcdent,
cela pourra tre les ventes dun produit, dans un magasin donn, une
heure prcise.
Il existe deux grandes familles de modles : ceux en flocon et ceux en
toiles.
Modle en Etoile
Un modle en toile se caractrise par la prsence de branches autour de
la table de fait. (dans notre exemple les ventes). Les branches ne sont pas
ncessairement quilibres, il ne faut donc pas chercher tout prix avoir
un modle bien symtrique.
Modle en Flocon
Un modle en flocon se caractrise par la prsence de branche qui se
ddouble. L encore, le but nest pas dobtenir une forme esthtiquement
parfaite, mais davoir quelque chose de pertinent.
On peut aussi se retrouver avec des modles en double toile ou double
flocon. Dans ces cas, on aura, non pas une, mais deux tables de fait lies.
Lors de la modlisation OLAP, il faut se rappeler quil nexiste pas de
solution unique. Ce qui est important, cest quil soit cohrent, logique et
adapt au projet. Un modle qui permet de rpondre aux questions des
utilisateurs et qui est performant en terme de calcul est un bon modle.
Multidimensionnel
Une fois le modle OLAP tablit, on peut souvent identifier plusieurs
dimensions. Normalement, on doit retrouver les grands axes fonctionnels
du projet. Chaque dimension constituera un axe danalyse. Ceci permettra
dagrger les donnes pour avoir une vision densemble synthtique, ou
de descendre dans les niveaux de dtails pour obtenir une vue plus fine.
Le multidimensionnel donne donc des vues diffrents niveaux de
zoom . Il permet donc deffectuer des analyses prcises de nimporte
quel chiffre.
4. Reporting
Les outils de restitution ou de pilotage sont la finalit de la chane
dcisionnelle, ils sont utiliss par les utilisateurs qui ne connaissent pas
forcment linformatique dcisionnelle. Ce sont donc des outils de
Reporting assez facile prendre en main et manipuler.
Moyens de restitution
Les outils de Requtage sont des gnrateurs de code SQL : Analyse
then Query . Il y a deux types dutilisateurs :
11
Les utilisateurs qui crent les rapports : ils peuvent, ou pas, connatre
linformatique dcisionnelle. Ils ont accs aux univers et aux cubes. Ils
manipulent, partir de linterface du requteur, les objets contenus
dans les classes pour crer divers tableaux. Ils composent des rapports
quils peuvent diffuser, par la suite, aux personnes concernes.
PowerAMC :
PowerAMC est une robuste solution de Modlisation des Systmes
d'informations quon peut utiliser en toute simplicit. PowerAMC est un
assemblage d'outils prend en charge un grand nombre de techniques de
modlisation standard : modlisation Merise (Donnes et Traitements),
Modlisation UML spcialement harmonise la logique des applications
et Modlisation des Processus Mtiers consacre aux non-informaticiens
pour leur rendre ais l'expression des besoins. Il offre un environnement
visuel trs intelligent et trs facile traiter. Enfin, un repre d'Entreprise
est prsent en option pour une gestion intgrale et matrise de la
totalit des mtadonnes.
PowerAMC offre un ensemble d'outils pour la cration directe des
structures de SGBD-R pour plus de 45 moteurs du march, rtroconception et coordination.
Pour notre cas on va utiliser PowerAMC pour La conception du MPD puis la
gnration de la base de donnes de production et la DataWarhouse de
lentreprise Shyny.
12
MySQL :
Nous avons utilis le Systme de Gestion de Base de Donnes MySQL qui
est un systme de gestion de base de donnes (SGBD). Il est distribu
sous une double licence GPL et propritaire. Il fait partie des logiciels de
gestion de base de donnes les plus utiliss au monde, autant par le grand
public (applications web principalement) que par des professionnels, en
concurrence avec Oracle, Informix et Microsoft SQL Server.
Talend Open Studio est une solution open source puissante et versatile
pour l'intgration des donns, Il sagit dun ETL (Extract Transform
-Load). Ce type doutil permet de raliser des flux, de manire visuelle,
principalement laide de la souris. Il devient alors possible de faire par
exemple une jointure entre un tableau Excel, un fichier CSV, un fichier
XML, une base de donne MySQL et denregistrer le rsultat au sein dune
base SQL Server.
Talend Open Studio est capable de gnrer un flux sous forme dune
application en Java ou en Perl.
Talend Open Studio est bas sur Eclipse, ce qui peut expliquer sa relative
lourdeur. Une machine relativement puissante est donc requise. En
revanche, il tourne tout aussi bien sur Windows que sur Linux.
Il peut amliorer l'efficacit du job design de l'intgration des donns
grce a un environnement de dveloppement graphique facile a utiliser
qui permet un dploiement rapide et rduit les frais de maintenance avec
des connecteurs prconstruits pour tous les sources et les systmes cibles,
et qui supporte tous les types d'oprations d'intgration des donns, des
migrations des donns, et de la synchronisation des donns.
Nous avons utilis Talend Open Studio pour bnficier de ces avantages
qui sont : gratuit, limportance de la communaut Talend, a des
connecteurs avec plusieurs systmes et sa simplicit.
13
16
17
Pour chaque Job on glisse les tables sources et on les dfinit en tant
que tMysqlInput et la table de dimension en tant que
tMysqlOutput .
Dans l'onglet Palette on choisit le composant tMap , on le
glisse et le dpose dans le Designer du job.
Loutil tMap permet mapper, cest--dire, lier les attributs des tables
sources et cibles directement ou bien en appliquant des oprations
sur ces attributs comme cest le cas pour la table de fait.
Cration de luniver :
18
On o choisi Pilotes ODBC MySQL car la base de donnes est cre sous
Mysql 5.0. Pour tester la connexion il suffit de cliquer sur tester elle fentre
va safficher pour nous indiquer si la connexion est bien faite ou non.
Aprs on a choisi les tables avec lesquelles on va travailler et effectuer
les requtes (slectionner puis ajouter).
Pour russir les requtes on a design les indicateurs (ce sont des
paramtres quantitatifs des units de mesure de la performance).
Pour indiquer quun champ est un indicateur il suffit de le slectionner puis
clic droit proprits dobjetproprits et aprs on coche le bouton radio
indicateur.
On a li chaque dimension la table de fait, et on a ajust les diffrentes
cardinalits.
19
Aprs il suffit de glisser les champs quon veut afficher dans la partie
Objets du rsultat et les requtes dans la partie conditions
20
V.
Difficults rencontres :
21
VI. CONCLUSION :
22