0% ont trouvé ce document utile (0 vote)

323 vues65 pages

Big Data

Ce document présente un projet de mémoire pour l'obtention d'un diplôme de master en informatique. Le sujet porte sur la conception et l'exploitation des données Big Data dans le cas de la copie d'état-civil malgache. Le document contient une introduction, une présentation du contexte et de l'approche, une section sur les systèmes d'information et les bases de données, une section sur le Big Data, et une bibliographie.

Transféré par

Haingonirina Ignace

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Télécharger au format docx, pdf ou txt

0% ont trouvé ce document utile (0 vote)

323 vues65 pages

Big Data

Transféré par

Haingonirina Ignace

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Télécharger au format docx, pdf ou txt

Vous êtes sur la page 1/ 65

PROJET DE MEMOIRE POUR L’OBTENTION DU DIPLOME

DE MASTER PROFESSIONNELLE EN INFORMATIQUE

Option : Génie Logiciel

Conception et exploitation des données Big

Data
Cas : Copie d’état-civil Malagasy

 Présenté par : Monsieur RAKOTOMANGA Harinirina Luciano

 Encadreur Pédagogique : Monsieur RAJAOSOLOMANANTENA

Haingonirina Ignace

 Classe : 5ème année FC

Année Universitaire : 2019 – 2020

1
REMERCIEMENTS

2
Tout d’abord, nous tenons à remercier notre Seigneur, Dieu le tout puissant, qui
nous a donné la force, le courage et la patience d’accomplir ce modeste travail.

En second lieu, nous souhaitons remercier,

 Monsieur , le Président Directeur Général d’ISINFO

 Madame ,
 Monsieur , notre encadreur, pour ses conseils d’orientation sur le contenu

Remercions aussi le président ainsi que les honorables membres du jury pour avoir
bien voulu donner leur temps de lire ce travail

Nous tenons à exprimer nos sincères remerciements à tous les professeurs qui nous ont
enseigné et qui par leurs compétences nous ont soutenu dans la poursuite de nos études.

Nos remerciements vont aussi au corps administratif.

Enfin, un sincère remerciement à mes parents, la famille, ainsi que mes amis pour tous les
encouragements qu’ils m’ont donnés et d’avoir déployé leur force à la réalisation de ce
longue travail.

A vous tous MERCI !

SOMMAIRE

3
Table des matières
REMERCIEMENTS...................................................................................................................2

SOMMAIRE...............................................................................................................................4

AVANT-PROPOS......................................................................................................................5

LISTE DES ABREVIATION.....................................................................................................7

LISTE DES FIGURES...............................................................................................................8

Figure 1: Structure de bases de données Client-Serveur............................................................8

Figure 2 : Sous-systèmes SGBD.................................................................................................8

LISTE DES TABLEAUX.........................................................................................................10

INTRODUCTION GENERALE..............................................................................................11

1. SECTION : CONTEXTE ET APPROCHE.....................................................................13

1.1. Le sujet d’étude..........................................................................................................14

1.1.1 Étude de l’existant...............................................................................................14

1.1.2 Les problématique...............................................................................................14

1.1.3 Objet de l’étude :..............................................................................................................15

1.1.4 Objectifs du sujet d’étude................................................................................................15

1.2. Aspect de fonctionnement..........................................................................................16

2. SECTION : Information et système d’information...........................................................18

2.1 Introduction.........................................................................................................................18

2.2 Généralité............................................................................................................................19

2.2.1 Définition.........................................................................................................................19

2.2.2 Les différents formes de SI.............................................................................................20

2.2.3 Historique du traitement de l’information.......................................................................21

2.2.4 Le Système d’information décisionnelle.........................................................................21

2.2.5 L’organisation du Système d’information.......................................................................22

2.3 Les Bases de données..........................................................................................................25

Figure 1: Structure de bases de données Client-Serveur...........................................26

4
2.4 De SQL Classique vers NoSQL..........................................................................................26

2.4.1 SGBDR............................................................................................................................26

Figure 2 : Sous-systèmes SGBD...............................................................................................27

Les propriétés ACID.................................................................................................................27

2.5 Le traitement de NoSQL.....................................................................................................30

2.5.1 Historique de NoSQL......................................................................................................30

2.5.2 Concepts fort de NoSQL..................................................................................................31

2.5.3 Les différents type de Base de données NoSQL..............................................................32

 Les BDs Orientées colonnes.....................................................................................32

 Les BDs orientées documents..................................................................................34

 Les BDs orientées clé-valeur......................................................................................35

 Les BDs orientées graphe...........................................................................................36

2.6 Conclusion..........................................................................................................................37

3. SECTION : Le BIG DATA...............................................................................................38

3.1 Introduction.........................................................................................................................38

3.2 Définition............................................................................................................................39

3.3 Processus de traitement des applications Big Data.............................................................41

Explication :..............................................................................................................................42

3.4 Propriété du Big Data..........................................................................................................43

3.3.1 Scalabilité.........................................................................................................................43

3.3.2 Théorème de CAP............................................................................................................45

3.5 Modèles de stockage...........................................................................................................47

3.5.1 Systèmes à base d'objets..................................................................................................48

3.5.2 Systèmes de fichiers distribués........................................................................................48

3.5.3 Systèmes basés sur des modèles NoSQL.........................................................................49

3.2 Utiliser SGBDR ou NoSQL?..............................................................................................50

3.2.1 Applications transactionnelles :.......................................................................................50

5
3.2.2 Applications de calcul......................................................................................................51

3.2.3 Applications web.............................................................................................................51

3.3 L’utilisation du NoSQL......................................................................................................52

3.1 Conclusion..........................................................................................................................53

4. SECTION :........................................................................................................................54

BIBLIOGRAPHIE....................................................................................................................55

Article.......................................................................................................................................57

Memoire....................................................................................................................................57

AVANT-PROPOS

6
Résumé

7
Les données ont envahi notre monde et modifient nos façons d’agir. L’exploitation du Big
Data a ouvert des nouvelles perspectives dans de nombreux domaines, et grâce à des
outils analytiques et à la modélisation de données, des chercheurs et des administrations
peuvent faire des analyses tendancielles et suivre des phénomènes en temps réel.

Ce mémoire s’ajoute aux différents travaux de recherche dans le domaine de stockage de

données massive appelé Big Data. Suite à ce problème, de nouvelles technologies ont
émergé tels que la base de données NoSQL, celles-ci changent radicalement l’architecture
des bases de données que nous avons l’habitude de voir, et permettent ainsi d’augmenter la
performance et la disponibilité des services.

Mots clés : Big Data, NoSQL, Data Warehouse, Oracle Database

Abstract

Data has invaded our world and is changing the way we do things. The
exploitation of Big Data has opened up new perspectives in many fields, and thanks to
analytical tools and data modeling, researchers and administrations can make trend
analyzes and follow phenomena in real time.
This thesis is in addition to the various research works in the field of massive data
storage called Big Data. As a result of this problem, new technologies have emerged such
as the NoSQL database, which radically change the architecture of the databases that we
are used to seeing, and thus make it possible to increase performance and availability of
services.

Keywords: Big Data, NoSQL, Data Warehouse, Oracle Database

LISTE DES ABREVIATION

8
SI : Système d’information

SQL : Structured Query Languag

PME :

PMI :

IaaS : Infrastructure as a Service

PaaS : Platform as a Service

SaaS : Software as a Service

SGBD : Système de de gestion de base de données

BD : Base de données

LMD : Langage de Manipulation de Données

ACID : Atomicité, Cohérence, Isolation, Durabilité

SGBDR : Système de de gestion de base de données relationnelle

SID : Système d’information décisionnel

BI : Business Intelligence

BLOB : Binary Large OBjects

JSON : JavaScript Object Notation

E/S : Entré/Sortie

HDFS : Hadoop Distributed File System

BSFS : BlobSeerted File System)

NoSQL : Not Only SQL

LISTE DES FIGURES

9
Figure 1: Structure de bases de données Client-Serveur

Figure 2 : Sous-systèmes SGBD

Figure 4 : CA, Cohérence + Disponibilité

Figure 5 : AP Disponibilité + Distribution

Figure 6 : CP Cohérence + Distribution

Figure 7 : Table d’une Base de données relationnelle

Figure 8 : Table d’une BD NoSQL orientée colonne

Figure 9 : Les commandes d’une clé-valeur

Figure 10 : Structure de base d’une BD orientée graphe

Figure 11 : Processus de traitement des applications Big Data

Figure 12 : Scalabilité de Big Data

Figure 13 : Apache HDFS

10
LISTE DES TABLEAUX

Tableau 1 : Service de l’informatique en nuage

11
INTRODUCTION GENERALE

12
L’acte de naissance est systématiquement considéré par les autorités décisionnaire
comme une solution prioritaire pour marquer l’existence d‘une personne dans un pays. Il
est encore aujourd’hui une des réponses principales aux problématiques rencontrées par
un pays ou, à moindre échelle, un territoire. En effet, la copie de cet acte de naissance
joue un rôle très important durant l’existence d’un individu. Alors qu’aujourd’hui le
stockage de ces informations est considéré comme un de petits problèmes.

En ce sens, généralement, quel que soit le type de stockage actuel, de la donnée physique à
la donnée numérique, le service de liaison de ces données collectées, comme dans un seul
endroit restera un problème à résoudre. Nous utilisons souvent de la base de données
relationnelle pour ce stockage.

Bien que le concept de Big Data soit relativement nouveau, en 2005, on assista à une prise
de conscience de la quantité de données que les utilisateurs généraient sur Facebook,
YouTube et autres services en ligne. Hadoop fut développé cette même année. NoSQL
commença également à être de plus en plus utilisé à cette époque. Actuellement,
l’association des deux infrastructures semble constituer la meilleure approche. Maîtriser la
technologie du Big Data est un enjeu continu. Il ne suffit pas de stocker les données. Pour
être utiles, celles-ci doivent être exploitées et, en amont organisées. Des données propres,
ou des données pertinentes pour le client est organisées de manière à permettre une analyse
significative, et nécessitent beaucoup de travail. Les spécialistes des données passent 50 à
80 % de leur temps à organiser et à préparer les données avant leur utilisation.

A l’heure actuelle, Madagascar est un pays qui commence à s’intéresser et à se tourner vers
l’informatisation. Ce mémoire de recherche s’intéresse plus particulièrement sur la
« Conception et exploitation de données Big Data, cas du copie d’état civil Malagasy ».

Afin de traiter le sujet et de répondre aux questionnements émis, un plan de recherche a

été établi. A cet effet, Le Big Data est une nouvelle révolution dans le domaine
informatique et relative à l’ensemble de données qui deviennent tellement gros et difficiles
à gérer avec des outils classiques de gestion de base de données, ce qui nécessite d’utiliser
des plateformes et outils dédiées à la gestion de ces données parmi lesquels la
plateforme Hadoop qui est composé de deux composants essentiels à savoir : MapReduce
qui est un nouveau paradigme de programmation , sur lequel sont effectués les calculs

13
parallèles et distribués de grandes masses de données ; et le HDFS qui est un système
de gestion de fichier distribué.

L’objectif de l’étude sera donc de concevoir une application et de modéliser son base de
données afin de nous aider à gérer tous les données dans la base et de les consulter à
n’importe quel moment, et à n’importe quel endroit où le système a été mis en place.

A cet égard, ce présent ouvrage sera divisé en quatre parties :

- Tout d’abord, Dans le premier chapitre, nous abordons le contexte et approche

- Puis, le deuxième chapitre nous montrera les informations et les systèmes

d’informations.

- Ensuite, nous présenterons la partie théorique sur l’implémentation de notre application

dans le troisième chapitre

- Et enfin, nous terminerons ce mémoire par une discussion, et afficher le résultat de notre
recherche durant ce long chemin de travail.

14
1. SECTION : CONTEXTE ET APPROCHE

1.1. Le sujet d’étude

1.1.1 Étude de l’existant

Le taux de l’informatisation des services dans des différentes sociétés a vraiment
évoluées dans ces dernières années. Les ETI et PME/PMI, dont le niveau
d’informatisation est de plus en plus élevé, renforcent leurs entités informatiques et

15
recrutent plus souvent qu’auparavant des cadres spécialisés et des experts. Ces dernières
peuvent être amenées à cumuler des fonctions de gestion de parc et d’études et
développement informatiques.

Les évolutions technologiques se sont accélérées. Non seulement les innovations se

multiplient mais les cycles d’innovation c’est-à-dire du projet à la mise sur le marché du
produit se raccourcissent.

Concernant le secteur public et parapublic, il a connu également une modernisation

rapide de ses systèmes d’information. Les investissements, parfois massifs, sont cependant
fortement dépendants des problématiques budgétaires. Parmi les utilisateurs les plus
importants, il faut mentionner les ministères, notamment celui des Finances, de l’Intérieur
et de la Défense, mais également les conseils régionaux et les grandes collectivités locales.

Actuellement, nous pouvons dire qu’il n’existe pas de logiciel dédié et spécifique
pour l’élaboration du copie d’acte de naissance d’un enfant et du peuple Malagasy dans le
pays. On utilise souvent dans la plus part des cas, des méthodes à l’anciennes, en utilisant
de la machine à écrire et de logiciel Word dans les arrondissements et les mairies.

Cependant, d’une part, lorsque l’individu responsable utilise de la machine à écrire pour
l’élaboration de la copie de ‘acte de naissance, alors le partage et la distribution de
l’information sur la personne concernée se fait partir d’un document physique. Et bien sûr,
le stockage du document original se trouve dans quelque part interne ou externe du
bâtiment de travail avec du format en papier.

Et d’autre part, supposant que la personne responsable utilise du logiciel Word dans son
ordinateur de bureau, dans ce cas-là, le processus de son travail est la même à celui qui
utilise de la machine à écrire, mais la différence entre les deux, c’est que la personne
responsable devra imprimer le document qu’il venait de saisir.

Enfin, vue l’avancement technologique des opérateurs réseau, il y a l’apparition de

la fibre optique, du réseau 4G, et du réseau 5G qui est encore en ce moment en phase de
test. La plus part des établissements Administratif sont donc équipés de la connexion
internet et ces bâtiments sont connectés entre elles dans la plus part des cas. Le réseau
joue donc un rôle très important dans une société comme celle-ci, mais dans notre cas, il
n’est pas exploité au niveau voulu.

16
Revenons sur le de stockage des documents numériques, d’autres départements utilisent
déjà du serveur pour la gestion de leur ressources, mais sur la vision globale dans d’autres
ville, ils ont encore du mal à gérer leur propre système d’information. Le système de
stockage n’est donc pas centralisé.

1.1.2 Les problématique

Le stockage des données est l’une des problèmes majeure qui se pose toujours
lorsqu’on traite beaucoup d’informations et surtout quand ces données évoluent avec le
temps. Ce problème est valide que ce soit avec les données numériques ou encore avec les
données sur papiers. Mais la plus part des mairies et arrondissements qui se trouvent à
Madagascar utilisent encore des armoires et des livres de registre pour le stockage de ces
informations. Or, le stockage des données physiques reste encore problématique dans la
plupart des sociétés et les expose à d’importants risques de perte ou de fuite d’information
de valeur. Ces documents courts donc un risque de sécurité durant tout ce temps.

Concernant les partages des documents inter-établissement, le stockage physique

des documents cause en effet un petit souci, dans notre système actuel.

La demande de copie de l’acte de naissance au niveau des arrondissements entre deux

villes différents va donc causer un petit problème de support et de vérification. Supposant
par exemple qu’une personne concernée habita dans une ville lointaine de sa ville natale,
alors qu’il veut avoir son copie d’acte de naissance dans l’autre ville. Et c’est dans ce
temps-là que le problème survient. La personne concernée a donc l’obligation de revenir
dans sa ville natale. Et cela va poser une question de distance, mais aussi une perte de
temps.

Or, généralement, l’individu devra pouvoir consulter son extrait d’acte de naissance dans la
ville ou commune où il se trouve partout dans le pays, vue le développement technologique
actuelle.

Il y a donc une absence d’entreposage de données collectif pour ce genre de système dans
le pays, afin de valoriser les données collecté par les responsables. Mais aussi, bien sûr,
pour le traitement et exploitation rapide des échantillons de ces informations.

17
1.1.3 Objet de l’étude :
Les données sont au cœur du système d’information. L’efficience de leur
organisation et de leur exploitation est une préoccupation majeure. Cette étude concerne
le stockage massif des données, le système d’information décisionnelle, et la technologie
autour de Big Data.

L’idée générale du Big data, c’est d’enregistrer beaucoup de données le plus possible.
D’ailleurs si l’on traduit : Big Data, on obtient quelque chose comme “Grande Donnée” ou
“Données importantes”.

1.1.3.1 Généralité sur Big Data:

Au début des années 1990, face à l’évolution du nombre de mobiles
connectés à Internet, les données évoluèrent d’une manière incroyable. C’est au milieu des
années 2000 que les gens ont pris conscience de volume absolument vertigineux de
données que brassaient des géants du net comme Youtube. En 2005, Roger Moulagas de
O’Reilly Media formula le terme de “Big Data”, un an après que la société inventa le
“Web 2.0”. Il utilisera ce terme pour faire référence à un nombre de données tellement
grand qu’il était impossible de gérer et de traiter avec les outils de Business Intelligence
actuels.

L’émergence des Framework open source, d’Hadoop à Spark a joué un rôle

essentiel dans le développement du Big Data. Ils ont permis de faciliter la gestion de
données massive et de réduire considérablement ses coûts de stockage. Depuis cette
époque, le volume de données a grimpé en flèche. Le Big Data du milieu des années 2000
n’est plus le Big Data de 2020. Le développement de l’internet contribue a accentué cette
tendance à l’explosion volumétrie de données. De plus en plus d’objets et d’appareils
quotidiens sont connectés à l’internet, ce qui permet aux entreprises de collecter en continu
des données vis-à-vis de ces appareils connectés. Le progrès du machine learning comme
ceux du cloud computing contribuent eux aussi à faire exploser les volumes de données
gérés par des entreprise.

Aussi bien que des differents entreprises commencent peu à peu à adopter le
Big Data, autant qu’Internet en 1993, la révolution Big Data est encore devant nous et
de grands changements apparaîtront dans les prochaines années.

18
1.1.3.2 Définition de Big Data:
Littéralement, le terme “Big Data” signifie “gros volume de données”. La
définition initiale a été définie par le cabinet McKinsey and Company en 2011 avec la
célèbre règle des 3 “V” :

 Volume :
Un système Big Data se caractérise d’abord par le volume de données en jeu. Ce système
traite un volume de données largement supérieur à ce que traitent les bases de données
traditionnelles. Ce qui pose un défi technologique : les volumes de données en jeu
excèdent les capacités d’un simple ordinateur, nécessitent des mises en réseau et
l’utilisation du cloud computing.

 Vitesse ou Vélocité :
Depuis le début, nous insistons sur le problématique de volume. Dans Big Data, il y a
évidemment « Big ». Mais dans le Big Data, le volume n’est pas le seul sujet. Un système
Big Data c’est aussi un système dans lequel la donnée circule vite entre les outils, les
bases, les applicatif, les sources. Les données arrivent dans le système en provenance de
source multiples et sont processées souvent en temps réel pour générer des insights et
mettre à jour le système. Dans ce Big système Big Data, l’approche orientée « batch » tend
progressivement à céder sa place au streaming de données en temps réel. De plus en plus,
la donnée est ajoutée, traité, processée et analysée en temps réel.

 Variété :

Les données sont en grand nombre et circulent vite dans le système. Mais ce n’est pas tout.
Le Big Data se caractérise aussi par l’immense variété des données traitées. Les bases de
données relationnelles ont affaire à des données structurées et de même type. Par contre
dans le Big Data, les données sont dans leur majorité non structuré ou semi-structuré. Et
pour cette raison, elles doivent être travaillées, longuement préparées. Un texte, un fichier
audio ou fichier vidéo doivent faire l’objet d’un traitement avant de pouvoir produire du
sens et supporter des métadonnées.

Le principe de sources multiples est un principe capital dans le process “Big Data”.
Il est impensable de bâtir un projet décisionnel en se basant sur une source unique

19
de données et prétendre que celle-ci détient la vérité. Nous devons matcher plusieurs
données provenant de différentes sources pour pouvoir en déduire quoi que ce soit. Ces
technologies étaient censées répondre à l’explosion des données dans le paysage
numérique.

En résumé, le Big Data est l’art de gérer de gros volume de données, complexes et
hétérogènes, pour la plupart non structurées, qui circulent vite dans un système donné. Ce
qui n’est pas à la portée des logiciels classiques de gestion de bases de données.

Certains auteurs ou éditeurs de logiciels ont voulu ajouter deux autres « V » aux trois
proposés par Gartner, pour mettre en avant d’autres défis posés par le Big Data :

 Valeur

Elle représente les données, autant pour l’entreprise que pour l’utilisateur. Ces
organisations et entreprises sont conscientes de la valeur que peuvent représenter ces
données et n’hésitent pas à créer une relation “donnant-donnant” avec ses
utilisateurs. La valeur rappelle la finalité business de tout projet Big Data.

A la valeur s’ajoute une notion plus qualitative véhiculée par le 5ème “V”, qui est la

 Véracité des données :

C’est-à-dire disposé de données fiables pour leur traitement. Elle évoque la nécessité de
vérifier la crédibilité de la source et la qualité du contenu afin de pouvoir exploiter ces
données.

Mais la véracité ou fiabilité des données est notamment menacée par les comportements
déclaratifs sur les formulaires, par les diversités des points de collecte, par la multiplication
des formats de données et par l’activité des robots et faux profils innombrables sévissant
sur Internet. Si l’on base nos décisions sur des données il faut être sûr qu’elles apportent
une « vérité » vraie, ou tout du moins utile. Cette validation de la véracité est cruciale pour
ne pas être induite en erreur sans le savoir.

Ces cinq éléments ont servi pendant longtemps de boîte à outils pour comprendre les
fondements du Big Data, à savoir l’apparition de nouvelles technologies innovantes
capables de traiter dans un temps limité de grands volumes de données afin de valoriser
l’information non exploitée d’une entreprise.

20
Figure 1 : Les 5V du Big Data

Et selon le cabinet de conseil en architecture d’entreprise Redsen, le Big Data

s’agit d’ “Un ensemble de technologies, d’architecture, d’outils et de procédures
permettant à une organisation ou entreprise de pouvoir capter, traiter et analyser en un
temps relativement court de larges quantités de données et contenus hétérogènes et
changeants, et d’en extraire les informations pertinentes à un coût accessible”.

L’intérêt de nombreux projets Big Data réside dans la possibilité de déchiffrer et

d’interpréter un grand nombre d’informations. Les données sont devenues de plus en
plus accessibles et peuvent être utilisées pour nous aider à améliorer nos stratégies
marketing ou encore notre service clientèle. Certes, toutes les données n’ont pas
nécessairement besoin d’être analysées. Mais la donnée bien triée, sectionnée et exploitée,
peut représenter une source d’informations fiable. Derrière ce terme marketing se trouve
une notion assez simple et de nombreuses opportunités. Analyser ces données permet
d’identifier les pistes à exploiter et croître notre activité.

21
1.1.3.3 Propriété du Big Data

Le Scalabilité
Dans leur tentative d'aborder le Big Data, les nouvelles technologies s'efforcent à
satisfaire une propriété́ primordiale qui est la « scalabilité ». On entend par cela la capacité́
d'un système à améliorer ses performances en augmentant la taille ou le nombre de ses
ressources lorsqu'il fait face à une charge plus grande. En pratique, on retrouve deux
approches dites scalabilité verticale et son analogue horizontale. La première est réalisée
en augmentant la taille du système et la puissance de ses composants (RAM, CPU). Par
contre, la scalabilité horizontale se manifeste sous la forme d'un Cluster. Il s'agit d'un
système distribué composé de plusieurs machines de capacité́ modérée appelées nœuds.
Ces machines ou nœuds communiquent dans le but de réaliser certaines opérations et
manipuleront chacune une partie de la charge imposée au système adoptant ainsi la
politique « diviser pour régner ». Ladite charge peut représenter une problématique de
stockage d'une grande masse de données ou leur traitement. La figure ci-dessous résume le
concept.

Figure 2 : Scalabilité de Big Data

Il est important de noter que la scalabilité verticale rencontre des limites d'applicabilité́ . À
partir d'un certain point, il n'est plus possible d'augmenter la puissance d'un système
résidant sur une seule machine indépendamment de la disponibilité́ des ressources et de la
taille du budget. Comme la scalabilité est nécessaire à n'importe quel système Big Data vu
le volume et la vélocité́ imprédictibles des données, l'approche horizontale est le plus
souvent adoptée. De plus, puisque les machines ne sont pas nécessairement très puissantes,
les clusters pour systèmes Big Data peuvent être loués en tant que ressource chez les

22
fournisseurs cloud. Ceci a entre autres, l'avantage de réduire les couts et de faciliter les
configurations, le déploiement et les opérations de maintenance.

Théoreme de CAP
Lors du symposium sur les principes de l’informatique distribué [13], organisé en
2000 à l’université de Berkeley en Californie, Eric Brewer a donné une présentation sur
son expérience sur les changements des bases des données distribuées, et par laquelle, il a
présenté pour la première fois son théorème CAP. Le théorème de Brewer aussi connu
sous le nom théorème de CAP, dit qu’il est impossible sur un système informatique de
calcul distribué de garantir en même temps c’est-à-dire de manière synchrone les trois
contraintes suivantes :

 La Cohérence (Consistency), c’est-à-dire que tous les nœuds du système voient

exactement les mêmes données au même moment
 La Disponibilité (Availability), ce qui signifie qu’il garantit que toutes les requêtes
reçoivent une réponse
 La Tolérance ou partitionnement (Partition Tolérance), qui dire que le système
continue à fonctionner et ne doit l’empêcher de répondre correctement, même s’il existe
une coupure de communication entre deux nœuds, même en cas de morcellement en sous
réseau, chacun doit pouvoir fonctionner de manière autonome.

Alors que d’après le théorème de Brewer, pratiquement, à un instant donné, que deux
contraintes à la fois peuvent être garanties par une base de données.

23
Figure 3 : Les contraintes du NoSQL

Selon la figure ci-dessus, les trois options qui peuvent exister sont :

 Marginaliser la tolérance à la distribution (CA) : le système ne prend pas en

considération la distribution des données sur un réseau. C’est le cas typique des SGBDRs.

Ecriture

V1 V2

Lecture_1 Lecture_2

Figure 4 : CA, Cohérence + Disponibilité

Dans la Figure 4, les deux requêtes de lecture concurrente sur une même donnée,
retournent le même nouveau résultat et sans délai d’attente.

 Marginaliser la cohérence (AP): Dans le cas de la distribution, les données peuvent

être sollicitées, mais à cause de la rupture des nœuds, la cohérence n’est pas garantie, parce

24
que les mises à jour sont asynchrones sur le réseau. Cette option s’intéresse à fournir un
temps de réponse rapide.

Ecriture

Asynchrone

V1 V2 V1
AV2Disponibilit APDisponibilité

Lecture_1 Lecture_2

Figure 5 : AP Disponibilité + Distribution

Dans la Figure 5, la lecture1 retourne v2 alors que la lecture2 retourne v1. Cassandra
utilise cette option, avec des temps de réponse très appréciables mais avec des résultats non
garantis à 100%.

 Marginaliser la disponibilité (CP) : Les données ne peuvent être utilisées que si leur
cohérence est garantie. Une donnée mise à jour sur un nœud, doit être bloquée sur les
autres nœuds jusqu’à la propagation de la nouvelle version sur tout le réseau. Dans un
environnement distribué, une base de données prend un temps considérable pour avoir un
état cohérent, ce qui rend la disponibilité relative.

Ecriture

Synchrone

V1 V2 Attente V1 V2
Disponibilité + APDisponibilité

Lecture_1 Lecture_2

Figure 6 : CP Cohérence + Distribution

Dans la Figure 6 : Les requêtes Lecture1 et Lecture2 attendent la synchronisation pour

avoir le résultat v2. Le résultat est cohérent mais avec un délai de latence. MongoDB

25
utilise cette option des BD NoSQL. L’option de marginaliser la distribution n’est pas
réaliste, car de nos jours, il n’est pas pratique, voire inimaginable de travailler dans un
environnement non distribué.

1.1.3.4 Modèles de stockage

L'une des principales missions d'un système gérant le Big Data est le stockage de la
multitude de données. Il y a trois (3) catégories de solutions de stockage, chacune adoptant
un modèle particulier :

 Systèmes à base d'objets

Ce genre de systèmes stocke les données dans des champs BLOB (Binary Large OBject)
de sorte qu'ils n'offrent aucun moyen de les structurer.

Ils supposent ainsi que les données sont fréquemment lues, mais rarement mises à jour. Ils
garantissent leur durabilité́ et une grande disponibilité́ sans fournir d'aspects structurels qui
pourraient servir aux requêtes complexes. Ces solutions sont donc inadéquates pour des
opérations d'analyse ou d'extraction des connaissances. De fait, les traitements sont
entièrement indépendants du stockage et se font à part. Parmi les fournisseurs cloud qui
proposent ce genre de systèmes, on retrouve Google Cloud Storage, Azure BLOBS,
Amazon S3.

 Systèmes de fichiers distribués

En vue de rapprocher les données du traitement, ces systèmes utilisent un stockage
distribué au-dessus des nœuds d'un système de fichiers tout en tenant compte du paradigme
de traitement utilisé. Ils s'installent ainsi au-dessous d'un système de traitement.

Des exemples incluent :

 Apache HDFS (Hadoop Distributed File System) :

C’est le système de stockage par excellence pour les plateformes MapReduce. Son
architecture générale consiste en un nœud central de contrôle appelé́ NameNode et
plusieurs autres nœuds qui stockent les données appelés DataNodes comme décrit dans la
figure ci-dessous. Le rôle du NameNode est de détenir les métadonnées et de partager et
fragmenter les données sur les nœuds de stockage qui les sauvegardent au format de chunk
26
(un chunk équivaut à 64 MB par défaut). Afin de garantir la tolérance aux pannes, chaque
chunk est répliqué́ sur plusieurs autres DataNodes (par défaut 3). Il faut savoir que ce
système est fortement optimisé pour travailler en étroite collaboration avec les plateformes
de traitement MapReduce, mais rencontre quelques limites comme le faible débit en
lectures concurrentes et l'impossibilité́ d'exécuter des écritures concurrentes.

F
igure 7: Apache HDFS

 BSFS (BlobSeerted File System) :

C’est un système de fichiers distribué optimisé pour les opérations concurrentes. Il

reprend une structure de cluster et gère la fragmentation et la réplication des données de
manière transparente pour les applications. Sa gestion des métadonnées sous forme de
versions permet d'avoir plusieurs opérations concurrentes sur les mêmes données.
Autrement dit, plusieurs versions d'une même donnée peuvent exister en même temps de
sorte que la version finale sera reconstruite par des composants spécialisés lorsque la
donnée est requise. Le système offre un haut débit, mais requiert une configuration
méticuleuse qui n'est pas toujours facile à maitriser [17];

 GFarm :

27
Il s'agit d'un système de fichiers distribué conçu pour supporter le stockage et le
partage des données dans les plateformes de traitement sous forme de grilles.

 Systèmes basés sur des modèles NoSQL

On assiste aujourd'hui à une explosion des données générées par les utilisateurs
accentuée de l'Internet et du Web 2.0. Ce déluge de données s'est accompagné́ d'une
diversité́ de formats allant parfois à l'absence de structures ce qui a rendu inutilisables les
méthodes traditionnelles de stockage nécessitant un schéma unifié comme les SGBDR.
Afin de faire face aux nouveaux défis, surtout dans le monde du Web où la disponibilité́ et
l'extensibilité́ des systèmes sont primordiales, une nouvelle classe de modèles et de SGBD
les adoptant, dite NoSQL, a émergé́ . Elle garantit les propriétés de scalabilité en
s'affranchissant de la règle ACID qui a longtemps gouverné les systèmes conventionnels.

Cette nouvelle génération de systèmes est divisée en quatre catégories de bases de

données. Il y a ce que l’on appelle, base de donnée orientées documents, orientées clé-
valeur, orientées colonnes, et enfin orientées graphe. La solution NoSQL assure une
scalabilité massive atteignant l'échelle des pétaoctets et une haute disponibilité́ au
détriment d'une perte en consistance comme le stipule le théorème CAP. Ces
caractéristiques font d'elle le candidat idéal pour gérer les services Web dans les réseaux
sociaux qui regroupent des millions d'utilisateurs effectuant des opérations à tout moment

1.1.4 Objectifs du sujet d’étude

L’acte de naissance ou la copie joue des rôles très importants pour un individu, de
peur que, sans elle, la personne ne peut pas bénéficier ces Droits. Un extrait d’acte de
naissance est toujours demandé si un jour cet enfant devra faire des papiers d’identité
comme une carte d’identité, un passeport ou pour demander un livret de famille.

L’objectif de cette présente étude, c’est de résoudre les problèmes de ce thème intitulé
« Conception et exploitation des données Big Data, cas de copie d’état civil Malagay ».

Les données sont au cœur de notre économie. Les applications, les logiciels, les objets,
génèrent des données qui sont collectées, stockées, et disponibles pour être analysées. Ces
données ont ainsi beaucoup de valeur.

28
L’objectif est donc de valoriser les données dont nous disposons déjà, ou qu’elles vont
collecter. Puis, de prendre en main les outils spécifiques au Big Data, comme : Hadoop,
Visualisation graphique.

Enfin, Le Big Data est aussi un bon outil de diminution des risques. Le but est donc
aussi, d’offrir une sécurité optimale pour nos données, une meilleure détection des fraudes
grâce à un outil d’analyse en temps réel, comprenant une alerte et la possibilité de stopper
une opération douteuse. Idem dans une optique de sécurisation du réseau de l’entreprise et
des risques de piratage de ses bases de données avec un contrôle en temps réel des données
de connexion.

Cette étude a pour but de répondre au besoin technologique de big data ; collecter,
stocker, analyser, ainsi que visualiser les données. L’ensemble de ces quatre points clés
donne la notion de Big data

Vue le développement massive des données à produire chaque jour dans les établissements
administratifs (les mairies et arrondissement), le stockage et l’exploitation des documents
d’acte de naissance reste aujourd’hui un problème majeur. Et cela est aujourd’hui un
grand défi à réaliser.

1.2. Aspect de fonctionnement

Le fonctionnement de notre projet « conception et exploitation de données Big Dtata »
comme suit :

29
Application

Requête

Serveur de base de données

Traitement

Système de Fichier (HDFS)

Lien SGBDR

Stockage

Figure 8 : Aspect de fonctionnement du projet Big Data

Explication :

Le diagramme ci-dessus représente le schéma de fonctionnement de notre projet.

Tout d’abord, pour utiliser le système, nous avons besoin des données. Ces données ce
sont les informations de l’individu où nous allons récupérer ou saisir dans l’application.
Ce dernier se communique avec la base de données à l’aide des requêtes pour répondre aux
besoins de l’utilisateur. Et les données ici viennent partout dans chaque coin ou endroit
dont le système a été installé. Le rôle de notre application ici se sera donc, l’interférence
entre l’utilisateur et la base de données.

Comme nous pouvons le voir dans la figure, l’ensemble du système se divise en deux
parties ; la partie application, qui regroupe l’application, la requête, et le serveur, puis la
partie machine serveur qui est composé de traitement, système de fichier (HDFS), et le
stockage.
30
La partie traitement, regroupe et reçoive les requêtes venant de notre application. Elle a
donc pour but de gérer tous les interrogations des utilisateurs via l’application, puis de
donner le résultat approprié.

Concernant le système de fichier HDFS, c’est un stockage de donnée, qui a la possibilité

de stocker des pétaoctets de données, mais aussi permettant le traitement en parallèle et
distribué sur plusieurs machines. Ce système de fichier permet également la tolérance aux
tolérances aux erreurs avec la réplication des erreurs, Ce qui veut dire que si jamais nous
avons un serveur qui tombe en panne, donc nous ne perdons pas les données mais nous
pouvons le récupérer sur d’autre serveur. Enfin, si par exemple un SGBDR est déjà mis en
place, nous pouvons établir un lien et migrer les données dans la base de données SQL vers
le système de fichier HDFS via un Framework spécialisé.

Concernant le stockage, celui-ci c’est le disk dur, l’endroit où les données sont stockées.

31
2. SECTION : Information et système
d’information

32
2.1 Introduction
L'apparition des moyens informatiques permet l'automatisation de la gestion de
l'information et a accéléré la réflexion sur la structure du "système nerveux" de
l'organisations qui constituent les circuits d'information. L'arrivée des ordinateurs a
facilité le stockage et la manipulation de grandes quantités d'informations.

2.2 Généralité

2.2.1 Définition

2.2.1.1 Système d’information

D’après Robert REIX, la définition du Système d’information est la suivante : "Un

système d'information est un ensemble organisé de ressources : matériel, logiciel,
personnel, données, procédures... permettant d'acquérir, de traiter, de stocker des
informations (sous forme de données, textes, images, sons, etc...) dans et entre des
organisations." [1]

Selon Hugues ANGOT, [2] un système d’information :

D’une part, c’est un ensemble organisé d’élément qui permet de

regrouper, de Classifier, de traiter, et de diffuser l’information sur un phénomène donnée ;

D’autre part, le système d’information de l’entreprise est un réseau

complexe, de relation structure ou intervienne des homme, des machines et procédures, qui
a pour objet d’engendre des flux ordonner d’information pertinente, prévenant des
sources interne et externe à l’entreprise est destiné à servir des bases aux décisions.
L’utilisation de moyen informatique, électronique, et de communication permet
d’automatiser et de dématérialiser les opérations définies par les procédures de
l’entreprise.

Le Système d’information est donc, un ensemble organisé de ressources, lesquelles

peuvent être des personnes, des donnés, des activités ou des ressources matérielles en
général. Ces ressources interagissent entre elles pour traiter l’information et la diffuser de
façon adéquate en fonction des objectifs d’une organisation. Les ordinateurs, les langages

33
de programmation, les logiciels, les équipements sont très utilisés dans les systèmes
d’information.

Un système d’information ne doit pas être confondu avec un système informatique

qui lui est composé d’ordinateurs, de programmes, de logiciels au sein d’une
entreprise. La mission du système d’information est de gérer les informations
opérationnelles et décisionnelles et donc de faciliter l’échange de ces informations
entre les différents acteurs de l’entreprise. Il véhicule l’information au sein des
organismes. [3]

2.2.1.2 Définition de l’information

D’une manière générale, l’information apparait comme étant un renseignement

qui véhicule une connaissance, un savoir sur un sujet ou une chose, néanmoins, on emploie
souvent indifféremment les termes (donnée et information).

De ce fait la distinction n’est pas toujours facile à effectuer car elle dépend de contexte :
exemple, le montant hors taxe d’une facture et une données pour le comptable,
c’est peut être une information pour le responsable commercial.

Une information est un renseignement qui accroît la connaissance

concernant une personne, un objet ou un événement déterminé. [4]

Donc, l’information est un fait ou un événement qu’on porte à la connaissance d’autrui.

Elle et la composante de base d’un système d’information, elle peut être définie
comme étant un moyen qui permet à toute entreprise de s‘adapté à son
environnement.

2.2.2 Les différents formes de SI

Il est d’usage de distinguer trois types différents de SI :

 les systèmes supportant la conception des produits comme le calcul numérique,

CAO
 les systèmes industriels, comme par exemple la conduite de machine

34
 enfin, les systèmes de gestion, couvrant toutes les activités de gestion, production,
logistique, finance et ressource humaines.
.

Pour des raisons techniques qui existent toujours en partie aujourd’hui, les systèmes
d’information de gestion ont été historiquement structurés en deux sous-systèmes :

 L’un dit opérationnel, qui prend en charge la réalisation des opérations au jour le
jour
 Et l’autre dit décisionnel, qui fournit des informations pour définir la stratégie,
piloter les opérations et analyser les résultats

2.2.3 Historique du traitement de l’information

Vers la fin des années 70, un nouveau concept est né : l’infocentre. Il s’agit de
réaliser une copie de travail des données opérationnelles afin de soulager les applications
transactionnelles des requêtes du décideur et de permettre celui-ci de disposer d’une base
sous un SGBD supportant ses interrogations impromptues. Cette solution présente
cependant des limites. Au-delà de son coût engendré par le dédoublement des matériels
informatiques de calcul et de stockage des données, l’infocentre ne permet pas de
conserver les versions antérieures des données au fil des mises à jour.

Avec l’accroissement des besoins en matière de décision, en termes de volume de

données qu’en termes de variété de leurs sources, de nouveaux concepts sont apparus au
début des années 80 : l’entrepôt de données ou le datawarehouse, et les magasins de
données ou le datamart. Une nouvelle étape est ainsi franchie dans l’informatique
décisionnelle avec ces avancées technologique : les outils informatiques d’aide à la
décision qui est désormais appellés « Business Intelligence » se tournent vers l’analyse
appui sur l’intranet/extranet et les portails d’entreprise ont accru de façon importante la
possibilité de développer des systèmes d’informations organisant des données pour la prise
de décision : système d’information décisionnel (SID). Ces avancées technologiques
mettent la disposition de décideurs en vue de la prise de décision.

De nouveaux outils décisionnels, allant des tableurs traditionnels jusqu’aux

tableaux de bord électroniques peuvent ‘alimenter à partir d’un entrepôt de donnée
potentiellement riche en donnée décisionnelles. La voie est ouverte la modélisation de la

35
performance de l’entreprise, utilisant des outils de type tableau de bord prospectif initié par
« Kaplan et Norton » en 1992.

2.2.4 Le Système d’information décisionnelle

Selon Michel Bruley, « Un système décisionnel va en particulier aider au pilotage des
plans d’actions (prévision, planification, suivi), à l’apprentissage (acquisition de savoir-
faire, de connaissances, de compétences) et à la réalisation d’innovations incrémentales
(adaptation du modèle d’affaires : produits/services, organisation). Les systèmes
décisionnels traditionnels permettent de faire l’analyse des activités déjà réalisées et d’en
tirer des enseignements pour les activités futures, pour cela ils utilisent des données plus ou
moins récentes (au mieux mises à jour quotidiennement). Les systèmes décisionnels plus
avancés gèrent des données plus fraîches (certaines sont mises à jour en quasi temps réel),
automatisent des décisions et supportent en temps réel des opérations (centre d’appels, web
par exemple)».

2.2.4.1 L’informatique décisionnelle

L’informatique décisionnelle s’est développée depuis plusieurs années et est parfois
incluse comme un module dans certains grands progiciels intégrés du marché comme SAP
BW. La multiplicité des outils, les problématiques de plus en plus complexes de collecte et
de restitution ont amené à une spécialisation de plus en plus marquée entre les consultants
orientés datawarehouse et ceux qui œuvrent sur la restitution des données.

Dans une entreprise, le volume de données croît rapidement, du fait de la multiplication

des flux d’information (fournisseurs, clients, données collectées sur les réseaux sociaux…)
et les usages potentiels de cette masse d’information commencent à se répandre.
L’importance des données non structurées, le développement des bases No-SQL, le
développement des moteurs de recherche sémantique et le traitement des données issues
des réseaux sociaux amènent cette fonction à évoluer et à utiliser de nouveaux paradigmes
et de nouveaux outils.

Dans ce contexte émergent de nouveaux métiers liés au Big data : consultants spécialisés
dans les technologies Hadoop ou les bases No-SQL, ou data scientiste, sachant combiner
une approche informatique, mathématique et statistique, marketing et sémantique

36
2.2.5 L’organisation du Système d’information
. De manière général l’organisation du SI se fait soit par :

 La répartition des moyens de traitement

Les composantes du système informatique permettent la saisie des informations dans le
système ou leur présentation aux utilisateurs, la mémorisation, la communication et le
traitement des données. La saisie de données déclenche généralement un traitement
qui peut se faire immédiatement, en temps réel, ou être différé de plusieurs heures voire
de plusieurs jours :

- le traitement en temps réel s'accompagne d'une saisie des informations à la source, là

où elles apparaissent ;

- Et le traitement différé correspond à une exploitation des données par lots, après qu'elles
aient été regroupées, parfois par une saisie à la source étalée dans le temps.

Dans chacun de ces modes de traitement, la saisie ou le traitement peuvent se faire

localement ou à distance, grâce aux réseaux. Le développement des réseaux permet de
généraliser la saisie à la source et de privilégier le traitement immédiat quand il est
judicieux. Ce mode d'exploitation des systèmes informatiques peut reposer sur deux types
d'architectures, qui se distinguent en fonction de la localisation des moyens de traitement
et de mémorisation des données :

- Premièrement, l'architecture est centralisée quand les données et les traitements sont
concentrés sur un seul ordinateur (c'est par exemple le cas des gros ordinateurs ou «
mainframes » associés à un réseau de terminaux passifs) ;

- Ensuite, l'architecture est répartie, si la mémorisation ou les traitements sont pris en

charge par différents ordinateurs.

 L'informatique en nuage
L’informatique en nuage c’est la possibilité de déporter les traitements sur des serveurs
distants via internet, plutôt que sur des serveurs locaux. Cela a donné naissance, au
concept de cloud computing. Voici un tableau montrant les services rendu par ce nuage :

37
IaaS ou Infrastructure as a Service Service consistant à offrir un accès à un
parc informatique virtualisé sur lequel le
consommateur peut installer un système
d’exploitation et des applications. Ainsi,
l’entreprise n’achète pas de matériel
informatique. Ce service s’apparente aux
services d’hébergement classiques des
centres de traitement de données.
PaaS ou Platform as a Service Avec ce service, le système d’exploitation et
les outils d’infrastructure sont sous la
responsabilité du fournisseur.
L’entreprise conserve le contrôle des
applications et peut ajouter
ses propres outils.
SaaS ou Software as a Service Dans ce type de service, des applications
sont mises à la disposition des entreprises.
Les applications sont accessibles à l’aide
d’un navigateur web, et le client n’a pas à se
soucier d’effectuer des mises à jour,
d’ajouter des patches de sécurité ni
d’assurer la disponibilité du service.
Tableau 1 : Service de l’informatique en nuage

Le cloud computing est principalement utilisé par les grandes entreprises et les
administrations, il se répand également dans les PME et PMI du fait de la multiplication
des solutions de stockage en ligne facilitée par le développement de la fibre optique et de la
4G.

Il y a quatre différents types de cloud :

 Le cloud privé, qui est dédié à une seule organisation. Un Cloud privé peut être
physiquement situé sur le centre de données sur site de l’entreprise. Certaines entreprises

38
paient également des fournisseurs de services tiers pour héberger leur Cloud privé. Un
Cloud privé est un Cloud dans lequel les services et l’infrastructure sont gérés sur un
réseau privé.

 Le cloud public qui utilise des services offerts par des prestataires. Et
l’hébergement des applications sur la plateforme nécessite une connexion Internet.

 le cloud interne, qui est une transformation de l’infrastructure interne d’une grande
entreprise avec des technologies de virtualisation et d’automatisation afin de délivrer, plus
simplement et plus rapidement, des ressources et services à la demande.
 Enfin, Le cloud Hybrid, est une solution mélangeant public et private cloud, liés
par une technologie permettant de partager des données et des applications entre eux. En
permettant aux données et aux applications de se déplacer entre des Clouds privés et
publics, le Cloud hybride offre aux entreprises une plus grande flexibilité et davantage
d’options de déploiement.

 La sous-traitance
La sous-traitance consiste à confier certaines activités à une organisation extérieure.
L'externalisation est une forme de sous-traitance durable par laquelle une activité est
totalement déléguée à un partenaire. Elle présente des avantages comme le recentrage sur
des activités prioritaires, l'optimisation des charges de structure, le fait de profiter
de l'expertise d'une société spécialisée, la mise en évidence des coûts mais elle
provoque une forte dépendance et n'est pas toujours réversible. La grande technicité des
activités informatiques et leur éloignement du métier de base de la plupart des
organisations font qu'elles sont couramment sous-traitées ou externalisées :

- l'infogérance est la prise en charge par un prestataire de tout ou partie de la gestion du

système d'information ; elle peut être globale, applicative et dans ce cas se limiter
éventuellement à certaines fonctions (comme la paie) ou concerner l'infrastructure
(ordinateurs et réseaux) ;

- l'hébergement est le fait de localiser les données et les traitements chez un prestataire
(ASP, application service provider) et d'y accéder via internet. La tierce maintenance

39
est la prise en charge de la maintenance d'un matériel ou d'un logiciel par un
prestataire distinct de son fournisseur ou de son réalisateur.

2.3 Les Bases de données

Une base de données (BD) représente l'ensemble (cohérent, intégré, partagé) des
informations nécessaires au fonctionnement d'une entreprise mémorisées sur un
support permanent, dont la gestion est assurée par un logiciel appelé système de gestion
de bases de données. [6]

Une base de données permet de stocker et de retrouver l’intégralité de données

brutes ou d’informations en rapport avec un thème ou une activité ; celles-ci
peuvent être de natures différentes et plus ou moins reliées entre elles. [7] .Dans la très
grande majorité des cas, ces informations sont très structurées, et la base est localisée
dans un même lieu et sur un même support. Elle peut être de nature: hiérarchique,
relationnelle, objet, documentaire.

La base de données est au centre des dispositifs informatiques de collecte, mise en

forme, stockage et utilisation d’informations. Le dispositif comporte un SGBD : un logiciel
moteur qui manipule la base de données et dirige l’accès à son contenu. [5]

Figure 1: Structure de bases de données Client-Serveur

40
2.4 De SQL Classique vers NoSQL

2.4.1 SGBDR
Le SGBD peut se décomposer selon la figure ci-dessous :

Gestion des
fichiers

SGBD interne

SGBD externe Application

Figure 2 : Sous-systèmes SGBD

Explication :

 Le système de gestion de fichiers : permet de stocker les informations sur

un support physique.
 Le SGBD interne : celui-ci gère l’ordonnancement des informations.
 Le SGBD externe : qui représente l’interface avec l’utilisateur.

Les SGBDR les plus fameux qui ont dominé depuis les années 80 sont Oracle, MySQL et
SQL Server.

Les propriétés ACID

Lorsque des transactions sont effectuées, les SGBD de type hiérarchique, réseau et
relationnel fonctionnent selon les contraintes dites ACID. ACID est un acronyme
qui veut dire « Atomicity », « Consistancy », « Isolation » et « Durability ». Une
transaction est réalisée avec succès si elle respecte ces quatre contraintes. Voici une
description détaillée de celles-ci:

 « Atomicity » (Atomicité) :

Lorsqu’une transaction est effectuée, toutes les opérations qu’elle comportedoivent

être menées à bien : en effet, en cas d’échec d’une seule des opérations, toutes les

41
opérations précédentes doivent être complètement annulées, peu importe le nombre
d’opérations déjà réussies. En résumé, une transaction doit s’effectuer complètement ou
pas du tout. Voici un exemple concret : une transaction qui comporte 3000 lignes qui
doivent être modifiées ; si la modification d’une seule des lignes échoue, alors la
transaction entière est annulée. L’annulation de la transaction est toute à fait normale,
car chaque ligne ayant été modifiée peut dépendre du contexte de modification d’une
autre, et toute rupture de ce contexte pourrait engendrer une incohérence des
données de la base.

 « Consistancy » (Cohérence) :

Avant et après l’exécution d’une transaction, les données d’une base doivent toujours
être dans un état cohérent. Si le contenu final d’une base de données contient des
incohérences, cela entraînera l’échec et l’annulation de toutes les opérations de la
dernière transaction. Le système revient au dernier état cohérent. La cohérence est
établie par les règles fonctionnelles.

 « Isolation » (Isolation) :

La caractéristique d’isolation permet à une transaction de s’exécuter en un mode

isolé. En mode isolé, seule la transaction peut voir les données qu’elle est en train de
modifier, c’est le système qui garantit aux autres transactions exécutées en parallèle
une visibilité sur les données antérieures. Ce fonctionnement est obtenu grâce aux
verrous système posés par le SGBD.

Prenons l’exemple de deux transactions A et B : lorsque celles-ci s’exécutent en même

temps, les modifications effectuées par A ne sont ni visibles, ni modifiables par B
tant que la transaction A n’est pas terminée et validée par un « commit ».

 « Durability » (Durabilité) :

Toutes les transactions sont lancées de manière définitive. Une base de données ne
doit pas afficher le succès d’une transaction pour ensuite remettre les données modifiées
dans leur état initial. Pour ce faire, toute transaction est sauvegardée dans un fichier
journal afin que, dans le cas où un problème survient empêchant sa validation
complète, elle puisse être correctement terminée lors de la disponibilité du système.

42
2.4.2 La limite de SGBDR
Dans cette section, il s’agit de présenter les limites pratique et théorique liée l’usage de
base de données relationnelle face aux nouveaux besoins des systèmes d’information. Ce
modèle bien que très puissants, il présente des limites que certains site web et services ont
atteintes depuis longtemps. Par conséquent, une seule machine ne peut pas gérer la base de
données, de plus pour de raison de fiabilité, ces bases de données sont dupliquées pour que
le service ne soit pas interrompu en cas de panne. Dû aux propriétés fondamentales sur
lesquelles une base de données relationnelle repose, cette approche connait quelques
limites à savoir :

2.4.2.1 Problème lié à l’application des propriétés ACID en milieu distribué

Une base de données relationnelle est construite en respectant les propriétés ACID
(Atomicité, Cohérence, Isolation, Durabilité), ses propriétés bien que nécessaires à la
logique du relationnel nuisent fortement aux performances et en particulier la propriété de
cohérence.

2.4.2.2 Surcharge sémantique

Le modèle relationnel s’appuie sur un seul concept (la relation) pour modéliser à la fois les
entités et les associations entre ces entités. Il existe un décalage entre la réalité et
sa représentation abstraite.

2.4.2.3 Types de données limitées

Ces modèles sont limités à des types simples (entiers, réels, chaînes de caractères), les
seuls types étendus se limitant à l’expression de dates ou de données financières, ainsi que
des conteneurs binaires de grande dimension (BLOB ou Binary Large OBjects) qui
permettent de stocker des images ainsi que des fichiers audio ou vidéos. Ces BLOBs ne
sont toutefois pas suffisants pour représenter des données complexes (pas de
structure), les mécanismes de contrôle de base de données sont inexistants, et le langage
de requêtes (SQL) ne possède pas les opérateurs correspondants aux objets stockés dans
ces BLOBs.

43
2.4.2.4 Partitionnement de données
L’un des problèmes de la normalisation dans un SGBDR concerne la distribution des
données et du traitement. S’il y a de données stockées ayant un rapport entre elles, comme
des clients, des commandes, des factures, des lignes de facture, dans des tables différentes;
des problèmes surgiront en cas de partitionnement de ces données. Pour y remédier, il faut
alors s’assurer que les données en rapport les unes avec les autres se trouvent sur le même
serveur. Les technologies de bases de données relationnelles, qu’on pourrait nommer
par « technologies SQL », règnent en maîtres pour le stockage et la manipulation de
données depuis plusieurs années. Cette situation de leadership technologique peut
facilement être justifiée en raison des différents avantages proposés par ces modèles.
Cependant l’accroissement exponentiel des données, la prise en compte des données
faiblement structurées et les avancées technologiques sont autant d’arguments qui
poussent à la migration des SGBD relationnels vers une nouvelle façon de stockage et de

manipulation des données. [11].

2.5 Le traitement de NoSQL

Introduction

Les SGBDRs ont été conçus pour un contexte d’une seule unité qui maintient l’intégrité
des données et renforce les règles du schéma pour la garantir. Cependant, les bases de
données NoSQL ne sont pas en train de supplanter les bases relationnelles mais viennent
les compléter, dans un contexte de croissance exponentielle de données.

2.5.1 Historique de NoSQL

Le terme « NoSQL » a été inventé en 2009 par Carl Strozzi, lors d’un évènement sur les
bases de données distribuées. Les évolutions logicielles suivent assez naturellement les
évolutions matérielles. Les premiers SGBD étaient construits autour de mainframes et
dépendaient des capacités de stockage de l’époque. Le succès du modèle relationnel est dû
non seulement aux qualités du modèle lui-même mai aussi aux optimisations de stockage
que permet la réduction de la redondance des données. Le passage au XXI ème siècle a vu les
volumes de donnée manipulée par certaines entreprises ou organismes, notamment ceux en
rapport avec l’internet, augmenté considérablement. L’informatisation croissante des
traitements en tout genre implique une multiplication exponentielle de ce volume de
données qui se compte maintenant en pétaoctets, c’est-à-dire 100 000 téraoctets. C’est que

44
les Anglo-Saxons ont appelé le Big Data. La gestion et le traitement de ces volumes de
données ont considérés comme un nouveau défi de l’informatique, et les moteurs de bases
de données relationnelles traditionnels, hautement transactionnels semblent totalement
dépassés [9].

Le terme NoSQL désigne l’ensemble des bases de données qui s’opposent à la notion
relationnelle des SGBDR. La définition, “pas seulement SQL”, apporte un début de
réponse à la question “Est ce que le NoSQL va tuer les bases relationnelles?”. En effet,
NoSQL ne vient pas remplacer les BD relationnelles mais proposer une alternative ou
compléter les fonctionnalités des SGBDR pour donner des solutions plus intéressantes
dans certains contextes. L’idée du concept est simple : proposer des alternatives aux
bases de données relationnelles pour coller aux nouvelles tendances et architectures du
moment, notamment le Cloud Computing [10].

Les axes principaux du NoSQL sont une haute disponibilité et un partitionnement

horizontal des données, au détriment de la consistance. Alors que les bases de données
relationnelles actuelles sont basées sur les propriétés ACID.

2.5.2 Concepts fort de NoSQL

Les bases de données NoSQL reposent essentiellement sur plusieurs aspects qui font leurs
forces et justifient leur usage aujourd’hui des géants du web.

 Scalabilité maîtrisée à travers le partitionnement horizontal

Ces bases de données proposent une nouvelle représentation de l’information. En
s’affranchissant des contraintes ACID du modèle SQL, elles ont le très gros avantage de
fournir une architecture technique où il suffit de rajouter des serveurs pour gagner en
performance sans trop se poser de questions. Cette technique consiste lorsque la charge des
traitements ou des données devient très importante au niveau d’un ou de plusieurs
serveurs, à ajouter un ou plusieurs serveurs qui se partagent les données et les
traitements [9] [10] [12].

Cette approche de stockage permet d’avoir des bases de données performantes et une
disponibilité que les SGBD classiques ne peuvent égaler même en multipliant les serveurs
miroirs. Un SGBDR pour répondre aux exigences de performance face aux gros volumes
de données, doit se retourner vers du matériel de plus en plus rapide et à l'ajout de

45
mémoire. Le NoSQL, pour sa part, pour gérer la « montée en charge » se réfère à la
répartition de la charge sur les systèmes de Cloud Computing. Il s'agit là de
composant de NoSQL qui fait d'elle une solution peu coûteuse pour les grands ensembles
de données

 Flexibilité du schéma de données

Bien que le réflexe premier soit de penser aux performances des bases NoSQL sur
des gros volumes de données ou des données faiblement structurées, certaines
utilisations peuvent se justifier dans des environnements de plus faible volume ou de plus
faible charge. Par exemple, les bases orientées colonne faciliteront l’évolution du «
schéma » des données et donc vous orienteront vers une maintenance plus
intelligente, plus agile et donc plus durable de vos applications. Dans l’approche
orienté colonne, les colonnes ne sont pas connues et déclarées d’avance comme
dans les bases de données relationnelles. Elles sont créées dynamiquement pendant
l’insertion des données dans la base.

De plus les champs de valeur NULL n’existent pas car la déclaration d’une colonne ne
concerne pas toutes les lignes d’une table comme c’est le cas dans le monde du relationnel.
Avec le NoSQL, chaque ligne ou entrée d’une table a ses propres colonnes. Dans une
base de données NoSQL, il n'y a pas de schéma fixe. Toutes les données susceptibles
d’être lues ou modifiées au même moment sont en général regroupées au sein d’une
même famille de colonnes. Une des conséquences immédiate de cette évolutivité des
schémas de données est la gestion des données faiblement structurées.

A part être une nouvelle technologie, le NoSQL permet de stocker les informations d’une
manière qui colle mieux à leur représentation. Exemple :

 Les bases de données orientées document s'adaptent au stockage des données non
planes (type profil utilisateur)
 Les bases de données orientées colonne s'adaptent très bien au stockage de listes
(messages, posts, commentaires);
 Les bases de données orientées graphe permettent de mieux gérer des relations
multiples entre les objets (comme pour les relations dans les réseaux sociaux).

46
L’engouement pour les bases NoSQL est la conclusion logique de l’ère Web 2.0.
Les données stockées sont aujourd’hui beaucoup plus importantes qu’elles n’ont pu l’être
avant, et les besoins ont changé. Aujourd’hui nous avons besoin de pouvoir stocker ou lire
très rapidement des millions de données (prenons l’exemple de Facebook) mais aussi,
avec le Cloud, d’avoir des systèmes « scalable » ou élastiques.

2.5.3 Les différents type de Base de données NoSQL

Les Base de données NoSQL sont classées selon le modèle de stockage de données. Il y a
quatre types de BD NoQSL : Orientées documents, orientées clé-valeur, orientées
colonnes, orientées graphe.

 Les BDs Orientées colonnes

Au contraire des SGBDR, elles sérialisent les valeurs d’une colonne ensemble, puis les
valeurs de la colonne suivante, une BD relationnelle présente les données dans une table
bidimensionnelle composée de lignes et colonnes, mais les manipule ligne par ligne, alors
que le NoSQL orienté colonne stocke les données en tant que colonnes.

Il est conseillé d’entamer la modélisation en NoSQL par l’orientée colonne, car il permet
une compréhension rapide du modèle et donne un avant-goût à ce nouveau domaine. Si le
travail nécessite des valeurs agrégées, nous n’avons pas le choix à l’utiliser.

Dans une BDR, on stocke les données des fournisseurs comme suit :

Figure 7 : Table d’une Base de donnée relationnelle

Alors que dans une BD NoSQL orientée colonne, elles sont stockées comme suit:

47
F
igure 8 : Table d’une BD NoSQL orientée colonne

Les avantages de ce dernier sont cités ci-dessous:

 Il permet l’insertion facile de nouvelles colonnes à n’importe quel moment sans

s’inquiéter des valeurs par défaut. Ceci assure une meilleure flexibilité au model et facilite
le passage à l’échelle.

 La performance de ce modèle apparait clairement dans le calcul des valeurs

maximale, minimale, moyenne et la somme.

 Si de nouvelles valeurs sont à appliquer sur l’ensemble des lignes ou sur un sous
ensemble de colonne, ce modèle permet un accès partiel aux données sans effet sur les
données non concernées, ce qui accélère l’exécution.

 Optimisation de l’espace de stockage grâce aux types uniformes des colonnes, qui
sont dans la plus part du temps des chaines de caractères de mêmes tailles. Tel
caractéristique (exemple : Chine comme pays pour 1 milliard d’utilisateurs) optimise la
compression des données.

 Les BDs orientées documents

Les enregistrements (les lignes du SGBDR) sont représentés par des documents ; ils sont
semi-structurés par rapport à la représentation rigide du relationnel et permettent
l’insertion, l’interrogation et la manipulation des données. Deux enregistrement peuvent
avoir différentes structures ou ensemble de colonnes. Les enregistrements peuvent ne pas
respecter un schéma spécifique ou une définition de table, ce que signifie qu’il n y a pas de

48
validation de documents par rapport à un schéma comme c’est le cas pour les SGBDR. En
bref, une BD orientée document fournit une flexibilité dynamique ou un schéma
modifiable ou complet des documents sans schéma. Cet avantage a permis de rendre ce
modèle plus répondu et plus utilisé parmi les autres modèles de BDs NoSQL. Avec JSON,
qui est l’un des langages qui adopte l’orienté-document, un document peut s’écrire comme
suit :

"SupplierID" : "1",

"CompanyName" : "Exotic Liquids",

"ContactName" : "Charlotte Cooper",

Si nous devons travailler avec des agrégations à travers plusieurs entités, ce modèle nous
permet un contrôle efficace sur la manière d’interroger les données. Exemple, travailler
avec JSON à travers des données fusionnées ou avec XQuery en utilisant XML et obtenir
des vues personnalisées. Les BDs les plus connues de ce modèle sont : MongoDB,
CouchDB, Jackrabbit, Lotus Notes, Terrastore, Redis et BaseX.

 Avantage:
 Le contenu est flexible sans schéma
 Une recherche à travers multiple entités est négligeable par rapport à une même
recherche dans un SGBDR classique.

 Les BDs orientées clé-valeur

Ce modèle est proche du modèle orienté document, mais la création de la clé est
obligatoire lors de la création du couple, il permet le stockage des données dans des
couples clé-valeur. Une absence de schéma ou de typage. La définition de la clé est
obligatoire tandis que la valeur est opaque, pour cela, une clé doit être connue pour trouver
la valeur associée. Son avantage est l’efficacité de travailler dans une mémoire distribuée
ou dans un cache pour réduire les opérations d’E/S.

49
L’accès à une valeur est direct et efficace, car une paire clé-valeur est unique ; la
complexité de son algorithme de recherche est de 0 [14]. Les clés peuvent être indexées
pour plus de performance. La différence par rapport à une BD orientée document est
l’absence de requêtes par rapport aux valeurs. L’interrogation des données se fait
exclusivement par rapport aux clés. Les pairs peuvent être imaginés comme une table à
deux entrées :

Figure 9 : Les commandes d’une clé-valeur

La plupart des BD orientées clé-valeur sont inspirées de Dynamo d’Amazon, qui garantit
une évolutivité et une disponibilité exceptionnelles. Voldemort et Riak sont
l’implémentation des bases de Dynamo.

Avantage:

 La recherche est optimale en raison de l’utilisation des clés et du cache. Par

exemple, Redis en fonctionnant sur un micro-ordinateur de gamme ordinaire peut scanner
jusqu’à 1 million de clés dans moins de 40 milliseconde [15].

 Le type de données des valeurs n’est pas spécifié, on peut stocker n’importe quel
type de données. Ce modèle n’est pas conçu pour les applications nécessitant l’indexation
des valeurs.

50
 Les BDs orientées graphe
Ce modèle est basé sur la théorie des graphes, c’est-à-dire les nœuds, les relations et les
propriétés. Il est relativement nouveau sur le marché des NoSQL. Sa particularité est la
facilité de définir les relations directement au niveau de la BD au contraire des autres
modèles ou les relations sont visibles au niveau de l’application.

Il est très utile pour toutes les applications qui ont des relations complexes entre leurs
objets comme les réseaux sociaux.

Nœud Relations Nœud

Propriétés Propriétés Propriétés

Figure 10 : Structure de base d’une BD orientée graphe

Il profite de tous les avantages de la théorie des graphes :

 Trouver le chemin le plus court

 Trouver les voisins d’un nœud qui ont des propriétés spécifiques
 Quelle est la ressemblance entre deux nœuds en prenant en compte leurs voisins.

Le W3C utilise ce modèle dans son langage de représentation du web sémantique, le RDF
[16].

Avantage:

 Ce modèle est idéal lorsque nous avons plusieurs objets liés les uns aux autres de
façon complexe, et ses objets ont des propriétés (frère de, sœur de, père de). Il permet par
une requête simple d’avoir les voisins d’un nœud, ou d’avoir tout un chemin par des
requêtes plus ou moins complexes.
 Il ne s’arrête pas sur le point de nous donner les relations entre les nœuds, mais
aussi des rapports détaillés sur la nature de ses relations.
 Comme toute modélisation basée sur une représentation graphique, l’avantage
majeur est la compréhension facile par les humains par rapport à une modélisation

51
textuelle, c’est une représentation du monde réel, des noms, des villes, workstations
(postes-de-travail) d’un réseau informatique; l’insertion et la suppression des relations
entre nœuds se fait par un simple clic de souris.

2.6 Conclusion
Le développement du système d’information a conduit à la développement de diverse
technologie, comme le SGBD relationnel et NoSQL par exemple ; Concernant le concept
NoSQL, il représente un ensemble de technologies proposant de nouvelles architectures
pour les bases de données : c’est une nouvelle approche de stockage et de
manipulation de données. Ce nouveau types de bases de données ont été stipulés
pour s’aligner à l’évolution technologique actuelle liée surtout aux concepts de Big Data
et Cloud Computing. Ce qu’il faut retenir, c’est que les bases de données de type NoSQL
ne s’opposent pas aux bases de données de type relationnel ou autre, elles viennent plutôt
combler les lacunes pour les cas qui favorisent la performance et la tolérance aux pannes.

3. SECTION : Le BIG DATA

52
3.1 Introduction
Au début des années 1990, face à l’évolution du nombre de mobiles connectés à
Internet, les données évoluèrent d’une manière incroyable. En 2005, Roger Moulagas de
O’Reilly Media formula le terme de “Big Data”, un an après que la société inventa le
“Web 2.0”. Il utilisera ce terme pour faire référence à un nombre de données tellement
grand qu’il était impossible de gérer et de traiter avec les outils de Business Intelligence
actuels. Depuis ces 5 dernières années, on voit apparaître de plus en plus de start-
ups s’intéresser aux projets Big Data. Elles essaient d’aider les sociétés à comprendre,
gérer et traiter ces masses d’informations. Aussi bien que les entreprises
commencent peu à peu à adopter le Big Data, autant qu’Internet en 1993, la
révolution Big Data est encore devant nous et de grands changements apparaîtront dans les
prochaines années.

53
3.2 Définition
Littéralement, le terme “Big Data” signifie “gros volume de données”. La définition
initiale a été définie par le cabinet McKinsey and Company en 2011 avec la célèbre règle
des 3 “V” :

 Volume : il décrit notre situation de plus en plus nomade et notre utilisation

grandissante des nouvelles technologies (Smartphones, réseaux sociaux) qui nous
incite davantage à laisser derrière nous des données numériques autant
professionnelles que personnelles. De plus en plus de données sont générées dans le
monde. On parlait il n’y a pas si longtemps de gigaoctet, aujourd’hui nous parlons plutôt
de téraoctets, de pétaoctets , d’exaoctets et même de zettaoctets.

 Vitesse ou Vélocité : ces données générées évoluent à une vitesse considérable.

Elles circulent de plus en plus rapidement, provenant de sources indépendantes mais
connectées entre elles, dans des réseaux qui agissent de moins en moins en silos. Elles
évoluent si rapidement qu’elles nécessiteraient un traitement vif, presque en temps réel,
pour pouvoir exploiter les informations et prendre des décisions en conséquence.

 Variété : les sources de ces données sont diverses. Elles ne proviennent pas
seulement de sources internes mais également de l’environnement qui l’entoure et
notamment de la montée croissante des objets connectés : du smartphone à la
tablette, de la montre à la voiture connectée, en passant par la Smart TV. Ces objets
peuvent tracer ses utilisateurs, leur envoyer des informations précises et
personnalisées, même quand ceux-ci ne sont pas en fonction. Ces données sont
émises par autant de langages, codes et formats différents : il y a les données
structurées (fichiers .csv, géolocalisation, HTML5…), semi-structurées (documents
EDI, flux RSS, fichiers XML…) et non-structurées (contenus dynamiques, emails,
photos, SMS, médias sociaux, blogs, reconnaissance vocal).

Le principe de sources multiples est un principe capital dans le process “Big Data”.
Il est impensable de bâtir un projet décisionnel en se basant sur une source unique
de données et prétendre que celle-ci détient la vérité. Nous devons matcher plusieurs
données provenant de différentes sources pour pouvoir en déduire quoi que ce soit. Ces
technologies étaient censées répondre à l’explosion des données dans le paysage

54
numérique (le “data déluge”). Puis ces qualifications ont évolué et aux 3 “V” du Big Data
s’ajoute le 4ème “V”, la Valeur que représentent les données, autant pour l’entreprise
que pour l’utilisateur.

Les entreprises sont conscientes de la valeur que peuvent représenter ces données et
n’hésitent pas à créer une relation “donnant-donnant” avec ses utilisateurs. Elles leur
proposent des remises, des services supplémentaires, personnalisés, des cadeaux, sans
contrepartie financière directe, en échange de la transmission de leurs données, leur
avis, centres d’intérêts.

A la valeur s’ajoute une notion plus qualitative véhiculée par le 5ème “V”, la Véracité des
données (disposer de données fiables pour leur traitement).

Selon le cabinet de conseil en architecture d’entreprise Redsen, il s’agit de :

“Un ensemble de technologies, d’architecture, d’outils et de procédures permettant à

une entreprise de pouvoir capter, traiter et analyser en un temps relativement court de
larges quantités de données et contenus hétérogènes et changeants, et d’en extraire les
informations pertinentes à un coût accessible”.

L’intérêt de nombreux projets Big Data réside dans la possibilité de déchiffrer et

Les moyens actuels pour gérer et traiter les données ne peuvent pas supporter une si
grande masse de volume. Les outils actuels de datamining peuvent analyser un grand
nombre de données mais seulement sur un échantillon dit représentatif; le Big Data permet

55
d’analyser l’ensemble des données. Jusqu’alors, la tendance était de structurer les
données dans les systèmes d’informations pour en favoriser le stockage et l’analyse.
Des outils permettent de structurer et de normaliser les données en amont de leur
intégration dans le système d’informations. Cependant, de nouveaux types de données
ont fait leur apparition, et prendrons une place importante dans les stratégies des
entreprises et prises de décisions.

Il y a quelques années, ces technologies étaient réservées aux multinationales mais

aujourd’hui leurs usages se sont largement démocratisés. Les coûts liés aux
traitements informatiques de ces données ont beaucoup diminué, confirme Vincent Mady,
directeur technique de Tradelab, le premier acheteur indépendant d’espaces publicitaires
en Real Time Bidding. Aujourd’hui, le coût de stockage d’un téraoctet diminue
largement en terme de prix alors qu’il y a 10 ans, il reste encore trop cher . D’où la
possibilité de stocker beaucoup plus d’informations que dans le passé.

3.3 Processus de traitement des applications Big Data

Les applications Big Data appliquent un processus de traitement sur les données passant
par différentes phases présentées de manière abstraite dans la figure ci-dessous. Nous
allons décrire succinctement chacune de ces étapes dans ce qui suit [Alexandros Labrinidis
and H. V. Jagadish, 2012].

56
Figure 11 : Processus de traitement des applications Big Data

Explication :

 Acquisition/Enregistrement : correspond à la procédure d'acquisition des données

Big Data à l'instar de la capture de l’information à travers les objets connectés. Compte
tenu du gros volume des données recueillies, cette phase devra éliminer certaines données
inutiles grâce à des filtrages et des compressions. Seulement, elle devra faire attention à ce
que des informations significatives ne soient pas écartées telles que les données aberrantes
qui puissent refléter des pannes ou des fraudes. Ce stage devra également assurer la
génération des métadonnées sur la structure et la provenance des données, mais également
sur les détails de l'opération de capture. Les métadonnées auront une importance capitale
pour la suite des phases, plus particulièrement, l'analyse des données.
 Extraction/Nettoyage/Annotation : souvent, les données capturées se trouvent
dans un format inadapté́ à l'analyse. Cette phase s'occupe de corriger leur structure et
d'extraire l'information significative, mais également d'éliminer les données
potentiellement erronées. En effet, le critère de véracité́ du Big Data stipule que les
données sont parfois indignes de confiance et doivent être épurées avant l'analyse.
 Intégration/Agrégation/Représentation : les analyses à grande échelle font appel
à des ensembles de données différents en structure et en taille. Un défi important

57
correspond à trouver la représentation la plus adéquate pour les stocker et à intégrer ces
ensembles entre eux de façon à conduire une analyse globale.
 Analyse/Modélisation : il s'agit de l'analyse des données afin de déceler des
modèles intrinsèques, d'extraire des relations et des connaissances, mais aussi de corriger
les erreurs et d'éliminer les ambigüités.
 Interprétation : les décideurs doivent interpréter les résultats d'une analyse Big
Data. Cette interprétation est obligatoire, car les données et par conséquent l'analyse elle-
même ne sont pas exemptes d'erreurs. De plus, la plupart des modèles et théorèmes
appliqués se basent sur des hypothèses qui ne sont pas toujours vérifiables. Les décideurs
devront valider les résultats en retraçant les opérations effectuées. Des outils doivent être
mis en place afin de faciliter ce processus. Ils doivent offrir des visualisations interactives
des données, permettre de retracer leur provenance et d'appliquer des modifications dessus
puis voir l'impact sur les résultats en temps réel.

Transversalement à ces phases, un ensemble de défis accompagne leur application. Il s'agit

de l'hétérogénéité et du gros volume de données qui ralentissent et complexifient les
calculs, de la nécessité́ de prendre en compte leur opportunité́ vu que certaines données
perdent leur pertinence si elles ne sont pas traitées rapidement, de la confidentialité́ qui est
un souci majeur aujourd'hui pour beaucoup de personnes (dossier administratifs,
informations personnelles…) et enfin de la nécessité d'inclure les capacités d'analyse d'un
humain dans le processus. Ce dernier point peut être accompli en autorisant un humain à
ingérer des informations dans le système tel qu'un modèle qu'il a reconnu ou son propre
avis sur un diagnostic [Alexandros Labrinidis and H. V. Jagadish, 2012].

Afin de concrétiser les applications Big Data, les systèmes conçus interviennent dans les
différentes phases de ce processus. Dans la section suivante, nous présenterons ces
systèmes ainsi que leurs catégorisation et propriétés.

3.2 Utiliser SGBDR ou NoSQL?

Le choix d’utiliser un SGBDR classique ou une BD NoSQL dépend fortement
de la nature de l’application à développer.

58
3.2.1 Applications transactionnelles :
Les données: Elles ont une nature purement relationnelle. La performance de l’application
est liée à la cohérence et l’intégrité des données. La concurrence est faible due à
l’utilisation d’une seule BD et une seule instance à la fois.

La structure: bien définie à priori ; les types, les propriétés et les contraintes, les relations,
les indexes … Le schéma n’est pas censé trop évoluer ou changer à l’avenir.

Accès aux données : cohérent, chaque lecture donne absolument la dernière mise à jour.
L’accès aux données dans des tables croisées est fréquent.

NoSQL: Pour ce type d’applications, l’orientée colonne peut être utile dans la définition
d’une structure évolutive dans le temps. L’orientée document lui aussi peut être utile dans
l’implémentation des jointures ou la création des vues.

Néanmoins, il n y a pas de définition des relations, ni de la notion de transaction, a part le

Neo4j, ni des propriétés ACID dans les transactions. Le support des jointures et les vues
via l’orientée document pèsent sur la complexité des requêtes.

Décision: il est clair que pour telles applications, le choix de SGBDR est plus logique.

3.2.2 Applications de calcul

Ce sont les applications de statistiques, de sondage, où on a besoin de sous-ensembles de
données et d’attributs. La plus part des opérations ne concernent que ce sous-ensembles
d’attributs.

La structure : bien définie à priori ; les types, les propriétés et les contraintes, les
relations, les indexes … le schéma n’est pas censé trop évoluer ou changer à l’avenir.

Accès aux données: L’Accès aux données est partiel, disant vertical d’une vision
d’ensembles. Les données doivent être cohérentes tandis que quelque latence peut être
permise et l’accès aux données dans des tables croisées est fréquent.

NoSQL : L’orientée colonne peut aider à définir une structure rigoureuse, aussi l’orientée
document peut être utilisée ; les deux peuvent fournir de la vitesse et de l’évolutivité en
traitant des données partielles. L’orientée document peut servir dans les jointures et la
création des vues.

59
Par contre, à part l’orientée graphe, la création des relations peut être un casse-tête ; elles
peuvent être crées et maintenues au niveau de l’application mais les données ne seront pas
cohérentes.

Décision: Le cahier des charges peut être satisfait par un SGBDR ou par une BD NoSQL,
mais les facteurs de la vitesse et de l’évolutivité donnent de grands avantages au NoSQL
où les données peuvent être partitionnées horizontalement et verticalement.

3.2.3 Applications web

C’est le type le répondu de nos jours, il intéresse aussi bien les fournisseurs que les
consommateurs en exploitant l’explosion du marché des gadgets et applications mobiles.

De telles applications doivent être obligatoirement capables d’évoluer et contenir de plus

en plus de données pour absorber la demande croissante des utilisateurs et leur
diversification géographique où un seul datacenter est insuffisant.

Les utilisateurs de ce type d’applications peuvent sacrifier un peu de cohérence de données

pour satisfaire au temps de réponse.

Structure: Le schéma évolutif est une intégration avec d’autres applications est toujours
envisagée. En aucun cas, les données existantes ne doivent être affectées. Les relations
peuvent être optionnelles dans la couche BD ou dans la couche application.

Accès aux données: L’accès aux données est généralement partiel, les opérations CRUD
doivent être faites dans de brefs délais et l’incohérence des données est tolérée pour une
courte durée.

NoSQL: L’orientée document est un choix idéal pour un schéma flexible etévolutif, il peut
fournir l’évolutivité voulue parce qu’il n’implémente pas les transactions ACID.

Décision: indifféremment, à utiliser le NoSQL.

3.3 L’utilisation du NoSQL

Les domaines les plus envahis par les Base de donnéess NoSQL sont:

 Le SaaS applications (CRM-ERP) flexible schéma: l’orientée document

 E-learning : L’orientée colonne

60
 Applications sociales (possibilité d’intégration) l’orientée document avec l’orientée
colonne
 Les Relations : L’orientée graphe

3.1 Conclusion

61
62
4. SECTION :

63
BIBLIOGRAPHIE

[1] Robert REIX, Dictionnaire des systèmes d’information, Vuibert, 1999.

[2] ANGOT Huges, système d’information de l’entreprise analyse théorique des flux
d’information et cas pratique, 3ème Edition entreprise de Boeck université, 1998.

[3] ANGOT, H., Système d’information de l’entreprise.5ème édition, Boeck, paris,

2006.

[4] Jaques Sornet, Oona Hengoat, Nathalie Le Gallo, DCG 8 Système d’information et
gestion, Copyright 2012.

[5] C. Coronel, S. Morris, P. Rob, « Database Systems : Design, Implementation and

Management », Cengage Learning – 2012.

[6] O. Losson, «Introduction aux Systèmes de Gestion de Bases de Données

Relationnelles», cours Master Sciences et Technologies, Université Lille1, 2007.

[7] C. Ritchie, « Database Principles and Design », Cengage Learning EMEA – 2008.
Management d’un projet Système d’information, 6ème édition, Chantal Morley Construire le
système d’information de l’entreprise, Claude Grenier, Camille Moine, 2003

[8] NoSQL et le Big Data, 2ème édition, Rudi Bruchez

[9] A. Foucret, « NoSQL une nouvelle approche du stockage et la manipulation

des données ». France. 2011

[10] A.G. Piazza, « NOSQL Etat de l'art et benchmark », Travail de Bachelor

HES. Haute Ecole de Gestion de Genève, Informatique de gestion. 2013

[11] : BENALLAL Zeyneb, TAHRAOUI Hayet; Etude comparative des bases de

données NoSQL ; 2016

[12] M. Roger, « synthèse d’étude et projets d’intergiciels: bases NoSQL », 2010.

[13] Towards robust distributed systems. Brewer, Eric.California : ResearchGate, 2000.

Symposium on Principles ofDistributed Computing. p. 45

64
[14] Comparative analysis of NoSQL (MongoDB) with MySQL Database. Lokesh
Kumar, Dr. Shalini Rajawat, Krati Joshi.711, Rajasthan, India : International Journal of
Modern Trends in Engineering and Research, 2015, Vol. 1. 2393-8161.

[15] Towards robust distributed systems. Brewer, Eric.California : ResearchGate, 2000.

Symposium on Principles ofDistributed Computing. p. 45.

[16]. Berman, Jules J. Principles of Big Data. s.l. : Elsevier, 2013.

[17] Tudoran, R. (2014). High-Performance Big Data Management Across Cloud Data
Centers. PhD thesis

[18] Sakr, S. (2016). Big Data 2.0 Processing Systems. SpringerBriefs in Computer
Science. Springer International Publishing, Cham.

Big Data,Smart Data, Stupid Data, Antoine Denoix, 2018

Article
Découvrir le monde du Big Data : définition, applications et outils

Les metiers des sytèmes d’information, Apec (Association pour l’emploi de cadres), Mehdi
Acheli, Selma Khouri , 20 juillet 2017

Memoire
[5] F. Exertier, « Extension orientée objet d’un SGBD relationnel », Mémoire du
doctorat spécialité informatique, Université Joseph-Fourier - Grenoble 1, 1991.

Vous aimerez peut-être aussi

Memoire Big Data
100% (6)
Memoire Big Data
28 pages
Système D'information
Pas encore d'évaluation
Système D'information
42 pages
Rapport D Étude Sur Le Big Data
100% (1)
Rapport D Étude Sur Le Big Data
54 pages
Présentation Du Big Data
100% (1)
Présentation Du Big Data
38 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
61 pages
Plan
Pas encore d'évaluation
Plan
9 pages
Big Data
100% (3)
Big Data
36 pages
Digitalisation de La Supply Chain: Fiche 19
Pas encore d'évaluation
Digitalisation de La Supply Chain: Fiche 19
3 pages
RapportPFE Bekkouche Lanasri Juin2015
Pas encore d'évaluation
RapportPFE Bekkouche Lanasri Juin2015
141 pages
Data Warehouse
100% (1)
Data Warehouse
41 pages
La Transmission des PME: Perspectives et enjeux
D'Everand
La Transmission des PME: Perspectives et enjeux
Louise Cadieux
Pas encore d'évaluation
Conception de bases de données avec UML
D'Everand
Conception de bases de données avec UML
Gilles Roy
5/5 (1)
MEMOIRE BIGDATA Quentin-Mathieu
100% (1)
MEMOIRE BIGDATA Quentin-Mathieu
93 pages
Big Data (Synthese)
Pas encore d'évaluation
Big Data (Synthese)
10 pages
Big Data
100% (1)
Big Data
15 pages
Étude Du Cas Big Data-3
Pas encore d'évaluation
Étude Du Cas Big Data-3
33 pages
Big Data en Entreprise
Pas encore d'évaluation
Big Data en Entreprise
67 pages
3.4 Exemple de Memoire m2 Mammah Rosemarie
Pas encore d'évaluation
3.4 Exemple de Memoire m2 Mammah Rosemarie
148 pages
Big Data
Pas encore d'évaluation
Big Data
21 pages
Big Data Projet
Pas encore d'évaluation
Big Data Projet
45 pages
Cours - 1 - 01 - Big Data
100% (1)
Cours - 1 - 01 - Big Data
16 pages
Big Data
100% (1)
Big Data
13 pages
Big Data Et Data Mining
Pas encore d'évaluation
Big Data Et Data Mining
14 pages
PFE Miage
Pas encore d'évaluation
PFE Miage
105 pages
Memoire 1
100% (1)
Memoire 1
54 pages
Memoire Final
Pas encore d'évaluation
Memoire Final
152 pages
Cours Ecosystème Big Data
Pas encore d'évaluation
Cours Ecosystème Big Data
151 pages
Methodologie
Pas encore d'évaluation
Methodologie
8 pages
Datawarehouse 2023 2024
Pas encore d'évaluation
Datawarehouse 2023 2024
97 pages
Rapport POWER BI
Pas encore d'évaluation
Rapport POWER BI
27 pages
Data Mining
Pas encore d'évaluation
Data Mining
25 pages
Chap1-Big Data Pour Entreprise Et Ecosystème Hadoop - Oct 2023
Pas encore d'évaluation
Chap1-Big Data Pour Entreprise Et Ecosystème Hadoop - Oct 2023
37 pages
Le Datamining Dans Le Business Décisionnel
Pas encore d'évaluation
Le Datamining Dans Le Business Décisionnel
24 pages
Intro BIG DATA
Pas encore d'évaluation
Intro BIG DATA
34 pages
Big Data
Pas encore d'évaluation
Big Data
15 pages
Rapport Bi NV
Pas encore d'évaluation
Rapport Bi NV
94 pages
EL MOUADDIBE Zaid - Rapport de Stage - Optimisation de La Gestion Des Données Et Visualisation Interactive (Barid Al-Maghrib)
Pas encore d'évaluation
EL MOUADDIBE Zaid - Rapport de Stage - Optimisation de La Gestion Des Données Et Visualisation Interactive (Barid Al-Maghrib)
34 pages
Rapport PFE V Final
Pas encore d'évaluation
Rapport PFE V Final
74 pages
Memoire Final
Pas encore d'évaluation
Memoire Final
79 pages
Systeme de Recommandation Pour Un Reseau Sociale Dapprentissage
Pas encore d'évaluation
Systeme de Recommandation Pour Un Reseau Sociale Dapprentissage
66 pages
Notes de Cours de Big Data en L3 LMD INFORMATIQUE INDUSTRIELLE Version Longue Et Detaillees
Pas encore d'évaluation
Notes de Cours de Big Data en L3 LMD INFORMATIQUE INDUSTRIELLE Version Longue Et Detaillees
10 pages
Memoire
Pas encore d'évaluation
Memoire
88 pages
Big Data Analytics
Pas encore d'évaluation
Big Data Analytics
44 pages
Apprentissage
Pas encore d'évaluation
Apprentissage
139 pages
Pfe-Book TT 2020-2021 PDF
Pas encore d'évaluation
Pfe-Book TT 2020-2021 PDF
29 pages
Chapitre 1 Introduction
Pas encore d'évaluation
Chapitre 1 Introduction
7 pages
Big Data Et Data Mining
Pas encore d'évaluation
Big Data Et Data Mining
11 pages
Mémoire Final Dépot
Pas encore d'évaluation
Mémoire Final Dépot
70 pages
Chapitre 9: Business Intelligence
Pas encore d'évaluation
Chapitre 9: Business Intelligence
24 pages
Enquete BIGDATA
Pas encore d'évaluation
Enquete BIGDATA
4 pages
Projet Machine Learning Tensor
Pas encore d'évaluation
Projet Machine Learning Tensor
18 pages
Rapport de Stage
Pas encore d'évaluation
Rapport de Stage
63 pages
BI COURS SI Decisionnel
Pas encore d'évaluation
BI COURS SI Decisionnel
7 pages
Analyse Des Données
Pas encore d'évaluation
Analyse Des Données
51 pages
ENNACIRI Zidate RapportSA
Pas encore d'évaluation
ENNACIRI Zidate RapportSA
34 pages
Leçon1 - Introduction Au Big Data
Pas encore d'évaluation
Leçon1 - Introduction Au Big Data
42 pages
Introduction Au Big Data
100% (1)
Introduction Au Big Data
17 pages
Miniprojet BigData
Pas encore d'évaluation
Miniprojet BigData
9 pages
Conception Data Warehouse
Pas encore d'évaluation
Conception Data Warehouse
16 pages
Extraction et Gestion des Connaissances: Actes de la conférence EGC'2019
D'Everand
Extraction et Gestion des Connaissances: Actes de la conférence EGC'2019
Lydia Boudjeloud-Assala
5/5 (1)
Test Data Mining
Pas encore d'évaluation
Test Data Mining
1 page
Memoire Solofo CNTEMAD
100% (3)
Memoire Solofo CNTEMAD
2 pages
Projet Master Windows
100% (2)
Projet Master Windows
105 pages
MCD Exo
Pas encore d'évaluation
MCD Exo
2 pages
Cours MCF
Pas encore d'évaluation
Cours MCF
3 pages
Clefs66 FR Final PDF
Pas encore d'évaluation
Clefs66 FR Final PDF
27 pages
Cours Thème 1.3 MCT: Modèle Conceptuel Des Traitements (MCT)
Pas encore d'évaluation
Cours Thème 1.3 MCT: Modèle Conceptuel Des Traitements (MCT)
4 pages
Exe MCD
33% (3)
Exe MCD
3 pages
Cahier de Charge Maya
100% (1)
Cahier de Charge Maya
5 pages
Présentation Crypto Neurale
Pas encore d'évaluation
Présentation Crypto Neurale
39 pages
Chapitre1 Les Bases Du Langage Java
Pas encore d'évaluation
Chapitre1 Les Bases Du Langage Java
15 pages
Package Nouvel Arrivant PDF
Pas encore d'évaluation
Package Nouvel Arrivant PDF
11 pages
d51.2 - Me Eit-Chd - Octobre 2021 - Sujet
Pas encore d'évaluation
d51.2 - Me Eit-Chd - Octobre 2021 - Sujet
5 pages
Configuration EIGRP Pour IPv4 - Réseaux Informatiques - Abderrahmane Khair
Pas encore d'évaluation
Configuration EIGRP Pour IPv4 - Réseaux Informatiques - Abderrahmane Khair
5 pages
Traitement Images Krim
Pas encore d'évaluation
Traitement Images Krim
25 pages
DNP Brochure DS-RX1HS 2018 FR 1-1
Pas encore d'évaluation
DNP Brochure DS-RX1HS 2018 FR 1-1
2 pages
Chapitre 03-Cours 01
Pas encore d'évaluation
Chapitre 03-Cours 01
42 pages
HTTP Proxies
Pas encore d'évaluation
HTTP Proxies
23 pages
Correction Tp4
Pas encore d'évaluation
Correction Tp4
17 pages
PFE (2) (2) (2)
Pas encore d'évaluation
PFE (2) (2) (2)
8 pages
NM-258 FR
Pas encore d'évaluation
NM-258 FR
30 pages
Formation: Electricité Industrielle API Variateur de Vitesse
Pas encore d'évaluation
Formation: Electricité Industrielle API Variateur de Vitesse
2 pages
HAX501X - Groupes Et Anneaux 1 CM3 14/09/2023: CL Ement Dupont
Pas encore d'évaluation
HAX501X - Groupes Et Anneaux 1 CM3 14/09/2023: CL Ement Dupont
35 pages
Location Voiture
Pas encore d'évaluation
Location Voiture
3 pages
Page Planning 0
Pas encore d'évaluation
Page Planning 0
1 page
Algorithme Glouton
Pas encore d'évaluation
Algorithme Glouton
10 pages
Manuel Sur La Cybersécurité Destiné Aux Entreprises de Transports Publics
Pas encore d'évaluation
Manuel Sur La Cybersécurité Destiné Aux Entreprises de Transports Publics
72 pages
Atelier 3 4
Pas encore d'évaluation
Atelier 3 4
4 pages
Simulation Examen Initiation Réseau (Reponses)
Pas encore d'évaluation
Simulation Examen Initiation Réseau (Reponses)
5 pages
Chapter 1 ACL
Pas encore d'évaluation
Chapter 1 ACL
13 pages
TD-TP N°2 - Les Liste Lineaires Chainees 2022
Pas encore d'évaluation
TD-TP N°2 - Les Liste Lineaires Chainees 2022
10 pages
Chapitre 1 RAPPEL
Pas encore d'évaluation
Chapitre 1 RAPPEL
7 pages
S1 Eein P1
Pas encore d'évaluation
S1 Eein P1
46 pages
Robotique Avancée: Présentation
Pas encore d'évaluation
Robotique Avancée: Présentation
3 pages
Pirater Un Compte Mobile Money
Pas encore d'évaluation
Pirater Un Compte Mobile Money
5 pages
PROB_Blanc_N°1_Série-C&D_
Pas encore d'évaluation
PROB_Blanc_N°1_Série-C&D_
3 pages
Exercice Access 2024
Pas encore d'évaluation
Exercice Access 2024
2 pages
Sauvegarde Rman Rapport
Pas encore d'évaluation
Sauvegarde Rman Rapport
23 pages
Hp16 Séquence 1 Séance 4: Course Contents
Pas encore d'évaluation
Hp16 Séquence 1 Séance 4: Course Contents
28 pages
Administration de La Base de Donnée
Pas encore d'évaluation
Administration de La Base de Donnée
10 pages