Chapitre 1

Télécharger au format pptx, pdf ou txt
Télécharger au format pptx, pdf ou txt
Vous êtes sur la page 1sur 20

BIG DATA

CHAPITRE 1 : INTRODUCTION AU BIG DATA

M1 - SII (2022-2023)
Plan du cours
1) Introduction au Big Data

2) Fondements de l’environnement Hadoop

3) Les modèles de données : les architectures NoSQL

4) Acquisition de données

5) Exploitation des données


2
Qu’est ce que le BIG DATA

 Changement en volume

 Changement d’origine des données (origines variées)

 Changement de structure (semi-structurées, non-structurées)

 Capacités de stockage accrues (stockage dans le Cloud)

 Changement des traitements (batch, flux etc…)

 Evolution des usages (Avertissements, traitements des flux)


3
Qu’est ce que le BIG DATA

Le Big Data fait référence aux volumes de données dynamiques,


volumineux et disparates créés par des personnes, des outils et
des machines. Elle nécessite une technologie innovante et
évolutive pour collecter, héberger et analyser analytiquement la
grande quantité de données collectées afin d’obtenir des
informations en temps réel sur les clients, les risques, les
bénéfices, la performance et la gestion de la productivité d’une
entreprise. (Source : Le Cabinet d’Audit E&Y)

4
Les V du Big Data

5
La Volumétrie (Volume)

En 2021, en 1 minute
d’internet 3 787 915
giga bytes de données
transférées

6
Les V du Big Data

7
La vitesse (vélocité)

Augmentation des besoins de


traitement :

Comment conserver une bonne vitesse ?

Traitement Big Data

Origine Google

8
La vitesse (vélocité)

MapReduce

Traitement parallélisé en Batch


Traitement périodique

9
La valeur

 La maitrise des 3V génère de la valeur

o Valeur stratégique
o Valeur opérationnelle
o Nouvelles opportunités

10
La variété
Le Big Data
Mégadonnées

Structurées Semi-structurées Non-structurées

 Données de reconnaissances faciales


 Logs
 Données sociales
 Mobiles
 Capteurs (IoT : Internet des objets)
11
Les débuts du Big Data

Google

Début des années 2000

Indexation du web entier

Publications de congrès

12
- Le client contacte le maître
Les débuts du Big Data - Distribution des données
- Commodity hardware
Google File System

13
Les débuts du Big Data
Map = Traitement de chaque élément
MapReduce Reduce = Regroupement

14
Les débuts du Big Data

MapReduce a tout son intérêt dans le Big Data car il permet le passage
à l’échelle de traitements sur de gros volumes de données.

Cependant, il faut une infrastructure logicielle dédiée qui permette


d’exécuter le schéma MapReduce de manière distribuée sur un cluster
de machines.

Cette infrastructure c’est le framework Hadoop de la fondation


Apache.

15
Le projet Hadoop

Hadoop est un framework open source écrit en Java et fait partie des
projets de la fondation Apache depuis 2008. Il a été conçu pour
réaliser des traitements distribués sur des données massives.

• La version stable la plus récente est la version 3.3.1


• Hadoop est composé principalement :
 du modèle de programmation MapReduce
 du système de gestion de fichiers HDFS

16
L’écosystème Hadoop

17
L’écosystème Hadoop

18
L’écosystème Hadoop

19
Exemple d’application

20

Vous aimerez peut-être aussi