Conception D'une Plateforme Big Data-ML de Prédictions D'incidents Dans Un Smart Grid

Télécharger au format docx, pdf ou txt
Télécharger au format docx, pdf ou txt
Vous êtes sur la page 1sur 67

INFORMATIQUE ET TÉLÉCOMMUNICATIONS

THEME :
CONCEPTION D’UNE PLATEFORME BIG-DATA / ML DE
PREDICTION DES INCIDENTS AU NIVEAU D’UN
SMART GRID

Sous la Direction de Présenté et soutenu par

Promotion 2020-2021
REMERCIEMENT
Je commencerais par rendre grace à Allah,le Seigneur de l’univers,Celui qui nous a
permis de vivre ces moments.Nous attestons que ses decrets restent les plus justes et nous en
ferons notres quoi qu’il advienne.
 Je tiens aussi à remercier chaleureusement M.MOINDZE Soidridine mon
encadreur pour ces conseils et l’aide qu’il a su nous apporter par rapport au
choix de ce sujet.
 Je remercie M.Idriss TONDJI pour ces orientations
 Je remercie aussi Steve un ami,pour ces orientations et son aide pour venir à
bout de ce travail.
 Mes remerciements vont aussi à l’encontre de mon ami, Dr Maguette SARR
pour ses orientations quant au cadrage du sujet.
 Mes remerciements à l’encadrement de l’ESMT pour le suivi et les
commodités offertes,
 Mes remerciements au groupe de recherche IRESAC_ICTSR pour leurs
précieux conseils.
Je ne terminerais pas sans remercier ,tout ce qui de près ou de loin ont contribué à la réussite
de ce projet et les donne rendez vous dans un futur proche pour de nouveaux défis.

Page 1
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
DEDICACE
Ce Mémoire est dédié :
 A ma très chère et tendre mère Mariama SIDIBE(Qu’Allah lui fasse Miséricorde) qui
n’a cessé de prier pour nous, pour que nous soyons toujours utile à la
coummunauté,qui a su nous inculquer des valeurs et nous remonter le moral quand il
le fallait.Merci Maman.
 A mon père Mamadou MBODJ(Qu’Allah lui prête longue vie) pour tous les efforts
ménagés,pour l’éducation et les valeurs qu’il a su nous inculquer.
 A mes frères et sœurs Seydina,Diarietou,Cherif,Adja,Saer pour leur soutien constant.
 A mon épouse Ndèye Khary GAYE ,sans qui ce projet d’étude que je m’apprétais à
entreprendre en début d’année 2019 n’atteindrais jamais son paroxysme,elle a su
m’épauler dans les moments ou j’en avais le plus besoin.Merci pour tout mon Amour.
 A mes enfants Mâhi et Malal pour les moments de joies et de détentes dans les
périodes de stress.
 A mes amis d’enfance(Lamine et Cheikh, plus particulièrement),mes camarades de
classe(mention spéciale à la Responsable Mme SALL Absa GUEYE,à Doyen
Kane),mes collègues de travail(Abibou et Maguette).
 Au corps professoral de l’ESMT,à tous les étudiants et élèves
 Au peuple sénégalais,ce peuple qui nous a vu naitre et grandir ,ce peuple qui nous a
offert des opportunités d’étude et d’emploi, ce peuple qui nous a inculqué des
valeurs ,une éducation et une instruction.
Nous prions alors pour ce peuple, qu’il reste uni à jamais et que son destin de plus en plus
radieux.

Page 2
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
RESUME
La mondialisation, les réseaux sociaux, les objets connectés ont bouleversé depuis
quelques années nos modes de vie et cela à cause du flux important de données qu’ils
drainent. Ces multitudes de sources d’où proviennent l’information fait que son traitement est
de plus en plus complexe et rend difficile une prise de décision rapide. Nous sommes tous
conscient que dans cet environnement mondial en perpétuelle mutation et ou la prise de la
juste décision est cruciale pour rester compétitif, l’utilisation des SID (Système d’Information
Décisionnelle) de haute qualité et ayant la capacité de traiter une quantité importante de
données (Big-Data) reste incontournable.
Néanmoins les entreprises et la recherche scientifique en se faisant aider par le
numérique et les TIC ont toujours su s’adapter et depuis très longtemps ont eu à développer
des solutions SID (GPAO, GMAO, PGI etc…). Cependant le domaine des SIDs connait une
évolution du fait de la quantité, de la vitesse et de la multitude des sources(variétés) de
données, c’est-à-dire il est à ce jour obligé de faire avec le Big-Data.
Pour notre projet de mémoire nous avons choisi l’étude d’un SID (Big-DATA/ML)
appliqué au Smart-Grid (Réseaux Electrique Intelligents) pour l’amélioration de l’efficacité
énergétique via la prédiction des incidents réseaux et leur auto-réparation.

ABSTRACT
Globalization, social networks, connected objects have upset our lifestyles for a few
years and this because of the large flow of data they drain. These multitudes of sources from
which the information comes makes its processing more and more complex and makes rapid
decision-making difficult. We are all aware that in this constantly changing global
environment and where taking the right decision is crucial to remain competitive, the use of
high quality SID (Decisional Information System) and having the capacity to process a large
quantity of data (Big-Data) remains unavoidable.
Nevertheless, companies and scientific research, with the help of digital technology
and ICT, have always been able to adapt and have had to develop SID solutions for a very
long time (GPAO, CMMS, PGI, etc.). However, the field of SIDs is changing due to the
quantity, speed and multitude of sources (varieties) of data, that is to say it is currently
obliged to do with Big-Data.
For our dissertation project we have chosen the study of a SID (Big-DATA/ML)
applied to the Smart-Grid (Intelligent Electrical Networks) for the improvement of energy
efficiency via the prediction of network incidents and their auto -repair.

Page 3
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
LISTE DE FIGURES
Figure 1 :Les données sur Internet en une minute..............................................................13
Figure 2 :Chaine de production Electrique des Centrales au Consommateurs................26
Figure 3 :Structure d’un réseau éléctrique de Transport et de Distribution....................29
Figure 4 :Le réseau de transport et de répartition..............................................................31
Figure 5 :Réseau de Distribution Electrique........................................................................33
Figure 6 :Départ d’un réseau de distribution BT(Basse Tension).....................................34
Figure 7 :Les variétés de sources de données au niveau des Smart-Grid..........................42
Figure 8 : Exemple de jeu de données...................................................................................43
Figure 9: Calendrier de réalisation de l'application............................................................48
Figure 10:scénario de fonctionnement de notre application...............................................49
Figure 11:MCD(Modèle Conceptuel de Données) pour l’API connecté à la Base MySQL
...................................................................................................................................................50
Figure 12:Flowchart pour l’acquisition des données et l’entrainement du modèle..........51
Figure 13 Structure de notre application backend:.............................................................53
Figure 14 : Structure de notre application front-end..........................................................55
Figure 15: Point d'entrer de notre application.....................................................................56
Figure 16: Page d'affichage une fois de la connexion réussie.............................................57
Figure 17: Page gestion des sites............................................................................................57
Figure 18:Page gestion d'utilisateurs....................................................................................58
Figure 19: La page gestion des interventions.......................................................................58
Figure 20:La page de gestion des appareils (capteur).........................................................59
Figure 21: Structure de notre application python...............................................................60
Figure 22: Resultat de la generation dans le fichier csv......................................................60
Figure 23: Base de données Mysql........................................................................................64
Figure 24: Analyse des anomalies dans les differents site en une semaine........................63
Figure 25: Bibliothèques utilie pour l'analyse des données................................................64
Figure 26: Analyse des valeurs des colonnes null_values....................................................64
Figure 27: Les prédictions de l'algorithme KNN à gauche et Random forest à droite....65
Figure 28: SVM Predict à gauche et Logistic regression à droite......................................65

Page 4
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
LISTE DE TABLEAUX
Tableau 1 :Unité de mesure du Big Data…………………………………………………13

Page 5
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
SOMMAIRE
INTRODUCTION......................................................................................................................8
PARTIE 1: (BIG DATA, SMART GRID)...............................................................................10
CHAPITRE 1 : Le Big DATA..............................................................................................11
1.1. Introduction................................................................................................................11
1.2. Informatique connectée, objets "intelligents" et données collectées.........................11
1.3. Les unités de mesure dans le monde Big Data..........................................................13
1.4. Big Data au-delà des volumes, une rupture conceptuelle..........................................14
1.5. Machine Learning en Big Data..................................................................................16
1.6. D’autres Aspects Importants du Big Data.................................................................18
CHAPITRE 2 : Les Smart-Grids..........................................................................................24
2.1. Concept......................................................................................................................24
2.2. Tentatives de définitions des Smart-Grid..................................................................24
2.3. Quelques Apports des Smart Grid.............................................................................26
PARTIE 2 : Gestion de la distribution électrique à ce jour au niveau de nos réseaux
électriques.................................................................................................................................28
CHAPITRE 3 : Notions générale sur les réseaux électriques...............................................29
3.1. Structure générale d’un réseau électrique..................................................................29
3.2.Réseau de transport et répartition...............................................................................30
3.3.Réseau de distribution.................................................................................................31
3.4.Comportement des réseaux électriques.......................................................................34
4.5.Problèmatique liée à la Distribution...........................................................................35
CHAPITRE 4 : Maintenance dans les réseaux électriques...................................................36
4.1 Généralités..................................................................................................................36
4.2 Maintenance corrective et préventive.........................................................................36
4.3 Stratégies de Maintenance préventive........................................................................37
4.4 Optimisation de la maintenance préventive................................................................38
PARTIE 3 : Conception d’une plateforme SID de type Big Data/ML pour la prédiction des
anomalies ou coupures dans un smart grid...............................................................................41
CHAPITRE 5: Etude théorique de notre problématique......................................................42
5.1.Généralités..................................................................................................................42

Page 6
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
5.2 Hypothèses et procédés...............................................................................................43
5.3 Etudes proprement dite du problème..........................................................................44
CHAPITRE 6: Cahier de charge, spécifications fonctionnelles, Ressources et Outils........46
6.1.Ressources Humaines.................................................................................................46
6.2.Le besoin.....................................................................................................................46
6.3.Identification des résultats attendus............................................................................46
6.4.Les contraintes du projet.............................................................................................47
6.5.Ressources nécessaires pour la réalisation de l’application........................................47
6.6.Delais de Réalisation...................................................................................................48
CHAPITRE 7: MCD & MLD, Intégration des outils BD/ML, Génération des jeux de
Données et Simulation..........................................................................................................49
7.1 Story Board.................................................................................................................49
7.2. MCD, Diagramme de Classe pour l’API relié à la Base de Donnée MySQL...........50
7.3.Flowchart pour le traitement des jeux de données et l’entrainement du Modèle.......51
CHAPITRE 8: Mise en Œuvre de la Solution (Implémentation).........................................52
Introduction.......................................................................................................................52
8.1.Le Back END..............................................................................................................53
8.2.Le Front END.............................................................................................................54
8.3.L’application de génération de données et d’entrainement (ML) sous Python.........59
CONCLUSION.........................................................................................................................61
BIBLIOGRAPHIE....................................................................................................................62
ANNEXE……………………………………………………………………………………..63

Page 7
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
INTRODUCTION
L’amélioration continue dont est condamnée notre système capitaliste actuel du fait de
la forte concurrence, impose à nos entreprises la réflexion autour de méthodes de travail de
plus en plus innovant pour la gestion de leur business. L’environnement chaotique et cahoteux
n’y aidant pas, les entreprises actuelles sont obligées de se réinventer et de s’adapter à des
clients de plus en plus exigeants du fait de la modernité dont les tentacules n’épargnent pas les
pays en développement. Ceci en vulgarisant même chez eux ce qui se fait de mieux en terme
de bonnes pratiques et cela grâce à internet.Ce marché mondial, dominé par la forte
concurrence et ou l’Afrique peine à tirer son épingle du jeu car se contentant principalement
du rôle de consommateur nous a poussé à mener une réflexion sur la problématique qui suit.
Que faudrait-il, vu la pénétration du mobile(Smartphones), d’Internet et des NTICs
dans notre continent, notre démographie galopante et une population à majorité jeune, pour
impacter le développement de l’Afrique en nous appuyant sur les nouvelles technologies et
réduire le gap considérable avec les pays développés tout en dépensant moins de temps et
d’énergie pour arriver à leur niveau de développement (accélération de croissance) ?
Cette envie pressante d’apporter de la plus-value dans le développement de notre
continent et plus particulièrement de notre pays, nous a amené à vouloir apporter notre pierre
à l’édifice de par les connaissances que nous avons eu à glaner tout au long de notre cursus
scolaire et de par notre expérience professionnelle acquise au fil des ans. Cette dernière nous a
permis de constater à quel point il était important de prendre la juste décision au bon moment
tout en nous faisant remarquer le déficit criard au niveau de nos entreprises d’outils ou de
plateformes SID performants ou utilisés à bon escient. Donc on comprend bien l’intérêt que
nous portons sur les SIDs qui peuvent aider les managers africains et sénégalais en particulier
à mieux gérer leur quotidien en entreprise. Ces outils les assisteront quant à leur planification
de projet à moyen et long terme le tout pour le bonheur des différentes parties prenantes de
l’entreprise.
Cependant la question qui nous vient à l’esprit est : Quel SID pour quelle entreprise et dans
quel contexte et environnement?
A cette problématique nous tenterons d’apporter une esquisse de solution en prenant
l’exemple de : La Gestion de l’Efficacité énergétique, de la planification des
investissements pour une bonne politique énergétique et de la prévision des pannes dans un
réseau de type smart Grid
A cet exemple d’études de cas, nous tenterons d’apporter des réponses aux questions
suivantes :
Comment l’énergie se gère-t-elle aujourd’hui au niveau des smart grid?
Quels sont les impacts d’une mauvaise gestion de l’énergie sur la QoS ?
Quels sont actuellement les outils d’aide à la décision disponible sur le marché pour la
planification stratégique, l’efficacité énergétique et la gestion au quotidien des
problématiques de l’énergie ?
Page 8
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Ces plateformes intègrent elles à ce jour les big-data pour une prise en charge plus rapide
et plus efficace des problèmes d’énergie électrique au sein des smart grid?
Sinon comment aujourd’hui concevoir de telles plateformes pour mieux maitriser la
gestion de l’énergie au sein des smart grid?
Pour répondre à cette problématique dans notre mémoire de fin d’étude nous comptons
adopter le plan qui suit :
Dans la première partie nous allons faire l’exposé de la littérature en revenant sur les notions
de Big Data et de Smart-Grid .
Dans la deuxième partie nous allons voir comment se fait la gestion de la distribution
électrique dans les réseaux classiques et de type smart grid.
De ces études préalables découlera alors une troisième partie qui se veut une proposition
pour la problématique principale qui consiste à:
La conception d’une plateforme d’analyse des données de type de Big-Data pour la
mitigation des pannes mais aussi comme outil d’aide à la décision d’investissement pour
limiter l’impact négatif que peut avoir des dysfonctionnements liés à la non maitrise de
l’énergie dans un Smart-Grid .

Page 9
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
PARTIE 1: (BIG DATA, SMART
GRID)

Page 10
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
CHAPITRE 1 : Le Big DATA

1.1. Introduction
Durant la période 1950-1990, l’informatique a été utilisée pour effectuer des traitements
relativement sophistiqués sur des volumes de données plutôt limités (par exemple la
conception assistée par ordinateur (CAO) dans l’automobile et l’aéronautique par exemple).
De ce fait, les paramètres critiques en matière de performance informatique ont longtemps été
la vitesse des processeurs et la taille de la mémoire vive (RAM - Random Access Memory).
Souvent, la vitesse de transfert entre les disques durs et les processeurs passait au second plan.
Dans les années 1980-1990, les super-ordinateurs (Cray, Fujitsu, Hitachi…), occupant une
pièce entière et refroidis par liquide, ont illustré jusqu’à la caricature les choix techniques mis
en œuvre pour répondre à ce paradigme informatique. Or, depuis le début des années 2000,
celui-ci a été bouleversé : de plus en plus d’entreprises ont eu besoin d’effectuer des
traitements relativement simples sur des volumes de données extraordinairement importants.
En effet, avec le développement de l’informatique connectée et des objets "intelligents",
l’informatique tend à envahir tous les aspects de notre vie, et les volumes de données générés
par les différents capteurs mis en œuvre, souvent à l’insu des utilisateurs, sont colossaux.
Une définition très répandue de Big Data est celle dite des « 3V » du Gartner Group et
s’appuie sur trois notions :
 La nature des données (Variety en anglais).
 La vitesse (Velocity en anglais) à laquelle les données sont produites et évoluent dans
le temps.
 Les volumes (Volumes en anglais) de données à collecter, stocker et traiter.

1.2. Informatique connectée, objets


"intelligents" et données collectées

L’informatique connectée comprend des services tels que :


 les sites Internet ;
 les moteurs de recherche ;
 les offres de stockage en ligne de type cloud ;
 les offres de type SaaS (Software as a Service) ;
 La domotique ;
 etc.

Page 11
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
L’utilisation de ces services laisse de nombreuses traces, souvent à l’insu de l’utilisateur, dans
les systèmes informatiques. L’exploitation de ces traces ouvre de nouvelles perspectives,
parfois surprenantes, tel le modèle de Google pour effectuer le suivi de l’extension d’une
épidémie de grippe.
Les objets "intelligents" comprennent :
 les smartphones ;
 les tablettes tactiles ;
 les voitures connectées ;
 les compteurs électriques "intelligents" ;
 les chaussures de sport connectées à un smartphone ;
 les instruments de mesure dans les process industriels(capteurs)
 etc.
Des projets visant à rendre "intelligents" des objets aussi banals que des brosses à dents, des
couverts de table ou des ampoules électriques sont à l’étude.
Les objets "intelligents" sont équipés de capteurs qui transmettent au fabricant ou au
fournisseur des données de manière régulière, lui permettant ainsi de se constituer une base de
données sur l’utilisation faite de son produit. Le tout sans le moindre effort de sa part.
Les perspectives offertes sont sans limite : on peut par exemple imaginer une fourchette
équipée d’un chronomètre et de capteurs permettant de déterminer la teneur en sel ou en sucre
des aliments, et qui serait capable d’indiquer à l’utilisateur qu’il mange trop vite, trop salé ou
trop sucré.
Ce déluge de données peut, pour partie, s’expliquer par la baisse des coûts de stockage. Le
coût de stockage de 1 Go sur un disque dur est en effet passé de 147 $ en 1997 à 1,05 $ en
2004, 0,05 $ en 2012 et 0,01 $ en 2013 (sources : Cloudera et www.pcmag.com).
La Figure 1 montre l’évolution des systèmes d’information et des données échangées depuis
la création des réseaux informatique jusqu’à la nouvelle génération du Web, permettant aux
internautes de contribuer à l'échange d'information et d’interagir de façon simple, à la fois au
niveau du contenu et de la structure des pages, créant notamment le Web social.

Page 12
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Figure 1  :Les données sur Internet en une minute

1.3. Les unités de mesure dans le monde Big


Data
Les trois exemples ci-dessous permettent de se rendre compte de l’ordre de grandeur des
volumes de données couramment manipulés dans le cadre de projets Big Data :
 Pour optimiser sa production, EDF analyse les enregistrements représentant la
consommation d’énergie instantanée de 35 millions de clients, consommation relevée
toutes les 10 minutes pendant un an. Le volume des données à traiter représente 120
téraoctets (To), correspondant à 1 800 milliards d’enregistrements.
 Le New York Stock Exchange (NYSE) génère environ un To de données chaque jour.
 Facebook stocke de l’ordre de 70 péta-octets (Po) de données.
 Etc.
Tableau
Nom Symbole Valeur 1  :Unité
de
kilo-octet Ko 103 mesure
du Big-
méga-octet Mo 106 Data
giga-octet Go 109

téra-octet To 1012

péta-octet Po 1015

exa-octet Eo 1018
Page 13
zetta-octet
Conception d’une plateforme Big-Data/ML deZo 1021smart Grid
prédiction des incidents au niveau d’un

yotta-octet Yo 1024
Les unités de mesures en gras sont celles utilisées dans le cadre du big data

1.4. Big Data au-delà des volumes, une


rupture conceptuelle
Cependant, définir le Big Data en se basant uniquement sur les volumes de données en
jeu est réducteur : après tout, le développement de l’informatique ne s’est-il pas toujours
accompagné d’un accroissement des capacités de stockage des données ?
C’est donc à d’autres niveaux que l’approche Big Data induit une véritable rupture :
 Dans le domaine des statistiques, en rendant les approches par échantillonnage moins
fréquemment utiles (dans le monde du Big Data, on parle souvent d’échantillons de
taille N=All, c’est-à-dire d’échantillons dont la taille est égale, ou quasiment égale, à
celle de la population). Une des conséquences est que les contraintes en termes de
qualité des données traitées sont moindres que lorsque l’on travaille sur un échantillon
de petite taille (les erreurs sont "noyées" dans la masse).
 Dans le domaine de la gestion et de la valorisation des données : de nombreux projets
de type Big Data ont permis de constater que des données collectées dans un but
donné pouvaient être réutilisées dans un contexte différent, permettant ainsi de mettre
en évidence une valeur cachée.
 Enfin, dans le monde du Big Data on n’essaye pas de rechercher les causes d’un
phénomène, mais simplement de mettre en évidence des corrélations entre le
phénomène analysé et certains indicateurs (voir l’exemple de Google ci-après).
Un exemple d’approche Big Data novatrice
En février 2009, la revue Nature a publié les résultats de l’étude "Detecting influenza
epidemics using search engine query data" (http://dx.doi.org/10.1038/nature07634). Les
auteurs étaient cinq ingénieurs de Google et une épidémiologiste du US Centers for Disease
Control and Prevention d’Atlanta (CDC).
Partant du constat que :
 Chaque année, la grippe touche des dizaines de millions de personnes et provoque de
250 000 à 500 000 décès.
 Si une variante virus de la grippe aviaire se propageait d’homme à homme, ce sont des
millions de décès qui pourraient survenir.
 Les systèmes de surveillance officiels de la grippe ont des temps de réponse compris
entre une et deux semaines.
Page 14
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Les auteurs de cette étude ont essayé de développer une méthode permettant de surveiller
l’évolution d’une épidémie de grippe beaucoup plus rapidement (temps de réponse de l’ordre
de la journée).
L’approche retenue a consisté à rechercher une corrélation entre les requêtes, rendues
anonymes, soumises par les utilisateurs de Google aux USA et l’extension de l’épidémie de
grippe. Au final, une excellente corrélation a été trouvée entre un ensemble de 42 termes et
l’occurrence de la grippe (coefficient de corrélation moyen de 97 %).
Plusieurs aspects de l’approche Big Data retenue par Google sont surprenants :
 50 millions de requêtes, portant sur les années 2003 à 2008, ont été retenues sur les
milliards de requêtes sauvegardées par Google. Elles n’ont pas été retenues sur la base
d’un filtrage à partir de certains termes (par exemple flu - grippe en anglais) : elles
portaient sur tous les sujets possibles. Le principal critère de filtrage était la fréquence
(seules les requêtes rarement mises en œuvre ont été rejetées).
 450 modèles différents ont été testés, et leurs résultats comparés avec les données
historiques du CDC(Center for Disease Control and Prevention) en matière
d’extension des épidémies de grippe aux USA.
L’approche retenue dans cette étude est typique du Big Data :
 Google n’a pas cherché à travailler sur un échantillon de données de grande qualité
(on peut raisonnablement penser que les 50 millions de requêtes retenues étaient de
qualité variable).
 Google n’a pas cherché non plus à expliquer la corrélation entre les 42 termes
finalement retenus et l’extension de la grippe, mais s’est "contenté" de mettre en
évidence une corrélation très forte entre les données du CDC et les 42 termes précités :
si l’utilisation de ces 42 termes est en forte augmentation, il y a de fortes chances que
cela corresponde à l’arrivée de la grippe.

1.5. Machine Learning en Big Data

En matière de Big Data, le terme Machine Learning n'est jamais bien loin. Et bien des
fois utilisées comme synonymes des Big Data, cependant ils décrivent des choses différentes.
Alors que le Big Data traite la quantité de données et certaines autres propriétés la concernant,
le ML consiste à analyser les données en utilisant des algorithmes pour y reconnaître des
modèles ou prédire quelque chose en utilisant des approximations. C'est un sous-domaine de
l'IA, le point clé étant la capacité des machines à s'auto-apprendre sur la base d'un ensemble
de données sans avoir un ensemble de règles programmés. En cas de modification des
données sous-jacentes, le ML ajuste les résultats de son (ses) modèle (s) sans intervention
humaine.
Ceci différencie considérablement le ML d'une application d'entreprise conventionnelle basée
sur un ensemble de règles métier définies par l'homme, codées en dur et uniquement
modifiées par l'homme. Bien que ML existe depuis les années 1950 sous une forme basique,
Page 15
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
c'est le Big Data qui le rend si populaire et utile pour les entreprises aujourd'hui. Plus un
modèle est fourni de données, plus le résultat obtenu est précis mais aussi parce qu'il peut
traiter beaucoup plus d'exemples qu'un humain. Quand les algorithmes de ML sont appliqués
au Big Data, c'est-à-dire à un grand ensemble de données, le processus est appelé data
mining(fouille de données). Tout comme l'extraction d'or ou d'autres métaux précieux, les
informations précieuses doivent être extraites de données brutes en utilisant des techniques
sophistiquées. Finalement, après avoir entraîné des modèles avec un énorme ensemble de
données, les ML les systèmes deviennent plus précis, adaptatifs et puissants par rapport aux
applications conventionnelles [01, 02]. Le ML est également étroitement lié au domaine de la
Data Science, qui repose sur le ML algorithmes d'analyse des données.
D'une manière générale, le ML peut être utilisé pour résoudre les deux problèmes suivants :
La Classification et la régression.
Dans la classification, l'objectif est de classer une variable dans une catégorie, par ex. qu'il
s'agisse une réclamation d'assurance est frauduleuse ou non. Déterminer également si un
composant d’une machine industrielle tombera en panne ou non.
La régression, par contre, vise à prédire une valeur concrète, par ex. quel sera le prix d'une
action [01, 02, 03]. Outre l'utilisation dans les services financiers, le ML peut être appliqué
dans divers domaines, tels que le client analytique, recherche médicale et diagnostic, filtrage
anti-spam, reconnaissance d'images ou le traitement du langage naturel.
Le ML peut être divisé en deux catégories : le ML supervisé et non supervisé. En supervisé
l’apprentissage des données utilisées se fait avec un modèle étiqueté, c'est-à-dire que chaque
entrée a déjà une sortie ou une catégorisation claire. Un superviseur fournit l'étiquetage - c'est
là que le nom d'où vient le ML supervisé. Les problèmes de régression et de classification
peuvent être résolus grâce au ML supervisé. Dans l'apprentissage non supervisé, il n'y a pas
de superviseur, donc les données utilisées pour l’apprentissage n’ont pas d'étiquettes. Ici, le
but est de détecter une structure dans les données sous-jacentes afin que le la machine peut
proposer son propre étiquetage. Pour ce faire, la machine regroupe les données dans groupes
ou segments en effectuant une estimation de densité [03]. Donc sans surveillance
l'apprentissage permet la découverte des connaissances afin que les entreprises puissent
utiliser ces nouveaux modèles et connaissances. Par exemple, les réseaux de neurones
reposent sur un apprentissage non supervisé, par ex. regroupement images dans la
reconnaissance d'images et en détectant des motifs auparavant inconnus.
Pour nous permettre une meilleure compréhension du ML les algorithmes les plus connus et
les plus utilisés à des fins de prédiction sont expliqués ci-après :

• Modèles linéaires : ce sont des modèles utilisés pour prédire un résultat à l'aide d'une
formule simple basé sur un ensemble de points de données. Tout d'abord, la variable à prédire
est identifiée puis les paramètres pertinents sont combinés avec elle dans une formule en
pondérant chacun d'eux. Ces paramètres sont des attributs provenant de la source de données
sur laquelle le modèle est formé. Étant donné que ces les modèles sont très simples et ne
prennent pas de relations complexes (c'est-à-dire non linéaires) , ils ne conviennent pas pour
prédire des résultats complexes.

Page 16
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Le problème avec les modèles linéaires est leur « sur-ajustement » aux données historiques.
Cela signifie lorsqu’ un modèle entraîné trouve une approximation pour prédire un résultat, il
aura par la suite des difficultés à s'adapter à des changements de données.

Quelques exemples de modèles linéaires :


 Régression linéaire : Dans ce modèle, on essaie de prédire la valeur d'un
variable dépendante en analysant l'influence des variables dites exploratrices.
Dans le cas où il n'y a qu'une seule variable exploratrice, il s'agit d'une simple
régression linéaire. S’il y en a plusieurs, le modèle est dit de régression linéaire
multivariée.
 Régression logistique : cet algorithme est fondamentalement le même que la
régression linéaire la seule différence étant le type de variable que l'on essaie de
prédire : c'est un problème de classification ce qui signifie qu'il ne peut prendre
que des valeurs de type booléen soit vrai ou faux.

• Modèle basée sur les arbres de décisions : ces modèles sont utilisés pour visualiser les
règles de décision sous forme d'arbre et de branches. Ils peuvent être appliqués pour prédire
un résultat dans un scénario ou une relation non linéaire.
L'approche dite de « diviser pour mieux régner » est appliquée ici, c'est-à-dire qu'un problème
est divisé en autant d'étapes hiérarchiques séquentiellement jusqu'à ce qu'il peut être résolu.
Les modèles arborescents peuvent être utilisés à la fois pour la classification et la régression.

Quelques exemples de modèles sur les arbres de décisions :

 Arbre de décision : ici, les résultats possibles sont visualisés en les intégrant les
uns après les autres dans un arbre. Le modèle prend des décisions de manière
séquentielle au fur et à mesure de son exécution à travers l'arbre. Lors de la
formation d'un arbre de décision, les données sous-jacentes sont analysées pour
trouver les meilleurs points de branchement ou d’intégration.
 Forêt aléatoire : il s'agit d'une combinaison de plusieurs arbres de décision avec
comme résultat la moyenne de tous les arbres de décision impliqués dans le
modèle. Les arbres du modèle sont entraînés ensemble en même temps avec un
nombre choisi au hasard dans la base de données. Un seul arbre dans la forêt est
moins précis qu'une décision entièrement formée arbre. Cependant, la forêt entière
surpasse un arbre de décision complet, il est donc plus diversifié et repose sur plus
de paramètres et de spécificités.
 Renforcement du Gradient : Ce modèle combine à nouveau plusieurs arbres de
décision avec comme spécificité des arbres sous-jacents entraînés les uns après les
autres. En raison de ceci, l'arbre en cours d'apprentissage peut se concentrer sur
des données qui lui sont fournies si elles sont incohérentes ou des faux résultats
Page 17
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
des arbres précédents. Cette approche permet le renforcement du gradient pour
prédire les résultats difficiles il sert à l’analyse des modèles complexes.

 Réseaux de neurones : Un réseau de neurones est un concept de la sphère de l'IA.


En fait, ils sont en fait appelés réseaux de neurones artificiels car ils essaient
d'imiter le comportement d'un cerveau humain. En biologie, les neurones
s'envoient des messages (influx nerveux) par le biais d'un réseau, formant soi-
disant un réseau de neurones, qui sont les fondements d’un cerveau humain. Les
réseaux de neurones nécessitent une grande quantité de puissance et de ressources
informatiques pour les former, mais conviennent pour résoudre certains des
problèmes les plus complexes en ML y compris ceux basés sur l'analyse de gros
volumes de données et non structurés. Cela peut être la reconnaissance d'images
ou le traitement du langage naturel. L'apprentissage en profondeur (Deep
Learning), un autre terme populaire en ce moment, utilise des réseaux de neurones
pour former ses modèles. En réalité, Deep Learning combine simplement plusieurs
couches de réseaux de neurones suivant le paradigme que plus il y a de couches,
plus les problèmes complexes peuvent être résolus.

1.6. D’autres Aspects Importants du Big Data

Après avoir parlé des Big Data et du ML, nous aimerions dans cette partie revenir sur
quelques termes qui reviennent souvent lorsqu’on parle de Big DATA.

1.6.1. Les bases de données NoSQL 


Cette appellation Not-Only-SQL vient pour distinguer ces types de bases de données
en opposition aux bases de données relationnelles classiques SQL. La particularité de ces
nouvelles bases de données vient des types de données manipulées (données semi-structurées
et non structurées), volume et vélocité des données. Selon une définition par le National
Institute for Standards and Technologies, NoSQL décrit des modèles de données qui « ne
suivent pas l'algèbre relationnelle pour le stockage et la manipulation des données ». Ça
signifie que les modèles de données dans les bases de données NoSQL sont non relationnels
et souvent sans schéma [4]. Les bases de données NoSQL sont conçues donc pour traiter les
aspects suivants dans les Systèmes de Big Data : évolutivité, tolérance de partition et hautes
performances. Le premier couvre capacités à gérer de gros volumes de données évolutifs. La
tolérance de partition fait référence à la capacité de récupération après une panne sans perte de
données tandis que les hautes performances garantissent une haute disponibilité pour les
applications nécessitant une faible latence et une vitesse élevée. Les systèmes de base de
données NoSQL fonctionnent donc répartis sur un grand nombre de machines afin que toutes
ces exigences puissent être satisfaites.
De plus, la cohérence est un paramètre très important lorsque l’on parle de bases de
données. Cependant même si certaines bases de données NoSQL proposent des propriétés
« ACID », la plupart du temps elles n'offrent que de faibles garanties de cohérence comme la
mention : « Eventually Consistent » et ceci du fait de l’esprit de leur conception. Pour

Page 18
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
résumer, les bases de données NoSQL peuvent être classées grossièrement en quatre
catégories :
• Basé sur des colonnes : Sur ce type de base les données sont stockées dans des colonnes, ce
qui permet d'effectuer une lecture et des opérations de recherche rapide par rapport aux bases
de données relationnelles où les données sont stockées en tuples.On peut citer comme
exemples :BigTable de Google, HBase et Apache Cassandra. L'un des systèmes les plus
récents ici est Apache Kudu qui combine les avantages de HBase et HDFS en prenant en
charge à la fois les mises à jour dynamiques des données et les analyses rapides directement
sans avoir besoin de cadres analytiques supplémentaires.
• Key-Value-Store : ici, les données sont stockées dans des paires clé-valeur avec les valeurs
récupérables par leur clé. Il est possible de stocker des données structurées et non structurées
en utilisant un magasin clé-valeur. En exemple on pourrait citer le Dynamo d'Amazon ou la
Base de données Oracle NoSQL.
• Bases de données graphiques : elles sont utilisées pour décrire les relations entre les
éléments de données à l'aide de graphiques. Les éléments sont modélisés comme des nœuds et
les relations comme des liens entre les nœuds, chacun d'eux ayant certaines propriétés. De
telles bases de données sont très utiles pour l'analyse dans les réseaux sociaux ou la détection
de fraude. Des exemples de bases de ce type sont : Neo4J ou OrientDB.
• Bases de données de documents : il s'agit d'une forme de magasin clé-valeur où les
données sont constituées de documents uniques. Ils sont sans schéma afin que des attributs
puissent être ajoutés à n'importe quel domaine nécessaire permettant ainsi une grande
flexibilité par rapport aux bases de données relationnelles. Les exemples sont MongoDB,
CouchDB et IBMNotes.
Dans certains cas, au lieu de stocker des données dans des bases de données, il est également
possible de les mettre dans un système de fichiers. Souvent, le système de fichiers distribué
Hadoop (HDFS) est utilisé à cette fin.
Cela permet de stocker facilement de grandes quantités de données dans des fichiers car
HDFS a été conçu pour stockage de masse. Il suit le principe de lecture unique, ce qui signifie
que les données ne peuvent pas être mis à jour ultérieurement mais permet l'analyse
directement sur les données dans HDFS.

1.6.2 Cadres de traitement des données (Processing Data


Framework):
Afin d'avoir un aperçu des données collectées, il faudrait les traiter en les appliquant
quelques modèles analytiques. Le traitement signifie analyser les données avec un modèle
pour y détecter des tendances ou des structures. Cela nécessite l'utilisation d'un cadre de
traitement (Data Processing Framework) qui a un soi-disant moteur de base sur lequel des
algorithmes de traitement peuvent s'exécuter. Il existe de nombreux frameworks, cependant
ils peuvent être classés grosso modo en deux catégories :
Et ceci en analysant la manière dont ils traitent les données, il existe des frameworks orientés
batch et d’autres orientés streaming tandis que certains offrent les deux, par ex. Apache
Spark.

Page 19
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Les frameworks orientés batch sont conçus pour traiter une énorme quantité de données
persistantes, par ex. historique enregistrements. Ainsi, les moyennes, totaux et autres scores
peuvent être facilement calculés même lorsque qu’un énorme ensemble de données est géré
par le framework. Cependant, c’est un traitement assez lent et ne convient donc pas aux
applications en temps réel nécessitant une vitesse élevée. L'exemple le plus connu pour un
traitement par lots(batch) framework est Apache Hadoop et est utilisé par de nombreuses
entreprises travaillant avec Big Données. Ses principales composantes sont HDFS, YARN et
MapReduce.
HDFS est le système de fichiers où les données sources pour le traitement sont stockées, elle
veille à ce que les données soient toujours disponibles même en cas d’indisponibilité du
serveur. YARN (Yet Another Resource Negotiator) est un gestionnaire de ressources qui
permet l’éxécution de beaucoup de taches sans l’intervention de Hadoop,en coordonant la
disponibilité des ressources.
MapReduce : développé par google ,il est un algorithme au cœur d’Hadoop, il est
responsable de l’exécution, le traitement lui-même en extrayant les données de HDFS, en les
divisant et en les distribuant entre les machines, en effectuant des calculs et avant de combiner
les résultats et de les d'écrire dans la composante HDFS [9]. Cependant, MapReduce est de
plus en plus considéré comme obsolète avec de nouvelles algorithmes disponibles pour le
traitement des données. En 2015, Cloudera, l'un des plus grands fournisseurs de services
orientés Big Data a décidé de remplacer MapReduce d'Hadoop par Apache Spark. Les raisons
en sont que MapReduce est à la fois difficile à mettre en œuvre et à maintenir, en plus non
adapté aux applications demandant de l’instantanéité car il est trop lent [10].
Les frameworks de streaming (par flux) quant à eux traitent les données directement dès
qu'elles entrent dans l’application Big Data.
Cela signifie que les modèles ne sont pas appliqués à un ensemble de données mais à des
éléments de données uniques lorsqu'ils entrent le système. Dans le traitement par flux, il n'y a
pas de jeu de données complet ; il n'y a que les données disponibles jusque-là. Contrairement
aux frameworks batch, les frameworks de streaming ne conservent que très peu
d'enregistrements sur l'état des éléments de données. L'état comprend des informations sur les
résultats de calcul intermédiaires ou précédents valeurs d'une donnée. Bien que ces
frameworks puissent traiter de grandes quantités de données, ils ne peuvent s'occuper que de
quelques éléments de données à la fois. Étant donné que les frameworks de traitement de flux
excellent en termes de faible latence, ils sont parfaitement adaptés aux applications de
vélocité nécessitant un traitement des données très rapide. Un exemple d'un tel cadre serait
Apache Storm, ses capacités de traitement reposent sur des graphes acycliques appelés
topologies. Chaque élément de données entrant passera par ces topologies où les étapes de
traitement lui seront appliqué. Ces étapes de traitement sont pour la plupart des opérations
simples qui, combinées forme une topologie. Une topologie est constituée de flux, de becs et
de boulons. Un bec est un flux de données qui entre dans Storm au bord d'une topologie, par
ex. via une API ou une file d'attente. Un boulon est une étape de traitement qui extrait des
éléments de données et exécute des opérations sur eux après l'envoi les résultats du traitement
sous forme de flux. Apache Storm garantit que chaque élément de données passant à travers
elle sera traitée au moins une fois ce qui en cas de pannes peut conduire à plusieurs
traitements (doublons). Afin de contourner cela, Trident, une abstraction de haut niveau

Page 20
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
d’Apache Storm est disponible. Cependant bien que Trident résout le problème, il augmente
également la latence et utilise le micro-lot au lieu du direct traitement des flux. Outre Storm,
Apache Samza est un framework qui peut être utilisé pour le traitement en flux [9, 11].
L'un des frameworks de traitement de données les plus connus pour le streaming est Apache
Spark. Cependant, il est en fait conçu pour le traitement par micro-lot plutôt que pour le
traitement d'un seul élément dans des flux tels que Spark Apache. Le « micro-batching » est
un mélange de traitement par lots et par flux où les petits les lots sont traités très rapidement
en conservant les états des éléments de données. L'objectif principal de Spark est d'améliorer
la vitesse du traitement par lots en utilisant la RAM des ressources informatiques disponibles.
Cela signifie que la persistance la couche de stockage n'est accessible que pour le chargement
des données dans Spark et l’envoi des résultats de calculs. Ainsi Spark est capable de
surpasser Hadoop en multipliant par 100 fois sa vitesse lorsqu'il est exécuté en
mémoire(RAM) [12]. Tout comme Storm, il utilise des graphes acycliques pour définir les
opérations à effectuer sur les éléments de données ainsi que sur les données mêmes. Comme
Spark était initialement conçu pour améliorer le traitement par lots, il existe un composant
nommé Spark Streaming qui est responsable du "vrai" traitement du flux. Il s'agit
essentiellement d'un pipeline de streaming qui utilise l'approche par micro-batching(micro –
dosage). Le principe général derrière Spark Streaming est le fractionnement en petits flux des
éléments de données qui sont ensuite traités comme de très petits lots. Grâce à son intégration
avec Spark SQL et MLlib8, Spark Streaming peut traiter les données de flux de diverses
sources et les appliquant des algorithmes de ML. L'essentiel à propos de Spark est qu'il est
capable de prend en charge à la fois le streaming et le traitement par lots(batch), ce qui permet
l’utilisation d’un seul Framework. Les jobs Spark sont beaucoup plus faciles à écrire que les
jobs MapReduce mais aussi beaucoup plus rapide avec l’utilisation de la RAM. Cependant
comme la RAM est plus chère que le Disque Dur, les couts OPEX Spark sont plus
exorbitants ;. Un autre exemple de framework qui permet le traitement par lots ainsi que par
flux est aussi Apache Flink [9, 11, 12].

1.6.3. Cycle de vie des données 


Un autre aspect important lorsqu'il s'agit de stocker des données dans un Le contexte
Big Data est le cycle de vie des données. Dans les applications traditionnelles (non orienté
Big Data) le cycle de vie des données est : les données sont d'abord acheminées via un
processus d’extraction, de transformation et de chargement (ETL) et nettoyés avant d'être
stockés de manière persistante dans un entrepôt de données approprié. Au lieu de cela,
lorsqu'il s'agit de gros volumes de données, les données doivent être stockées dans leur état
brut avec le nettoyage, la transformation et l'agrégation étant appliqués au moment où les
données sont réellement extraites pour analyse. Cette approche est appelée schéma-on-read.
Dans d'autres systèmes, qui nécessitent très hautes performances (applications de vitesse) les
données sont directement nettoyées, transformées et agrégées dès qu'elles arrivent sur un
pipeline et intégrées directement dans les composants d'analyse. Les données ne sont stockées
de manière persistante qu'après traitement, ce qui permet de hautes performances. Étant donné
que la gestion des identités et des accès (I&AM) est un sujet très important lorsqu'il s'agit de
confidentialité des données, l'étiquetage des données avec les attributs d'accès respectifs dès
leur collecte peut être requis pour des raisons de conformité. Cela garantit qu'aucune personne

Page 21
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
non autorisée ne peut accéder potentiellement à des données sensibles comme par ex.
Informations d’identification ou des données de santé [14].

1.6.4. Analyse de texte  (Text Analytics)


L'analyse de texte décrit un ensemble d'algorithmes et de concepts pour l'extraction de
données avec comme sources un grand nombre de textes. Dans la plupart des cas, ces textes
sont des fichiers texte et peuvent être classés dans la catégorie des données semi-structurées,
avec quelques soi-disant métadonnées sur le fichier comme :(auteur, date, sujet, etc.) ce qui
facilitent la catégorisation des textes. Le contenu du texte fichier n'est pas structuré. Les
fichiers texte sont souvent disponibles en grande quantité dans sociétés issues de rapports, de
communications clients, des comptes rendu de réunions, des procédures etc... Le but de
l’analyse de ces fichiers est d’obtenir de nouvelles informations à partir de ces sources en
rendant le contenu du fichier texte non structuré à structuré afin de pouvoir l'analyser [15].
Cependant, l'analyse de texte à elle seule ne fournit aucune valeur ajoutée : la valeur ne peut
être obtenu qu'en intégrant les nouvelles connaissances dans un processus de décision, par
exemple un SID (Système d’Information Décisionnel) ou un autre système de type Big Data.
L'analyse des textes fait focus sur la segmentation des textes : les lettres et les signes de
ponctuation au niveau des phrases et des paragraphes. Développer une structure au sein des
textes nécessite l'utilisation de ressources sémantiques comme les taxonomies, thesaurus et
dictionnaire, qui fournissent les données utilisées pour former un système d'analyse de texte.
Selon l'objectif du système, il peut également être entraîné avec des fichiers texte qu'il
analysera plus tard dans l'avenir, par exemple les réclamations clients ou les remarques d'un
médecin sur une attestation. En outre des techniques d'analyse des textes sont souvent
combinés avec les algorithmes provenant du domaine de ML [16]. Les termes Text analytics
et Text mining sont souvent utilisés synonyme, mais en fait, malgré quelques
chevauchements, le Text mining concerne plutôt les algorithmes utilisé pour analyser les
documents. Text-analytics couvre bien plus, par ex. extraire et prétraiter les documents texte
mais aussi visualiser les résultats. Ainsi, le Text-Mining(l’exploration des textes)peut être
considéré uniquement comme une partie de l'ensemble du processus de Text-
Analytics(analyse de texte) [16].
L'analyse de texte peut être utilisée dans divers scénarios. Outre la catégorisation et le
regroupement de fichiers texte il est également possible d'extraire les principaux concepts d'un
texte et de le résumer en analysant ses teneurs. Grâce à cela, des entités comme des clients,
des produits, des activités ou toute autre information qui peuvent être transformés en données
pourront être analysés et extraits d'un texte. Analyse de texte est également la base de
l'analyse des sentiments, cependant, cela nécessite des algorithmes un peu plus complexes.

1.6.5. Analyse des sentiments (Sentiment Analysis) 

Souvent considérée comme un sous-domaine de l'analyse de texte, l'analyse des


sentiments a pour objectif de déduire le sentiment ou l'attitude d’une personne à partir d’un
texte ou un discours parlé. Ce dernier est rendu possible en convertissant la voix en données
textuelles. Les classifications simples peuvent contenir des catégories pour décrire des états
comme par exemple positif, neutre ou négatif. Les plus complexes ont plus étapes, par ex. une
échelle de nombres de 1 à 10 ou un ensemble de types de classification créés selon nos

Page 22
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
propres critères. Le plus d'étapes il y aura dans une classification, plus il deviendra difficile
d'entraîner les modèles, cependant plus précise sera l'analyse des sentiments. Tout comme
l'analyse de texte, l'analyse des sentiments applique des algorithmes et des concepts de ML
issus de la linguistique informatique pour analyser les données. Cette méthode d’analyse peut
être utilisé à de nombreuses fins au sein d'une entreprise, par exemple pour suivre l'attitude
envers un produit, un service ou la perception de l’entreprise dans les médias sociaux et réagir
respectivement si nécessaire. Cela peut être particulièrement important pour l'analyse des
clients puisque 90 % des clients comptent sur les avis des clients contre seulement 14% se
fiant à la publicité lors de l'achat d'un nouveau produit. Dans un service de support client, il
peut être utilisé pour hiérarchiser les tâches : Si un client est déjà scandaleux alors sa demande
sera traitée avec la plus haute priorité afin de ne pas perdre le consommateur. Dans un autre
exemple, les recherches de la Penn University ont utilisé l'analyse des sentiments sur la base
des données de Twitter pour examiner l'attitude envers les vaccins nouvellement introduits.

Page 23
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
CHAPITRE 2 : Les Smart-Grids

2.1. Concept 
Le réseau intelligent est un système d'alimentation intégré à une couche d'informations
qui permet de communication bidirectionnelle entre les contrôleurs centraux et les actionneurs
locaux ainsi que des unités logistiques pour répondre numériquement à des situations
d'urgence d'éléments physiques (Zhang et al. Informatique de l'énergie (2018)). L'UE défini le
réseau intelligent comme des réseaux électriques pouvant intégrer les actions de tous les
utilisateurs qui y sont connectés de manière intelligente. Ces parties de prenantes des réseaux
sont les producteurs, les consommateurs et ceux qui font les deux afin de fournir de manière
efficiente et efficace de l’électricité de qualité à un cout compétitif (SmartGrids European
Tech, 2010).
Dans les systèmes électriques traditionnels le choix de l’investissement tendait plutôt dans de
grande centrales électriques (souvent à vapeur) avec un flux unidirectionnel, ce qui rendait le
contrôle moins efficace. Face aux défis de stratégies de contrôle et de protection de plus en
plus complexes, les réseaux électriques sont censés évoluer avec l’aide de l’informatique et
les télécommunications. Ceci pour pallier au coût de coupures de courant et de de
perturbations de la distribution électrique estimé en milliards de dollars par an (exécutif
Cabinet du Président, 2013). Normalement, le réseau intelligent peut être évalué avec un
modèle d'architecture de réseau intelligent (SGAM), qui est un cadre tridimensionnel qui
fusionne des domaines, des zones et des couches ensemble. Les structures conventionnelles
du système électrique peuvent être trouvée dans les domaines tels que la production, la
transmission, distribution. Les zones qui présentent l'agencement de la gestion du système
électrique sont composées de marché, entreprise, opération, station, champ et processus
industriel. En plus des deux premières dimensions, la mise en page des couches
d'interopérabilité comprend la communication et l’information SGAM(Smart Grid
Architecture Model) en tant qu'aperçu architectural peut être utilisé pour trouver les limites et
les points communs des normes de réseau intelligent existantes (CEN-CENELEC-ETSI Smart
Grid Architecture de référence du groupe de travail, 2012).

2.2. Tentatives de définitions des Smart-Grid


Il est difficile de donner une définition arrêtée des smart grids (Peréz-Arriaga, 2010) :
une multitude de définitions viennent chacune apporter un élément de réponse spécifique. Il
est néanmoins possible de définir les smart grids comme des réseaux électriques capables
d’intégrer de manière intelligente et en temps réel l’ensemble des acteurs présents sur la
chaîne électrique, soit : les producteurs, les opérateurs réseau, les consommateurs et les
fournisseurs de services énergétiques. Les smart grids peuvent à la fois renforcer l’efficacité
des marchés et de l’exploitation des réseaux, tout en intégrant les contraintes physiques
d’exploitation, de croissance de la demande, de flexibilité accrue de la production et les
préoccupations environnementales. Comme souligné par Clastres (2011), deux grandes
approches des smart grids peuvent être identifiées pour définir cette technologie.

Page 24
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
L’approche américaine est davantage centrée sur le développement des smart grids
pour renforcer la sécurité de fourniture et l’efficacité des réseaux. Les pilotes mis en oeuvre
en Ontario, dans le Maryland, le Massachussetts, en Floride, à New York, en Caroline du
Nord ou encore en Illinois, affichent tous en tête de leurs objectifs l’amélioration de
l’efficacité et de la sécurité de fourniture ainsi que la réduction des pertes économiques
associées aux activités de transport et distribution via la rénovation des réseaux. Certains Etats
comme la Californie complètent cette dimension de rénovation par d’importants efforts pour
contraindre les effets de pointe et assurer la fiabilité des systèmes.
L’approche européenne diffère substantiellement de l’approche américaine pour la
raison principale que les réseaux y sont en meilleur état, davantage maillés et les opérateurs
en plus petit nombre et donc plus faciles à contrôler. Elle tend alors à se concentrer davantage
sur l’intégration de l’ensemble des acteurs de la chaîne électrique, c'est-à-dire les acteurs
classiques centralisés mais aussi décentralisés (consommateurs, opérateurs d’unités
décentralisées de production et de stockage) ; cela afin de répondre au double objectif de
développement d’un marché intégré et de transition bas carbone. La différence la plus notable
avec l’approche nord-américaine est que l’on retrouve dans beaucoup de projets européens
l’objectif explicite d’intégration des énergies intermittentes et de développement de la
production décentralisée. Plusieurs projets allemands ou danois en site rural ou urbain
développent activement ces modes de production. De manière générale, les définitions
employées pour désigner la technologie smart grids vont varier en fonction des politiques et
des industries, mais elles se rejoignent sur l’utilisation élargie de technologies digitales,
moyens de communication et systèmes de contrôle à distance appliqués tant aux réseaux
électriques basse tension qu’auprès des sites de consommation avec équipements de comptage
intelligent. Selon l’endroit où les compteurs sont implantés (zone rurale, urbaine, accès à
l’internet etc.), les opérateurs ont le choix d’utiliser les infrastructures de télécommunication
déjà disponibles. Le lien entre infrastructures de communication et le système de comptage
intelligent permet le transfert des données de comptage entre le compteur et les acteurs
autorisés du marché (les fournisseurs ou prestataires de services énergétiques indépendants).
Un compteur intelligent est un équipement de comptage installé chez le consommateur
et capable de mesurer en temps réel l’électricité qui y est consommée. Le compteur intelligent
est aussi capable de collecter d’autres données (émissions de CO2, qualité de l’électricité
etc…) et d’assurer une communication bidirectionnelle avec le GRD ou le tiers autorisé
(Papermans, 2014). Ces technologies sont employées dans une optique de modernisation des
réseaux électriques et au-delà, gaziers, de chaleur ou encore d’eau. L’objet smart grids est
ainsi protéiforme et répond en cela à une logique de recherche de bénéfices ou d’avantages
spécifiques. Kranz et Picot (2011) reprennent douze définitions des smart grids provenant de
diverses institutions et concluent qu’ils peuvent être abordés sous deux grandes approches.
Selon l’approche des composantes techniques ou selon l’approche des fonctionnalités
mobilisées. La première approche renvoie aux problématiques de conception de la
technologie où les TIC sont appliquées à l’activation des réseaux et des consommateurs.
Ainsi, d’un point de vue technique, les smart grids sont composés de plusieurs couches qui
intègrent chacune diverses technologies et systèmes provenant des champs de la
communication, de l’information et de l’énergie. Les équipements avancés de communication
constituent la colonne vertébrale des smart grids. C’est à partir de ces équipements que les
Page 25
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
divers acteurs peuvent être intégrés et que les informations peuvent être collectées de manière
dynamique. On peut aussi représenter l’architecture des réseaux intelligents par l’ajout de
technologies TIC aux infrastructures électriques (Figure 2). Les opérateurs de réseaux de
transport et les producteurs sont depuis longtemps équipés de réseaux de communication
locaux (LAN pour Local Area Network) et à grande distance (WAN pour Wide Area
Network). Ces réseaux permettent la communication et la collecte de données de production et
de transit sur les lignes jusqu’aux réseaux de distribution.
L’émergence des smart grids étend la couche communication à l’aval de la chaîne
électrique pour inclure la couverture des réseaux de distribution via l’infrastructure avancée
de comptage (AMI pour Advanced Metering Infrastructure) et la couverture des sites de détail
de consommation à travers le réseau domestique de communication (HAN pour Home Area
Network). L’intégration des systèmes SCADA (Supervisory Control and Data Acquisition)
est nécessaire pour l’automatisation des réseaux de distribution. Ces systèmes collectent et
reportent les niveaux de voltage et autres données de flux, les niveaux de charge, l’état des
équipements etc. Ils permettent aux opérateurs de déclencher certaines fonctionnalités
techniques à distance et contribuent largement à la fois à la gestion plus performante des actifs
et à un acheminement de qualité de l’énergie.

Figure 2  :Chaine de production Electrique des Centrales au Consommateurs

2.3. Quelques Apports des Smart Grid

2.3.1. Maîtrise de la demande et les consommateurs actifs

Les systèmes de comptage : apparition des compteurs communicants (Linky et


Gaspard pour les systèmes gaz, Woyofal), de l’infrastructure de communication
(satellite, courants porteurs en ligne (CPL), Wifi longue portée (fibre optique), radio
fréquence et du système d’information.
Les équipements de gestion de l’énergie : situés à l’aval du compteur allant des
simples afficheurs jusqu’aux gestionnaires d’énergie contrôlant une partie des usages,
en passant par les contrôleurs situés sur les équipements électriques (chauffage,
climatisation, VMC, luminaires). Dans le domaine tertiaire et industriel, la gestion des

Page 26
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
équipements est couramment faite à l’aide de la Domotique dont l’exploitation peut
être améliorée grâce aux nouveaux équipements et algorithmes de contrôle.

2.3.2. Optimisation des réseaux de distribution et de


transport

les grands équipements de réseau : généralement associés à de nouveaux types de


câbles, tels les câbles souterrains de forte puissance ou les conducteurs à faible
dilatation. Ils sont constitués d’ouvrages à base d’électronique de puissance (tels les
liaisons et réseaux à courant continu également appelées technologies « supergrids »)
et d’équipements de gestion des flux (dénommés FACTS pour Flexible Alternative
Current Transmission System).
les systèmes Smart Grids associés afin d’automatiser plus massivement les réseaux :
les capteurs DLR (Dynamic Line Rating) pour maximiser les flux dans les ouvrages
en fonction des conditions météorologiques réelles, les capteurs WAMS (Wide Area
Measurement System) synchronisés à l’échelle européenne pour le contrôle
automatique du réseau (détection automatique des incidents, fonctions
d’autocicatrisation).

2.3.3. Insertion massive de production renouvelable


Les centrales solaire, éolienne production, permettent d’optimiser la gestion d’un parc
de production par le biais d’un centre de commande pouvant actionner à distance les moyens
de production, d’effacement, et de stockage dans son périmètre. Ces centrales peuvent être
utilisées pour optimiser les coûts énergétiques de manière dynamique, en réagissant aux
variations des prix de marché, ou pour contribuer à l’équilibre offre/demande du système
électrique

2.3.4. Stockage de l’énergie


Le développement de solutions de stockage, encore onéreux. En France une étude technico-
économique éditée en 2014 a permis d’évaluer le potentiel de marché du stockage d’énergie
électrique et thermique et des modèles d’affaire associés. Étude co-financée par l’ADEME, la
DGCIS et des industriels regroupés au sein du Club Stockage de l’ATEE. Parmi les solutions
de stockage, sont citées : les Station de Transfert d’Energie par Pompage (STEP), le stockage
par air comprimé (CAES), les volants d’inertie et super capacités, les batteries et
condensateurs, les piles à hydrogène, le stockage chaud et froid.
Vers l’îlotage et les micro-réseaux : le développement de micro-réseaux est tiré par le besoin
de protéger des infrastructures critiques des défaillances éventuelles ou répétées des réseaux
électriques. Les technologies d’îlotage permettent alors le fonctionnement isolé et temporaires
de réseaux électriques, en combinant les productions d’électricité distribuée (solaire
photovoltaïque, éolienne, etc) et les systèmes de pilotage de consommations et de stockage
d’énergie.

Page 27
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
PARTIE 2 : Gestion de la
distribution électrique à ce jour au
niveau de nos réseaux électriques

Page 28
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
CHAPITRE 3 : Notions générale sur
les réseaux électriques

3.1. Structure générale d’un réseau électrique


La fonction générale d’un réseau électrique est d’acheminer l’énergie électrique des centres
de production jusque chez les consommateurs et, l’électricité n’étant pas stockable en grande
quantité, d’assurer à tout instant l’équilibre production-consommation.
Le réseau électrique est structuré en plusieurs niveaux comme le montre la Figure 3,
assurant des fonctions spécifiques propres, et caractérises par des tensions adaptées à ces
fonctions.

Figure 3 :Structure d’un réseau éléctrique de Transport et de Distribution

Les réseaux de transport et de répartition HTB – Haute Tension B (tension supérieure a 50


kV), dont le role est de transporter l’énergie électrique des centres de production vers les
régions consommatrices. Ces réseaux réalisent la mise en commun de l’ensemble des moyens
de production pour le mettre à disposition de tous les consommateurs. Les réseaux de
distribution sont les réseaux d’alimentation de l’ensemble de la clientèle, a l’exception de
Page 29
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
quelques gros clients industriels alimentés directement par les réseaux de transport ou de
répartition. On distingue trois sous-niveaux :
 les réseaux HTA – Haute Tension A, avec une tension comprise entre 1 kV et 50
kV ;
 les réseaux BTB – Basse Tension B, avec une tension comprise entre 500 V et 1
kV ;
 les réseaux BTA – Basse Tension A, avec une tension comprise entre 50 V et
500 V.

3.2.Réseau de transport et répartition


Le réseau de transport mutualise les différents centres de production existants
(centrales nucléaires, thermiques et hydrauliques) et il a une architecture bouclée et maillée.
Le grand réseau de transport est né de la localisation des sources d’électricité éloignées des
centres de consommation (comme l’hydroélectricité). Le transport de grandes quantités
d’énergie a rapidement impose la mise en place d’un réseau haute tension a 400 kV pour
limiter les pertes Joules dans les lignes. L’interconnexion des réseaux sur tout le territoire a
permis de consommer l’énergie là ou l’on ne la produit pas. De plus, la mutualisation des
moyens de production donne une souplesse accrue pour assurer l’équilibre production-
consommation. Etant donné que les réseaux de distribution ne sont pas prévus, a l’origine,
pour fonctionner sans l’alimentation du réseau de transport, une panne généralisée au niveau
d’une zone du réseau de transport entraine une coupure d’électricité pour tous les
consommateurs de cette zone. Le réseau de transport a donc une mission très importante en
matière de continuité de fonctionnement, c’est la colonne vertébrale du système électrique.
Les conséquences des grands incidents sont très lourdes du point de vue financier et peuvent
être dommageables pour la sécurité des personnes (comme l’absence de chauffage en hiver
par exemple ,ou l’apport de friacheur pendant les périodes de chaleur en Afrique).Le
fonctionnement du réseau de transport doit :
 Respecter les normes concernant la qualité de la tension (amplitude et fréquence)
 Garantir la sécurité du réseau en respectant les contraintes (conduite du réseau
performante) et en réagissant de manière efficace aux grandes perturbations (plans
de défense et procédures de reconstitution du réseau performants).

Page 30
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Figure 4  :Le réseau de transport et de répartition

Parmi les équipements composant les réseaux de transport nous avons :


 Les lignes aériennes triphasées ;
 Les postes de transformation ;
 Les unités de production ;
 Les transformateurs déphaseurs permettant d’adapter l’impédance d’une ligne
afind’augmenter plus ou moins sa capacité de transit;
 Les compensateurs d’énergie réactive permettant d’ajuster les transits de puissance
réactive et de réaliser un meilleur contrôle de la tension du réseau ;
 Le système de protection poste à poste avec des disjoncteurs à chaque extrémité des
lignes assurant la sélectivité sur chaque liaison du réseau ;
 Les charges constituées par les postes HTB/HTA (sous lesquels se développent les
réseaux de distribution).

3.3.Réseau de distribution
Les réseaux de distribution ont pour mission d’acheminer l’énergie des postes de
transformation HTB/HTA, appelés ≪ postes sources ≫, jusqu’’aux consommateurs. La
distribution de l’énergie électrique doit satisfaire des critères de sécurité (des biens et des
personnes), de qualité et de rentabilité.
La conception de la structure du réseau, de ses équipements ainsi que son exploitation
est directement dépendante de ces contraintes. Il faut mentionner aussi que la densité de
charge sur le territoire présente des disparités assez importantes : pour cela, les zones de

Page 31
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
consommation classifiées suivant leur densité (inferieure a 1 MVA/km2 pour les zones à
faible densité et supérieure a 5 MVA/km2 pour les zones à forte densité). L’impact de
l’environnement sur les équipements du reseau est important : les reseaux aeriens sont soumis
a de nombreuses agressions exterieures comme les orages, les temperatures extremes, les
vents violents, les arbres, etc. D’autre part, les réseaux souterrains sont tres couteux du fait
des tranchées. Le choix de l’architecture d’un reseau de distribution fait donc l’objet d’un
compromis entre la rentabilite de l’ouvrage, la qualite de service de celui-ci et d’autres
critères d’ordres plus subjectifs (politiques et environnementaux).
On distingue les reseaux HTA qui, a partir d’un poste HTB/HTA, alimentent les zones
de moyenne consommation d’une puissance superieure a 250 kVA (ce sont soit des charges
HTA de type industriel, soit des postes HTA/BT publics) et les reseaux BT qui, au depart
d’un poste HTA/BT alimentent les clients BT. En France, la structure typique d’un depart
HTA est de type radial exploite en boucle ouverte. La structure radiale impose que chaque
charge n’est alimentee que par un seul chemin (contrairement au reseau HTB maille). Cette
architecture est representee sur la Figure 5, ou nous pouvons distinguer :
Le disjoncteur de tete du depart a reenclenchement automatique : son role est de déclencher
sur les defauts du depart :
 Les lignes triphasees : l’artere principale et les arteres secondaires.
 Les interrupteurs : lors d’une defaillance sur un composant du reseau, ils permettent
d’isoler la partie comportant le composant en defaut pour effectuer la maintenance.
 Plusieurs types d’interrupteurs peuvent etre employes comme les Interrupteurs
 Aeriens a Commande Manuelle (IACM) ou les Interrupteurs Aeriens Telecommandes
(IAT).
 Les Disjoncteurs Réenclencheurs de Réseau (DRR) : places sur des lignes du départ,
ils permettent, lors d’un défaut en aval, d’isoler la partie aval sans que la partie amont
subisse de coupure. Ils sont surtout employés sur les départs HTA urbains pour
ameliorer la continuite de l’énergie distribuée.
 Les secours : composés d’un interrupteur normalement ouvert et d’une ligne raccordée
a un autre depart HTA (du même poste HTB/HTA ou d’un autre), ils servent a
réalimenter des zones du départ non alimentées lors d’opérations de maintenances.
 Les Indicateurs de Passage de Defaut (IPD) ou détecteurs de défaut : places au niveau
des organes de coupure, ils indiquent, lors d’un défaut, le passage ou non d’un courant
de court-circuit. Leur role est d’aider a la localisation du défaut sur le réseau.

Page 32
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Figure 5  :Réseau de Distribution Electrique

Les départs HTA ruraux se caractérisent par une structure avec beaucoup
d’arborescences, du fait de la dispersion des zones de consommation. A l’inverse, les réseaux
urbains ont une structure peu arborescente, voir bouclée. La longueur totale d’un départ HTA
est comprise en moyenne entre 10 km et 40 km (pour des réseaux ruraux).
La topologie des réseaux BT est radiale. Les réseaux BT sont generalement issus de
postes triphases, mais dans de nombreux pays, notamment d’Amerique du Nord, les reseaux
BT sont monophases. Les techniques utilisees sont celles des reseaux aeriens et des reseaux
souterrains. Les schémas des reseaux BT sont très différents selon les exploitations et les
habitudes des distributeurs. On décrit, ci-apres, la structure d’un réseau de type souterrain
(avec coupe-circuit a fusibles HTA). Un réseau BT de type souterrain, représentée sur la
Figure I.4, utilise en zone urbaine, comporte en série, depuis le client (C) jusqu’en amont du
transformateur HTA/BT, les protections suivantes :
 le disjoncteur du client ;
 les coupe-circuit à fusibles AD d’accompagnement de ce disjoncteur ;
 les coupe-circuit à fusibles sectionneurs FC des colonnes d’immeubles;
 les coupe-circuit à fusibles sectionneurs FD des departs BT ;
 les coupe-circuit à fusibles FHTA du transformateur HTA/BT.
Page 33
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
On trouve également, de part et d’autre du transformateur T, des interrupteurs sectionneurs
pour la Basse Tension (IBT) et la Haute Tension A (IHTA). Contrairement au réseau HTA, il
n’y a pas de secours susceptibles de reprendre des zones du réseau lors d’une panne d’un
ouvrage. La longueur totale moyenne d’un depart BT est de l’ordre de 1 km.

Figure 6  :Départ d’un réseau de distribution BT(Basse Tension)

3.4.Comportement des réseaux électriques


A chaque instant, le système electrique est soumis a divers aleas internes du système
comme les variations de la charge, les variations de la capacité de certains moyens de
production ou les pannes de composants et aussi aux agressions externes. Ainsi sont créés des
perturbations qui peuvent dégrader l’état du réseau et mener éventuellement a une interruption
d’alimentation de certaines charges du réseau. Pour assurer la continuité de la fourniture
d’énergie, qui représente l’objectif principal du système électrique, il existe plusieurs etages
de controle pour pouvoir faire face aux aleas decrits precédemment :
Un controle local, assuré par les automatismes du systeme comme :
Les organes de coupure, qui ont le rôle de mettre hors tension les ouvrages susceptibles d’être
endommagés lors d’un incident sur le réseau (protections des equipements) ou de déconnecter
certaines charges dans différentes situations (délestage automatique par exemple).
Les réglages automatiques qui assurent l’ajustement de certaines grandeurs telles

Page 34
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
que la tension et la fréquence. Un controle global, en charge d’appliquer les mesures
nécessaires pour respecter les contraintes du système lors de perturbations importantes et
d’assurer la continuité d’alimentation des charges. Cette gestion centralisée est éffectuée par
des opérateurs qui disposent d’un système performant d’information et de communication
appelé SCADA (Supervisory Control and Data Acquisition) et d’un système d’analyse et
d’aide a la conduite appelé EMS (Energy Management System) [TEC 04]. Ceux-ci permettent
d’une part de connaitre l’état du reseau en temps réel et d’autre part d’agir sur différents
éléments : changements de consignes des générateurs, démarrage d’unités supplémentaires,
manoeuvres d’organes de coupure, réduction ou délestage volontaire de charges, etc. Les
moyens de conduite et les manoeuvres a éffectuer sont différents en fonction du reseau à gérer
: transport, répartition ou distribution.

4.5.Problèmatique liée à la Distribution


Le gestionnaire du réseau de distribution doit fournir le service de transit de
l’électricité sur les réseaux de distribution au meilleur niveau de qualité et au meilleur cout
dans des conditions de securite optimales. Environ 80% a 90% de l’indisponibilite de clients a
comme origine le système de distribution car celui-ci comprend beaucoup plus d’équipements
(environ 1 100 000 km de lignes en France contre 100 000 km pour le transport et la
repartition). En outre, les réseaux de distribution représentent une partie importante du cout
total des infrastructures necessaires à la desserte d’un client. Enfin, les préoccupations liées
aux développements futurs des réseaux de distribution constituent aujourd’hui un enjeu
croissant : la dérégulation du marche d’électricité, la volonté internationale de reduire les
émissions de gaz à effet de serre, le développement des nouvelles technologies, la génération
dispersée, l’intégration dans l’environnement.

Page 35
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
CHAPITRE 4 : Maintenance dans les
réseaux électriques
4.1 Généralités
Les procédures de maintenance sont une partie intégrante de la planification,
construction et exploitation du système. L’objectif des activités de maintenance est de réunir
les demandes de performance, de fiabilité et économiques tout en respectant les contraintes
sur le système et les consommateurs. Plusieurs facteurs sont identifiés comme raison pour
laquelle le système doit être maintenu :
 Un bon niveau de disponibilite (demande par les consommateurs) ;
 Un niveau eleve de securite du personnel ;
 Un vieillissement plus tardif du systeme ;
 Des investissements plus tardifs ;
 Une bonne connaissance du systeme ;
 Une competence élevée du personnel ;
 Une réponse aux changements environnementaux .
Il existe egalement des facteurs qui représentent des problemes dans la maintenance, comme
par exemple :
 la maintenance est un processus a long terme et les conséquences induites par une
maintenance insuffisante ou incorrecte apparaissent jusqu'a 3 a 6 ans plus tard (en fonction du
type de maintenance) ;
 L'absence de méthodes disponibles pour l’évaluation de l'efficacité de la maintenance ;
 Les erreurs humaines se multiplient avec l’augmentation du nombre des maintenances.
Les actions de maintenance sont basées sur la dégradation du composant et sur la probabilité
de défaillance et leurs conséquences. Les défaillances peuvent être groupées en deux
catégories : les défaillances aléatoires et les défaillances qui sont une conséquence de la
détérioration (vieillissement). Les composants qui subissent des défaillances aléatoires sont
normalement traités seulement par une maintenance corrective. Il est important d’établir pour
les différents composants du système, si des actions de maintenance préventive sont à réaliser
ou s’il est préfèrable de laisser la défaillance se produire et éffectuer ensuite la maintenance
corrective.

4.2 Maintenance corrective et préventive


La maintenance corrective est la remise en état ou le remplacement d’un équipement
défaillant. Elle peut être considérée parfois comme une bonne approche. Par exemple, on peut
envisager de ne faire que de la maintenance corrective pour certains équipements, ou groupe
d’équipements, si l’on souhaite concentrer les ressources sur d’autres besoins plus importants.

Page 36
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Nous avons aussi vu précedemment que pour certains équipements, la maintenance
corrective représente la seule option (cas des défaillances aléatoires). La maintenance
préventive est la visite d’un equipement operationnel, son entretien, le remplacement eventuel
de certains de ces éléments, voire de l’équipement lui-même. Le concept de la maintenance
préventive est d’éviter le plus possible les dépenses pour la maintenance corrective et les
autres coûts associés à la défaillance inattendue d’un équipement. Cela veut dire identifier les
causes des défaillances et ainsi, par une maintenance préventive, réduire le taux de défaillance
du composant. Une planification astucieuse des activités de maintenance implique une
maintenance sur les équipements critiques, au bon moment et avec la bonne stratégie. Cela
signifie une maintenance concentrée sur les éléments qui ont un impact significatif sur la
sureté du système et donc réduire les causes dominantes des défaillances.

4.3 Stratégies de Maintenance préventive


La maintenance préventive a pour but de minimiser les risques de défaillances autres
qu’accidentelles. Les politiques de maintenance préventive traditionnelles incluent la
maintenance systématique (time-based maintenance) et la maintenance conditionnelle
(conditionbased maintenance) . La maintenance systématique est effectuée régulièrement à
des intervalles prévus bases sur l’histoire du composant et/ou l’experience du personnel. Cette
politique de maintenance peut être couteuse et ne pas minimiser le cout annuel de
l'équipement. La maintenance conditionnelle détermine periodiquement l'état de deterioration
de l’équipement et se réalise lorsque la condition tombe en dessous de seuils acceptables. La
maintenance conditionnelle est généralement une amélioration par rapport a la maintenance
systématique, mais elle est toujours sous optimale car elle ne considère pas explicitement la
probabilité de défaillance et, plus important encore, ne tient pas compte des conséquences de
la défaillance. Par exemple, deux disjoncteurs identiques avec le même état peuvent recevoir
le même niveau d’entretien, même si un d’entre eux sert des clients alimentés par un seul
chemin, tandis que l’autre sert des clients qui peuvent etre réalimentés par un secours en cas
d’interruption d’alimentation. Une méthode plus avancée par rapport a la maintenance
systématique et conditionnelle est représentée par la Maintenance Basée sur la Fiabilité –
MBF (Reliability Centred Maintenance), une technique qui considère a la fois la probabilité
de défaillance de l’équipement et aussi l’impact de la défaillance sur le système. Cette
méthode a été développée aux Etats-Unis pour l’aviation militaire, puis reprise et adaptée par
les exploitants de centrales nucléaires. C’est en 1990 que, sur la base de la Maintenance Basée
sur la fiabilité, EDF a commence a développer la méthode d’optimisation de la maintenance
par la fiabilité (OMF) pour reviser la maintenance préventive de ses centrales.
La MBF est une manière structurée d’établir des routines de maintenance. Un concept majeur
implique dans ce type d’étude est l’Analyse des Modes de Defaillance et leurs Effets –
AMDE (Failure Mode Effects Analysis – FMEA) qui est utilisee afin d’établir quel est le
niveau de maintenance convenable pour les equipements du systeme. L’objectif de la méthode
est de trouver le meilleur équilibre cout-efficacité entre la maintenance préventive et
corrective.
Aujourd’hui la MBF est une methode assez utilisee mais aussi une methode très
etudiée et en toujours en cours de developpement. Quelques exemples d’utilisation peuvent
être énumérés : la planification de la maintenance dans les centrales hydrauliques en Norvege,
la maintenance de postes electriques (methodologie developpee par ≪ Ontario Hydro
Page 37
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Technologies ≫), determination de la durée de vie restante d'un équipement (études realisees
par ≪ Royal Institute of Technology ≫ en Suède). Une étude très detaillée sur l’application
de la MBF a fait l’objet d’une thèse au ≪ Royal Institute of Technology ≫ en Suède . Les
travaux ont porte sur le developpement d’une méthodologie de MBF qui relie la maintenance
préventive a la performance du système (sureté). Dans la littérature un certain nombre de
publications, se focalisent sur l’optimisation de la maintenance en essayant de trouver le
niveau optimal par rapport a un objectif spécifique, comme par exemple minimiser un indice
d’interruption des clients tout en respectant une contrainte budgétaire.

4.4 Optimisation de la maintenance


préventive
L’objectif de la maintenance est de prolonger la vie des équipements, ou du moins le
temps moyen jusqu’à la prochaine défaillance dont la réparation peut être assez couteuse.
Pour un réseau de puissance il est attendu que des politiques de maintenance éfficaces
diminuent la fréquence d’interruption des clients. La maintenance préventive impacte les
composants et la sureté du système : si on en réalise trop peu, on a beaucoup de défaillances
qui coutent et une diminution des performances du système ; si on en réalise trop souvent, la
sureté est améliorée mais le cout de la maintenance préventive augmente rapidement. Dans un
schéma cout efficacité, les deux approches doivent se trouver en balance.

4.4.1 Classification de l’optimisation de la maintenance


Il existe plusieurs approches pour l’optimisation de la maintenance préventive, en
fonction d’objectifs, de facteurs de décision, de l’horizon de temps, du nombre de
composants. La classification que nous presentons est basée sur :
L’optimisation de la maintenance est normalement réalisée avec un des objectifs
suivants (au sens mathématique du terme) :
 La sureté : maximiser des indices liés a la sureté avec des contraintes données, comme
par exemple des contraintes de coût ;
 Le coût : minimiser le coût de la maintenance avec différentes contraintes, sur la
sureté et/ou des éxigences sur la maintenance ;
 Le coût total : minimiser le coût total (maintenance et interruptions).
En ce qui concerne l’horizon de temps, il existe deux concepts utilisés pour l’optimisation de
la maintenance. La première démarche conduit à des intervalles fixes pendant les
maintenances. Cette approche est normalement appliquée quand le coût n’est pas l’objectif
principal. Lorsque l’on vise des objectifs de coût, et lorsque l’on utilise la valeur actualisée,
les intervalles de maintenance deviennent generalement variables. Les coûts de toutes les
actions et leurs effets sont recalculés à la valeur présente. En fonction des données disponibles
et des aspects d’organisation des activités de maintenance, nous pouvons avoir plusieurs
objectifs (au sens technique du terme). En voici
quelques uns :
 L’intervalle : maintenance optimisée et/ou remplacement et/ou intervalle
d’inspection ;
 La redondance : identifier ou il est le plus rentable (de point de vue sureté) de placer
Page 38
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
des composants redondants ;
 Pièces de rechange : identifier l’allocation et le nombre de pièces de rechange ;
 Adaptative : sur une base de données prélevées pendant le processus de maintenance,
des méthodes peuvent l’ajuster ;
 La main d'oeuvre : identifier comment les effectifs devraient se repartir ;
 L’opportunité : pour des équipements couteux en termes d’interruption ou
difficilement accessibles, une optimisation d’opportunité est necessaire pour décider
ce qu’il faut faire pendant la maintenance.
Le nombre de composants introduits dans les modèles d’optimisation varie. Pour cette
classification, les modèles d’optimisation sont divisés en deux groupes : composant seul et
multi composants. Le modèle d’un seul composant est basé sur un composant générique (par
exemple un générateur). Le modèle multi composants contient des sous-composants du même
système. Une optimisation complète devrait impliquer tous les facteurs mentionnés ci-dessus.
En pratique, la plupart des méthodes d’optimisation de la maintenance impliquent un ou
quelques facteurs même si la solution résultante est du coup sous optimale. Néanmoins, c'est
tout a fait raisonnable puisqu’il est extrêmement difficile de construire un modèle
d’optimisation qui implique tous les facteurs. D’ou il est très important de choisir ce qui
devrait être inclus dans une chaine d'optimisation, afin d'obtenir un résultat qui soit le plus
proche possible du vrai optimum.

4.4.2 Données et Modèles impératifs pour l’optimisation de


la maintenance
Après une décision claire sur l’objectif de l’optimisation, nous devrions être capables de
rassembler toutes les données nécessaires pour la modélisation et la résolution du
problème.Les besoins pour une telle optimisation sont les suivants :
 Une modélisation du réseau électrique et de son fonctionnement est nécessaire afin
d’établir les effets des stratégies potentielles de maintenance sur le système. Ce
modèle est actuellement représenté par la simulation Monte Carlo développée
antérieurement.
 Une modélisation de la détérioration d’état des composants dans le temps et les
conséquences possibles pour le système doit être réalisée.
 Une méthode d’optimisation adaptée est nécessaire pour atteindre l’objectif. Dans la
perspective d’une optimisation de la maintenance des équipements d’un réseau
électrique cela se traduit par :
 Identifier le changement des performances du système avec le changement
individuel du taux de défaillance de chaque composant. Cela peut être identifié
par le changement du coût d’interruption d’énergie des clients.
 Identifier comment les actions de maintenance affectent chaque composant.
Cela peut se refléter dans les coûts de la maintenance corrective et préventive
des composants.
Ceci nous permet donc de faire une transition et poser notre problématique qui se veut plutôt
une alternative des maintenance précédentes,car on le classerait dans la maitenance de type
prédictive.

Page 39
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Page 40
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
PARTIE 3 : Conception d’une
plateforme SID de type Big Data/ML
pour la prédiction des anomalies ou
coupures dans un smart grid.

Page 41
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
CHAPITRE 5: Etude théorique de
notre problématique

5.1.Généralités
Dans cette partie nous allons essayer de poser la problèmatique proprement dite : En
effet ce mémoire se veut une prospection pour des réseaux qui n’éxistent pas de nos jours au
sénégal :les Smart-Grid. Il se veut aussi une anticipation sur les progiciels de GMAO de
demain intégrant les outils Big Data et de Machine Learning. Nous nous sommes alors
proposé de faire l’étude pour savoir à quoi pourrait ressembler une plateforme de prédictions
des pannes,autoréparable dans un réseau électrique de type smart grid. Comme décrit dans la
partie1,chap1 le réseau smart Grid est un réseau qui drainent en son sein une quantité
importante de données comme le montre la figure 7.

Figure 7  :Les variétés de sources de données au niveau des Smart-Grid

Les sources de données sont multiples et leur traitement peuvent renseigner sur un nombre
important d’informations qui permettront aux managers après analyse d’affiner leur stratégie
de gestion de ces réseaux. Dans notre cas nous nous sommes proposé d’axer notre étude sur le
paramètre Tension des réseaux électrique en étudiant différentes anomalies que ce paramètre
pourrait subir et qui dénoterait de l’instabilité du réseau. Ces paramètres seront donc
explicités dans la partie qui suit concernant les hypothèses.

Page 42
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
5.2 Hypothèses et procédés
La démarche de confection de notre propre modèle de données adopté dans cette partie
est motivé par l’indisponibilité de Smart -Grid et la difficulté à recueillir ces données chez le
fournisseur d’électricité au Sénégal,la SENELEC. Ceci nous a donc amené à créer nous
même notre propre modèle de données pour ensuite générer des quantités nous permettant de
simuler ce que l’on pourrait avoir dans le Big Data avec les outils de génération python.Cette
exercie fait, nous pouvons maintenant simuler notre apprentissage avec un algorithme de ML
de notre choix après études comparatives.
En effet ,nous nous sommes proposés de prédire les coupures au niveau du réseau de transport
électrique en nous basant sur la tension électrique. Cette tension est mesurée,dans les smart
grid, par des instruments de mesures intelligents de type AMI et les données récupérées via
une base NoSQL pour ensuite être nettoyées et traitées. Une fois le jeu de données nettoyées
nous allons entrainer le modèle via un algorithme de Machine Learning pour que le réseau
puisse s’auto dépanner en cas de pannes,coupures ou anomalies. Donc comme hypotèses nous
avons  choisi pour faire simple ces différents incidents liés à la tension électrique nominale
qui est de 400V:
Ces trois différents incidents qui impactent la tension électrique sont les suivants :
 Creux de tension:
 Chute >10% de la tension nominale
 De plus de quelques dizaines de ms
 Coupure de tension:
 Tension <5% de la tension nominale
 Coupure brève (CB) entre 1s et 3 min
 Surtension:
 Tension>10% de la tension nominale
 Surtension temporaire(1 à +sieurs secondes)
Dès lors nous avons posé comme postulat:
o que si l’on a une de ses anomalies de tension,la sortie qui se veux être un réseau stable
sera de 0(Zéro),donc un réseau instable .
o et pour le cas contraire c’est à dire que les 3 valeurs(Creux de tension,Coupure de
tension et Surtension) prises en entrées sont inexistantes cela témoigne de la stabilité
du réseau et la sortie vaudra :1(Un).
Pour illustrer nous avons un exemple de jeu de données sur la figure 8 qui suit:

Figure 8  : Exemple de jeu de données

Page 43
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
5.3 Etudes proprement dite du problème
Dès lors d’après la partie précédente( 5.2) nous voyons bien que nous avons affaire à
un problème d’apprentissage supervisé et plus précisément une classification car la valeur de
sortie étant discrête(« Réseau Stable=1 » et « Réseau Instable=0 »).

5.3.1.Apprentissage supervisé  et Problème de Classification


L’apprentissage supervisé est une branche de ML opposé à l’apprentissage Non Supervisé.
Cela consiste à entrainer des modèles avec un jeu de données dont la sortie est connue
d’avance.Elle comporte 2 types de problèmes que sont :La classification et la Régression. On
parlera de classification si les valeurs de la sortie sont discrêtes c’est-à-dire une fonction
TOR(0 ou 1) et de Régression si les valeurs sont continues. Dans notre cas d’espèce on aura
affaire à un cas de Classification,de ce fait il nous faudrait faire une étude comparative des
algorithmes ML traitant les problèmes de classifications.

5.3.2.Quelques exemples d’algorythme de Classification 


 Régression Logistique
La régression logistique est un algorithme de classification d'apprentissage supervisé
utilisé pour prédire la probabilité d'une variable cible. La nature de la variable cible ou
dépendante est dichotomique, ce qui signifie qu'il n'y aurait que deux classes possibles.
En termes simples, la variable dépendante est de nature binaire avec des données codées soit 1
(signifie succès/oui) ou 0 (signifie échec/non).
Mathématiquement, un modèle de régression logistique prédit P(Y=1) en fonction de X. C'est
l'un des algorithmes ML les plus simples qui peuvent être utilisés pour divers problèmes de
classification tels que la détection de spam, la prédiction du diabète, la détection du cancer,
etc.

 Naives Bayes
Les algorithmes Naïves Bayes sont une technique de classification basée sur
l'application du théorème de Bayes avec une hypothèse forte que tous les prédicteurs sont
indépendants les uns des autres. En termes simples, l'hypothèse est que la présence d'une
caractéristique dans une classe est indépendante de la présence de toute autre caractéristique
dans la même classe. Par exemple, un téléphone peut être considéré comme intelligent s'il
dispose d'un écran tactile, d'une connexion Internet, d'un bon appareil photo, etc. Bien que
toutes ces fonctionnalités dépendent les unes des autres, elles contribuent indépendamment à
la probabilité que le téléphone soit un smartphone.

 Machine à vecteur de support(SVM)


Les machines à vecteurs de support (SVM) sont des algorithmes d'apprentissage automatique
supervisés puissants mais flexibles qui sont utilisés à la fois pour la classification et la
régression. Mais généralement, ils sont utilisés dans les problèmes de classification. Dans les
années 1960, les SVM ont été introduites pour la première fois, mais elles ont ensuite été
affinées en 1990. Les SVM ont leur mode de mise en œuvre unique par rapport aux autres
algorithmes d'apprentissage automatique. Dernièrement, ils sont extrêmement populaires en
raison de leur capacité à gérer plusieurs variables continues et catégorielles.

Page 44
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
 RF(Random Forest)
La forêt aléatoire est un algorithme d'apprentissage supervisé qui est utilisé à la fois
pour la classification et la régression. Mais cependant, il est principalement utilisé pour des
problèmes de classification. Comme nous le savons, une forêt est composée d'arbres et plus
d'arbres signifie une forêt plus robuste. De même, l'algorithme de forêt aléatoire crée des
arbres de décision sur des échantillons de données, puis obtient la prédiction de chacun d'eux
et sélectionne finalement la meilleure solution par vote. C'est une méthode d'ensemble qui est
meilleure qu'un arbre de décision unique car elle réduit le sur-ajustement en faisant la
moyenne du résultat.

 Arbre de Décision
En général, l'analyse par arbre de décision est un outil de modélisation prédictive qui
peut être appliqué dans de nombreux domaines. Les arbres de décision peuvent être construits
par une approche algorithmique qui peut diviser l'ensemble de données de différentes
manières en fonction de différentes conditions. Les Arbres de décisions sont les algorithmes
les plus puissants qui entrent dans la catégorie des algorithmes supervisés.

Ils peuvent être utilisés à la fois pour les tâches de classification et de régression. Les deux
entités principales d'un arbre sont les nœuds de décision, où les données sont divisées et les
feuilles, où nous avons obtenu le résultat.

Page 45
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
CHAPITRE 6: Cahier de charge,
spécifications fonctionnelles,
Ressources et Outils
Dans cette partie nous essayerons de formaliser nos objectifs, de définir avec précision les
caractéristiques attendues de notre plateforme. Il servira aussi à identifier les ressources
nécessaires à la réalisation de l’objectif mais aussi les contraintes y afférents.

6.1.Ressources Humaines
Pour réaliser ce projet nous aurons eu besoin dans certains niveaux de l’intervention de
des spécialités telle que:
 D’un ingénieur en gestion des réseaux électriques: pour mieux nous présenter le
fonctionnement de cette gestion. Donc de savoir:
 Quels sonts les problèmes rencontrés?
 Comment certains sont résolus?

 D’un chef de projet: celui qui connait les contours et pourtours du projet, et
essentiellement ses besoins pour atteindre les objectifs de réalisation.
 D’un utilisateur lamda pour tester la solution à la fin de la réalisation de chaque
fonctionnalité.
 Etc….

6.2.Le besoin
Il est question pour nous de réaliser une plateforme SID orienté Big Data/ML qui
permettra l’entrainement d’un jeu de données après son acquisition et prédira l’état de stabilité
du réseau Smart Grid .Ceci pourra aider le réseau de s’autogérer en cas de défaillances de
Tension mais aussi aidera les décideurs quant à leur politique de Gestion des réseaux
électriques intelligents.

6.3.Identification des résultats attendus


Il est question ici de rappeler ici que nous devons réaliser une application BD/ML pour
un smart grid électrique qui permet de faire des prévisions de pannes ou coupures au niveau
d’un réseau de transport électrique.Les utilisateurs de la plateforme seront en mesure de
suivre les comportements du réseau et anticiper sur d’éventuels évêments,cependant le but
ultime est l’entrainement d’un modèle pour que le réseau puisse s’autogérer en cas de pannes
ou coupures électrique. Ceci permettre d’affiner les analyses des décideurs mais aussi une une
amélioration du rendement energetique et de la productivité.
On pourra énumérer quelques fonctionnalités de l’application que sont:

Page 46
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
 Connexion à la plateforme
 CRUD opérations sur les profils par l’administrateur
 CRUD opérations sur les intervenants et interventions
 CRUD opérations sur les sites de productions,transports,distributions
 CRUD opérations sur les appareils de Mesures(AMI)
 Acquisition des données via une BD/MySQL
 Acquisition des données massif via une BD de type Big Data comme MongoDB
 Traitement des données par un algorithme de ML
 Visualisation des résultats des traitements et Statistiques

6.4.Les contraintes du projet


Pour réaliser ce project nous faisons face à plusieurs contraintes qui sont :
 Disponiblité de réseau de type smart Grid
 Accessibilité à la documentation des données pour les réseaux classiques existants
 Accessibilité de la documentation sur ce genre de plateforme qui existent dans les pays
développés car ce sont des solutions payantes

6.5.Ressources nécessaires pour la


réalisation de l’application
Les ressources nécessaires dont nous avons besoin pour réaliser cette application sont de 3
types :
 Les besoin matériels
o Un ordinateur dévelooppement de la plateforme avec comme caractéristique un
procésseur i-core7, un capacité de RAM allant à 16Go, et un Disque dure de
500Go Minimum
o Des Capteurs liés aux éléments d’études pour la récupération des
informations(mais ne sera pas utiliser)
o Elément de transmission des données(cables, box wifi, etc…) pour que les
capteurs puis envoyer les données récupérées à une station d’analyse d’analyse
ou la base de données.
o Plusieurs Machines Serveurs pour faire un cumule d’informations récupérées,
d’analyses faites,etc…
 Les besoin logiciels
o Windows 10 minimun
o Un Environnement de Développement intégré(IDE) de Redaction de code
comme IntelliJ, vsCode,Eclipse etc…
o Un serveur de base de données Sql(Mysql, etc…) pour l’application de
connexion ou un simulateur genre XAMPP,WAMPP
o Un serveur de base de données NoSql(MongoDB, Redis, etc…)(Non utilisé)
o Le FrameWork Spring Boot pour réaliser la partie BackEnd(moteur de
fonctionnalités de l’application)

Page 47
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
o Le frameWork Angular pour réaliser la partie frontend(interface visible par
l’utilisateur) de notre projet.
o Un Site de Génération des données smart grid pour réaliser notre application
pour ne pas à être stopper par les contraintes budgetaire et autres
 Les besoins en ressource humaines
o Un developpeur backEnd
o Un développeur FrontEnd
o Un ingénieur en Gestion des distributions énergetique pour les tests de la
plateforme
o Un ou plusieurs ingénieurs en réseau système pour gérer la partie
communication de nos capteurs avec notre station d’analyse(qu’on utilisera pas
ici ).

6.6.Delais de Réalisation
Il convient pour nous de préciser que pour cette réalisation nous allons écarter les
ressources physiques et certaines ressources humaines. Nous allons remplacer ressource
physique par le site de génération des données smart grid donc par conséquent nous n’aurons
plus besoin des ingenieurs en réseaux système et consort.
Nous présentons nos delais de nos taches à travers le tableau en image ci-dessous

Figure 9: Calendrier de réalisation de l'application

Page 48
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
CHAPITRE 7: MCD & MLD, Intégration
des outils BD/ML, Génération des
jeux de Données et Simulation

7.1 Story Board


Le story Board décrit comment est structuré notre application: Nous prévoyons une
plateforme connectée via 2 APIs par 2 base de donneés,l’une simple de types MySql et l’autre
de type Big Data de type NoSql. Nous allons essayer d’expliquer les étapes de ce story Board
illustré par la figure du scénario de fonctionnement.

Figure 10:scénario de fonctionnement de notre application

1. L’utilisateur aura une page d’accueil de connexion ou il pourra s’identifier avec


username et password
2. A l’ouverture il aura accés au différentes foncionnalités de l’application selon son
profil
CRUD opérations sur les profils par l’administrateur
CRUD opérations sur les intervenants et les interventions
CRUD opérations sur les sites de production,transport,distribution
CRUD pour les appareils de mesures
Acquisition des données via une BD/MySQL
Acquisition des données massif via une BD de type Big Data comme
MongoDB
Traitement des données par un algorithme de ML
Visualisation des résultats des traitements et Statistiques
Page 49
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
3. Il pourra se déconnecter de la plateforme après consultation

7.2. MCD, Diagramme de Classe pour l’API


relié à la Base de Donnée MySQL

Figure 11:MCD(Modèle Conceptuel de Données) pour l’API connecté à la Base MySQL

Le diagramme de classe fait focus sur l’API connecté à la base de données


MySQL.Elle nous a servi de base pour pouvoir développer notre application avant
l’intégration des outils Big Data/ML.Il décrit en quelque sorte les différentes actions qui se
passent après la connexion d’un utilisateur. On peut dire que nous nous sommes inspirés des
SIDs(Système d’Information Décisionnel)classique genre GMAO(Gestion de la Maintenance
Assistée par Ordinateur).Nous avons donc dans ce diagrammes :
 La gestion des Sites qui comprend: et les sites de Production et les sites de
Distribution.
 La gestions des Interventions
 La gestion des Intervenants
 La gestion des Appareils de Mesure au niveau des sites
On pouvait continuer en y intégrant la gestion des magasins,du stock de pièces détachées,des
achats,des fournisseurs,des contrats de prestation,de la facturation clients.
Cepandant ce mémoire a voulu faire focus sur l’entrainement d’un modèle pour la prédiction
de la stabilité ou de l’instabilité du réseau Smart Grid,c’est la raison pour laquelle nous nous

Page 50
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
sommes limités à ces Quatre(4) cas de gestion. A présent nous allons sur la partie suivante
expliquer le processus de traitement des données faisant intervenir le ML .

7.3.Flowchart pour le traitement des jeux de


données et l’entrainement du Modèle

Figure 12:Flowchart pour l’acquisition des données et l’entrainement du modèle

La partie pour le traitement et l’entrainement du modèle de prédiction est explicité ici par un
flowchart :
Il se divise en 3 parties de la gauche vers la droite :
 Incidents:Cette partie s’occupe de l’acquisition des données,de leur nettoyage et de
leur traitement
 Etudes et Analyses:Ici nous allons effectuer différentes requêtes pour l’analyse et la
prise de décision.Tout en entrainant notre modèle.
 Solutions:Cette dernière partie quant à elle s’occupe de l’aspect Prédiction du modèle.
On peut le lire aussi de Haut en bas,là on sépare les traitements effectués par la machine et
ceux pouvant être inités ou effectués par l’homme.

Page 51
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
CHAPITRE 8: Mise en Œuvre de la
Solution (Implémentation)

Introduction
Dans cette partie nous nous donnons comme tache d’expliquer comment nous avons
procédé pour la mise en œuvre de notre plateforme.En nous appuyant sur le MCD nous avons
mis en place les différentes parties de l’application  que sont :
Le Back-END
Le Front-END
L’application python de ML
Les APIs pour la connexion des différents partie de l’Application

8.1.Le Back END

Figure 13 Structure de notre application backend:

Page 52
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Pour réaliser notre application backend nous avons utilisé le framework Java Spring Boot.
Comme vous pouvez le voir sur la figure 13 ci-dessus nous avons différents dossiers dont
chacun comporte des fichiers importants pour notre application :
 Dossier Model: Comme sont nom l’indique il comporte des fichiers correspondants
aux classes d’entité. Celui ci nous permet de faire un mapping sur notre base de
données Mysql.
 Dossier Repository: Dans ce dossier on crée des classes avec l’annotation
@repository qui vient de la bibliothèque org.springframework.data.jpa.Ceci nous
permet d’avoir des fonctions de base déjà toutes faites pour par exemple, retrouver un
enregistrement par son identifiant ex: fonction findById , effectuer un enregistrement
ou une modification ex: fonction save(objet_model), et enfin effectuer une
suppression ex: function delete(object_model). Nous pouvons aussi ajouter des
requêtes personnalisées.
 Dossier Service: Ce dossier contient les classes services dont nous avons besoin pour
notre application, c’est cette partie qui joue le role d’interface entre le
contrôleur(Controller) et le model repository.
 Dossier Controller: Ce dossier contient des fichiers controllers qui ici nous
permettent d’instancier les routes(url) que pourront utiliser le client pour avoir accès
aux fonctionalités de la classe service.
 Le Dossier Filtre: Ce dossier contient deux (2) fichiers:
 Le premier fichier nous permet de gèrer les authorisations des clients suivant
leur rôle c’est-à-dire l’accès à certaines fonctionnalités.
 Le deuxième fichier quant à lui nous permet de gérer l’identification du client.
 Dossier Security: ici on definit tout ce qui est lié aux accès du client suivant le type
de compte qu’il utilise et enfin nous avons un fichier service qui nous permet de faire
une vérification sur l’identité du client.
 Dossier Ressource: Il contient juste le fichier properties qui est un fichier de
configuration de notre application,il permet de définir le numéro de port de celui-ci,de
remplir les paramètres de connexion à la base de données, etc…
Cette application back-end est en fait le cœur de notre application car c’est lui qui part
rechecher les données demandées par le client vers la base de données ou toute autre source
de données.

8.2.Le Front END

Page 53
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Figure 14  : Structure de notre application front-end

Notre application Backend nous fournit les données en type json dans le but de rendre
la vitesse de reponse plus performante. Mais nous avons une soucis qui est celui de la
représentation de ses données de manière très expressive pour l’utilisateur lamda. C’est d’où
vient utilité du client Client Font-end.
Pour réaliser cette application nous avons eu besoin de framework angularjs qui peut
aussi être vuejs, reactjs, etc… La figure 14 ci-dessus montre comment nous avons structuré
notre application à travers plusieurs dossiers :
 Dossier Component: ici on definit les composants qui seront essentiels à une
navigation dans notre application. Exemple: le Component Navbar(entête de la
fenetre), le component Sidebar(menu barre vertical gauche), le component Footer(pied
de page de la fenetre) et enfin le component Dashboard(composant dynamique qui se
met à jour sans toute fois recharger toute la page web). Chacun de ces dossiers est
constitué de fichier html (pour notre affichage web), le fichier de type css (pour
preparer notre style à l’affichage), puis le fichier de type ts(TypeScript), c’est dans
dans ce fichier qu’on gère les calculs, les fonctions, les services ainsi que la
consommation de notre api Backend.
 Dossier Model: Sur ce dossier nous avons les fichiers interfaces de type TypeScript
qu’on utilise pour mettre à jour nos données sur les vues en fonction des évènements.
Page 54
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
 Dossier Service: Dans celui-ci nous avons les fichiers de Classes services qui sont de
type Typescript.Il facilite la consommation de notre api Backend.
Nous Allons vous présenter maintenant les differents vues de notre application front-end

8.2.1 Connexion

Figure 15: Point d'entrer de notre application

Comme toute application qui manipule d’importantes données nous devons avoir une
seule porte d’entrée qui est la page de connexion.Une fois identifié , l’utilisateur aura accès au
tableau de bord de la plateforme.

8.2.2. Tableau de navigation


Ici Nous allons présenter les différentes vues importantes de notre application

Figure 16: Page d'affichage une fois de la connexion réussie

Page 55
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Dans cette vue nous avons un Pie Chart qui permet l’analyse de nos données suivant
plusieurs critères comme la population, les sites, leurs capacités.La représentation du
diagramme varie suivant un tri temporel (la journée, la semaine et le mois).Cette vue aussi
nous donne accés aux différentes fonctionnalités de la plateforme.

Figure 17: Page gestion des sites

Dans la figure ci-dessus nous avons une fenêtre qui qui nous permet de gérer les types
de d’activité, les sites et enfin les activités ou les interventions sur les sites. Quand nous
parlons de gestion nous parlons d’opérations CRUD( Create-Read-Update-Delete).

Figure 18:Page gestion d'utilisateurs

Page 56
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
La Figure ci-dessous represente la page qui permet de gérer les différents utilisateurs
c’est-à-dire l’ajout, la liste , la modification des données et la suppression d’un utilisateur de
la plateforme.

Figure 19: La page gestion des interventions

Sur Cette figure nous présentons la gestion des interventions. Qui parle
d’intervention parle d’intervenant. C’est la raison pour laquelle dans cette page nous avons en
même temps la gestion des intervenants avec la gestion des interventions.

Figure 20:La page de gestion des appareils (capteur)

Ici dans cette figure nous présentons l’interface de gestion des appareils IoT ou
capteurs qui nous fournissent les données que nous allons devoir analyser.

Page 57
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Mais En parlant de capteur pour une simulation de l’analyse des données vu notre
manque de matériel nous avons utiliser une api python qui va générer un jeu de données et
ainsi jouer le role d’appareils connectés.

8.3.L’application de Génération de données et


d’entrainement( ML )sous Python
Nous avons maintenant le backend et le frontend de notre application. Il nous revient
alors d’implépmenter en Python l’application de génération des données(simulation d’un jeu
de données) et l’algorythme d’entrainement du modèle.

8.3.1.Alghorithme python de génaration des données


Le role de notre application est juste de simuler ce que les capteurs ou appareils de
mesure devraient nous apporter, c’est-à-dire envoyer les données vers la plateforme à tout
moment principalement lorsqu’il y’a un évènement quelque soit le type. Ceci consiste à
enregistrer toutes les données menant à l’ojectif final, exemple : demande de consommation,
verification de l’ accès à la ressource(l’énergie électrique), validation de la consomation,
consommation proprement dite et les coupures et instabilité du réseau.C’est sur ce dernier
point dont nous allons faire focus via les hypotèses de départ posées au chapitre 5.section
2(avec les coupures de tension,les creux de tension et les surtensions)

Figure 21: Structure de notre application python

Sur cette figure nous présentons une partie du code utilisé pour générer une jeu de données de
prêt de 2 millions de lignes enregistrer dans fichier de sortie de type CSV que nous avons
nommé ici structure.csv.

Page 58
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Figure 22: Resultat de la generation dans le fichier csv

Dans la figure ci-dessus nous présentons le contenu de notre fichier structure.csv juste
après l’exécution de la fonction de génération Python.
Nos données générées nous allons à présent passer à l’entrainement du modèle avec un
algorithme d’entrainement pour tester le modèle et les résultats des prédictions

8..3.2.La phase d’entrainement avec python


Pour commencer notre analyse via python nous nous devons d’importer des bibliothèques au
préalable

Figure 23: Bibliothèques utilie pour l'analyse des données

Comme sure la figure 25 nous avons besoin de la bibliothèque sklearn. Qui nous
permettra d’utiliser certaine classe telle que: model_selection, preprocessing, etc…

Page 59
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Figure 24: Analyse des valeurs des colonnes null_values

Le figure ci-dessous nous présente l’analyse de la valeur moyenne des colonnes date,
creux de tension, coupure de tension, surtension et stabilité du réseau(valeur de sortie) au
niveau d’un site quelconque .
Maintenant nous allons utiliser quatre(4) différents algorythmes de classification pour pouvoir
prédire la stabilité du réseau .
A savoir :
 KNN(K plus proche Voisin)
 Random Forest(Forêts aléatoires)
 SVM(Machine à Vecteurs de Support)
 Logistic Regression(Regression Logistique)

Page 60
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Figure 25: Les prédictions de l'algorithme KNN à gauche et Random forest à droite

Nous remarquons que le resultat est pratiquement pareil avec une valeur de la matrice de
confusion comprise entre 0,4 et 0,5.

Figure 26: SVM Predict à gauche et Logistic regression à droite

L’entrainement avec les SVM et la Regression Logistique ont eux aussi donné des résultats
similaires comprise entre 0.4 et 05.

 Conclusion de l’entrainement du Modèle


Nous concluons que cette faible rendement(0.4 à 0.5) est peut être du aux nombres d’instance
faible (200.000) utilisés pour les tests,la cause reste la puissance de calcul disponible de notre
machine. Un entrainement avec un jeu de 2 millions d’instances est prévu et les résultats de
ces tests seront présentés lors de la soutenance.

Page 61
Conception d’une plateforme Big-Data/ML de prédiction des incidents au niveau d’un smart Grid
Page 1
Conception d’une plateforme Big-Data/ML de prediction des incidents au niveau d’un smart Grid
2020-2021
CONCLUSION
En définitive ,nous pouvons dire que dans le cadre de notre mémoire de fin
d’étude,nous avons tenté de concevoir une plateforme d’analyse de type Big-Data/ML, faisant
focus sur l’analyse et l’interprétation des données dans un Smart-Grid pour la gestion des
incidents et l’implémentation d’une maintenance prédictive. Ce qui nous a inspiré reste les
progiciels de GMAO(Gestion de la Maintenance Assistée par Ordinateur) auxquels nous
voulions apporter une touche nouvelle,en y intégrant une base de données NoSQL et
permettre le traitement des Big Data,mais aussi faire du ML pour la prédiction des incidents
sur un réseau électrique intelligent communément appelé Smart-Grid.
Notre background en Génie-Electrique aidant, nous avons tenté d’être force de
proposition pour les réseaux électriques du futur vu l’environnment hyperconnecté dans
lequel nous évoluons actuellement.Car nous ne sommes pas sans savoir que les smart-grid
sont des réseaux du futur,ils sont hyperconnectés et les progiciels de GMAO devront
s’adapter à cette évolution de l’environnement pour pouvoir mieux aider à la pérennisation
des équipements qui permettra une bonne qualité de service pour les usagers.
Ce mémoire nous a permis, entre autre ,de découvrir des frameworks(Mongo
Db ,Spark,Hadoop,Angular) et langages(HiveQL,python) de programmation dont nous nous
apprêtions à être spécialiste dans notre formation en Master 2 ISI.Il entre aussi dans le cadre
de la reconversion de carrière que nous sommes entrain d’opérer en Data Science,Data
Ingénieur,Data Analyste. La plateforme réalisé se veut alors générique et adaptable à d’autres
types de problème manipulant des données massives et faisant de la prédiction.
Néanmoins nous avons rencontré quelques soucis pour l’acquisition des données,car
nos réseaux électriques au sénégal ne sont pas encore intelligents(smart),ce qui nous a poussé
à poser nombre d’ hypothèses et à générer nous même notre propre jeu de donnée pour
l’entrainement de notre modèle.
Dès lors nous pensons que ce travail servira de base pour les ingénieurs de conception
qui seront amenés à développer des SIDs orientés Big Data/ML et nous espérons pouvoir
l’améliorer avec eux pour intégrer toutes les variétés de données que peuvent générer les
Smart-Grid et qui peuvent être sujettes à beaucoup d’analyse,telle que la gestion des
abonnements,de la demande en énergie etc…

Page 61
Conception d’une plateforme Big-Data/ML de prediction des incidents au niveau d’un smart Grid
2020-2021
BIBLIOGRAPHIE
[1] Schapire, R.: Theoretical Machine Learning.

https://www.cs.princeton.edu/courses/archive/spr08/cos511/scribe_notes/0204.pdf, 2008.

[2] Douetteau, F.: A Beginner’s Guide to Machine Learning Algorithms.

http://dataconomy.com/2017/03/beginners-guide-machine-learning/, 2017.

[3] Alpaydin, E.: Introduction to Machine Learning. Pages 1-41 and 185-192. MIT Press,

2010.

[4] NIST Big Data Public Working Group Definitions and Taxonomies Subgroup: NIST Big
Data Interoperability Framework: Volume 1, Definitions. National Institute of Standards and
Technologies, 2015.

[5] Wu, T.L.: An Overview of Present NoSQL Solutions and Features. Pages 1-4 and 6.
Indiana University, 2013.

[6] https://de.wikipedia.org/wiki/NoSQL.

[7] https://kudu.apache.org

[8] Hein, O.: Fast Analytics on Fast Data. Cloudera Sessions Munich, 2017.

[9] Ellingwood, J.: Hadoop, Storm, Samza, Spark and Flink: Big Data Frameworks
Compared. https://www.digitalocean.com/community/tutorials/hadoop-storm-samza-spark-
andflink-big-data-frameworks-compared, 2016.

[10] http://fortune.com/2015/09/09/cloudera-spark-mapreduce/

[11] Mayo, M.: Top Big Data Processing Framework.

https://www.kdnuggets.com/2016/03/top-big-data-processing-frameworks.html, 2016.

[12] https://spark.apache.org.

[13] Lanquillon, C. & Mallow, H.: Big Data Lösungen. Pages 263-278. From
“Praxishandbuch Big Data”, Springer, 2015.

[14] Interview with Lars George, conducted on 21.09.2017

[15] Marr, B. Using SMART Big Data, Analytics and Metrics To Make Better Business

Decisions and Improve Performance. Pages 23- 44, 59-65 and 108-134. Wiley, 2015.

Page 62
Conception d’une plateforme Big-Data/ML de prediction des incidents au niveau d’un smart Grid
2020-2021
[16] Reamy, T.: Deep Text – Using Text Analytics to Conquer Information Overload, Get

Real Value From Social Media, and Add Big(ger) Text to Big Data. Pages 21-36. Information
Today, 2016.

[17] Sanders, L. & Woolley, O. & Moize, I. & Antulov-Fantulin, N.: Introduction to
Sentiment Analysis. Pages 3-12. Eidgenössiche Technische Hochschule Zürich, 2017.

[18] Jurafsky, D.: Sentiment Analysis. Pages 13-15.

https://web.stanford.edu/class/cs124/lec/sentiment.pdf Last accessed on 05.11.2017.

[19] Salathé, M. & Khandelwal, S.: Assessing Vaccination Sentiments with Online
Media:Implications for Infectious Disease Dynamics and Control.

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3192813/, 2011.

https://www.connaissancedesenergies.org/fiche-pedagogique/reseau-intelligent-smart-grid

https://fr.wikipedia.org/wiki/Informatique_d%C3%A9cisionnelle

https://fr.wikipedia.org/wiki/Big_data

https://fr.wikipedia.org/wiki/Efficacit%C3%A9_%C3%A9nerg
%C3%A9tique_(%C3%A9conomie)

https://www.tutorialspoint.com/machine_learning_with_python/
classification_algorithms_decision_tree.htm

*Thèse Doctorale : Evaluation de la sûreté de fonctionnement des réseaux de distribution par la simulation
Monte Carlo : application à des stratégies de maintenance optimales par Andreea Bianca Ocnasu

Page 63
Conception d’une plateforme Big-Data/ML de prediction des incidents au niveau d’un smart Grid
2020-2021
ANNEXE

Figure 27: Base de données Mysql

Dans la figure ci-dessous nous présentons les éléments de la base de données


plateforme_bd_sm et en affichage la structure de la table personne que nous utilisons pour
enregistrer les utilisateurs ainsi que les intervenants.

Page 64
Conception d’une plateforme Big-Data/ML de prediction des incidents au niveau d’un smart Grid
2020-2021

Vous aimerez peut-être aussi