Getlink (Eurotunnel) déroule sa stratégie « data as a service »
Le groupe propriétaire d’Eurotunnel a mis en place une stratégie « data as a service », inspirée de l’approche Data Mesh. Un projet qui a nécessité de revoir de fond en comble l’architecture de données et de redoubler d’efforts pour former les métiers.
Getlink. Voilà un nom peu connu du grand public. Ce groupe spécialisé dans « le transport bas carbone » chapeaute quatre entités : Eurotunnel, Europorte, ElecLink et CIFFCO.
Eurotunnel est sans doute la plus célèbre. Elle exploite le Tunnel sous la Manche et opère le service de navettes ferroviaire de passagers entre la France et le Royaume-Uni LeShuttle (2,1 millions de véhicules de tourisme, 8,3 millions de passagers) et Le Shuttle Freight, son cousin consacré au Fret (1,4 million de camions tous les ans). Europorte est un opérateur de fret et d’infrastructure ferroviaire en France, en Suisse, en Allemagne et au Benelux.
ElecLink, elle, exploite une interconnexion électrique en courant continu de 1 Gigawatt entre la France et la Grande-Bretagne, quand le Centre Internationale de Formation Ferroviaire de la Côte d’opale (CIFFCO) dispense l’équivalent de 20 000 jours de formation par an.
Une stratégie inspirée par l’approche Data Mesh
Qui dit quatre entités, dit silos de données. « Aujourd’hui, chez Getlink, nous souhaitons casser les silos de ces quatre entités qui avaient des SI différents et qui géraient les données de manière complètement autonome, décentralisée, sans standard, et avec des outils disparates », déclare Morade El Fahsi, Head of Data chez Getlink.
Morade El Fahsi a justement été engagé par Getlink il y a deux ans pour interconnecter les données de ses entités. « On m’a demandé de concevoir une stratégie de “data as a service” pour les métiers. Il s’agit de mettre à disposition les bonnes données au bon moment à la bonne personne », résume-t-il.
Pour cela, le responsable a mis sur pied une plateforme nommée « One Getlink ». Elle est au centre de l’organisation de traitement de données. « L’on peut voir cela comme une fleur à quatre pétales. Au centre, il y a la plateforme One Getlink et chaque pétale représente une entité de l’entreprise. Tous les pétales contribuent à enrichir la plateforme de données, mais ils sont aussi autonomes. Par exemple, les entités gèrent leurs propres KPI », explique Morade El Fahsi.
À l’inverse, le contrôle des indicateurs clés de performance à destination du Comex est centralisé. « Les jeux de données et les KPI “Corp” transitent par le “Data Office” ». L’ancien consultant passé par Publicis et Capgemeni s’est inspiré de l’approche Data Mesh.
« Les concepts du Data Mesh [décrits par Zhamak Dehghani, dans son livre “Data Mesh : Delivering Data-Driven Value at Scale”, N.D.L.R.] sont très rigoureux et très compliqués à appliquer tels quels. Je suis plutôt pragmatique : il s’agit d’un Data Mesh propre à Getlink », défend-il.
Cette stratégie repose sur cinq piliers. Le premier d’entre eux n’est autre que les cas d’usage. « Nous ne voulons pas transformer notre data lake en dépotoir : nous identifions les cas d’usage et nous cherchons uniquement les données relatives à ceux-là ».
Le deuxième pilier vise à mettre en place une gouvernance des données à l’échelle du groupe. « Cela permet de définir les rôles et les responsabilités de chacun. C’était un peu flou quand je suis arrivé. Par exemple, il n’y avait pas forcément de responsables des données financières ».
Selon ce pilier, il s’agit de définir un propriétaire des données responsable de leur production et de leur mise à disposition. « Cela a été très compliqué de mettre cela en place ». Peu de gens souhaitaient endosser cette responsabilité », constate le Head of Data.
« Il a fallu beaucoup de réunions, d’acculturation, pour que les métiers prennent conscience de l’importance de mettre à disposition des données de qualité ».
Morade El FahsiHead of Data, Getlink
D’où la nécessité du troisième pilier : la gestion de données. « C’est bien de fournir des données, faut-il encore qu’elles soient de qualité afin de pouvoir les traiter. C’est là que nous avons introduit la notion de produit de données », poursuit-il.
Les propriétaires des données sont responsables du produit et doivent livrer un « produit final ».
Pour cela, Getlink est en train d’adopter le catalogue de données Data Galaxy, voué à devenir le référentiel unique du groupe. « Les six premiers mois d’utilisation de Data Galaxy, nous avons commencé par inventorier les données RH et RSE », relate-t-il.
Les rouages de l’architecture de données de Getlink
Tout cela ne serait pas possible sans le quatrième pilier : l’architecture de données. « Nous avions une architecture analytique vieillissante, on premise, supportée par une infrastructure peu évolutive », juge Morade El Fahsi.
Getlink a effectué son « move to cloud » vers Microsoft Azure. « Désormais, l’infrastructure est élastique, pay as you go, et nous essayons de mettre en place les standards du marché : les API, les microservices ou encore les architectures “event centric” ».
Une multitude de sources (un ERP SAP, un CRM Salesforce, une plateforme Apache Kafka, etc.) peuvent être consommées par un ETL Talend. « C’est notre outil d’intégration qui ingère ces sources de données et qui les stockent dans un lac de données Azure Data Lake Storage Gen2 », relate le responsable. « Des ingénieurs data autour de Calais ne sont pas des milliers. Il fallait un outil simple d’accès et complet. La plateforme permet d’utiliser plusieurs modalités : ETL/ELT, BUS, ESB, etc. ».
Morade El Fahsi assure avoir testé beaucoup d’outils du marché (DBT, Fivetran, Rivery, etc.), mais il salue la prévisibilité des coûts de la plateforme rachetée par Qlik et sa robustesse.
Par-dessus ce lac réside une instance Snowflake utilisée comme un data warehouse et un environnement de nettoyage et de transformation de données. « Une fois que les données ont été transformées, certifiées, qualifiées, nous la poussons dans notre Data Hub. Elles peuvent être ensuite consommées par nos “power users” qui maîtrisent le langage SQL », avance-t-il.
Le système est connecté à plusieurs outils BI, principalement Power BI et Qlik. Ici, il ne s’agit pas de traiter les données en temps réel, mais d’obtenir des rapports plus rapidement. « Qlik est un outil historique maîtrisé par des opérationnels. La finance et le COMEX utilisent principalement Power BI », précise Morade El Fahsi.
Snowflake sert notamment au département financier de Getlink pour calculer et mettre à disposition le revenu de manière bien plus efficiente, à condition de bien gérer les aspects FinOps de Snowflake.
« Lors de la clôture comptable en début de mois, je passe mon workhouse de la taille XS à M sans à avoir arrêter la production, car je sais qu’il va être sollicité », renseigne le responsable. La « squad » finance accède aux jeux de données fournisseurs, aux revenus et volumes. Ces données résident à l’origine dans un ERP SAP ECC6, puis sont placées dans un data warehouse SAP BW. Talend est utilisé pour les extraire et les placer dans Azure Blob Storage avant de les envoyer vers Snowflake. Les rapports sont accessibles à travers Power BI.
Malgré cette chaîne d’apparence complexe, Getlink a divisé par sept le temps de traitement avec la nouvelle architecture cloud. « Il fallait tout une nuit pour calculer le revenu, désormais cela prend une heure. Si le traitement échoue, je peux le relancer quatre à cinq fois avant que les métiers arrivent au bureau à neuf heures », avance le responsable.
Les opérations utilisent également cette architecture pour analyser les opérations. Dans Power BI, les équipes ont accès à des indicateurs comme l’état du trafic, les temps de transports, les facteurs de chargement, la fluidité, la ponctualité, etc.
« Ici, nous puisons les données depuis les applications et les sources opérationnelles, principalement Oracle et SQL Server », explique Morade El Fahsi.
L’équipe « Matériels Roulants » analyse non seulement la distance entre les essieux, les frottements des roues au rail, mais planifie aussi les maintenances des locomotives.
Auparavant, le planning d’ordre de travaux était effectué par deux unités du secteur Industrie, Matériels Roulants et Infrastructures. « Ce sont les mêmes informations qui n’étaient pas gérées de la même manière, avec des fréquences de mises à jour différentes. Désormais, les deux entités utilisent la même source de vérité », assure le responsable.
Getlink récolte déjà des données événementielles. « Kafka nous envoie des informations en provenance de capteurs placés sur les locomotives et nous pouvons les consommer à l’aide de Talend. Cela représente une grosse volumétrie », informe-t-il.
Pour autant, la plateforme Talend permet une lecture et un chargement des données « au fil de l’eau ». L’actualisation n’est pas suffisamment rapide pour être qualifiée de temps réel, selon Morade El Fahsi.
Justement, à l’avenir, l’équipe Data souhaiterait mettre à disposition les données IoT le plus rapidement possible. « Si nous arrivons à obtenir ces informations en temps réel et effectuer des prédictions, nous pourrions mieux planifier les travaux », envisage le responsable.
Former de plus en plus d’employés aux préceptes de la donnée
Mais pour Morade El Fahsi, c’est le cinquième pilier le plus important : l’acculturation. « Nous avons commencé par former une quarantaine de personnes dans notre département à un ensemble d’outils et de pratiques, en passant de la BI par le machine learning et l’IA ».
Morade El FahsiHead of Data, Getlink
Ce processus d’acculturation repose sur plusieurs initiatives.
« Nous essayons de repérer des ambassadeurs, nous tentons de former un maximum de personnes, nous organisons de courts webinaires pour informer nos usagers », liste-t-il. « Nous avons une newsletter. J’interviens dans plusieurs événements et d’écoles ».
Le « bureau de la donnée » a repéré des utilisateurs clés répartis dans les différentes entités et départements. Environ 500 collaborateurs sur 3 400 ont accès aux données actuellement.
« Dès qu’une personne est recrutée, nous lui donnons accès aux données de son domaine et aux outils de data viz », ajoute-t-il. Outre leur formation, Getlink souhaite mettre davantage de jeux de données à disposition de ses collaborateurs. « Nous voulons accélérer le partage des jeux de données, automatiser ce partage et continuer à former les utilisateurs clés ».
In fine, la dernière étape de cette approche Data Mesh pour le groupe serait de donner plus largement accès aux données en interne, et, « pourquoi ne pas les proposer à la vente sur une place de marché ».
En attendant, il est prévu que d’autres départements rejoignent One Getlink. Cela fait environ sept mois que la plateforme est entrée en production. « Il faut choisir ses batailles : l’on ne peut pas mener tout de front », conseille Morade El Fahsi qui salue le soutien du COMEX, jugeant que ce dernier a largement contribué à l’initiative.