Présentation de Cloud Data Fusion

Cloud Data Fusion est un service cloud natif entièrement géré d'intégration de données d'entreprise qui permet de créer et de gérer rapidement des pipelines de données. La L'interface Web de Cloud Data Fusion vous permet de créer une intégration de données évolutive de Google Cloud. Il vous permet de vous connecter à différentes sources de données, de les transformer, puis de les transférer vers différents systèmes de destination, sans avoir à gérer l'infrastructure.

Cloud Data Fusion s'appuie sur le projet Open Source CDAP.

Premiers pas avec Cloud Data Fusion

Vous pouvez commencer à explorer Cloud Data Fusion en quelques minutes.

Découvrir Cloud Data Fusion

Les principaux composants de Cloud Data Fusion sont décrits dans les sections suivantes .

Projet locataire

L'ensemble des services requis pour créer et orchestrer des pipelines Cloud Data Fusion, ainsi que pour stocker les métadonnées de pipeline, est fourni dans un projet locataire, au sein d'une unité de location. Un projet locataire distinct est créé pour chaque projet client dans lequel des instances Cloud Data Fusion sont provisionnées. Le projet locataire hérite toutes les configurations de réseau et de pare-feu du projet client.

Cloud Data Fusion : console

La console Cloud Data Fusion, également appelée plan de contrôle, est ensemble d'opérations d'API et une interface Web qui gère l'instance Cloud Data Fusion elle-même, telles que la création, la suppression, le redémarrage et la mise à jour.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, également appelé plan de données, est un ensemble de API REST et interface Web opérations qui traitent de la création, de l'exécution et de la gestion de pipelines les artefacts associés.

Concepts

Cette section présente quelques concepts fondamentaux de Cloud Data Fusion.

Concept Description
Instance Cloud Data Fusion
  • Une instance Cloud Data Fusion est un déploiement unique Cloud Data Fusion. Pour commencer à utiliser Cloud Data Fusion, créer une instance Cloud Data Fusion via console Google Cloud.
  • Vous pouvez créer plusieurs instances dans une seule console Google Cloud et vous pouvez spécifier la région Google Cloud dans laquelle créer d'instances Cloud Data Fusion.
  • Selon vos exigences et vos contraintes de coût, vous pouvez créer un Développeur, Basic ou Enterprise Compute Engine.
  • Chaque instance Cloud Data Fusion contient un sous-réseau unique un déploiement Cloud Data Fusion contenant un ensemble de services, qui gèrent la gestion du cycle de vie, l'orchestration la coordination et la gestion des métadonnées. Ces services s'exécutent à l'aide de les ressources de longue durée projet locataire.
Espace de noms Un espace de noms est un regroupement logique d'applications, de données associées dans une instance Cloud Data Fusion. Vous pouvez réfléchir d'espaces de noms en tant que partitionnement de l'instance. Dans une seule instance, Un espace de noms stocke les données et les métadonnées d'une entité indépendamment d'un autre espace de noms.
Pipeline
  • Un pipeline est un moyen de concevoir visuellement des données et de contrôler des flux afin d'extraire, de transformer, de fusionner, d'agréger et de charger des données à partir de diverses sources de données sur site et dans le cloud.
  • La création de pipelines vous permet de créer des workflows de traitement de données complexes qui peuvent vous aider à résoudre les problèmes d'ingestion, d'intégration et de migration des données. Vous pouvez utiliser Cloud Data Fusion pour créer des pipelines de traitement par lot et en temps réel, selon vos besoins.
  • Les pipelines vous permettent d'exprimer vos workflows de traitement des données le flux logique de données, tandis que Cloud Data Fusion gère toutes les fonctionnalités requises pour s'exécuter physiquement dans une exécution environnement.
Nœud de pipeline
  • Sur la page Studio de l'interface Web Cloud Data Fusion, les pipelines sont représentés sous la forme d'une série de nœuds disposés dans un graphe orienté acyclique (DAG), sous forme unidirectionnelle.
  • Les nœuds représentent les différentes actions que vous pouvez effectuer tels que la lecture à partir de sources, l'exécution de les transformations et l'écriture de la sortie dans des récepteurs. Vous pouvez développer des pipelines de données dans l'interface Web de Cloud Data Fusion en connectant des sources, des transformations, des récepteurs et d'autres nœuds.
Plug-in
  • Un plug-in est un module personnalisable qui peut être utilisé pour étendre les fonctionnalités de Cloud Data Fusion.
  • Cloud Data Fusion fournit des plug-ins pour les sources, les agrégations, les récepteurs, les collecteurs d'erreurs, les éditeurs d'alerte, les actions les actions post-exécution.
  • Un plug-in est parfois appelé "nœud", généralement dans le contexte de l'interface Web de Cloud Data Fusion.
  • Pour découvrir les plug-ins Cloud Data Fusion populaires et y accéder, voir <ph type="x-smartling-placeholder"></ph> Plug-ins Cloud Data Fusion.
Hub  Dans l'interface Web de Cloud Data Fusion, pour parcourir les plug-ins, utilisez des exemples pipelines et autres intégrations, cliquez sur Hub. Lorsqu'un nouveau d'un plug-in est disponible, il est visible dans le Hub dans toutes les instances qui est compatible. Cela s'applique même si l'instance a été créée avant le plug-in a été publié.
Aperçu du pipeline
  • Cloud Data Fusion Studio vous permet de tester la précision la conception du pipeline à l'aide d'un aperçu sur le sous-ensemble de données.
  • Un pipeline en version preview s'exécute dans le projet locataire.
Exécution de pipeline 
  • Cloud Data Fusion crée des environnements d'exécution éphémères pour exécuter des pipelines.
  • Cloud Data Fusion est compatible avec Dataproc en tant qu'environnement d'exécution.
  • Cloud Data Fusion provisionne un cluster Dataproc éphémère dans votre projet client au début de l'exécution d'un pipeline, exécute le pipeline avec Spark dans le cluster, puis le supprime une fois l'exécution du pipeline terminée.
  • Si vous gérez vos clusters Dataproc, dans des environnements contrôlés, grâce à des technologies comme Terraform, configurer Cloud Data Fusion pour qu'il ne provisionne pas de clusters. Dans de tels environnements, vous pouvez exécuter des pipelines sur des clusters Dataproc existants.
Profil de calcul
  • Un profil de calcul spécifie comment et où un pipeline est exécuté. Un profil encapsule toutes les informations requises pour configurer et supprimer l'environnement d'exécution physique d'un pipeline.
  • Par exemple, un profil de calcul inclut les éléments suivants:
    • Approvisionneur d'exécution
    • Ressources (mémoire et processeur)
    • Nombre minimal et maximal de nœuds
    • Autres valeurs
  • Un profil est identifié par son nom et doit se voir attribuer un approvisionneur et la configuration associée. Un profil peut exister au niveau Cloud Data Fusion au niveau de l'instance ou de l'espace de noms.
  • Le profil de calcul par défaut de Cloud Data Fusion est l'autoscaling.
Pipeline réutilisable 
  • Les pipelines de données réutilisables dans Cloud Data Fusion permettent de créer un seul pipeline pouvant appliquer un modèle d'intégration de données à divers cas d'utilisation et ensembles de données.
  • Les pipelines réutilisables améliorent la gestion en définissant la plupart des la configuration d'un pipeline au moment de l'exécution, et non à les coder en dur au moment de la conception.
Déclencher
  • Cloud Data Fusion permet de créer un déclencheur sur une base de données (appelé pipeline en aval) pour qu'il s'exécute l'achèvement d'un ou de plusieurs pipelines différents (appelés pipelines en amont pipelines). Vous choisissez le moment d'exécution du pipeline en aval, par exemple en cas de réussite, d'échec, d'arrêt ou de toute combinaison de l'exécution du pipeline en amont.
  • Les déclencheurs sont utiles dans les cas suivants:
    • Nettoyer vos données une fois, puis les mettre à la disposition de plusieurs pipelines en aval à des fins de consommation.
    • Partager des informations, telles que des arguments d'exécution et des configurations de plug-ins, entre les pipelines C'est ce qu'on appelle la configuration de la charge utile.
    • Disposer d'un ensemble de pipelines dynamiques pouvant s'exécuter à l'aide des données de l'heure, du jour, de la semaine ou du mois, au lieu d'utiliser un pipeline statique qui doit être mis à jour à chaque exécution.

Ressources Cloud Data Fusion

Explorez les ressources Cloud Data Fusion:

Étape suivante