Dataplex Catalog – Übersicht

In diesem Dokument wird Dataplex Catalog beschrieben, der ein Plattform zum Speichern, Verwalten und Zugreifen auf Metadaten.

Dataplex Catalog bietet ein einheitliches Inventar von Google Cloud-Ressourcen wie BigQuery und andere Ressourcen, wie lokale Ressourcen. Metadaten für Google Cloud-Ressourcen werden abgerufen Metadaten für Ressourcen von Drittanbietern Dataplex-Katalog.

Mit Dataplex Catalog können Sie Ihr Inventar mit zusätzlichen geschäftlichen und technischen Metadaten, um den Kontext und das Wissen über Ihre Ressourcen. Mit Dataplex Catalog können Sie nach Ihre Daten im gesamten Unternehmen zu verwalten und Data Governance über Ihre Daten zu ermöglichen. Assets.

Anwendungsfälle

Mit Dataplex Catalog können Sie Folgendes tun:

  • Daten ermitteln und auswerten Dataplex Catalog bietet einen Überblick über Ihre Datenressourcen in der gesamten Organisation. Damit können finden Sie relevante Ressourcen für den Datenverbrauch. Sie liefert Kontext für Datenressourcen, die Ihnen helfen, die Eignung von Daten Ressourcen für die Anforderungen Ihres Datennutzers zu finden.

  • Data Governance und Datenverwaltung ermöglichen: Dataplex-Katalog stellt Metadaten bereit, die Ihre Data Governance und Ihre Daten unterstützen und unterstützen können. zu verwalten.

  • Pflegen Sie ein erweiterbares und umfassendes Repository für Ihre Metadaten. Dataplex Catalog speichert und bietet Zugriff auf Metadaten, die automatisch aus Ihren Google Cloud-Ressourcen erfasst werden. Sie können eigene Metadaten aus Nicht-Google Cloud-Systemen integrieren. Sie können alle Metadaten mit zusätzlichen Anmerkungen zu Geschäfts- und technischen Metadaten anreichern.

Funktionsweise von Dataplex Catalog

Dataplex Catalog basiert auf den folgenden Konzepten:

  • Eintrag: Ein Eintrag steht für ein Daten-Asset. Die meisten Metadaten werden durch Aspekte in einem Eintrag beschrieben. Ähnlich wie bei Einträge in Data Catalog. Weitere Informationen finden Sie unter Einträge.

  • Aspekt: Ein Aspekt ist eine Reihe verwandter Metadatenfelder innerhalb eines Eintrags. Ein Aspekt kann entweder als Baustein eines Eintrags oder mit zusätzlichen Metadaten. Ähnlich wie bei Tags in Data Catalog, Aspekte werden jedoch in Einträgen und nicht als eigenständige Ressourcen gespeichert. Weitere Informationen finden Sie unter Aspekte.

  • Aspekttyp: Ein Aspekttyp ist eine wiederverwendbare Vorlage für Aspekte. Jeden Aspekt ist eine Instanz eines Aspekttyps. Ähnlich wie bei Tag-Vorlagen in Data Catalog. Weitere Informationen finden Sie unter Aspekttypen.

  • Eintragsgruppe: Eine Eintragsgruppe ist ein Container für Einträge, die als Verwaltungseinheit für diese Einträge. Verwenden Sie beispielsweise eine Eintragsgruppe, Konfigurieren Sie die IAM-Zugriffssteuerung, die Projektattribution oder den Standort für die Einträge in der Eintragsgruppe. Das ähnelt Eintragsgruppen in Data Catalog. Weitere Informationen finden Sie unter Eintragsgruppen.

  • Eintragstyp: Ein Eintragstyp ist eine Vorlage zum Erstellen von Einträgen. Es legt die wesentlichen Metadatenelemente fest, die als Liste von erforderliche Aspekte für Einträge dieses Typs. Weitere Informationen finden Sie unter Eintragstypen:

    Einträge und Eintragsgruppen
    Abbildung 1. Einträge und Eintragsgruppen
    Aspekttypen und Eintragstypen
    Abbildung 2: Aspekttypen und Eintragstypen

Im Folgenden finden Sie einige Anwendungsfälle für Dataplex Catalog:

  • Als Datenanalyst oder Unternehmensanalyst können Sie nach Einträgen in der gesamten Organisation suchen und Metadaten untersuchen, die mit den Einträgen verknüpft sind. Für Weitere Informationen finden Sie unter Daten-Assets suchen.
  • Als Dateninhaber oder Datenverantwortlicher können Sie zusätzliche technische und geschäftliche Metadaten, indem Sie Ihre Einträge mit Aspekten annotieren. Weitere Informationen Siehe Aspekte verwalten und Metadaten anreichern.
  • Als Datenverantwortlicher oder Datenverantwortlicher können Sie für Konsistenz in Ihren durch Definition der Standards für Anmerkungen (mithilfe von Aspekttypen) und benutzerdefinierte Einträge (unter Verwendung von Eintragstypen). Weitere Informationen finden Sie unter Aspekte verwalten und Metadaten anreichern:
  • Als Data Engineer können Sie ein einheitliches Inventar für Ihre Ressourcen haben, einschließlich Google Cloud-Ressourcen und Ressourcen von Drittanbietersystemen. Google Cloud-Ressourcen werden automatisch Dataplex Catalog- und Nicht-Google Cloud-Ressourcen werden die du geerntet hast. Weitere Informationen finden Sie unter Einträge verwalten und benutzerdefinierte Quellen aufnehmen

Wenn Sie Data Catalog bereits verwenden, beachten Sie Folgendes:

  • Benutzerdefinierte Einträge, Übersichtskontext und Eintragsgruppen, die Sie in Data Catalog erstellt haben, werden in Dataplex Catalog verfügbar gemacht.
  • In Data Catalog erstellte Tags und Tag-Vorlagen sind im Dataplex Catalog nicht verfügbar.
  • Wenn Sie in Dataplex Catalog nach Daten-Assets suchen, werden sowohl die Metadaten, die direkt in Dataplex Catalog erstellt wurden, und die aus Data Catalog in die Tabelle Dataplex Catalog sind enthalten.
  • Wenn Sie in Data Catalog nach Daten-Assets suchen, werden nur die Metadaten, die in Data Catalog erstellt wurden, sind enthalten.
  • Beschreibungen von Eintragsgruppen in Data Catalog, die mehr als 1.024 Zeichen umfassen, werden in Dataplex Catalog auf 1.024 Zeichen gekürzt.

Dataplex Catalog vs. Data Catalog

Dataplex Catalog bietet eine Funktion zum Verwalten Ihrer Metadaten in Dataplex. Es verfügt über einen separaten Metadatenspeicher und eine neue Gruppe von API-Methoden, die in die Dataplex API eingebunden sind.

Zu den Hauptfunktionen von Dataplex Catalog gehören:

  • Robusteres Metamodell

    • Eingegebene Einträge. Sie können minimale Metadatenstandards erzwingen, indem Sie die Erforderlicher Metadateninhalt für benutzerdefinierte Einträge
    • Vom Nutzer konfigurierbares Metamodell für benutzerdefinierte Einträge, mit dem benutzerdefinierte Daten sind robuster und die Konsistenz benutzerdefinierter Metadaten sowie umfangreich.
    • Unterstützung für eine größere Vielfalt und Komplexität von Metadaten, einschließlich Unterstützung zum Verschachteln von Strukturen wie Listen, Karten und Arrays.
  • Verbesserte Skalierbarkeit, einschließlich der Möglichkeit, mit allen Metadaten zu interagieren der mit einem Eintrag durch einzelne atomare CRUD-Operationen verknüpft ist, Abruf mehrerer Metadatenanmerkungen, die mit der Suche oder Liste verknüpft sind Antworten.

In der folgenden Tabelle werden die Features von Dataplex Catalog verglichen und Data Catalog:

Vergleich zwischen Dataplex Catalog und Data Catalog
Feature Dataplex Catalog Data Catalog
Unterstützte Google Cloud-Quellen Alle Quellen gemäß Unterstützte Google Cloud-Quellen dieses Dokuments. Alle unter Einträge und Eintragsgruppen beschriebenen Quellen
Aufnahme benutzerdefinierter Quellen

Aufnahme in benutzerdefinierte Einträge mit einer verwalteten Struktur, definiert durch Eintragstypen.

Benutzerdefinierte Einträge und Eintragsgruppen von Data Catalog werden in Dataplex Catalog unter dem Eintragstyp generic.

Datenaufnahme in generischen benutzerdefinierten Einträgen
Metadaten-Anreicherung Der Metadatenkontext für Einträge wird mithilfe von Aspekten und Aspekttypen erfasst. Der Metadatenkontext für Einträge wird mithilfe von Tags und Tag-Vorlagen erfasst.
Suchen Die Suche wird für folgende Elemente ausgeführt:
  • Alle Google Cloud-Quellen, die unter Unterstützte Google Cloud-Quellen beschrieben sind
  • Benutzerdefinierte Einträge, die in Dataplex Catalog erstellt werden
  • Aspekte, die im Dataplex Catalog erstellt werden
  • Benutzerdefinierte Einträge, die in Data Catalog erstellt und in Dataplex Catalog importiert werden

Die Suchergebnisse enthalten nur Ressourcen, die zum selben VPC-SC-Perimeter als Projekt, in dem die Suche ausgeführt wird. Bei Verwendung des Google Cloud Console ist das Projekt, das in der .

Für die Suche nach Einträgen benötigen Sie mindestens eine der Dataplex Catalog-IAM-Rollen das für die Suche verwendet wird. Berechtigungen für Suchergebnisse sind die unabhängig vom ausgewählten Projekt überprüft werden sollen.

Die Suche wird für folgende Elemente ausgeführt:
  • Alle Google Cloud-Quellen beschrieben in Einträge und Eintragsgruppen
  • Benutzerdefinierte Einträge, die in Data Catalog erstellt werden
  • In Data Catalog erstellte Tags

In der folgenden Tabelle wird beschrieben, wie Dataplex Catalog-Ressourcen Data Catalog-Ressourcen entsprechen:

Zuordnung zwischen Dataplex Catalog- und Data Catalog-Ressourcen
Dataplex Catalog-Ressource Data Catalog-Ressource Beschreibung
Aspekttyp (global) Öffentliche Tag-Vorlage Tag-Vorlagen sind regionale Ressourcen. Sie können sie jedoch verwenden, Tags in verschiedenen Regionen. Tag-Vorlagen entsprechen global Aspekt Typen in Dataplex Catalog können.
Optionaler Aspekt Öffentliches Tag Öffentliche Tags in Data Catalog entsprechen optionalen Aspekten in Dataplex-Katalog.
Eintragsgruppe Eintragsgruppe Für Google Cloud-Quellen werden Systemeintragsgruppen wie @bigquery im Dataplex Catalog pro Projekt eingerichtet.
Erforderliche Aspekte für benutzerdefinierte Einträge Benutzerdefinierter Eintrag

Data Catalog- und Dataplex Catalog-Freigabe ähnliche Konzepte für benutzerdefinierte Einträge.

Standardeintragsattribute werden als erforderliche Aspekte in Dataplex-Katalog.

Erforderliche Aspekte der Systemeingabe Systemeintrag (Google Cloud) Metadaten, die integrierte Entitäten beschreiben, z. B. Schema für BigQuery-Tabellen in den erforderlichen Aspekten der und systemdefinierten Aspekttypen.

Weitere Informationen zu den Funktionen, die in Data Catalog verfügbar sind und in Dataplex Catalog nicht unterstützt werden, finden Sie in diesem Dokument im Abschnitt In Dataplex Catalog nicht unterstützte Funktionen.

Unterstützte Google Cloud-Quellen

Metadaten aus den folgenden Google Cloud-Quellen werden automatisch aufgenommen in Dataplex Catalog:

  • Analytics Hub-Marktplätze und ‑Einträge
  • BigQuery-Datasets, -Tabellen, -Modelle, -Routinen, -Verbindungen und verknüpfte Datasets
  • Bigtable-Instanzen, -Cluster und -Tabellen (einschließlich Spalte Familiendetails)
  • Cloud SQL-Instanzen, Datenbanken, Schemas, Tabellen, Ansichten – siehe Cloud SQL-Integration aktivieren
  • Dataproc Metastore-Dienste, -Datenbanken und -Tabellen
  • Pub/Sub-Themen
  • Spanner-Instanzen, -Datenbanken, -Tabellen und -Ansichten
  • Vertex AI-Modelle, Datasets, Featuregruppen, Featureansichten und Onlineshop-Instanzen

Projekt- und Standorteinschränkungen

Dataplex Catalog-Ressourcen werden in verschiedenen Projekten und an verschiedenen Standorten gehostet. Es gelten folgende Einschränkungen:

  • Standort:

    • Der Speicherort eines Eintrags muss mit dem Standort des Eintragstyps übereinstimmen, oder der Eintragstyp muss global sein.
    • Ein einem Eintrag hinzugefügter Aspekt muss auf einem Aspekttyp basieren, der sich am selben Speicherort wie der Eintrag befindet. Alternativ kann der Aspekttyp global sein.
    • Ein Eintragstyp muss aus Aspekttypen bestehen, die im selben „location“ als Eintragstyp an.
  • Projekt:

    • Wenn ein Eintragstyp auf benutzerdefinierte Aspekttypen verweist, müssen sich die Aspekttypen am selben Ort und im selben Projekt wie der Eintragstyp befinden.

Features, die in Dataplex Catalog nicht unterstützt werden

Die folgenden in Data Catalog verfügbaren Features sind unterstützt in Dataplex Catalog:

  • Das Konzept privater Aspekte und Aspekttypen wird in Dataplex-Katalog. Der Zugriff auf Aspekte wird Berechtigungen, die mit dem Eintrag verknüpft sind, der die Aspekte enthält. Weitere Informationen finden Sie unter Dataplex-IAM-Rollen.
  • Die Suche nach Richtlinien-Tags wird in Dataplex Catalog nicht unterstützt Suche; Daher funktionieren die Prädikate policytag und policytagid nicht in der Dataplex Catalog-Suche.
  • Für benutzerdefinierte Data Catalog-Einträge, die in Dataplex Catalog, die vorhandenen IAM-Berechtigungen für Ihr Aktuelle Metadaten werden nicht automatisch an kopierte Metadaten weitergegeben. Du musst IAM-Berechtigungen für die kopierten Metadaten explizit konfigurieren, bevor Sie sie verwenden.
  • Ergebnisse von Jobs zum Schutz sensibler Daten senden an Dataplex Catalog wird nicht unterstützt.
  • Sie können Eintragstypen und Aspekttypen nicht über die API projektübergreifend auflisten. Sie können die Listenanfrage auf ein Projekt beschränken.
  • Sie können kein Unternehmensglossar anhängen zu den Spalten von Dataplex-Einträgen.
  • Die Liste der erforderlichen Aspekttypen in einem Eintragstyp kann nach dem Erstellen des Eintragstyps nicht mehr geändert werden.
  • Für Einträge, die direkt in Dataplex Catalog erstellt wurden, Data Lineage zeigt Herkunftsereignisse in der Google Cloud Console an aber keine detaillierten Informationen über die Quelle, das Ziel oder den Prozess. Außerdem zeigt Data Lineage keine Aspekte für Einträge im Google Cloud Console

Preise

Dataplex verwendet die SKU des Metadatenspeichers, um den Metadatenspeicher in Rechnung zu stellen. Weitere Informationen finden Sie unter Dataplex-Preise.

Für die Nutzung folgender Produkte fallen keine Kosten an:

  • Dataplex Catalog-Ressourcen erstellen und verwalten
  • Search API-Aufrufe für Dataplex Catalog
  • Suchanfragen, die auf der Dataplex Catalog-Seite in der Google Cloud Console

Nächste Schritte