Metadatenverwaltung im Dataplex Universal Catalog

Dataplex Universal Catalog bietet eine zentrale Plattform zum Speichern, Verwalten und Abrufen Ihrer Metadaten. In diesem Dokument werden die Funktionen zur Metadatenverwaltung von Dataplex Universal Catalog beschrieben.

Dataplex Universal Catalog bietet einen einheitlichen Bestand von Google Cloud und lokalen Ressourcen. Metadaten für Google Cloud -Ressourcen werden automatisch von Dataplex Universal Catalog abgerufen und gespeichert. Sie können auch Ihre eigenen Metadaten für Drittanbieterressourcen in Dataplex Universal Catalog einfügen.

Sie können Ihr Inventar mit zusätzlichen geschäftlichen und technischen Metadaten anreichern, die den Kontext und das Wissen über Ihre Ressourcen erfassen. Sie können auch organisationsweit nach Ihren Daten suchen und diese ermitteln sowie die Datenverwaltung für Ihre Daten-Assets aktivieren.

Sie können Dataplex Universal Catalog als Standardkatalog festlegen. Wenn Sie Data Catalog verwenden, stellen Sie Ihre eigenständigen Data Catalog-Inhalte und die Nutzung auf Dataplex Universal Catalog um. Weitere Informationen finden Sie unter Umstellung von Data Catalog auf Dataplex Universal Catalog.

Funktionsweise der Metadatenverwaltung

Die Metadatenverwaltungsfunktionen in Dataplex Universal Catalog basieren auf den folgenden Konzepten:

Eintrag

Ein Eintrag stellt ein Daten-Asset dar. Das ist ähnlich wie bei Einträgen in Data Catalog.

Beispiel: Eine BigQuery-Tabelle mit dem Namen test-project.sales_data.customer_orders wird als Eintrag dargestellt.

Eine Spalte eines Eintrags stellt einen bestimmten Unterabschnitt eines Datenassets dar, z. B. eine einzelne Spalte in einer BigQuery-Tabelle oder ein Feld in einer JSON-Datei. Mit Spalten können Sie Metadaten an einzelne Felder innerhalb eines Eintrags anhängen, nicht nur an den Eintrag als Ganzes. Spalten werden nicht direkt definiert, sondern erstellt, wenn Sie einem Eintrag ein Attribut vom Typ schema zuweisen. Spalten werden auch als Pfade bezeichnet.

Beispiel: Wenn Sie das Feld email_address im Eintrag customer_orders als personenidentifizierbare Informationen beschreiben möchten, können Sie der Spalte email_address einen Aspekt zuweisen.

Weitere Informationen zu Einträgen finden Sie unter Einträge.

Aspekt

Ein Aspekt ist eine Gruppe von zugehörigen Metadatenfeldern. Sie können einem Eintrag einen Aspekt zuweisen, um ihn als Ganzes zu beschreiben. Die meisten Metadaten werden durch Aspekte innerhalb eines Eintrags beschrieben. Das ist ähnlich wie Tags in Data Catalog. Aspekte werden jedoch in Einträgen und nicht als eigenständige Ressourcen gespeichert.

Beispiel: Wenn Sie alle Spalten des Eintrags customer_orders definieren möchten, z. B. order_id, order_date und email_address, können Sie dem Eintrag customer_orders das Attribut schema zuweisen. Wenn Sie angeben möchten, dass die Spalte email_address eine E-Mail-Adresse enthält, können Sie der Spalte email_address das Attribut schema zuweisen.

Weitere Informationen zu Aspekten finden Sie unter Aspekte.

Eintragstyp

Ein Eintragstyp ist eine Vorlage zum Erstellen von Einträgen. Er enthält die wichtigsten Metadatenelemente, die als Liste der erforderlichen Aspekte für Einträge dieses Typs aufgeführt sind. Ein Eintragstyp gibt an, welche Aspekttypen für ein bestimmtes Daten-Asset erforderlich sind.

Beispiel: Damit alle Einträge die erforderlichen Metadaten haben, können Sie einen Eintragstyp namens StandardOperationalTable erstellen, für den ein OwnerInfo-Aspekt an jeden neuen Eintrag dieses Typs angehängt werden muss.

Weitere Informationen zu Eintragstypen finden Sie unter Eintragstypen.

Aspekttyp

Ein Aspekttyp ist eine wiederverwendbare Vorlage für Aspekte. Jeder Aspekt ist eine Instanz eines Aspekttyps. Das ist ähnlich wie Tag-Vorlagen in Data Catalog.

Beispiel: Wenn Sie eine wiederverwendbare Vorlage für Kontaktdaten definieren möchten, können Sie einen Aspekttyp namens ContactInfo mit Feldern für owner_name, email und support_team definieren. Anschließend können Sie ContactInfo-Aspekte aus dieser Vorlage erstellen und sie an Einträge oder Spalten anhängen.

Weitere Informationen zu Aspekttypen finden Sie unter Aspekttypen.

Eintragsgruppe

Eine Eintragsgruppe ist ein Container für Einträge, der als Verwaltungseinheit für diese Einträge dient. Sie können beispielsweise eine Eintragsgruppe verwenden, um die Zugriffssteuerung für Identity and Access Management, die Projektzuordnung oder den Standort für die Einträge in der Eintragsgruppe zu konfigurieren. Das ähnelt Eintragsgruppen in Data Catalog.

Beispiel: Ein Finanzteam möchte Berechtigungen für alle seine Tabellen gleichzeitig verwalten. Sie können eine Eintragsgruppe mit dem Namen production_finance_data erstellen und die Einträge für die Tabelle customer_orders, die Tabelle quarterly_revenue und die Tabelle employee_salaries einfügen.

Weitere Informationen zu Eintragsgruppen finden Sie unter Eintragsgruppen.

Einträge und Eintragsgruppen
Abbildung 1. Einträge und Eintragsgruppen
Aspekttypen und Eintragstypen
Abbildung 2. Aspekttypen und Eintragstypen

Dataplex Universal Catalog im Vergleich zu Data Catalog

Dataplex Universal Catalog bietet integrierte Funktionen zum Verwalten Ihrer Metadaten. Der Metadatenspeicher und die API-Methoden sind in die Dataplex API integriert.

Die wichtigsten Funktionen zur Metadatenverwaltung in Dataplex Universal Catalog sind:

  • Robusteres Metamodell

    • Eingegebene Einträge. Sie können Mindeststandards für Metadaten erzwingen, indem Sie die erforderlichen Metadateninhalte für benutzerdefinierte Einträge definieren.
    • Nutzerkonfigurierbares Metamodell für benutzerdefinierte Einträge, das die benutzerdefinierte Aufnahme robuster macht und die Konsistenz und Vollständigkeit benutzerdefinierter Metadaten verbessert.
    • Unterstützung für eine größere Vielfalt und Komplexität von Metadaten, einschließlich Unterstützung für Verschachtelungsstrukturen wie Listen, Maps und Arrays.
  • Verbesserte Skalierbarkeit, einschließlich der Möglichkeit, über einzelne atomare CRUD-Vorgänge mit allen Metadaten zu interagieren, die mit einem Eintrag verknüpft sind, und der Möglichkeit, mehrere Metadatenanmerkungen abzurufen, die in Such- oder Listenantworten enthalten sind.

In der folgenden Tabelle werden die Metadatenverwaltungsfunktionen von Dataplex Universal Catalog und Data Catalog verglichen:

Vergleich zwischen Dataplex Universal Catalog und Data Catalog
Funktion Dataplex Universal Catalog Data Catalog
Unterstützte Google Cloud Quellen Alle Quellen, wie im Abschnitt Unterstützte Quellen dieses Dokuments beschrieben. Google Cloud Alle Quellen, die unter Einträge und Eintragsgruppen beschrieben werden.
Aufnahme benutzerdefinierter Quellen

Aufnahme in benutzerdefinierte Einträge mit einer geregelten Struktur, die durch Eintragstypen definiert wird.

Benutzerdefinierte Einträge und Eintragsgruppen aus Data Catalog sind in Dataplex Universal Catalog unter dem Eintragstyp generic verfügbar.

Aufnahme in generische benutzerdefinierte Einträge.
Metadatenanreicherung Der Metadatenkontext für Einträge wird mithilfe von geschäftlichen Glossaren, Aspekten und Aspekttypen erfasst. Der Metadatenkontext für Einträge wird mithilfe von geschäftlichen Glossaren, Tags und Tag-Vorlagen erfasst.
Suchen Die Suche wird in den folgenden Bereichen durchgeführt:
  • Alle Google Cloud Quellen, die unter Unterstützte Google Cloud Quellen beschrieben werden
  • Benutzerdefinierte Einträge, die in Dataplex Universal Catalog erstellt werden
  • Aspekte, die in Dataplex Universal Catalog erstellt werden
  • Benutzerdefinierte Einträge, die in Data Catalog erstellt und in Dataplex Universal Catalog importiert werden

Die Suchergebnisse enthalten nur Ressourcen, die zur selben Organisation und zum selben VPC SC-Perimeter wie das Projekt gehören, unter dem die Suche durchgeführt wird. Wenn Sie die Google Cloud -Console verwenden, ist dies das Projekt, das in der Console ausgewählt ist.

Wenn Sie nach Einträgen suchen möchten, benötigen Sie mindestens eine der folgenden IAM-Rollen für das Projekt, das für die Suche verwendet wird: Dataplex Catalog Admin, Dataplex Catalog Editor oder Dataplex Catalog Viewer. Berechtigungen für Suchergebnisse werden unabhängig vom ausgewählten Projekt geprüft.

Die Suche wird in den folgenden Bereichen durchgeführt:
  • Alle Google Cloud Quellen, die unter Einträge und Eintragsgruppen beschrieben werden
  • Benutzerdefinierte Einträge, die in Data Catalog erstellt werden
  • In Data Catalog erstellte Tags
Data Lineage

Bei der Datenherkunft werden Eintragsdetails für Asset-Knoten mithilfe der Dataplex API abgerufen.

In der Google Cloud Konsole werden die angehängten Aspekte angezeigt.

Bei der Datenherkunft werden Eintragsdetails für Asset-Knoten mithilfe der Data Catalog API abgerufen.

Unternehmensglossare

Mit dem Unternehmensglossar können Sie eine Taxonomie für Geschäftsbegriffe erstellen und sie mit Daten-Assets und ‑spalten verknüpfen. Mit der Suche können Sie Assets finden, die mit einem Begriff verknüpft sind.

Mit dem Geschäftsglossar können Sie eine Taxonomie für Geschäftsbegriffe erstellen und sie Spalten zuordnen. Mit der Suche können Sie Assets finden, die mit einem Begriff verknüpft sind.

In der folgenden Tabelle wird beschrieben, wie Ressourcen in Dataplex Universal Catalog Data Catalog-Ressourcen entsprechen:

Zuordnung zwischen Dataplex Universal Catalog- und Data Catalog-Ressourcen
Dataplex Universal Catalog-Ressource Data Catalog-Ressource Beschreibung
Aspekttyp (global) Öffentliche Tag-Vorlage Tag-Vorlagen sind regionale Ressourcen. Sie können sie jedoch verwenden, um Tags für mehrere Regionen zu erstellen. Tag-Vorlagen entsprechen global-Aspekttypen in Dataplex Universal Catalog.
Optionaler Aspekt Öffentliches Tag Öffentliche Tags in Data Catalog entsprechen optionalen Aspekten in Dataplex Universal Catalog.
Eintragsgruppe Eintragsgruppe Für Google Cloud -Quellen werden im Dataplex Universal Catalog systemeigene Eintragsgruppen wie @bigquery pro Projekt eingerichtet.
Erforderliche Aspekte für benutzerdefinierte Einträge Benutzerdefinierter Eintrag

Data Catalog und Dataplex Universal Catalog verwenden ähnliche Konzepte für benutzerdefinierte Einträge.

Standardeintragseigenschaften werden in Dataplex Universal Catalog als erforderliche Aspekte modelliert.

Erforderliche Aspekte für die Systemeingabe Systemeintrag (Google Cloud) Metadaten, die integrierte Entitäten wie Schema für BigQuery-Tabellen beschreiben, werden in erforderlichen Aspekten der systemdefinierten Aspekttypen erfasst.
Unternehmensglossare Unternehmensglossare Mit Glossaren können Sie eine Taxonomie von Geschäftsbegriffen erstellen, um den geschäftlichen Kontext im gesamten Unternehmen zu standardisieren.

Weitere Informationen zu den Funktionen, die in Data Catalog verfügbar sind, aber nicht in Dataplex Universal Catalog unterstützt werden, finden Sie in diesem Dokument im Abschnitt Funktionen zur Metadatenverwaltung, die in Dataplex Universal Catalog nicht unterstützt werden.

Für bestehende Data Catalog-Nutzer

Wenn Sie Data Catalog bereits verwenden, beachten Sie Folgendes:

  • Benutzerdefinierte Einträge, Übersichtskontext, Glossare und Eintragsgruppen, die Sie in Data Catalog erstellt haben, sind in Dataplex Universal Catalog verfügbar.
  • Als Administrator können Sie festlegen, dass die Inhalte von Data Catalog-Tag-Vorlagen und ‑Tags gleichzeitig in Dataplex Universal Catalog verfügbar gemacht werden. Weitere Informationen finden Sie unter Umstellung von Data Catalog auf Dataplex Universal Catalog.
  • Wenn Sie in Dataplex Universal Catalog nach Daten-Assets suchen, werden sowohl die Metadaten, die direkt in Dataplex Universal Catalog erstellt wurden, als auch die Metadaten, die aus Data Catalog in Dataplex Universal Catalog importiert wurden, berücksichtigt.
  • Wenn Sie in Data Catalog nach Daten-Assets suchen, werden nur die Metadaten berücksichtigt, die in Data Catalog erstellt wurden.
  • Eintragsgruppenbeschreibungen in Data Catalog, die 1.024 Zeichen überschreiten, werden in Dataplex Universal Catalog auf 1.024 Zeichen gekürzt.
  • Als Administrator können Sie Glossare und zugehörige Links zwischen Geschäftsbegriffen und Spalten, die Sie in Data Catalog erstellt haben, in Dataplex Universal Catalog verfügbar machen, indem Sie dem Umstellungsprozess folgen.

Weitere Informationen zur Umstellung Ihrer eigenständigen Data Catalog-Inhalte und -Nutzung auf Dataplex Universal Catalog finden Sie unter Umstellung von Data Catalog auf Dataplex Universal Catalog.

Unterstützte Quellen

  • Automatische Erkennung von Cloud Storage-Daten
  • Metadaten aus den folgenden Google Cloud Quellen werden automatisch in Dataplex Universal Catalog aufgenommen:
    • BigQuery Sharing-Austausch und -Einträge (früher Analytics Hub)
    • BigQuery-Datasets, -Tabellen, -Modelle, -Routinen, -Verbindungen und verknüpfte Datasets
    • Bigtable-Instanzen, -Cluster und -Tabellen (einschließlich Details zur Spaltenfamilie)
    • Dataform-Repositories und Code-Assets
    • Cloud SQL-Instanzen, Datenbanken, Schemas, Tabellen, Ansichten – siehe Cloud SQL-Integration aktivieren
    • Dataproc Metastore-Dienste, -Datenbanken und -Tabellen
    • Pub/Sub-Themen
    • Spanner-Instanzen, -Datenbanken, -Tabellen und -Ansichten
    • Vertex AI-Modelle, ‑Datasets, ‑Featuregruppen, ‑Featureansichten und ‑Onlinespeicherinstanzen

Wenn Sie Metadaten aus einer Drittanbieterquelle in Dataplex Universal Catalog importieren möchten, können Sie eine Pipeline für verwaltete Verbindungen verwenden.

Projekt- und Standorteinschränkungen

Katalogressourcen in Dataplex Universal Catalog werden in verschiedenen Projekten und an verschiedenen Standorten gehostet. Es gelten folgende Einschränkungen:

  • Standort:

    • Der Standort eines Eintrags muss entweder mit dem Standort des Eintragstyps übereinstimmen oder der Eintragstyp muss global sein.
    • Einem Eintrag hinzugefügte Aspekte müssen auf einem Aspekttyp basieren, der am selben Ort wie der Eintrag gespeichert ist, oder der Aspekttyp muss global sein.
    • Ein Eintragstyp muss aus Aspekttypen bestehen, die am selben Ort wie der Eintragstyp gespeichert sind.
  • Projekt:

    • Wenn ein Eintragstyp auf benutzerdefinierte Aspekttypen verweist, müssen sich die Aspekttypen am selben Ort und im selben Projekt wie der Eintragstyp befinden.

Metadatenverwaltungsfunktionen, die in Dataplex Universal Catalog nicht unterstützt werden

Die folgenden Funktionen, die in Data Catalog verfügbar sind, werden in Dataplex Universal Catalog nicht unterstützt:

  • Das Konzept privater Aspekte und privater Aspekttypen (Entsprechungen zu privaten Tags und privaten Tag-Vorlagen in Data Catalog) ist in Dataplex Universal Catalog nicht vorhanden.
  • Die Suche nach Richtlinien-Tags wird in der Dataplex Universal Catalog-Suche nicht unterstützt. Daher funktionieren die Prädikate policytag und policytagid in der Dataplex Universal Catalog-Suche nicht.
  • Wenn Sie benutzerdefinierte Eintragsgruppen, benutzerdefinierte Einträge, Tag-Vorlagen und Tags aus Data Catalog in Dataplex Universal Catalog übertragen, werden die ursprünglichen Berechtigungen nicht übernommen. Sie müssen IAM-Berechtigungen für die kopierten Metadaten explizit konfigurieren, bevor Sie sie verwenden können.
  • Terraform-Unterstützung für die Verwaltung von Aspekten und benutzerdefinierten Einträgen ist nicht verfügbar. Stattdessen können Sie Ihre benutzerdefinierten Metadaten programmatisch im großen Maßstab verwalten, indem Sie eine Pipeline für verwaltete Verbindungen oder die API-Methoden für den Metadatenimport verwenden. (Terraform-Unterstützung für Eintragsgruppen, Eintragstypen und Aspekttypen ist verfügbar. Weitere Informationen finden Sie unter Dataplex Universal Catalog-Ressourcen mit Terraform bereitstellen.)
  • Das Senden von Ergebnissen der Sensitive Data Protection-Prüfung direkt an den Katalog in Dataplex Universal Catalog wird nicht unterstützt. Stattdessen können Sie Sensitive Data Protection-Prüfungsergebnisse an Data Catalog senden und dann die Ergebnisse an Dataplex Universal Catalog übertragen.
  • Mit der API können Sie keine Eintragstypen und Aspekttypen projektübergreifend auflisten. Sie können die Listenanfrage auf ein Projekt beschränken.
  • Das Registrieren von Lakes, Zonen, Assets und Entitäten als Dataplex Universal Catalog-Einträge wird nicht unterstützt. Das bedeutet, dass Data Catalog-Metadaten, die an Lakes, Zonen, Assets und Entitäten angehängt sind, nicht in den Katalog in Dataplex Universal Catalog übertragen werden. Außerdem wird bei der Dataplex Universal Catalog-Suche die Suche nach Zonen und Entitäten nicht unterstützt und das Filtern nach Lakes und Zonen ist nicht möglich. Sie können Lakes und Zonen unabhängig vom Katalog in Dataplex Universal Catalog verwenden.
  • Die Administratorsuche, die für einen vollständigen Rückruf sorgt, wird nicht unterstützt. Stattdessen können Sie Metadaten in Cloud Storage exportieren und sie dann in BigQuery abfragen.

Einen Vergleich der Funktionen und Ressourcen, die sowohl in Dataplex Universal Catalog als auch in Data Catalog unterstützt werden, finden Sie in diesem Dokument im Abschnitt Dataplex Universal Catalog im Vergleich zu Data Catalog.

Preise

Dataplex Universal Catalog verwendet die SKU für den Metadatenspeicher, um die Speicherkosten zu berechnen. Weitere Informationen finden Sie unter Dataplex Universal Catalog – Preise.

Für die Nutzung der folgenden Funktionen fallen keine Gebühren an:

  • Katalogressourcen in Dataplex Universal Catalog erstellen und verwalten
  • Search API-Aufrufe für Dataplex Universal Catalog
  • Suchanfragen, die auf der Seite „Dataplex Universal Catalog“ in derGoogle Cloud Console ausgeführt werden

Nächste Schritte