Dataplex Universal Catalog bietet eine zentrale Plattform zum Speichern, Verwalten und Abrufen Ihrer Metadaten. In diesem Dokument werden die Funktionen zur Metadatenverwaltung von Dataplex Universal Catalog beschrieben.
Dataplex Universal Catalog bietet einen einheitlichen Bestand von Google Cloud und lokalen Ressourcen. Metadaten für Google Cloud -Ressourcen werden automatisch von Dataplex Universal Catalog abgerufen und gespeichert. Sie können auch Ihre eigenen Metadaten für Drittanbieterressourcen in Dataplex Universal Catalog einfügen.
Sie können Ihr Inventar mit zusätzlichen geschäftlichen und technischen Metadaten anreichern, die den Kontext und das Wissen über Ihre Ressourcen erfassen. Sie können auch organisationsweit nach Ihren Daten suchen und diese ermitteln sowie die Datenverwaltung für Ihre Daten-Assets aktivieren.
Sie können Dataplex Universal Catalog als Standardkatalog festlegen. Wenn Sie Data Catalog verwenden, stellen Sie Ihre eigenständigen Data Catalog-Inhalte und die Nutzung auf Dataplex Universal Catalog um. Weitere Informationen finden Sie unter Umstellung von Data Catalog auf Dataplex Universal Catalog.
Funktionsweise der Metadatenverwaltung
Die Metadatenverwaltungsfunktionen in Dataplex Universal Catalog basieren auf den folgenden Konzepten:
- Eintrag
Ein Eintrag stellt ein Daten-Asset dar. Das ist ähnlich wie bei Einträgen in Data Catalog.
Beispiel: Eine BigQuery-Tabelle mit dem Namen
test-project.sales_data.customer_orders
wird als Eintrag dargestellt.Eine Spalte eines Eintrags stellt einen bestimmten Unterabschnitt eines Datenassets dar, z. B. eine einzelne Spalte in einer BigQuery-Tabelle oder ein Feld in einer JSON-Datei. Mit Spalten können Sie Metadaten an einzelne Felder innerhalb eines Eintrags anhängen, nicht nur an den Eintrag als Ganzes. Spalten werden nicht direkt definiert, sondern erstellt, wenn Sie einem Eintrag ein Attribut vom Typ
schema
zuweisen. Spalten werden auch als Pfade bezeichnet.Beispiel: Wenn Sie das Feld
email_address
im Eintragcustomer_orders
als personenidentifizierbare Informationen beschreiben möchten, können Sie der Spalteemail_address
einen Aspekt zuweisen.Weitere Informationen zu Einträgen finden Sie unter Einträge.
- Aspekt
Ein Aspekt ist eine Gruppe von zugehörigen Metadatenfeldern. Sie können einem Eintrag einen Aspekt zuweisen, um ihn als Ganzes zu beschreiben. Die meisten Metadaten werden durch Aspekte innerhalb eines Eintrags beschrieben. Das ist ähnlich wie Tags in Data Catalog. Aspekte werden jedoch in Einträgen und nicht als eigenständige Ressourcen gespeichert.
Beispiel: Wenn Sie alle Spalten des Eintrags
customer_orders
definieren möchten, z. B.order_id
,order_date
undemail_address
, können Sie dem Eintragcustomer_orders
das Attributschema
zuweisen. Wenn Sie angeben möchten, dass die Spalteemail_address
eine E-Mail-Adresse enthält, können Sie der Spalteemail_address
das Attributschema
zuweisen.Weitere Informationen zu Aspekten finden Sie unter Aspekte.
- Eintragstyp
Ein Eintragstyp ist eine Vorlage zum Erstellen von Einträgen. Er enthält die wichtigsten Metadatenelemente, die als Liste der erforderlichen Aspekte für Einträge dieses Typs aufgeführt sind. Ein Eintragstyp gibt an, welche Aspekttypen für ein bestimmtes Daten-Asset erforderlich sind.
Beispiel: Damit alle Einträge die erforderlichen Metadaten haben, können Sie einen Eintragstyp namens
StandardOperationalTable
erstellen, für den einOwnerInfo
-Aspekt an jeden neuen Eintrag dieses Typs angehängt werden muss.Weitere Informationen zu Eintragstypen finden Sie unter Eintragstypen.
- Aspekttyp
Ein Aspekttyp ist eine wiederverwendbare Vorlage für Aspekte. Jeder Aspekt ist eine Instanz eines Aspekttyps. Das ist ähnlich wie Tag-Vorlagen in Data Catalog.
Beispiel: Wenn Sie eine wiederverwendbare Vorlage für Kontaktdaten definieren möchten, können Sie einen Aspekttyp namens
ContactInfo
mit Feldern fürowner_name
,email
undsupport_team
definieren. Anschließend können SieContactInfo
-Aspekte aus dieser Vorlage erstellen und sie an Einträge oder Spalten anhängen.Weitere Informationen zu Aspekttypen finden Sie unter Aspekttypen.
- Eintragsgruppe
Eine Eintragsgruppe ist ein Container für Einträge, der als Verwaltungseinheit für diese Einträge dient. Sie können beispielsweise eine Eintragsgruppe verwenden, um die Zugriffssteuerung für Identity and Access Management, die Projektzuordnung oder den Standort für die Einträge in der Eintragsgruppe zu konfigurieren. Das ähnelt Eintragsgruppen in Data Catalog.
Beispiel: Ein Finanzteam möchte Berechtigungen für alle seine Tabellen gleichzeitig verwalten. Sie können eine Eintragsgruppe mit dem Namen
production_finance_data
erstellen und die Einträge für die Tabellecustomer_orders
, die Tabellequarterly_revenue
und die Tabelleemployee_salaries
einfügen.Weitere Informationen zu Eintragsgruppen finden Sie unter Eintragsgruppen.
Abbildung 1. Einträge und Eintragsgruppen Abbildung 2. Aspekttypen und Eintragstypen
Dataplex Universal Catalog im Vergleich zu Data Catalog
Dataplex Universal Catalog bietet integrierte Funktionen zum Verwalten Ihrer Metadaten. Der Metadatenspeicher und die API-Methoden sind in die Dataplex API integriert.
Die wichtigsten Funktionen zur Metadatenverwaltung in Dataplex Universal Catalog sind:
Robusteres Metamodell
- Eingegebene Einträge. Sie können Mindeststandards für Metadaten erzwingen, indem Sie die erforderlichen Metadateninhalte für benutzerdefinierte Einträge definieren.
- Nutzerkonfigurierbares Metamodell für benutzerdefinierte Einträge, das die benutzerdefinierte Aufnahme robuster macht und die Konsistenz und Vollständigkeit benutzerdefinierter Metadaten verbessert.
- Unterstützung für eine größere Vielfalt und Komplexität von Metadaten, einschließlich Unterstützung für Verschachtelungsstrukturen wie Listen, Maps und Arrays.
Verbesserte Skalierbarkeit, einschließlich der Möglichkeit, über einzelne atomare CRUD-Vorgänge mit allen Metadaten zu interagieren, die mit einem Eintrag verknüpft sind, und der Möglichkeit, mehrere Metadatenanmerkungen abzurufen, die in Such- oder Listenantworten enthalten sind.
In der folgenden Tabelle werden die Metadatenverwaltungsfunktionen von Dataplex Universal Catalog und Data Catalog verglichen:
Funktion | Dataplex Universal Catalog | Data Catalog |
---|---|---|
Unterstützte Google Cloud Quellen | Alle Quellen, wie im Abschnitt Unterstützte Quellen dieses Dokuments beschrieben. Google Cloud | Alle Quellen, die unter Einträge und Eintragsgruppen beschrieben werden. |
Aufnahme benutzerdefinierter Quellen | Aufnahme in benutzerdefinierte Einträge mit einer geregelten Struktur, die durch Eintragstypen definiert wird. Benutzerdefinierte Einträge und Eintragsgruppen aus Data Catalog sind in Dataplex Universal Catalog unter dem Eintragstyp | Aufnahme in generische benutzerdefinierte Einträge. |
Metadatenanreicherung | Der Metadatenkontext für Einträge wird mithilfe von geschäftlichen Glossaren, Aspekten und Aspekttypen erfasst. | Der Metadatenkontext für Einträge wird mithilfe von geschäftlichen Glossaren, Tags und Tag-Vorlagen erfasst. |
Suchen | Die Suche wird in den folgenden Bereichen durchgeführt:
Die Suchergebnisse enthalten nur Ressourcen, die zur selben Organisation und zum selben VPC SC-Perimeter wie das Projekt gehören, unter dem die Suche durchgeführt wird. Wenn Sie die Google Cloud -Console verwenden, ist dies das Projekt, das in der Console ausgewählt ist. Wenn Sie nach Einträgen suchen möchten, benötigen Sie mindestens eine der folgenden IAM-Rollen für das Projekt, das für die Suche verwendet wird: Dataplex Catalog Admin, Dataplex Catalog Editor oder Dataplex Catalog Viewer. Berechtigungen für Suchergebnisse werden unabhängig vom ausgewählten Projekt geprüft. |
Die Suche wird in den folgenden Bereichen durchgeführt:
|
Data Lineage |
Bei der Datenherkunft werden Eintragsdetails für Asset-Knoten mithilfe der Dataplex API abgerufen. In der Google Cloud Konsole werden die angehängten Aspekte angezeigt. |
Bei der Datenherkunft werden Eintragsdetails für Asset-Knoten mithilfe der Data Catalog API abgerufen. |
Unternehmensglossare |
Mit dem Unternehmensglossar können Sie eine Taxonomie für Geschäftsbegriffe erstellen und sie mit Daten-Assets und ‑spalten verknüpfen. Mit der Suche können Sie Assets finden, die mit einem Begriff verknüpft sind. |
Mit dem Geschäftsglossar können Sie eine Taxonomie für Geschäftsbegriffe erstellen und sie Spalten zuordnen. Mit der Suche können Sie Assets finden, die mit einem Begriff verknüpft sind. |
In der folgenden Tabelle wird beschrieben, wie Ressourcen in Dataplex Universal Catalog Data Catalog-Ressourcen entsprechen:
Dataplex Universal Catalog-Ressource | Data Catalog-Ressource | Beschreibung |
---|---|---|
Aspekttyp (global ) |
Öffentliche Tag-Vorlage | Tag-Vorlagen sind regionale Ressourcen. Sie können sie jedoch verwenden, um Tags für mehrere Regionen zu erstellen. Tag-Vorlagen entsprechen global -Aspekttypen in Dataplex Universal Catalog. |
Optionaler Aspekt | Öffentliches Tag | Öffentliche Tags in Data Catalog entsprechen optionalen Aspekten in Dataplex Universal Catalog. |
Eintragsgruppe | Eintragsgruppe | Für Google Cloud -Quellen werden im Dataplex Universal Catalog systemeigene Eintragsgruppen wie @bigquery pro Projekt eingerichtet. |
Erforderliche Aspekte für benutzerdefinierte Einträge | Benutzerdefinierter Eintrag | Data Catalog und Dataplex Universal Catalog verwenden ähnliche Konzepte für benutzerdefinierte Einträge. Standardeintragseigenschaften werden in Dataplex Universal Catalog als erforderliche Aspekte modelliert. |
Erforderliche Aspekte für die Systemeingabe | Systemeintrag (Google Cloud) | Metadaten, die integrierte Entitäten wie Schema für BigQuery-Tabellen beschreiben, werden in erforderlichen Aspekten der systemdefinierten Aspekttypen erfasst. |
Unternehmensglossare | Unternehmensglossare | Mit Glossaren können Sie eine Taxonomie von Geschäftsbegriffen erstellen, um den geschäftlichen Kontext im gesamten Unternehmen zu standardisieren. |
Weitere Informationen zu den Funktionen, die in Data Catalog verfügbar sind, aber nicht in Dataplex Universal Catalog unterstützt werden, finden Sie in diesem Dokument im Abschnitt Funktionen zur Metadatenverwaltung, die in Dataplex Universal Catalog nicht unterstützt werden.
Für bestehende Data Catalog-Nutzer
Wenn Sie Data Catalog bereits verwenden, beachten Sie Folgendes:
- Benutzerdefinierte Einträge, Übersichtskontext, Glossare und Eintragsgruppen, die Sie in Data Catalog erstellt haben, sind in Dataplex Universal Catalog verfügbar.
- Als Administrator können Sie festlegen, dass die Inhalte von Data Catalog-Tag-Vorlagen und ‑Tags gleichzeitig in Dataplex Universal Catalog verfügbar gemacht werden. Weitere Informationen finden Sie unter Umstellung von Data Catalog auf Dataplex Universal Catalog.
- Wenn Sie in Dataplex Universal Catalog nach Daten-Assets suchen, werden sowohl die Metadaten, die direkt in Dataplex Universal Catalog erstellt wurden, als auch die Metadaten, die aus Data Catalog in Dataplex Universal Catalog importiert wurden, berücksichtigt.
- Wenn Sie in Data Catalog nach Daten-Assets suchen, werden nur die Metadaten berücksichtigt, die in Data Catalog erstellt wurden.
- Eintragsgruppenbeschreibungen in Data Catalog, die 1.024 Zeichen überschreiten, werden in Dataplex Universal Catalog auf 1.024 Zeichen gekürzt.
- Als Administrator können Sie Glossare und zugehörige Links zwischen Geschäftsbegriffen und Spalten, die Sie in Data Catalog erstellt haben, in Dataplex Universal Catalog verfügbar machen, indem Sie dem Umstellungsprozess folgen.
Weitere Informationen zur Umstellung Ihrer eigenständigen Data Catalog-Inhalte und -Nutzung auf Dataplex Universal Catalog finden Sie unter Umstellung von Data Catalog auf Dataplex Universal Catalog.
Unterstützte Quellen
- Automatische Erkennung von Cloud Storage-Daten
- Metadaten aus den folgenden Google Cloud Quellen werden automatisch in Dataplex Universal Catalog aufgenommen:
- BigQuery Sharing-Austausch und -Einträge (früher Analytics Hub)
- BigQuery-Datasets, -Tabellen, -Modelle, -Routinen, -Verbindungen und verknüpfte Datasets
- Bigtable-Instanzen, -Cluster und -Tabellen (einschließlich Details zur Spaltenfamilie)
- Dataform-Repositories und Code-Assets
- Cloud SQL-Instanzen, Datenbanken, Schemas, Tabellen, Ansichten – siehe Cloud SQL-Integration aktivieren
- Dataproc Metastore-Dienste, -Datenbanken und -Tabellen
- Pub/Sub-Themen
- Spanner-Instanzen, -Datenbanken, -Tabellen und -Ansichten
- Vertex AI-Modelle, ‑Datasets, ‑Featuregruppen, ‑Featureansichten und ‑Onlinespeicherinstanzen
Wenn Sie Metadaten aus einer Drittanbieterquelle in Dataplex Universal Catalog importieren möchten, können Sie eine Pipeline für verwaltete Verbindungen verwenden.
Projekt- und Standorteinschränkungen
Katalogressourcen in Dataplex Universal Catalog werden in verschiedenen Projekten und an verschiedenen Standorten gehostet. Es gelten folgende Einschränkungen:
Standort:
- Der Standort eines Eintrags muss entweder mit dem Standort des Eintragstyps übereinstimmen oder der Eintragstyp muss
global
sein. - Einem Eintrag hinzugefügte Aspekte müssen auf einem Aspekttyp basieren, der am selben Ort wie der Eintrag gespeichert ist, oder der Aspekttyp muss
global
sein. - Ein Eintragstyp muss aus Aspekttypen bestehen, die am selben Ort wie der Eintragstyp gespeichert sind.
- Der Standort eines Eintrags muss entweder mit dem Standort des Eintragstyps übereinstimmen oder der Eintragstyp muss
Projekt:
- Wenn ein Eintragstyp auf benutzerdefinierte Aspekttypen verweist, müssen sich die Aspekttypen am selben Ort und im selben Projekt wie der Eintragstyp befinden.
Metadatenverwaltungsfunktionen, die in Dataplex Universal Catalog nicht unterstützt werden
Die folgenden Funktionen, die in Data Catalog verfügbar sind, werden in Dataplex Universal Catalog nicht unterstützt:
- Das Konzept privater Aspekte und privater Aspekttypen (Entsprechungen zu privaten Tags und privaten Tag-Vorlagen in Data Catalog) ist in Dataplex Universal Catalog nicht vorhanden.
- Die Suche nach Richtlinien-Tags wird in der Dataplex Universal Catalog-Suche nicht unterstützt. Daher funktionieren die Prädikate
policytag
undpolicytagid
in der Dataplex Universal Catalog-Suche nicht. - Wenn Sie benutzerdefinierte Eintragsgruppen, benutzerdefinierte Einträge, Tag-Vorlagen und Tags aus Data Catalog in Dataplex Universal Catalog übertragen, werden die ursprünglichen Berechtigungen nicht übernommen. Sie müssen IAM-Berechtigungen für die kopierten Metadaten explizit konfigurieren, bevor Sie sie verwenden können.
- Terraform-Unterstützung für die Verwaltung von Aspekten und benutzerdefinierten Einträgen ist nicht verfügbar. Stattdessen können Sie Ihre benutzerdefinierten Metadaten programmatisch im großen Maßstab verwalten, indem Sie eine Pipeline für verwaltete Verbindungen oder die API-Methoden für den Metadatenimport verwenden. (Terraform-Unterstützung für Eintragsgruppen, Eintragstypen und Aspekttypen ist verfügbar. Weitere Informationen finden Sie unter Dataplex Universal Catalog-Ressourcen mit Terraform bereitstellen.)
- Das Senden von Ergebnissen der Sensitive Data Protection-Prüfung direkt an den Katalog in Dataplex Universal Catalog wird nicht unterstützt. Stattdessen können Sie Sensitive Data Protection-Prüfungsergebnisse an Data Catalog senden und dann die Ergebnisse an Dataplex Universal Catalog übertragen.
- Mit der API können Sie keine Eintragstypen und Aspekttypen projektübergreifend auflisten. Sie können die Listenanfrage auf ein Projekt beschränken.
- Das Registrieren von Lakes, Zonen, Assets und Entitäten als Dataplex Universal Catalog-Einträge wird nicht unterstützt. Das bedeutet, dass Data Catalog-Metadaten, die an Lakes, Zonen, Assets und Entitäten angehängt sind, nicht in den Katalog in Dataplex Universal Catalog übertragen werden. Außerdem wird bei der Dataplex Universal Catalog-Suche die Suche nach Zonen und Entitäten nicht unterstützt und das Filtern nach Lakes und Zonen ist nicht möglich. Sie können Lakes und Zonen unabhängig vom Katalog in Dataplex Universal Catalog verwenden.
- Die Administratorsuche, die für einen vollständigen Rückruf sorgt, wird nicht unterstützt. Stattdessen können Sie Metadaten in Cloud Storage exportieren und sie dann in BigQuery abfragen.
Einen Vergleich der Funktionen und Ressourcen, die sowohl in Dataplex Universal Catalog als auch in Data Catalog unterstützt werden, finden Sie in diesem Dokument im Abschnitt Dataplex Universal Catalog im Vergleich zu Data Catalog.
Preise
Dataplex Universal Catalog verwendet die SKU für den Metadatenspeicher, um die Speicherkosten zu berechnen. Weitere Informationen finden Sie unter Dataplex Universal Catalog – Preise.
Für die Nutzung der folgenden Funktionen fallen keine Gebühren an:
- Katalogressourcen in Dataplex Universal Catalog erstellen und verwalten
- Search API-Aufrufe für Dataplex Universal Catalog
- Suchanfragen, die auf der Seite „Dataplex Universal Catalog“ in derGoogle Cloud Console ausgeführt werden
Nächste Schritte
- Informationen zum Suchen nach Ressourcen in Dataplex Universal Catalog
- Informationen zum Verwalten von Assets und Anreichern von Metadaten
- Einträge verwalten und benutzerdefinierte Quellen aufnehmen
- Weitere Informationen zum Umstieg von Data Catalog auf Dataplex Universal Catalog
- Weitere Informationen zum Übertragen von Glossaren zu Dataplex Universal Catalog