In diesem Dokument wird beschrieben, wie Sie Metadaten aus einem Drittanbietersystem in den Dataplex Universal Catalog importieren. Dazu verwenden Sie die API-Methoden für den Metadatenimport und Ihre eigene Pipeline. Dataplex Universal Catalog-Metadaten bestehen aus Einträgen und ihren Aspekten.
Wenn Sie stattdessen eine von Google Cloudverwaltete Orchestrierungspipeline zum Extrahieren und Importieren von Metadaten verwenden möchten, empfehlen wir die Verwendung einer verwalteten Verbindungspipeline. Bei einer Pipeline mit verwalteter Verbindung bringen Sie Ihren eigenen Connector mit, der Metadaten extrahiert und die Ausgabe in einem Format generiert, das als Eingabe für die API-Methoden zum Importieren von Metadaten verwendet werden kann (die Datei zum Importieren von Metadaten). Anschließend verwenden Sie Workflows, um die Pipeline-Aufgaben zu orchestrieren.
Sie können die folgenden Arten von Metadaten-Importjobs ausführen:
- Vollständige Synchronisierung von Einträgen mit inkrementellem Import ihrer Aspekte: Unterstützt für benutzerdefinierte Einträge.
- Nur inkrementeller Import von Aspekten: Wird für Aspekte unterstützt, die zu benutzerdefinierten Einträgen und Systemeinträgen gehören. Bei benutzerdefinierten Einträgen können Sie sowohl optionale als auch erforderliche Aspekte ändern. Bei Systemeinträgen können Sie optionale Aspekte ändern.
Allgemeine Schritte
So importieren Sie Metadaten mit der Metadata Import API:
Legen Sie den Umfang des Jobs fest.
Außerdem erfahren Sie, wie Dataplex Universal Catalog die Vergleichslogik und den Synchronisierungsmodus für Einträge und Aspekte anwendet.
Erstellen Sie eine oder mehrere Metadaten-Importdateien, in denen die zu importierenden Daten definiert werden.
Speichern Sie die Metadaten-Importdateien in einem Cloud Storage-Bucket.
Führen Sie einen Metadaten-Importjob aus.
Bei den Schritten auf dieser Seite wird davon ausgegangen, dass Sie mit den Metadatenkonzepten von Dataplex Universal Catalog vertraut sind, einschließlich Eintragsgruppen, Eintragstypen und Aspekttypen. Weitere Informationen finden Sie unter Data Catalog-Verwaltung in Dataplex Universal Catalog.
Hinweise
Führen Sie die Aufgaben in diesem Abschnitt aus, bevor Sie Metadaten importieren.
Erforderliche Rollen
Damit das Dataplex Universal Catalog-Dienstkonto die erforderlichen Berechtigungen für den Zugriff auf den Cloud Storage-Bucket hat, bitten Sie Ihren Administrator, dem Dataplex Universal Catalog-Dienstkonto die IAM-Rolle „Storage-Objekt-Betrachter“ (roles/storage.objectViewer
) und die Berechtigung storage.buckets.get
für den Bucket zuzuweisen.
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zur Verwaltung von Metadatenimportjobs benötigen:
-
Einträge und ihre Aspekte in einem Metadatenjob für die vollständige Synchronisierung von Einträgen ändern:
-
Dataplex Entry Type User (
roles/dataplex.entryTypeUser
) für den Eintragstyp oder das Projekt, in dem der Eintragstyp definiert ist -
Dataplex Aspect Type User (
roles/dataplex.aspectTypeUser
) für den Aspekttyp oder das Projekt, in dem der Aspekttyp definiert ist
-
Dataplex Entry Type User (
-
Erforderliche Aspekte in einem reinen Aspekt-Metadatenjob ändern:
-
Dataplex Entry Type User (
roles/dataplex.entryTypeUser
) für den Eintragstyp oder das Projekt, in dem der Eintragstyp definiert ist -
Dataplex Aspect Type User (
roles/dataplex.aspectTypeUser
) für den Aspekttyp oder das Projekt, in dem der Aspekttyp definiert ist
-
Dataplex Entry Type User (
-
Optionale Aspekte in einem reinen Aspekt-Metadatenjob ändern:
Dataplex Aspect Type User (
roles/dataplex.aspectTypeUser
) für den Aspekttyp oder das Projekt, in dem der Aspekttyp definiert ist. Wenn Sie optionale Aspekte in einem reinen Aspekt-Metadatenjob ändern, benötigen Sie keine Berechtigungen für den zugehörigen Eintragstyp. -
Metadaten-Importjobs erstellen:
-
Dataplex Entry Group Importer (
roles/dataplex.entryGroupImporter
) für das Projekt oder die Ressource -
Dataplex Entry Owner (
roles/dataplex.entryOwner
) für das Projekt oder die Ressource
-
Dataplex Entry Group Importer (
-
Metadaten-Jobs ansehen:
Dataplex Metadata Job Viewer (
roles/dataplex.metadataJobViewer
) für das Projekt -
Metadaten-Jobs erstellen, ansehen und abbrechen:
Dataplex Metadata Job Owner (
roles/dataplex.metadataJobOwner
) für das Projekt
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Google Cloud -Ressourcen erstellen
Bereiten Sie die folgenden Google Cloud Ressourcen vor:
- Erstellen Sie eine Eintragsgruppe für die Einträge, die Sie importieren möchten.
- Erstellen Sie Aspekttypen für die Aspekte, die Sie importieren möchten.
- Eintragstypen erstellen für die Einträge, die Sie importieren möchten.
- Wenn Sie einen reinen Aspekt-Metadatenjob ausführen, erstellen Sie Einträge für die Aspekte, die Sie importieren möchten.
- Erstellen Sie einen Cloud Storage-Bucket zum Speichern der Importdateien für Metadaten.
Komponenten eines Metadatenimportjobs
Berücksichtigen Sie beim Importieren von Metadaten die folgenden Komponenten eines Metadatenjobs:
- Job-Umfang: Die Eintragsgruppe, die Eintragstypen und die Aspekttypen, die im Job enthalten sein sollen.
- Synchronisierungsmodus: Gibt an, wie die Einträge und Aspekte im Job aktualisiert werden.
- Datei für den Metadatenimport: Eine Datei, in der die Werte definiert werden, die für die Einträge und Aspekte im Job festgelegt werden sollen. Sie können mehrere Metadaten-Importdateien im selben Metadatenjob angeben. Sie speichern die Dateien in Cloud Storage.
- Vergleichslogik: Hier wird festgelegt, welche Einträge und Aspekte in Dataplex Universal Catalog geändert werden.
Jobumfang
Der Jobbereich definiert die Eintragsgruppe, die Eintragstypen und die Aspekttypen, die Sie in einen Metadatenimportjob aufnehmen möchten. Wenn Sie Metadaten importieren, ändern Sie die Einträge und Aspekte, die zu Ressourcen im Umfang des Jobs gehören.
So definieren Sie den Job-Umfang:
Eintragsgruppe: Geben Sie eine einzelne Eintragsgruppe an, die in den Job aufgenommen werden soll. Bei dem Job werden nur die Einträge und Aspekte geändert, die zu dieser Eintragsgruppe gehören. Die Eintragsgruppe und der Job müssen sich in derselben Region befinden.
Eintragstypen: Geben Sie einen oder mehrere Eintragstypen an, die in den Job aufgenommen werden sollen. Der Job ändert nur die Einträge und Aspekte, die zu diesen Eintragstypen gehören. Der Standort eines Eintragstyps muss entweder mit dem Standort des Jobs übereinstimmen oder der Eintragstyp muss global sein.
Aspekttypen: Geben Sie einen oder mehrere Aspekttypen an, die im Job enthalten sein sollen. Der Job ändert nur die Aspekte, die zu diesen Aspekttypen gehören. Der Standort eines Aspekttyps muss entweder mit dem Standort des Jobs übereinstimmen oder der Aspekttyp muss global sein.
Der Jobbereich muss alle Eintragstypen und Aspekttypen umfassen, die Sie in der Metadatenimportdatei angeben.
Sie geben den Jobbereich an, wenn Sie einen Metadatenjob erstellen.
Synchronisierungsmodus
Der Synchronisierungsmodus gibt an, wie die Einträge und Aspekte in einem Metadaten-Importjob aktualisiert werden. Sie geben einen Synchronisierungsmodus für beide Einträge und Aspekte an. Je nachdem, welche Ressourcen Sie importieren möchten, werden die folgenden Kombinationen von Synchronisierungsmodi unterstützt.
Ziel | Modus für die Synchronisierung von Einträgen | Modus für die Synchronisierung des Seitenverhältnisses | Ergebnisse |
---|---|---|---|
Einträge und ihre Aspekte importieren | FULL |
INCREMENTAL |
Alle Einträge im Bereich des Jobs werden geändert. Wenn ein Eintrag in Dataplex Universal Catalog vorhanden ist, aber nicht in der Metadaten-Importdatei enthalten ist, wird er gelöscht, wenn Sie den Metadatenjob ausführen. Ein Aspekt wird nur geändert, wenn die Metadatenimportdatei einen Verweis auf den Aspekt im Feld |
Nur Aspekte importieren | NONE |
INCREMENTAL |
Aspekte werden geändert, wenn sie Teil des Jobbereichs sind und die Metadaten-Importdatei einen Verweis auf die Aspekte im Feld Andere Metadaten, die zu Einträgen im Umfang des Jobs gehören, werden nicht geändert. |
Sie geben den Synchronisierungsmodus an, wenn Sie einen Metadatenjob erstellen.
Metadaten-Importdatei
Die Metadaten-Importdatei ist eine Sammlung der Einträge und Aspekte, die Sie ändern möchten. Hier werden die Werte definiert, die für alle Felder festgelegt werden sollen, die zu diesen Einträgen und Aspekten gehören. Sie bereiten die Datei vor, bevor Sie einen Metadatenimportjob ausführen.
Es gelten die folgenden allgemeinen Richtlinien:
- Sie können mehrere Metadaten-Importdateien im selben Metadatenjob angeben.
Wenn Sie einen Metadatenjob für die vollständige Synchronisierung von Einträgen ausführen, werden alle vorhandenen Einträge für Ressourcen, die im Umfang des Jobs enthalten sind, vollständig durch die Einträge ersetzt, die Sie in der Datei angeben. Das bedeutet, dass Sie für alle Einträge in einem Job Werte angeben müssen, nicht nur für die Werte, die Sie hinzufügen oder aktualisieren möchten. Wenn Sie eine Liste der aktuellen Einträge in Ihrem Projekt als Ausgangspunkt verwenden möchten, verwenden Sie die API-Methode
entries.list
.Sie müssen eine Metadaten-Importdatei als Teil eines Metadatenjobs bereitstellen. Wenn Sie alle vorhandenen Daten für die Einträge im Umfang des Jobs löschen möchten, stellen Sie eine leere Metadaten-Importdatei bereit.
Alle Einträge und Aspekte, die Sie in die Datei aufnehmen, müssen zu den Eintragsgruppen, Eintragstypen und Aspekttypen gehören, die Sie im Umfang des Jobs definieren.
In den folgenden Abschnitten finden Sie detaillierte Richtlinien zum Erstellen einer Metadaten-Importdatei.
Struktur der Datei
Jede Zeile in der Metadaten-Importdatei enthält ein JSON-Objekt, das einem Importelement entspricht. Ein Importartikel ist ein Objekt, das die Werte beschreibt, die für einen Eintrag und die zugehörigen Aspekte geändert werden sollen.
Sie können mehrere Importelemente in einer einzelnen Metadaten-Importdatei angeben. Sie sollten dasselbe Importelement jedoch nicht mehrmals in einem Metadatenjob angeben. Verwenden Sie ein Zeilenumbruchzeichen (0x0a
), um die einzelnen Importelemente voneinander zu trennen.
Eine Metadaten-Importdatei mit einem Zeilenumbruch zwischen den einzelnen Importelementen sieht so aus:
{ "entry": { "name": "entry 1", #Information about entry 1 }
{ "entry": { "name": "entry 2", #Information about entry 2 }
Struktur eines Importelements
Jedes Importelement in der Metadaten-Importdatei kann die folgenden Felder enthalten (siehe ImportItem
). Das folgende Beispiel ist zur besseren Lesbarkeit mit Zeilenumbrüchen formatiert. Wenn Sie die Datei speichern, fügen Sie jedoch nur nach jedem Importelement ein Zeilenumbruchzeichen ein. Fügen Sie keine Zeilenumbrüche zwischen den Feldern eines einzelnen Importelements ein.
{
"entry": {
"name": "ENTRY_NAME",
"entryType": "ENTRY_TYPE",
"entrySource": {
"resource": "RESOURCE",
"system": "SYSTEM",
"platform": "PLATFORM",
"displayName": "DISPLAY_NAME",
"description": "DESCRIPTION",
"createTime": "ENTRY_CREATE_TIMESTAMP",
"updateTime": "ENTRY_UPDATE_TIMESTAMP"
},
"aspects": {
"ASPECT": {
"data": {
"KEY": "VALUE"
},
"aspectSource": {
"createTime": "ASPECT_CREATE_TIMESTAMP",
"updateTime": "ASPECT_UPDATE_TIMESTAMP"
}
},
# Additional aspect maps
},
"parentEntry": "PARENT_ENTRY",
"fullyQualifiedName": "FULLY_QUALIFIED_NAME"
},
"updateMask": "UPDATE_MASK_FIELDS",
"aspectKeys": [
"ASPECT_KEY",
# Additional aspect keys
],
}
Ersetzen Sie Folgendes:
entry
: Informationen zu einem Eintrag und den zugehörigen Aspekten. Bei einem Metadatenimportjob, der nur Aspekte umfasst, ignoriert Dataplex Universal Catalog alle optionalen Felder für einen Eintrag mit Ausnahme der Aspektzuordnungen.- ENTRY_NAME: Der relative Ressourcenname des Eintrags im Format
projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID
. - ENTRY_TYPE: Der relative Ressourcenname des Eintrags, der zum Erstellen dieses Eintrags verwendet wurde, im Format
projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryTypes/ENTRY_TYPE_ID
. entrySource
: Informationen aus dem Quellsystem zur Datenressource, die durch den Eintrag dargestellt wird:- RESOURCE: Der Name der Ressource im Quellsystem.
- SYSTEM: der Name des Quellsystems.
- PLATFORM: Die Plattform, die das Quellsystem enthält.
- DISPLAY_NAME: Ein nutzerfreundlicher Anzeigename.
- DESCRIPTION: Eine Beschreibung des Eintrags.
- ENTRY_CREATE_TIMESTAMP: Die Uhrzeit, zu der der Eintrag im Quellsystem erstellt wurde.
- ENTRY_UPDATE_TIMESTAMP: Der Zeitpunkt, zu dem der Eintrag im Quellsystem aktualisiert wurde.
aspects
: Die Aspekte, die dem Eintrag zugeordnet sind. Dasaspect
-Objekt und seine Daten werden als Aspektzuordnung bezeichnet.ASPECT: ein Aspekt, der dem Eintrag zugeordnet ist. Verwenden Sie je nachdem, wie der Aspekt an den Eintrag angehängt ist, eines der folgenden Formate:
- Wenn der Aspekt direkt an den Eintrag angehängt ist, geben Sie den relativen Ressourcennamen des zugehörigen Aspekttyps im Format
PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID
an. - Wenn der Aspekt an den Pfad des Eintrags angehängt ist, geben Sie den Pfad des Aspekttyps im Format
PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID@PATH
an.
- Wenn der Aspekt direkt an den Eintrag angehängt ist, geben Sie den relativen Ressourcennamen des zugehörigen Aspekttyps im Format
KEY und VALUE: Der Inhalt des Aspekts gemäß der Metadatenvorlage für den Aspekttyp. Der Inhalt muss als UTF-8 codiert sein. Die maximale Größe des Felds beträgt 120 KB. Das
data
-Dictionary ist erforderlich, auch wenn es leer ist.ASPECT_CREATE_TIMESTAMP: Der Zeitpunkt, zu dem der Aspekt im Quellsystem erstellt wurde.
ASPECT_UPDATE_TIMESTAMP: Der Zeitpunkt, zu dem der Aspekt im Quellsystem aktualisiert wurde.
PARENT_ENTRY: Der Ressourcenname des übergeordneten Eintrags.
FULLY_QUALIFIED_NAME: Ein Name für den Eintrag, auf den von einem externen System verwiesen werden kann. Weitere Informationen finden Sie unter Vollständig qualifizierte Namen.
- ENTRY_NAME: Der relative Ressourcenname des Eintrags im Format
UPDATE_MASK_FIELDS: die Felder, die aktualisiert werden sollen, in Pfaden, die relativ zur
Entry
-Ressource sind. Trennen Sie die einzelnen Felder durch Kommas.Bei einem vollständigen Eintragsynchronisierungsjob enthält Dataplex Universal Catalog die Pfade aller Felder eines Eintrags, die geändert werden können, einschließlich Aspekten. Das Feld
updateMask
wird ignoriert, wenn ein Eintrag erstellt oder neu erstellt wird.Legen Sie diesen Wert in einem Metadatenjob, der nur Aspekte enthält, auf
aspects
fest.ASPECT_KEY: Die zu ändernden Aspekte. Unterstützt die folgenden Syntaxen:
ASPECT_TYPE_REFERENCE
: Entspricht dem Aspekttyp für Aspekte, die direkt an den Eintrag angehängt sind.ASPECT_TYPE_REFERENCE@PATH
: entspricht dem Aspekttyp und dem angegebenen Pfad.ASPECT_TYPE_REFERENCE@*
: entspricht dem Aspekttyp für alle Pfade.*@PATH
: Entspricht allen Aspekttypen auf dem angegebenen Pfad.
Ersetzen Sie
ASPECT_TYPE_REFERENCE
durch einen Verweis auf den Aspekttyp im FormatPROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID
.Wenn Sie dieses Feld bei einem vollständigen Synchronisierungsjob für Einträge leer lassen, wird es so behandelt, als würden Sie genau die Aspekte angeben, die im angegebenen Eintrag vorhanden sind. In Dataplex Universal Catalog werden die Schlüssel für alle erforderlichen Aspekte eines Eintrags implizit hinzugefügt.
Anforderungen für Dateien
Für die Metadaten-Importdatei gelten die folgenden Anforderungen:
- Die Datei muss als JSON Lines-Datei formatiert sein, d. h. als JSON-Datei mit Zeilenumbrüchen als Trennzeichen. Verwenden Sie ein Zeilenumbruchzeichen (
0x0a
), um die einzelnen Importelemente voneinander zu trennen. - Die Datei muss die UTF-8-Zeichencodierung verwenden.
- Unterstützte Dateiendungen sind
.jsonl
und.json
. - Die Dateigröße jeder Metadaten-Importdatei darf maximal 1 GiB betragen. Die maximale Gesamtgröße für alle Daten im Metadatenjob beträgt 3 GB. Dazu gehören alle Dateien und Metadaten, die mit dem Job verknüpft sind.
- Die in der Datei angegebenen Eintragstypen und Aspekttypen müssen Teil des Bereichs des Metadatenjobs sein.
- Die Datei muss in einen Cloud Storage-Bucket hochgeladen werden. Speichern Sie die Datei nicht in einem Ordner mit dem Namen
CLOUD_STORAGE_URI/deletions/
.
Vergleichslogik
Dataplex Universal Catalog ermittelt, welche Einträge und Aspekte geändert werden sollen, indem die Werte und Zeitstempel, die Sie in der Metadatenimportdatei angeben, mit den Werten und Zeitstempeln in Ihrem Projekt verglichen werden.
Im Allgemeinen aktualisiert Dataplex Universal Catalog die Werte in Ihrem Projekt, wenn mindestens eine vorgeschlagene Änderung in der Metadatenimportdatei den Status Ihres Projekts bei der Ausführung des Jobs ändert, ohne dass veraltete Daten eingeführt werden. Die vorgeschlagene Änderung muss im Feld „Aktualisierungsmaske“ oder im Feld „aspect_keys“ in der Metadaten-Importdatei referenziert werden.
Die Vergleichslogik variiert je nachdem, welche Art von Metadatenimportjob Sie ausführen.
Auftrag zur Synchronisierung aller Einträge
Bei einem Metadatenjob für die vollständige Synchronisierung von Einträgen führt Dataplex Universal Catalog für jeden Eintrag, der zum Umfang des Jobs gehört, einen der folgenden Schritte aus:
- Erstellt einen Eintrag und zugehörige Aspekte. Wenn die Metadaten-Importdatei einen Eintrag enthält, der in Ihrem Projekt nicht vorhanden ist, erstellt Dataplex Universal Catalog den Eintrag und die zugehörigen Aspekte.
- Löscht einen Eintrag und die angehängten Aspekte. Wenn ein Eintrag in Ihrem Projekt vorhanden ist, die Metadaten-Importdatei ihn aber nicht enthält, werden der Eintrag und die zugehörigen Aspekte aus Ihrem Projekt gelöscht.
Aktualisiert einen Eintrag und die zugehörigen Aspekte. Wenn ein Eintrag sowohl in der Metadatenimportdatei als auch in Ihrem Projekt vorhanden ist, wertet Dataplex Universal Catalog die Zeitstempel der Eintragsquelle und die Zeitstempel der Aspektquelle aus, die dem Eintrag zugeordnet sind, um zu bestimmen, welche Werte geändert werden sollen. Anschließend führt Dataplex Universal Catalog einen oder mehrere der folgenden Schritte aus:
- Der Eintrag wird neu erstellt. Wenn der Zeitstempel für die Erstellung der Eintragsquelle in der Datei für den Metadatenimport neuer ist als der entsprechende Zeitstempel in Ihrem Projekt, wird der Eintrag in Ihrem Projekt in Dataplex Universal Catalog neu erstellt.
- Aktualisiert den Eintrag. Wenn der Zeitstempel für die Aktualisierung der Eintragsquelle in der Metadatenimportdatei neuer ist als der entsprechende Zeitstempel in Ihrem Projekt, wird der Eintrag in Ihrem Projekt in Dataplex Universal Catalog aktualisiert.
- Erstellt einen Aspekt. Wenn ein Aspekt in Ihrem Projekt nicht vorhanden ist und in einer Aspektzuordnung, im Feld „updateMask“ und im Feld „aspectKeys“ in der Metadatenimportdatei enthalten ist, wird der Aspekt in Dataplex Universal Catalog erstellt.
- Löscht einen Aspekt. Wenn ein Aspekt in Ihrem Projekt vorhanden ist und im Feld „Aktualisierungsmaske“ und im Feld „Aspektschlüssel“ in der Datei für den Metadatenimport enthalten ist, aber nicht in einer Aspektzuordnung, wird der Aspekt von Dataplex Universal Catalog gelöscht.
Aktualisiert einen Aspekt. Wenn ein Aspekt in Ihrem Projekt vorhanden ist und in einer Aspektzuordnung, im Feld „Aktualisierungsmaske“ und im Feld „Aspektschlüssel“ in der Metadatenimportdatei enthalten ist und der Zeitstempel für die Aktualisierung der Aspektquelle in der Metadatenimportdatei neuer ist als der entsprechende Zeitstempel in Ihrem Projekt, wird der Aspekt in Dataplex Universal Catalog aktualisiert.
Wenn in der Datei für den Metadatenimport kein Zeitstempel für die Aktualisierung der Aspektquelle angegeben ist, der entsprechende Eintrag aber für eine Aktualisierung markiert ist, wird der Aspekt auch in Dataplex Universal Catalog aktualisiert.
Wenn jedoch mindestens ein Aspekt in der Metadatenimportdatei einen älteren Zeitstempel als den entsprechenden Zeitstempel in Ihrem Projekt hat, werden in Dataplex Universal Catalog keine Aktualisierungen für den angehängten Eintrag vorgenommen.
Job nur für einen Aspekt
Bei einem reinen Aspekt-Metadatenjob führt Dataplex Universal Catalog für jeden Aspekt, der zum Umfang des Jobs gehört, einen der folgenden Schritte aus:
- Erstellt einen Aspekt. Wenn ein Aspekt in Ihrem Projekt nicht vorhanden ist und in einer Aspektzuordnung, im Feld „updateMask“ und im Feld „aspectKeys“ in der Metadatenimportdatei enthalten ist, wird der Aspekt in Dataplex Universal Catalog erstellt.
Löscht einen Aspekt. Wenn ein optionaler Aspekt in Ihrem Projekt vorhanden ist und im Feld „Aktualisierungsmaske“ und im Feld „Aspektschlüssel“ in der Metadatenimportdatei enthalten ist, aber nicht in einer Aspektzuordnung, wird er von Dataplex Universal Catalog gelöscht.
Erforderliche Aspekte können nicht gelöscht werden.
Aktualisiert einen Aspekt. Wenn ein Aspekt in Ihrem Projekt vorhanden ist und in einer Aspektzuordnung, im Feld „Aktualisierungsmaske“ und im Feld „Aspektschlüssel“ in der Metadatenimportdatei enthalten ist und der Zeitstempel für die Aktualisierung der Aspektquelle in der Metadatenimportdatei neuer ist als der entsprechende Zeitstempel in Ihrem Projekt, wird der Aspekt in Dataplex Universal Catalog aktualisiert.
Wenn in der Datei für den Metadatenimport kein Zeitstempel für die Aktualisierung der Aspektquelle angegeben ist, wird der Aspekt auch in Dataplex Universal Catalog aktualisiert.
In Dataplex Universal Catalog werden Aspekte basierend auf dem Zeitstempel der Aspektquellenaktualisierung aktualisiert, unabhängig vom Zeitstempel der Eintragsquellenaktualisierung des entsprechenden Eintrags.
Metadaten-Importdatei erstellen
Bevor Sie Metadaten importieren, müssen Sie eine Metadatenimportdatei für Ihren Job erstellen. Gehen Sie dazu so vor:
- Bereiten Sie eine Metadaten-Importdatei vor. Halten Sie sich dabei an die Richtlinien, die zuvor in diesem Dokument beschrieben wurden.
- Laden Sie die Datei in einen Cloud Storage-Bucket hoch.
Sie können mehrere Metadaten-Importdateien im selben Metadatenjob angeben. Wenn Sie mehrere Dateien bereitstellen möchten, speichern Sie sie im selben Cloud Storage-Bucket. Wenn Sie den Job ausführen, geben Sie einen Bucket und keine bestimmte Datei an. Dataplex Universal Catalog importiert Metadaten aus allen Dateien, die im Bucket gespeichert sind, einschließlich Dateien in Unterordnern.
Metadaten-Importjob ausführen
Nachdem Sie eine Metadaten-Importdatei erstellt haben, führen Sie einen Metadaten-Importjob über die API aus.
REST
Verwenden Sie zum Importieren von Metadaten die metadataJobs.create
-Methode.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- PROJECT_NUMBER: Ihre Google Cloud -Projektnummer oder Projekt-ID.
- LOCATION_ID: der Google Cloud Standort, z. B.
us-central1
. - METADATA_JOB_ID: Optional. Die ID des Metadatenjobs.
CLOUD_STORAGE_URI: Der URI des Cloud Storage-Bucket oder -Ordners, der die Metadaten-Importdateien enthält. Weitere Informationen zu den Dateianforderungen finden Sie unter Metadaten-Importdatei.
- ENTRY_GROUP: Der relative Ressourcenname der Eintragsgruppe, die für den Job gilt, im Format
projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryGroups/ENTRY_GROUP_ID
. Geben Sie nur eine Eintragsgruppe an. Weitere Informationen finden Sie unter Jobbereich. ENTRY_TYPE: Der relative Ressourcenname eines Eintragstyps, der für den Job infrage kommt, im Format
projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryTypes/ENTRY_TYPE_ID
. Weitere Informationen finden Sie unter Jobbereich.- ASPECT_TYPE: Der relative Ressourcenname eines Aspekttyps, der für den Job relevant ist, im Format
projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/aspectTypes/ASPECT_TYPE_ID
. Optional beim Erstellen eines Jobs für die vollständige Synchronisierung von Einträgen, erforderlich beim Erstellen eines Jobs nur für Aspekte. Weitere Informationen finden Sie unter Jobbereich. - ENTRY_SYNC_MODE: Der Synchronisierungsmodus für Einträge, z. B.
FULL
oderNONE
. Weitere Informationen finden Sie unter Synchronisierungsmodus. - LOG_LEVEL: Die Ebene der zu erfassenden Logs, z. B.
INFO
oderDEBUG
. Weitere Informationen finden Sie unter Job-Logs ansehen und Fehler beheben.
HTTP-Methode und URL:
POST https://dataplex.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION_ID/metadataJobs?metadataJobId=METADATA_JOB_ID
JSON-Text anfordern:
{ "type": IMPORT, "import_spec": { "source_storage_uri": "gs://CLOUD_STORAGE_URI/", "scope": { "entryGroups": [ "ENTRY_GROUP" ], "entry_types": [ "ENTRY_TYPE" ], "aspect_types": [ "ASPECT_TYPE" ] }, "entry_sync_mode": ENTRY_SYNC_MODE, "aspect_sync_mode": INCREMENTAL, "log_level": LOG_LEVEL } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Die Antwort identifiziert einen Vorgang mit langer Ausführungszeit.
Details zu einem Metadatenjob abrufen
So rufen Sie Informationen zu einem Metadatenjob ab, z. B. den Status des Jobs und die Anzahl der geänderten Einträge: Weitere Informationen zur Fehlerbehebung bei einem fehlgeschlagenen Job finden Sie im Abschnitt Job-Logs ansehen und Fehler beheben in diesem Dokument.
REST
Verwenden Sie die Methode metadataJobs.get
, um Informationen zu einem Metadatenjob abzurufen.
Liste der Metadaten-Jobs abrufen
Sie können eine Liste der letzten Metadatenjobs abrufen. Ältere Jobs, die einen Endstatus erreicht haben, werden regelmäßig aus dem System gelöscht.
REST
Mit der Methode metadataJobs.list
können Sie eine Liste der letzten Metadatenjobs abrufen.
Metadatenjob abbrechen
Sie können einen Metadatenjob abbrechen, der nicht ausgeführt werden soll.
REST
Verwenden Sie zum Abbrechen eines Metadatenjobs die Methode metadataJobs.cancel
.
Joblogs ansehen und Fehler beheben
Verwenden Sie Cloud Logging, um Logs für einen Metadatenjob aufzurufen. Weitere Informationen finden Sie unter Dataplex Universal Catalog-Logs überwachen.
Sie konfigurieren die Protokollebene, wenn Sie einen Metadatenjob erstellen. Die folgenden Logebenen sind verfügbar:
INFO
: Stellt Logs auf der Ebene des gesamten Jobs bereit. Enthält aggregierte Logs zu Importelementen, gibt aber nicht an, bei welchem Importelement ein Fehler aufgetreten ist.DEBUG
: Stellt detaillierte Logs für jedes Importelement bereit. Verwenden Sie das Logging auf Debug-Ebene, um Probleme mit bestimmten Importelementen zu beheben. Verwenden Sie beispielsweise die Protokollierung auf Debug-Ebene, um Ressourcen zu identifizieren, die im Jobbereich fehlen, Einträge oder Aspekte, die nicht dem zugehörigen Eintragstyp oder Aspekttyp entsprechen, oder andere Fehlkonfigurationen in der Metadaten-Importdatei.
Validierungsfehler
Dataplex Universal Catalog validiert die Metadatenimportdateien anhand der aktuellen Metadaten in Ihrem Projekt. Wenn ein Validierungsproblem vorliegt, kann der Jobstatus einen der folgenden Statuswerte zurückgeben:
FAILED
: tritt auf, wenn die Datei zum Importieren von Metadaten einen Fehler enthält. In Dataplex Universal Catalog werden keine Metadaten importiert und der Job schlägt fehl. Beispiele für Fehler in der Metadaten-Importdatei:- Ein Element in der Datei kann nicht in ein gültiges Importelement geparst werden
- Ein Eintrag oder Aspekt in der Datei gehört zu einer Eintragsgruppe, einem Eintragstyp oder einem Aspekttyp, der nicht zum Umfang des Jobs gehört.
- Derselbe Eintragsname wird im Job mehrmals angegeben.
- Ein Aspekttyp, der in einer Aspektzuordnung oder den Aspektschlüsseln angegeben ist, verwendet nicht das Format PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID@OPTIONAL_PATH.
- Ein erforderlicher Aspekt ist zum Löschen markiert
SUCCEEDED_WITH_ERRORS
: Tritt auf, wenn die Datei für den Metadatenimport erfolgreich geparst werden kann, aber das Importieren eines Elements in der Datei dazu führen würde, dass ein Eintrag in Ihrem Projekt einen inkonsistenten Status hat. Dataplex Universal Catalog ignoriert solche Einträge, importiert aber die restlichen Metadaten aus der Datei.
Verwenden Sie Job-Logs, um den Fehler zu beheben.
Nächste Schritte
- Mit Dataplex Universal Catalog nach Datenassets suchen
- Aspekte verwalten und Metadaten anreichern
- Einträge verwalten und benutzerdefinierte Quellen aufnehmen
- Metadaten exportieren