Diese Seite wurde von der Cloud Translation API übersetzt.

Metadaten mit einer benutzerdefinierten Pipeline importieren

In diesem Dokument wird beschrieben, wie Sie Metadaten aus einem Drittanbietersystem in Dataplex Universal Catalog importieren. Dazu verwenden Sie die API-Methoden für den Metadatenimport und Ihre eigene Pipeline. Dataplex Universal Catalog-Metadaten bestehen aus Einträgen und ihren Aspekten.

Wenn Sie stattdessen eine von Google Cloudverwaltete Orchestrierungspipeline zum Extrahieren und Importieren von Metadaten verwenden möchten, empfehlen wir die Verwendung einer Pipeline für verwaltete Verbindungen. Bei einer Pipeline für verwaltete Verbindungen stellen Sie Ihren eigenen Connector bereit, der Metadaten extrahiert und die Ausgabe in einem Format generiert, das als Eingabe für die API-Methoden für den Metadatenimport verwendet werden kann (die Metadaten-Importdatei). Anschließend verwenden Sie Workflows, um die Pipeline-Aufgaben zu orchestrieren.

Sie können die folgenden Arten von Metadaten-Importjobs ausführen:

Vollständige Synchronisierung von Einträgen mit inkrementellem Import ihrer Aspekte: Unterstützt für benutzerdefinierte Einträge.
Nur inkrementeller Import von Aspekten: Wird für Aspekte unterstützt, die zu benutzerdefinierten Einträgen und Systemeinträgen gehören. Bei benutzerdefinierten Einträgen können Sie sowohl optionale als auch erforderliche Aspekte ändern. Bei Systemeinträgen können Sie optionale Aspekte ändern.

Allgemeine Schritte

So importieren Sie Metadaten mit der Metadata Import API:

Legen Sie den Umfang des Jobs fest.

Außerdem erfahren Sie, wie Dataplex Universal Catalog die Vergleichslogik und den Synchronisierungsmodus für Einträge und Aspekte anwendet.
Erstellen Sie eine oder mehrere Metadaten-Importdateien, in denen die zu importierenden Daten definiert werden.
Speichern Sie die Metadaten-Importdateien in einem Cloud Storage-Bucket.
Führen Sie einen Metadatenimportjob aus.

Bei den Schritten auf dieser Seite wird davon ausgegangen, dass Sie mit den Metadatenkonzepten von Dataplex Universal Catalog vertraut sind, einschließlich Eintragsgruppen, Eintragstypen und Aspekttypen. Weitere Informationen finden Sie unter Metadatenverwaltung in Dataplex Universal Catalog.

Hinweise

Führen Sie die Aufgaben in diesem Abschnitt aus, bevor Sie Metadaten importieren.

Erforderliche Rollen

Damit das Dataplex Universal Catalog-Dienstkonto die erforderlichen Berechtigungen für den Zugriff auf den Cloud Storage-Bucket hat, bitten Sie Ihren Administrator, dem Dataplex Universal Catalog-Dienstkonto die IAM-Rolle „Storage-Objekt-Betrachter“ (roles/storage.objectViewer) und die Berechtigung storage.buckets.get für den Bucket zuzuweisen.

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zur Verwaltung von Metadatenimportjobs benötigen:

Einträge und ihre Aspekte in einem Metadatenjob für die vollständige Synchronisierung von Einträgen ändern:
- Dataplex Entry Type User (roles/dataplex.entryTypeUser) für den Eintragstyp oder das Projekt, in dem der Eintragstyp definiert ist
- Dataplex Aspect Type User (roles/dataplex.aspectTypeUser) für den Aspekttyp oder das Projekt, in dem der Aspekttyp definiert ist
Erforderliche Aspekte in einem reinen Aspekt-Metadatenjob ändern:
- Dataplex Entry Type User (roles/dataplex.entryTypeUser) für den Eintragstyp oder das Projekt, in dem der Eintragstyp definiert ist
- Dataplex Aspect Type User (roles/dataplex.aspectTypeUser) für den Aspekttyp oder das Projekt, in dem der Aspekttyp definiert ist
Optionale Aspekte in einem reinen Aspekt-Metadatenjob ändern: Dataplex Aspect Type User (roles/dataplex.aspectTypeUser) für den Aspekttyp oder das Projekt, in dem der Aspekttyp definiert ist. Wenn Sie optionale Aspekte in einem reinen Aspekt-Metadatenjob ändern, benötigen Sie keine Berechtigungen für den zugehörigen Eintragstyp.
Metadaten-Importjobs erstellen:
- Dataplex Entry Group Importer (roles/dataplex.entryGroupImporter) für das Projekt oder die Ressource
- Dataplex Entry and EntryLink Owner (roles/dataplex.entryOwner) für das Projekt oder die Ressource
Metadaten-Jobs ansehen: Dataplex Metadata Job Viewer (roles/dataplex.metadataJobViewer) für das Projekt
Metadaten-Jobs erstellen, ansehen und abbrechen: Dataplex Metadata Job Owner (roles/dataplex.metadataJobOwner) für das Projekt

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Google Cloud -Ressourcen erstellen

Bereiten Sie die folgenden Google Cloud Ressourcen vor:

Eintragsgruppen erstellen für die Einträge, die Sie importieren möchten.
Erstellen Sie Aspekttypen für die Aspekte, die Sie importieren möchten.
Eintragstypen erstellen für die Einträge, die Sie importieren möchten.
Wenn Sie einen reinen Aspekt-Metadatenjob ausführen, erstellen Sie Einträge für die Aspekte, die Sie importieren möchten.
Erstellen Sie einen Cloud Storage-Bucket zum Speichern der Importdateien für Metadaten.

Komponenten eines Metadatenimportjobs

Berücksichtigen Sie beim Importieren von Metadaten die folgenden Komponenten eines Metadatenjobs:

Job-Umfang: Die Eintragsgruppen, Eintragstypen und Aspekttypen, die im Job enthalten sein sollen.
Synchronisierungsmodus: Gibt an, wie die Einträge und Aspekte im Job aktualisiert werden.
Datei für den Metadatenimport: Eine Datei, in der die Werte definiert werden, die für die Einträge und Aspekte im Job festgelegt werden sollen. Sie können mehrere Metadaten-Importdateien im selben Metadatenjob angeben. Sie speichern die Dateien in Cloud Storage.
Vergleichslogik: Hier wird festgelegt, wie Dataplex Universal Catalog bestimmt, welche Einträge und Aspekte geändert werden sollen.

Jobumfang

Der Jobbereich definiert die Eintragsgruppen, die Eintragstypen und die Aspekttypen, die Sie in einen Metadatenimportjob aufnehmen möchten. Wenn Sie Metadaten importieren, ändern Sie die Einträge und Aspekte, die zu Ressourcen im Umfang des Jobs gehören.

So definieren Sie den Job-Umfang:

Eintragsgruppen: Geben Sie eine oder mehrere Eintragsgruppen an, die in den Job aufgenommen werden sollen. Bei dem Job werden nur die Einträge und Aspekte geändert, die zu diesen Eintragsgruppen gehören. Die Eintrag- und die Jobgruppen müssen sich in derselben Region befinden.
Eintragstypen: Geben Sie einen oder mehrere Eintragstypen an, die im Job enthalten sein sollen. Der Job ändert nur die Einträge und Aspekte, die zu diesen Eintragstypen gehören. Der Standort eines Eintragstyps muss entweder mit dem Standort des Jobs übereinstimmen oder der Eintragstyp muss global sein.
Aspekttypen: Geben Sie einen oder mehrere Aspekttypen an, die im Job enthalten sein sollen. Der Job ändert nur die Aspekte, die zu diesen Aspekttypen gehören. Der Standort eines Aspekttyps muss entweder mit dem Standort des Jobs übereinstimmen oder der Aspekttyp muss global sein.

Der Jobbereich muss alle Eintragstypen und Aspekttypen umfassen, die Sie in der Metadatenimportdatei angeben.

Sie geben den Jobbereich an, wenn Sie einen Metadatenjob erstellen.

Synchronisierungsmodus

Der Synchronisierungsmodus gibt an, wie die Einträge und Aspekte in einem Metadaten-Importjob aktualisiert werden. Sie geben einen Synchronisierungsmodus für beide Einträge und Aspekte an. Je nachdem, welche Ressourcen Sie importieren möchten, werden die folgenden Kombinationen von Synchronisierungsmodi unterstützt.

Ziel Modus für die Synchronisierung von Einträgen Modus für die Synchronisierung des Seitenverhältnisses Ergebnisse

Einträge und ihre Aspekte importieren

Ziel	Modus für die Synchronisierung von Einträgen	Modus für die Synchronisierung des Seitenverhältnisses	Ergebnisse
Einträge und ihre Aspekte importieren	`FULL`	`INCREMENTAL`	Alle Einträge im Bereich des Jobs werden geändert. Wenn ein Eintrag in Dataplex Universal Catalog vorhanden ist, aber nicht in der Metadaten-Importdatei enthalten ist, wird er gelöscht, wenn Sie den Metadatenjob ausführen. Ein Aspekt wird nur geändert, wenn die Metadatenimportdatei einen Verweis auf den Aspekt im Feld `updateMask` und im Feld `aspectKeys` enthält. Siehe Struktur eines Importelements.
Nur Aspekte importieren	`NONE`	`INCREMENTAL`	Aspekte werden geändert, wenn sie Teil des Jobbereichs sind und die Metadaten-Importdatei einen Verweis auf die Aspekte im Feld `aspectKeys` enthält. Siehe Struktur eines Importelements. Andere Metadaten, die zu Einträgen im Umfang des Jobs gehören, werden nicht geändert.

FULL

INCREMENTAL

Alle Einträge im Bereich des Jobs werden geändert.

Wenn ein Eintrag in Dataplex Universal Catalog vorhanden ist, aber nicht in der Metadaten-Importdatei enthalten ist, wird er gelöscht, wenn Sie den Metadatenjob ausführen.

Ein Aspekt wird nur geändert, wenn die Metadatenimportdatei einen Verweis auf den Aspekt im Feld updateMask und im Feld aspectKeys enthält. Siehe Struktur eines Importelements.

Nur Aspekte importieren

NONE

INCREMENTAL

Aspekte werden geändert, wenn sie Teil des Jobbereichs sind und die Metadaten-Importdatei einen Verweis auf die Aspekte im Feld aspectKeys enthält. Siehe Struktur eines Importelements.

Andere Metadaten, die zu Einträgen im Umfang des Jobs gehören, werden nicht geändert.

Sie geben den Synchronisierungsmodus an, wenn Sie einen Metadatenjob erstellen.

Metadaten-Importdatei

Die Metadaten-Importdatei ist eine Sammlung der Einträge und Aspekte, die Sie ändern möchten. Hier werden die Werte definiert, die für alle Felder festgelegt werden sollen, die zu diesen Einträgen und Aspekten gehören. Sie bereiten die Datei vor, bevor Sie einen Metadatenimportjob ausführen.

Es gelten die folgenden allgemeinen Richtlinien:

Sie können mehrere Metadaten-Importdateien im selben Metadatenjob angeben.
Wenn Sie einen Metadatenjob für die vollständige Synchronisierung von Einträgen ausführen, werden alle vorhandenen Einträge für Ressourcen, die im Umfang des Jobs enthalten sind, vollständig durch die Einträge ersetzt, die Sie in der Datei angeben. Das bedeutet, dass Sie für alle Einträge in einem Job Werte angeben müssen, nicht nur für die Werte, die Sie hinzufügen oder aktualisieren möchten. Wenn Sie eine Liste der aktuellen Einträge in Ihrem Projekt als Ausgangspunkt verwenden möchten, verwenden Sie die API-Methode entries.list.

Achtung :Wenn ein Eintrag in Dataplex Universal Catalog vorhanden ist, aber nicht in der Metadaten-Importdatei enthalten ist, wird er beim Ausführen des Metadatenjobs gelöscht. Wenn die Metadaten-Importdatei keine Daten enthält, werden alle Einträge und Aspekte gelöscht, die zum Umfang des Jobs gehören.
Sie müssen eine Metadaten-Importdatei als Teil eines Metadatenjobs bereitstellen. Wenn Sie alle vorhandenen Daten für die Einträge im Umfang des Jobs löschen möchten, stellen Sie eine leere Metadaten-Importdatei bereit.
Alle Einträge und Aspekte, die Sie in die Datei aufnehmen, müssen zu den Eintragsgruppen, Eintragstypen und Aspekttypen gehören, die Sie im Umfang des Jobs definieren.

In den folgenden Abschnitten finden Sie detaillierte Richtlinien zum Erstellen einer Metadaten-Importdatei.

Struktur der Datei

Jede Zeile in der Metadaten-Importdatei enthält ein JSON-Objekt, das einem Importelement entspricht. Ein Importartikel ist ein Objekt, das die Werte beschreibt, die für einen Eintrag und die zugehörigen Aspekte geändert werden sollen.

Sie können mehrere Importelemente in einer einzelnen Metadaten-Importdatei angeben. Sie sollten dasselbe Importelement jedoch nicht mehrmals in einem Metadatenjob angeben. Verwenden Sie ein Zeilenumbruchzeichen (0x0a), um die einzelnen Importelemente voneinander zu trennen.

Eine Metadaten-Importdatei mit einem Zeilenumbruch zwischen den einzelnen Importelementen sieht so aus:

{ "entry": { "name": "entry 1", #Information about entry 1 }
{ "entry": { "name": "entry 2", #Information about entry 2 }

Struktur eines Importelements

Jedes Importelement in der Metadaten-Importdatei kann die folgenden Felder enthalten (siehe ImportItem). Das folgende Beispiel ist zur besseren Lesbarkeit mit Zeilenumbrüchen formatiert. Wenn Sie die Datei speichern, fügen Sie jedoch nur nach jedem Importelement ein Zeilenumbruchzeichen ein. Fügen Sie keine Zeilenumbrüche zwischen den Feldern eines einzelnen Importelements ein.

{
  "entry": {
    "name": "ENTRY_NAME",
    "entryType": "ENTRY_TYPE",
    "entrySource": {
      "resource": "RESOURCE",
      "system": "SYSTEM",
      "platform": "PLATFORM",
      "displayName": "DISPLAY_NAME",
      "description": "DESCRIPTION",
      "createTime": "ENTRY_CREATE_TIMESTAMP",
      "updateTime": "ENTRY_UPDATE_TIMESTAMP"
    },
    "aspects": {
      "ASPECT": {
        "data": {
          "KEY": "VALUE"
        },
        "aspectSource": {
          "createTime": "ASPECT_CREATE_TIMESTAMP",
          "updateTime": "ASPECT_UPDATE_TIMESTAMP"
        }
      },
      # Additional aspect maps
    },
    "parentEntry": "PARENT_ENTRY",
    "fullyQualifiedName": "FULLY_QUALIFIED_NAME"
  },
  "updateMask": "UPDATE_MASK_FIELDS",
  "aspectKeys": [
    "ASPECT_KEY",
    # Additional aspect keys
  ],
}

Ersetzen Sie Folgendes:

entry: Informationen zu einem Eintrag und den zugehörigen Aspekten. Bei einem Metadatenimportjob, der nur Aspekte umfasst, ignoriert Dataplex Universal Catalog alle optionalen Felder für einen Eintrag mit Ausnahme der Aspektzuordnungen.
- ENTRY_NAME: Der relative Ressourcenname des Eintrags im Format projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID.
- ENTRY_TYPE: Der relative Ressourcenname des Eintrags, der zum Erstellen dieses Eintrags verwendet wurde, im Format projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryTypes/ENTRY_TYPE_ID.
- entrySource: Informationen aus dem Quellsystem zur Datenressource, die durch den Eintrag dargestellt wird:
  - RESOURCE: Der Name der Ressource im Quellsystem.
  - SYSTEM: der Name des Quellsystems.
  - PLATFORM: Die Plattform, die das Quellsystem enthält.
  - DISPLAY_NAME: Ein nutzerfreundlicher Anzeigename.
  - DESCRIPTION: Eine Beschreibung des Eintrags.
  - ENTRY_CREATE_TIMESTAMP: Die Uhrzeit, zu der der Eintrag im Quellsystem erstellt wurde.
  - ENTRY_UPDATE_TIMESTAMP: Der Zeitpunkt, zu dem der Eintrag im Quellsystem aktualisiert wurde.
- aspects: Die Aspekte, die dem Eintrag zugeordnet sind. Das aspect-Objekt und seine Daten werden als Aspektzuordnung bezeichnet.
  - ASPECT: ein Aspekt, der dem Eintrag zugeordnet ist. Verwenden Sie je nachdem, wie der Aspekt an den Eintrag angehängt ist, eines der folgenden Formate:
    - Wenn der Aspekt direkt an den Eintrag angehängt ist, geben Sie den relativen Ressourcennamen des zugehörigen Aspekttyps im Format PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID an.
    - Wenn der Aspekt an den Pfad des Eintrags angehängt ist, geben Sie den Pfad des Aspekttyps im Format PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID@PATH an.
  - KEY und VALUE: Der Inhalt des Aspekts gemäß der Metadatenvorlage für den Aspekttyp. Der Inhalt muss als UTF-8 codiert sein. Die maximale Größe des Felds beträgt 120 KB. Das data-Dictionary ist erforderlich, auch wenn es leer ist.
  - ASPECT_CREATE_TIMESTAMP: Der Zeitpunkt, zu dem der Aspekt im Quellsystem erstellt wurde.
  - ASPECT_UPDATE_TIMESTAMP: Der Zeitpunkt, zu dem der Aspekt im Quellsystem aktualisiert wurde.
- PARENT_ENTRY: der Ressourcenname des übergeordneten Eintrags.
- FULLY_QUALIFIED_NAME: Ein Name für den Eintrag, auf den von einem externen System verwiesen werden kann. Weitere Informationen finden Sie unter Vollständig qualifizierte Namen.
UPDATE_MASK_FIELDS: die Felder, die aktualisiert werden sollen, in Pfaden, die relativ zur Entry-Ressource sind. Trennen Sie die einzelnen Felder durch Kommas.

Bei einem vollständigen Eintragsynchronisierungsjob enthält Dataplex Universal Catalog die Pfade aller Felder für einen Eintrag, die geändert werden können, einschließlich Aspekten. Das Feld updateMask wird ignoriert, wenn ein Eintrag erstellt oder neu erstellt wird.

Legen Sie diesen Wert in einem reinen Aspekt-Metadatenjob auf aspects fest.
ASPECT_KEY: Die zu ändernden Aspekte. Unterstützt die folgenden Syntaxen:
- ASPECT_TYPE_REFERENCE: Entspricht dem Aspekttyp für Aspekte, die direkt an den Eintrag angehängt sind.
- ASPECT_TYPE_REFERENCE@PATH: entspricht dem Aspekttyp und dem angegebenen Pfad.
- ASPECT_TYPE_REFERENCE@*: entspricht dem Aspekttyp für alle Pfade.
- *@PATH: Entspricht allen Aspekttypen auf dem angegebenen Pfad.
Ersetzen Sie ASPECT_TYPE_REFERENCE durch einen Verweis auf den Aspekttyp im Format PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID.

Wenn Sie dieses Feld bei einem vollständigen Synchronisierungsjob für Einträge leer lassen, wird es so behandelt, als würden Sie genau die Aspekte angeben, die im angegebenen Eintrag vorhanden sind. Dataplex Universal Catalog fügt die Schlüssel für alle erforderlichen Aspekte eines Eintrags implizit hinzu.

Anforderungen für Dateien

Für die Metadaten-Importdatei gelten die folgenden Anforderungen:

Die Datei muss als JSON Lines-Datei formatiert sein, d. h. als JSON-Datei mit Zeilenumbrüchen als Trennzeichen. Verwenden Sie ein Zeilenvorschubzeichen (0x0a), um die einzelnen Importelemente voneinander zu trennen.
Die Datei muss die UTF-8-Zeichencodierung verwenden.
Unterstützte Dateiendungen sind .jsonl und .json.
Die Dateigröße jeder Metadaten-Importdatei darf maximal 1 GiB betragen. Die maximale Gesamtgröße für alle Daten im Metadatenjob beträgt 3 GB. Dazu gehören alle Dateien und Metadaten, die mit dem Job verknüpft sind.
Die in der Datei angegebenen Eintragstypen und Aspekttypen müssen Teil des Bereichs des Metadatenjobs sein.
Die Datei muss in einen Cloud Storage-Bucket hochgeladen werden. Speichern Sie die Datei nicht in einem Ordner mit dem Namen CLOUD_STORAGE_URI/deletions/.

Vergleichslogik

Dataplex Universal Catalog ermittelt, welche Einträge und Aspekte geändert werden sollen, indem die Werte und Zeitstempel, die Sie in der Metadaten-Importdatei angeben, mit den Werten und Zeitstempeln in Ihrem Projekt verglichen werden.

Im Allgemeinen aktualisiert Dataplex Universal Catalog die Werte in Ihrem Projekt, wenn mindestens eine vorgeschlagene Änderung in der Metadatenimportdatei den Status Ihres Projekts ändert, wenn der Job ausgeführt wird, ohne dass veraltete Daten eingeführt werden. Die vorgeschlagene Änderung muss im Feld „Aktualisierungsmaske“ oder im Feld „aspect_keys“ in der Metadaten-Importdatei referenziert werden.

Die Vergleichslogik variiert je nachdem, welche Art von Metadatenimportjob Sie ausführen.

Auftrag zur Synchronisierung des gesamten Eintrags

Bei einem Metadatenjob für die vollständige Synchronisierung von Einträgen führt Dataplex Universal Catalog für jeden Eintrag, der zum Umfang des Jobs gehört, einen der folgenden Schritte aus:

Erstellt einen Eintrag und zugehörige Aspekte. Wenn die Metadaten-Importdatei einen Eintrag enthält, der in Ihrem Projekt nicht vorhanden ist, werden der Eintrag und die zugehörigen Aspekte in Dataplex Universal Catalog erstellt.
Löscht einen Eintrag und die angehängten Aspekte. Wenn ein Eintrag in Ihrem Projekt vorhanden ist, die Metadaten-Importdatei ihn aber nicht enthält, werden der Eintrag und die zugehörigen Aspekte aus Ihrem Projekt gelöscht.
Aktualisiert einen Eintrag und die zugehörigen Aspekte. Wenn ein Eintrag sowohl in der Metadaten-Importdatei als auch in Ihrem Projekt vorhanden ist, wertet Dataplex Universal Catalog die Zeitstempel der Eintragsquelle und die Zeitstempel der Aspektquelle aus, die dem Eintrag zugeordnet sind, um zu bestimmen, welche Werte geändert werden sollen. Anschließend führt Dataplex Universal Catalog einen oder mehrere der folgenden Schritte aus:
- Der Eintrag wird neu erstellt. Wenn der Zeitstempel für das Erstellen der Eintragsquelle in der Metadaten-Importdatei neuer ist als der entsprechende Zeitstempel in Ihrem Projekt, wird der Eintrag in Ihrem Projekt von Dataplex Universal Catalog neu erstellt.
- Aktualisiert den Eintrag. Wenn der Zeitstempel für die Aktualisierung der Eintragsquelle in der Metadaten-Importdatei neuer ist als der entsprechende Zeitstempel in Ihrem Projekt, wird der Eintrag in Ihrem Projekt in Dataplex Universal Catalog aktualisiert.
- Erstellt einen Aspekt. Wenn ein Aspekt in Ihrem Projekt nicht vorhanden ist und in einer Aspektzuordnung, im Feld „updateMask“ und im Feld „aspectKeys“ in der Metadaten-Importdatei enthalten ist, wird er von Dataplex Universal Catalog erstellt.
- Löscht einen Aspekt. Wenn ein Aspekt in Ihrem Projekt vorhanden ist und im Feld „updateMask“ und im Feld „aspectKeys“ in der Metadatenimportdatei enthalten ist, aber nicht in einer Aspektzuordnung, wird der Aspekt von Dataplex Universal Catalog gelöscht.
- Aktualisiert einen Aspekt. Wenn ein Aspekt in Ihrem Projekt vorhanden ist und in einer Aspektzuordnung, im Feld „updateMask“ und im Feld „aspectKeys“ in der Metadaten-Importdatei enthalten ist und der Zeitstempel für die Aspektquellenaktualisierung in der Metadaten-Importdatei neuer ist als der entsprechende Zeitstempel in Ihrem Projekt, wird der Aspekt in Dataplex Universal Catalog aktualisiert.
  
  Wenn in der Metadatenimportdatei kein Zeitstempel für die Aktualisierung der Aspektquelle angegeben ist, der entsprechende Eintrag aber für eine Aktualisierung markiert ist, wird der Aspekt auch von Dataplex Universal Catalog aktualisiert.
  
  Wenn jedoch mindestens ein Aspekt in der Metadaten-Importdatei einen älteren Zeitstempel als den entsprechenden Zeitstempel in Ihrem Projekt hat, werden in Dataplex Universal Catalog keine Aktualisierungen für den angehängten Eintrag vorgenommen.

Job nur für Aspekte

Bei einem Metadatenjob, der nur Aspekte umfasst, führt Dataplex Universal Catalog für jeden Aspekt, der Teil des Jobbereichs ist, einen der folgenden Schritte aus:

Erstellt einen Aspekt. Wenn ein Aspekt in Ihrem Projekt nicht vorhanden ist und in einer Aspektzuordnung, im Feld „updateMask“ und im Feld „aspectKeys“ in der Metadaten-Importdatei enthalten ist, wird er von Dataplex Universal Catalog erstellt.
Löscht einen Aspekt. Wenn ein optionaler Aspekt in Ihrem Projekt vorhanden ist und im Feld „Aktualisierungsmaske“ und im Feld „Aspektschlüssel“ in der Metadaten-Importdatei enthalten ist, aber nicht in einer Aspektzuordnung, wird er von Dataplex Universal Catalog gelöscht.

Erforderliche Aspekte können nicht gelöscht werden.
Aktualisiert einen Aspekt. Wenn ein Aspekt in Ihrem Projekt vorhanden ist und in einer Aspektzuordnung, im Feld „updateMask“ und im Feld „aspectKeys“ in der Metadaten-Importdatei enthalten ist und der Zeitstempel für die Aspektquellenaktualisierung in der Metadaten-Importdatei neuer ist als der entsprechende Zeitstempel in Ihrem Projekt, wird der Aspekt in Dataplex Universal Catalog aktualisiert.

Wenn in der Metadatenimportdatei kein Zeitstempel für die Aktualisierung der Aspektquelle angegeben ist, wird der Aspekt auch von Dataplex Universal Catalog aktualisiert.

Dataplex Universal Catalog aktualisiert Aspekte basierend auf dem Zeitstempel der Aktualisierung der Aspektquelle, unabhängig vom Zeitstempel der Aktualisierung der Eintragsquelle des entsprechenden Eintrags.

Metadaten-Importdatei erstellen

Bevor Sie Metadaten importieren, müssen Sie eine Metadatenimportdatei für Ihren Job erstellen. Gehen Sie dazu so vor:

Bereiten Sie eine Metadaten-Importdatei vor. Folgen Sie dazu der Anleitung, die weiter oben in diesem Dokument beschrieben wird.
Laden Sie die Datei in einen Cloud Storage-Bucket hoch.

Sie können mehrere Metadaten-Importdateien im selben Metadatenjob angeben. Wenn Sie mehrere Dateien bereitstellen möchten, speichern Sie sie im selben Cloud Storage-Bucket. Wenn Sie den Job ausführen, geben Sie einen Bucket und keine bestimmte Datei an. Dataplex Universal Catalog importiert Metadaten aus allen Dateien, die im Bucket gespeichert sind, einschließlich Dateien in Unterordnern.

Metadatenimportjob ausführen

Nachdem Sie eine Metadaten-Importdatei erstellt haben, führen Sie einen Metadaten-Importjob über die API aus.

REST

Verwenden Sie zum Importieren von Metadaten die metadataJobs.create-Methode.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

PROJECT_NUMBER: Ihre Google Cloud -Projektnummer oder Projekt-ID.
LOCATION_ID: der Google Cloud Standort, z. B. us-central1.
METADATA_JOB_ID: Optional. Die ID des Metadatenjobs.
CLOUD_STORAGE_URI: Der URI des Cloud Storage-Bucket oder -Ordners, der die Metadaten-Importdateien enthält. Weitere Informationen zu den Dateianforderungen finden Sie unter Metadaten-Importdatei.
ENTRY_GROUP: Der relative Ressourcenname der Eintragsgruppen, die für den Job infrage kommen, im Format projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryGroups/ENTRY_GROUP_ID. Weitere Informationen finden Sie unter Jobbereich.
ENTRY_TYPE: Der relative Ressourcenname eines Eintragstyps, der für den Job infrage kommt, im Format projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryTypes/ENTRY_TYPE_ID. Weitere Informationen finden Sie unter Jobbereich.
ASPECT_TYPE: Der relative Ressourcenname eines Aspekttyps, der für den Job gilt, im Format projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/aspectTypes/ASPECT_TYPE_ID. Optional beim Erstellen eines Jobs für die vollständige Synchronisierung von Einträgen, erforderlich beim Erstellen eines Jobs nur für Aspekte. Weitere Informationen finden Sie unter Jobbereich.
ENTRY_SYNC_MODE: Der Synchronisierungsmodus für Einträge, z. B. FULL oder NONE. Weitere Informationen finden Sie unter Synchronisierungsmodus.
LOG_LEVEL: Die Ebene der zu erfassenden Logs, z. B. INFO oder DEBUG. Weitere Informationen finden Sie unter Job-Logs ansehen und Fehler beheben.

HTTP-Methode und URL:

POST https://dataplex.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION_ID/metadataJobs?metadataJobId=METADATA_JOB_ID

JSON-Text anfordern:

{
  "type": IMPORT,
  "import_spec": {
    "source_storage_uri": "gs://CLOUD_STORAGE_URI/",
    "scope": {
      "entryGroups": [
        "ENTRY_GROUP"
      ],
      "entry_types": [
        "ENTRY_TYPE"
      ],
      "aspect_types": [
        "ASPECT_TYPE"
      ]
    },
    "entry_sync_mode": ENTRY_SYNC_MODE,
    "aspect_sync_mode": INCREMENTAL,
    "log_level": LOG_LEVEL
  }
}

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

curl (Linux, macOS oder Cloud Shell)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud-Befehlszeile angemeldet haben. Dazu haben Sie gcloud init oder gcloud auth login ausgeführt oder die Cloud Shell genutzt, die Sie automatisch bei der gcloud-Befehlszeile anmeldet. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataplex.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION_ID/metadataJobs?metadataJobId=METADATA_JOB_ID"

PowerShell (Windows)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud-Befehlszeile angemeldet haben. Dazu führen Sie gcloud init oder gcloud auth login aus. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataplex.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION_ID/metadataJobs?metadataJobId=METADATA_JOB_ID" | Select-Object -Expand Content

Die Antwort identifiziert einen Vorgang mit langer Ausführungszeit.

Details zu einem Metadatenjob abrufen

So rufen Sie Informationen zu einem Metadatenjob ab, z. B. den Status des Jobs und die Anzahl der geänderten Einträge: Weitere Informationen zur Fehlerbehebung bei einem fehlgeschlagenen Job finden Sie im Abschnitt Job-Logs ansehen und Fehler beheben in diesem Dokument.

REST

Verwenden Sie die Methode metadataJobs.get, um Informationen zu einem Metadatenjob abzurufen.

Liste von Metadaten-Jobs abrufen

Sie können eine Liste der letzten Metadatenjobs abrufen. Ältere Jobs, die einen Endstatus erreicht haben, werden regelmäßig aus dem System gelöscht.

REST

Mit der Methode metadataJobs.list können Sie eine Liste der letzten Metadatenjobs abrufen.

Metadatenjob abbrechen

Sie können einen Metadatenjob abbrechen, der nicht ausgeführt werden soll.

REST

Verwenden Sie zum Abbrechen eines Metadatenjobs die Methode metadataJobs.cancel.

Joblogs ansehen und Fehler beheben

Verwenden Sie Cloud Logging, um Logs für einen Metadatenjob aufzurufen. Weitere Informationen finden Sie unter Dataplex Universal Catalog-Logs überwachen.

Sie konfigurieren die Protokollebene, wenn Sie einen Metadatenjob erstellen. Die folgenden Logebenen sind verfügbar:

INFO: Stellt Logs auf der Ebene des gesamten Jobs bereit. Enthält aggregierte Logs zu Importelementen, gibt aber nicht an, bei welchem Importelement ein Fehler aufgetreten ist.
DEBUG: Stellt detaillierte Logs für jedes Importelement bereit. Verwenden Sie das Logging auf Debug-Ebene, um Probleme mit bestimmten Importelementen zu beheben. Verwenden Sie beispielsweise die Protokollierung auf Debug-Ebene, um Ressourcen zu identifizieren, die im Jobbereich fehlen, Einträge oder Aspekte, die nicht dem zugehörigen Eintragstyp oder Aspekttyp entsprechen, oder andere Fehlkonfigurationen in der Metadaten-Importdatei.

Hinweis :Je nach Größe des Metadatenjobs und Anzahl der generierten Logs können durch Debug-Level-Logging zusätzliche Kosten entstehen. Weitere Informationen finden Sie unter Google Cloud Observability-Preise.

Validierungsfehler

Dataplex Universal Catalog validiert die Metadaten-Importdateien anhand der aktuellen Metadaten in Ihrem Projekt. Wenn ein Validierungsproblem vorliegt, kann der Jobstatus einen der folgenden Statuswerte zurückgeben:

FAILED: tritt auf, wenn die Datei zum Importieren von Metadaten einen Fehler enthält. In Dataplex Universal Catalog werden keine Metadaten importiert und der Job schlägt fehl. Beispiele für Fehler in der Metadaten-Importdatei:
- Ein Element in der Datei kann nicht in ein gültiges Importelement geparst werden
- Ein Eintrag oder Aspekt in der Datei gehört zu einer Eintragsgruppe, einem Eintragstyp oder einem Aspekttyp, der nicht zum Umfang des Jobs gehört.
- Derselbe Eintragsname wird im Job mehrmals angegeben.
- Ein Aspekttyp, der in einer Aspektzuordnung oder den Aspektschlüsseln angegeben ist, verwendet nicht das Format PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID@OPTIONAL_PATH.
- Ein erforderlicher Aspekt ist zum Löschen markiert
SUCCEEDED_WITH_ERRORS: Tritt auf, wenn die Datei für den Metadatenimport erfolgreich geparst werden kann, der Import eines Elements in der Datei jedoch dazu führen würde, dass ein Eintrag in Ihrem Projekt einen inkonsistenten Status hat. Dataplex Universal Catalog ignoriert solche Einträge, importiert aber die restlichen Metadaten aus der Datei.

Verwenden Sie Job-Logs, um den Fehler zu beheben.

Metadaten mit einer benutzerdefinierten Pipeline importieren Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Allgemeine Schritte

Hinweise

Erforderliche Rollen

Google Cloud -Ressourcen erstellen

Komponenten eines Metadatenimportjobs

Jobumfang

Synchronisierungsmodus

Metadaten-Importdatei

Struktur der Datei

Struktur eines Importelements

Anforderungen für Dateien

Vergleichslogik

Auftrag zur Synchronisierung des gesamten Eintrags

Job nur für Aspekte

Metadaten-Importdatei erstellen

Metadatenimportjob ausführen

REST

curl (Linux, macOS oder Cloud Shell)

PowerShell (Windows)

Details zu einem Metadatenjob abrufen

REST

Liste von Metadaten-Jobs abrufen

REST

Metadatenjob abbrechen

REST

Joblogs ansehen und Fehler beheben

Validierungsfehler

Nächste Schritte

Metadaten mit einer benutzerdefinierten Pipeline importieren