Herkunft im Dataplex Universal Catalog ansehen

Auf dieser Seite wird beschrieben, wie Sie die von Ihren Cloud Data Fusion-Pipelines generierte Data Lineage – zusammen mit anderen Datenverschiebungen in Google Cloud – für Suchanfragen und Governance-Zwecke ansehen. Sie können sich die Abstammungsdiagramme für unterstützte Datenquellen auf der Seite „Dataplex Universal Catalog“ in der Console ansehen oder die Data Lineage API verwenden, um vollständige Datenabstammungsdatensätze abzurufen.

Plug-ins, die die Datenherkunft des Dataplex Universal Catalog unterstützen

Cloud Data Fusion und der Dataplex Universal Catalog unterstützen die Datenherkunft auf Asset-Ebene für die folgenden Plug-ins:

  • Amazon S3
  • BigQuery
  • BigQuery-Multitabellensenke (Version 6.9.1 und höher)
  • Spanner
  • Cloud Storage
  • Cloud SQL for MySQL
  • Cloud SQL for PostgreSQL
  • Dataplex Universal Catalog
  • FTP
  • Generische Datenbank
  • HTTP
  • MSSQL/SQL Server
  • Mehrere Datenbanktabellen als Quelle (Version 6.9.1 und höher)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • SAP-Tabelle

Weitere Informationen finden Sie unter Cloud Data Fusion-Plug-ins.

Hinweise

So aktivieren Sie die Anzeige von Cloud Data Fusion-Herkunftsdiagrammen auf der Seite „Dataplex Universal Catalog“ in der Console:

  1. Erstellen Sie eine Datenpipeline, die nur die unterstützten Plug-ins verwendet.

  2. Aktivieren Sie die Data Lineage API in dem Projekt, das Ihre Cloud Data Fusion-Instanz enthält.

  3. Weisen Sie dem von Cloud Data Fusion verwalteten Dienstkonto, dem Cloud Data Fusion API-Dienst-Agent, die Rolle „Produzent von Datenabstammungsereignissen“ (roles/datalineage.producer) zu. Der Vorgang unterscheidet sich, wenn Ihre Instanz in einer älteren Version von Cloud Data Fusion ausgeführt wird und RBAC aktiviert ist.

    6.10 oder höher oder keine RBAC

    Wenn für Ihre Cloud Data Fusion-Instanz Version 6.10.0 oder höher verwendet wird oder Ihre Instanz eine ältere Version verwendet und die RBAC nicht aktiviert ist, gehen Sie so vor:

    1. Rufen Sie in der Google Cloud Console die Seite IAM auf.

      IAM aufrufen

    2. Klicken Sie auf das Kästchen Von Google bereitgestellte Rollenzuweisungen einschließen.

    3. Wählen Sie das Dienstkonto „Cloud Data Fusion API-Dienst-Agent“ aus und klicken Sie auf Bearbeiten.

    4. Klicken Sie auf Weitere Rolle hinzufügen und wählen Sie die Rolle Datenabstammungsereignisse erstellen aus.

    5. Klicken Sie auf Speichern.

    Unter 6.10 mit RBAC

    Wenn für Ihre Cloud Data Fusion-Instanz eine Version vor 6.10.0 verwendet wird und die RBAC aktiviert ist, wird das Dienstkonto nicht in der Liste der Principals auf der IAM-Seite angezeigt. Sie müssen den Namen des Dienstkontos manuell eingeben.

    So weisen Sie die erforderliche Rolle zu:

    1. Rufen Sie in der Google Cloud Console die Seite IAM auf.

      IAM aufrufen

    2. Klicken Sie auf Zugriff erlauben.

    3. Geben Sie im Feld Neue Hauptkonten das Dienstkonto „Cloud Data Fusion API-Dienst-Agent“ ein. Verwenden Sie das folgende Format: datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.

      Ersetzen Sie TENANT_PROJECT_ID durch die Mieter-ID Ihrer Instanz. Die Projekt-ID des Tenants finden Sie auf der Seite Instanzen. Klicken Sie auf den Instanznamen, um die Instanzdetails aufzurufen.

      Zur Seite „VM-Instanzen“

    4. Wählen Sie die Rolle Data Lineage-Ereignis-Ersteller aus.

    5. Klicken Sie auf Speichern.

Data Lineage für den Dataplex Universal Catalog in Cloud Data Fusion aktivieren

Bei neuen Instanzen in Cloud Data Fusion ist die Datenableitung für den Dataplex Universal Catalog standardmäßig deaktiviert. Wenn Sie die Instanz vor dem 27. Januar 2024 mit Version 6.8.0 oder höher erstellt haben, ist sie standardmäßig aktiviert, nachdem Sie die Schritte unter Vorbereitung ausgeführt haben.

Dataplex Universal Catalog-Datenabstammung beim Erstellen einer Instanz aktivieren

Console

So aktivieren Sie die Data Lineage für den Dataplex Universal Catalog, wenn Sie eine Instanz erstellen:

  1. Rufen Sie die Seite Cloud Data Fusion-Instanzen auf und klicken Sie auf Instanz erstellen.

    Instanz erstellen

  2. Maximieren Sie beim Konfigurieren der Instanz den Bereich Erweiterte Optionen und klicken Sie auf Einbindung in Dataplex Data Lineage aktivieren. Weitere Informationen zum Erstellen von Instanzen finden Sie unter Öffentliche Instanz erstellen.

REST API

Wenn Sie die Datenherkunft des Dataplex Universal Catalog beim Erstellen einer Instanz aktivieren möchten, legen Sie die optionale Property dataplex_data_lineage_integration_enabled auf true fest:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

Wenn Sie die Abfolge deaktivieren möchten, setzen Sie die Property entweder auf „falsch“ oder lassen Sie sie weg. Die Abfolge ist standardmäßig deaktiviert, wenn Sie eine neue Instanz erstellen.

Dataplex Universal Catalog-Datenabstammung in einer vorhandenen Instanz aktivieren oder deaktivieren

Console

So aktivieren oder deaktivieren Sie die Data Lineage von Dataplex Universal Catalog in einer vorhandenen Instanz in Cloud Data Fusion:

  1. Rufen Sie die Instanzdetails auf:
    1. Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.

    2. Klicken Sie auf Instanzen und dann auf den Namen der Instanz, um die Seite Instanzdetails aufzurufen.

      Zur Seite „VM-Instanzen“

  2. Klicken Sie im Feld Einbindung von Dataplex Data Lineage auf Bearbeiten.
  3. Aktivieren oder deaktivieren Sie die Data Lineage für den Dataplex Universal Catalog und klicken Sie dann auf Speichern.

REST API

Wenn Sie die Data Lineage für den Dataplex Universal Catalog in einer vorhandenen Instanz in Cloud Data Fusion aktivieren möchten, legen Sie die Eigenschaft dataplex_data_lineage_integration_enabled auf true fest und geben Sie den Parameterwert updateMask an:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Wenn Sie die Data Lineage von Dataplex Universal Catalog in einer vorhandenen Instanz in Cloud Data Fusion deaktivieren möchten, legen Sie das Attribut dataplex_data_lineage_integration_enabled auf false fest und geben Sie den Parameterwert updateMask an:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Herkunftsdiagramme ansehen

So rufen Sie Abstammungsdiagramme für Entitäten in allen Google Cloud Diensten auf:

  1. Rufen Sie Ihre Instanz in Cloud Data Fusion auf und führen Sie eine Datenpipeline aus, die unterstützte Plug-ins verwendet.

  2. Rufen Sie in der Console die Seite „Universal Catalog“ von Dataplex auf und sehen Sie sich die Abstammungsdiagramme an. Suchen Sie nach dem Asset, für das Sie Informationen zur Abstammung aufrufen möchten.

Beschränkungen

Für die Anzeige der Lineage im Dataplex Universal Catalog gelten die folgenden Einschränkungen:

Nächste Schritte