在 Dataplex 通用目錄中查看歷程

本頁說明如何查看 Cloud Data Fusion 管道產生的資料歷程,以及 Google Cloud中的其他資料遷移情況,藉此探索及管理資料。您可以在主控台的 Dataplex 通用目錄頁面上,查看支援資料來源的系譜圖表,也可以使用 Data Lineage API 擷取完整的資料系譜記錄。

支援 Dataplex Universal Catalog 資料歷程的外掛程式

Cloud Data Fusion 和 Dataplex Universal Catalog 支援下列外掛程式的資產層級系譜:

  • Amazon S3
  • BigQuery
  • BigQuery 多資料表匯出目標 (6.9.1 以上版本)
  • Spanner
  • Cloud Storage
  • MySQL 適用的 Cloud SQL
  • PostgreSQL 適用的 Cloud SQL
  • Dataplex Universal Catalog
  • FTP
  • 一般資料庫
  • HTTP
  • MSSQL/SQL Server
  • 多個資料庫資料表來源 (6.9.1 以上版本)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • SAP 資料表

詳情請參閱 Cloud Data Fusion 外掛程式

事前準備

如要在控制台的 Dataplex 通用目錄頁面上查看 Cloud Data Fusion 系統樹圖表,請按照下列步驟操作:

  1. 建立資料管道,只使用支援的外掛程式

  2. 在包含 Cloud Data Fusion 執行個體的專案中啟用 Data Lineage API

  3. 將資料系譜事件製作者角色 (roles/datalineage.producer) 授予 Cloud Data Fusion 管理的服務帳戶 (Cloud Data Fusion API 服務代理人)。如果執行個體在舊版 Cloud Data Fusion 中執行,且已啟用 RBAC,則程序會有所不同。

    6.10 以上版本或未啟用 RBAC

    如果 Cloud Data Fusion 執行個體使用的是 6.10.0 以上版本,或是執行個體使用的是舊版且未啟用 RBAC,請按照下列步驟操作:

    1. 前往 Google Cloud 控制台的「IAM」頁面。

      前往身分與存取權管理頁面

    2. 選取「包含 Google 提供的角色授予項目」核取方塊。

    3. 選取 Cloud Data Fusion API 服務代理人服務帳戶,然後按一下 「編輯」

    4. 按一下「新增其他角色」,然後選取「資料系譜事件產生者」角色。

    5. 按一下 [儲存]

    <6.10 with RBAC

    如果 Cloud Data Fusion 執行個體使用的是 6.10.0 以下版本,且已啟用 RBAC,服務帳戶就不會顯示在 IAM 頁面上的實體清單中。您必須手動輸入服務帳戶名稱。

    如要授予必要角色,請按照下列步驟操作:

    1. 前往 Google Cloud 控制台的「IAM」頁面。

      前往身分與存取權管理頁面

    2. 按一下「授予存取權」

    3. 在「新增主體」欄位中輸入 Cloud Data Fusion API 服務代理人服務帳戶。請使用下列格式:datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com

      TENANT_PROJECT_ID 替換為執行個體的租用戶 ID。如要查看租用戶專案 ID,請前往「Instances」頁面,然後按一下執行個體名稱,查看執行個體詳細資料。

      前往「Instances」(執行個體)

    4. 選取「資料歷程事件產生者」角色。

    5. 按一下 [儲存]

在 Cloud Data Fusion 中啟用 Dataplex Universal Catalog 資料系譜

對於 Cloud Data Fusion 中的新執行個體,Dataplex Universal Catalog 資料系譜預設為關閉。如果您在 2024 年 1 月 27 日前使用 6.8.0 以上版本建立執行個體,則在完成「開始前」一節中的步驟後,系統會預設啟用該執行個體。

建立執行個體時啟用 Dataplex Universal Catalog 資料歷程

控制台

如要在建立執行個體時啟用 Dataplex Universal Catalog 資料歷程,請按照下列步驟操作:

  1. 前往 Cloud Data Fusion 的「Instances」(執行個體) 頁面,然後按一下「Create an instance」(建立執行個體)

    建立執行個體

  2. 設定執行個體時,展開「進階選項」部分,然後按一下「啟用 Dataplex 資料歷程整合功能」。如要進一步瞭解如何建立執行個體,請參閱「建立公開執行個體」。

REST API

如要在建立執行個體時啟用 Dataplex Universal Catalog 資料歷程,請將選用的 dataplex_data_lineage_integration_enabled 屬性設為 true

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

如要關閉此功能,請將屬性設為 false 或省略屬性,因為建立新例項時,系統會預設關閉 lineage。

在現有執行個體中啟用或停用 Dataplex Universal Catalog 資料歷程

控制台

如要在 Cloud Data Fusion 現有執行個體中啟用或停用 Dataplex Universal Catalog 資料歷程,請按照下列步驟操作:

  1. 查看執行個體詳細資料:
    1. 在 Google Cloud 控制台中,前往 Cloud Data Fusion 頁面。

    2. 按一下「Instances」(執行個體) ,然後點選執行個體名稱,前往「Instance details」(執行個體詳細資料) 頁面。

      前往「Instances」(執行個體)

  2. 在「Dataplex 資料歷程整合」欄位中,按一下「編輯」
  3. 啟用或停用 Dataplex Universal Catalog 資料歷程,然後按一下「儲存」

REST API

如要在 Cloud Data Fusion 現有執行個體中啟用 Dataplex Universal Catalog 資料歷程,請將 dataplex_data_lineage_integration_enabled 屬性設為 true,並加入 updateMask 參數值:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

如要在 Cloud Data Fusion 現有執行個體中停用 Dataplex Universal Catalog 資料歷程,請將 dataplex_data_lineage_integration_enabled 屬性設為 false,並加入 updateMask 參數值:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

查看資料歷程圖表

如要查看所有 Google Cloud 服務的實體沿革圖,請按照下列步驟操作:

  1. 前往 Cloud Data Fusion 中的執行個體,並執行使用支援外掛程式的資料管道。

  2. 在控制台的 Dataplex Universal Catalog 頁面上查看歷程圖表,並找出要查看歷程資訊的資產。

限制

在 Dataplex Universal Catalog 中查看歷程時,會受到以下限制:

後續步驟