管理資料準備作業

本文將說明如何管理 BigQuery 中的資料準備作業,包括授予必要的身分與存取權管理 (IAM) 角色,以及在 Dataplex 通用目錄中管理中繼資料。

資料準備功能是 BigQuery 資源,由 Dataform 提供支援。

事前準備

  1. 確認您已啟用 Gemini for Google Cloud API
  2. 如要在 Dataplex 通用目錄中管理資料準備中繼資料,請確認 Google Cloud 專案已啟用 Dataplex API

必要的角色

準備資料的使用者和執行工作項的 Dataform 服務帳戶,必須具備下列身分與存取權管理 (IAM) 角色所授予的權限。

取得資料準備作業的使用者存取權

如要取得在 BigQuery 中準備資料所需的權限,請要求管理員授予您下列 IAM 角色:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

如要進一步瞭解 BigQuery 中資料集的 IAM,請參閱「授予資源存取權」。

您或許還可透過自訂角色或其他預先定義的角色取得這些權限。

取得中繼資料管理權限

如要取得在 Dataplex Universal Catalog 中管理資料準備中繼資料所需的權限,請確認您具備必要的 Dataplex Universal Catalog 角色dataform.repositories.get 權限。

授予 Dataform 服務帳戶存取權

為確保 Dataform 服務帳戶具備在 BigQuery 中執行資料準備作業的必要權限,請要求管理員將下列 IAM 角色授予 Dataform 服務帳戶:

視資料準備管道而定,Dataform 服務帳戶可能需要額外權限。詳情請參閱「授予 Dataform 所需的存取權」。

查看現有資料準備作業

如要查看現有資料準備作業清單,請按照下列步驟操作:

  1. 在「BigQuery」頁面中,前往「Explorer」窗格。
  2. 展開專案。
  3. 展開「資料準備」清單。

透過逐步處理資料,提升資料準備服務的效能

如要設定準備好的資料寫入目標資料表的方式,請按照下列步驟操作。

  1. 前往 Google Cloud 控制台的「BigQuery」頁面。

    前往 BigQuery

  2. 在「Explorer」窗格中,選取資料準備作業。

  3. 在資料準備工具列中,依序選取「更多」>「寫入模式」

  4. 請選取其中一個選項。詳情請參閱「寫入模式」。

  5. 按一下 [儲存]

協助我們改良建議功能

您可以將提交至預先發布版功能的提示資料提供給 Google,協助我們改良 Gemini 建議功能。如要分享提示資料,請按照下列步驟操作:

  1. 在 BigQuery 中開啟資料準備編輯器
  2. 在資料準備工具列中,按一下「設定」「更多」
  3. 選取「Share data to improve Gemini in BigQuery」(共用資料,協助改良 Gemini in BigQuery)。

資料分享設定會套用至整個專案,且只有具備 serviceusage.services.enableserviceusage.services.list IAM 權限的專案管理員能夠設定。如要進一步瞭解「信任的測試人員」計畫的資料使用方式,請參閱「Gemini for Google Cloud 『信任的測試人員』計畫」。

資料準備版本

您可以選擇在存放區內或外建立資料準備作業。資料準備版本管理會根據資料準備作業的位置而有所不同。

在存放區中管理資料準備版本

存放區是位於 BigQuery 或第三方供應商的 Git 存放區。您可以在存放區中使用工作區,對資料準備作業執行版本控制。詳情請參閱「使用檔案的版本控制功能」。

在存放區外進行資料準備版本管理

不在存放區中的 BigQuery 資料準備作業不支援查看、比較或還原資料準備版本。

如要依時間順序查看資料準備版本清單,請按照下列步驟操作:

  1. 在「BigQuery」頁面中,前往「Explorer」窗格。
  2. 選取資料準備作業。
  3. 按一下 「版本記錄」

下載資料準備作業

如要下載 YAML 檔案中的資料準備作業,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「BigQuery」頁面。

    前往 BigQuery

  2. 在「Explorer」窗格中,展開專案和「Data preparations」資料夾。按一下要下載的資料準備作業名稱。

  3. 按一下「下載」。資料準備作業會儲存為 YAML 檔案格式,例如 NAME data preparation.dp.yaml

上傳資料準備檔案

如要從 YAML 檔案上傳資料準備作業,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「BigQuery」頁面。

    前往 BigQuery

  2. 在「Explorer」窗格中展開專案。

  3. 前往「資料準備」資料夾,然後依序點選「選單」more_vert「上傳至資料準備」

  4. 在「上傳資料準備作業」對話方塊中,選取要上傳的檔案,或輸入資料準備作業的網址。

  5. 輸入資料準備作業的名稱。

  6. 選取資料準備位置,用於管理及儲存資源。

  7. 按一下「上傳」。

在 Dataplex 通用目錄中管理中繼資料

Dataplex 通用目錄可讓您儲存及管理資料準備程序的中繼資料。根據預設,Dataplex 通用目錄會提供資料準備功能,無需額外設定。

您可以使用 Dataplex 通用目錄,管理所有 BigQuery 位置的資料準備作業。在 Dataplex 通用目錄中管理資料準備作業時,請遵守 Dataplex 通用目錄配額和限制Dataplex 通用目錄定價

Dataplex 通用目錄會自動從資料準備作業擷取下列中繼資料:

  • 資料資產名稱
  • 資料資產父項
  • 資料資產位置
  • 資料資產類型
  • 對應的 Google Cloud 專案

Dataplex Universal Catalog 會將資料準備作業記錄為項目,並使用以下項目值:

系統項目群組
資料準備作業的系統項目群組@dataform。如要查看 Dataplex Universal Catalog 中資料準備項目的詳細資料,您必須查看 dataform 系統項目群組。如需查看項目群組中所有項目清單的操作說明,請參閱 Dataplex Universal Catalog 說明文件中的「查看項目群組詳細資料」一節。
系統項目類型
資料準備作業的系統輸入類型dataform-code-asset。如要查看資料準備作業的詳細資料,您需要查看 dataform-code-asset 系統輸入類型、使用以面向為準的篩選器篩選結果,並dataform-code-asset 面向內的 type 欄位設為 DATA_PREPARATION。接著,選取所選資料準備作業的項目。如需有關如何查看所選項目類型詳細資料的操作說明,請參閱 Dataplex Universal Catalog 說明文件中的「查看項目類型的詳細資料」。如要瞭解如何查看所選項目的詳細資料,請參閱 Dataplex Universal Catalog 說明文件中的「查看項目詳細資料」一節。
系統切面類型
資料準備作業的系統面向類型dataform-code-asset。如要透過切面為 Dataplex 通用目錄中資料準備作業加上註解,為資料準備作業項目提供額外背景資訊,請查看 dataform-code-asset 切面類型、使用以切面為依據的篩選器篩選結果,並dataform-code-asset 切面中的 type 欄位設為 DATA_PREPARATION。如要瞭解如何使用切面標註項目,請參閱 Dataplex 通用目錄說明文件中的「管理切面並強化中繼資料」。
類型
資料畫布的類型為 DATA_PREPARATION。您可以使用 aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION 查詢,在以面向為準的篩選器中篩選 dataform-code-asset 系統項目類型和 dataform-code-asset 面向類型中的資料準備作業。

如需搜尋資產的操作說明,請參閱 Dataplex Universal Catalog 說明文件中的「在 Dataplex Universal Catalog 中搜尋資料資產」。

後續步驟