管理資料準備作業
本文將說明如何管理 BigQuery 中的資料準備作業,包括授予必要的身分與存取權管理 (IAM) 角色,以及在 Dataplex 通用目錄中管理中繼資料。
資料準備功能是 BigQuery 資源,由 Dataform 提供支援。
事前準備
- 確認您已啟用 Gemini for Google Cloud API。
- 如要在 Dataplex 通用目錄中管理資料準備中繼資料,請確認 Google Cloud 專案已啟用 Dataplex API。
必要的角色
準備資料的使用者和執行工作項的 Dataform 服務帳戶,必須具備下列身分與存取權管理 (IAM) 角色所授予的權限。
取得資料準備作業的使用者存取權
如要取得在 BigQuery 中準備資料所需的權限,請要求管理員授予您下列 IAM 角色:
-
專案中的 BigQuery Studio 使用者 (
roles/bigquery.studioUser
) -
Gemini 版 Google Cloud 使用者 (
roles/cloudaicompanion.user
) 在專案中 -
存取來源資料表:
BigQuery 資料檢視器 (
roles/bigquery.dataViewer
) 在資料表、資料集或專案上
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
如要進一步瞭解 BigQuery 中資料集的 IAM,請參閱「授予資源存取權」。取得中繼資料管理權限
如要取得在 Dataplex Universal Catalog 中管理資料準備中繼資料所需的權限,請確認您具備必要的 Dataplex Universal Catalog 角色和 dataform.repositories.get
權限。
授予 Dataform 服務帳戶存取權
為確保 Dataform 服務帳戶具備在 BigQuery 中執行資料準備作業的必要權限,請要求管理員將下列 IAM 角色授予 Dataform 服務帳戶:
-
存取來源資料表:
BigQuery 資料檢視器 (
roles/bigquery.dataViewer
) 在資料表、資料集或專案上 -
存取目的地資料表:
BigQuery 資料編輯器 (
roles/bigquery.dataEditor
) 在資料表、資料集或專案上
視資料準備管道而定,Dataform 服務帳戶可能需要額外權限。詳情請參閱「授予 Dataform 所需的存取權」。
查看現有資料準備作業
如要查看現有資料準備作業清單,請按照下列步驟操作:
- 在「BigQuery」頁面中,前往「Explorer」窗格。
- 展開專案。
- 展開「資料準備」清單。
透過逐步處理資料,提升資料準備服務的效能
如要設定準備好的資料寫入目標資料表的方式,請按照下列步驟操作。
前往 Google Cloud 控制台的「BigQuery」頁面。
在「Explorer」窗格中,選取資料準備作業。
在資料準備工具列中,依序選取「更多」>「寫入模式」。
請選取其中一個選項。詳情請參閱「寫入模式」。
按一下 [儲存]。
協助我們改良建議功能
您可以將提交至預先發布版功能的提示資料提供給 Google,協助我們改良 Gemini 建議功能。如要分享提示資料,請按照下列步驟操作:
- 在 BigQuery 中開啟資料準備編輯器。
- 在資料準備工具列中,按一下「設定」「更多」
- 選取「Share data to improve Gemini in BigQuery」(共用資料,協助改良 Gemini in BigQuery)。
資料分享設定會套用至整個專案,且只有具備 serviceusage.services.enable
和 serviceusage.services.list
IAM 權限的專案管理員能夠設定。如要進一步瞭解「信任的測試人員」計畫的資料使用方式,請參閱「Gemini for Google Cloud 『信任的測試人員』計畫」。
資料準備版本
您可以選擇在存放區內或外建立資料準備作業。資料準備版本管理會根據資料準備作業的位置而有所不同。
在存放區中管理資料準備版本
存放區是位於 BigQuery 或第三方供應商的 Git 存放區。您可以在存放區中使用工作區,對資料準備作業執行版本控制。詳情請參閱「使用檔案的版本控制功能」。
在存放區外進行資料準備版本管理
不在存放區中的 BigQuery 資料準備作業不支援查看、比較或還原資料準備版本。
如要依時間順序查看資料準備版本清單,請按照下列步驟操作:
- 在「BigQuery」頁面中,前往「Explorer」窗格。
- 選取資料準備作業。
- 按一下 「版本記錄」。
下載資料準備作業
如要下載 YAML 檔案中的資料準備作業,請按照下列步驟操作:
前往 Google Cloud 控制台的「BigQuery」頁面。
在「Explorer」窗格中,展開專案和「Data preparations」資料夾。按一下要下載的資料準備作業名稱。
按一下「下載」。資料準備作業會儲存為 YAML 檔案格式,例如
NAME data preparation.dp.yaml
。
上傳資料準備檔案
如要從 YAML 檔案上傳資料準備作業,請按照下列步驟操作:
前往 Google Cloud 控制台的「BigQuery」頁面。
在「Explorer」窗格中展開專案。
前往「資料準備」資料夾,然後依序點選「選單」more_vert「上傳至資料準備」。
在「上傳資料準備作業」對話方塊中,選取要上傳的檔案,或輸入資料準備作業的網址。
輸入資料準備作業的名稱。
選取資料準備位置,用於管理及儲存資源。
按一下「上傳」。
在 Dataplex 通用目錄中管理中繼資料
Dataplex 通用目錄可讓您儲存及管理資料準備程序的中繼資料。根據預設,Dataplex 通用目錄會提供資料準備功能,無需額外設定。
您可以使用 Dataplex 通用目錄,管理所有 BigQuery 位置的資料準備作業。在 Dataplex 通用目錄中管理資料準備作業時,請遵守 Dataplex 通用目錄配額和限制和 Dataplex 通用目錄定價。
Dataplex 通用目錄會自動從資料準備作業擷取下列中繼資料:
- 資料資產名稱
- 資料資產父項
- 資料資產位置
- 資料資產類型
- 對應的 Google Cloud 專案
Dataplex Universal Catalog 會將資料準備作業記錄為項目,並使用以下項目值:
- 系統項目群組
- 資料準備作業的系統項目群組為
@dataform
。如要查看 Dataplex Universal Catalog 中資料準備項目的詳細資料,您必須查看dataform
系統項目群組。如需查看項目群組中所有項目清單的操作說明,請參閱 Dataplex Universal Catalog 說明文件中的「查看項目群組詳細資料」一節。 - 系統項目類型
- 資料準備作業的系統輸入類型為
dataform-code-asset
。如要查看資料準備作業的詳細資料,您需要查看dataform-code-asset
系統輸入類型、使用以面向為準的篩選器篩選結果,並將dataform-code-asset
面向內的type
欄位設為DATA_PREPARATION
。接著,選取所選資料準備作業的項目。如需有關如何查看所選項目類型詳細資料的操作說明,請參閱 Dataplex Universal Catalog 說明文件中的「查看項目類型的詳細資料」。如要瞭解如何查看所選項目的詳細資料,請參閱 Dataplex Universal Catalog 說明文件中的「查看項目詳細資料」一節。 - 系統切面類型
- 資料準備作業的系統面向類型為
dataform-code-asset
。如要透過切面為 Dataplex 通用目錄中資料準備作業加上註解,為資料準備作業項目提供額外背景資訊,請查看dataform-code-asset
切面類型、使用以切面為依據的篩選器篩選結果,並將dataform-code-asset
切面中的type
欄位設為DATA_PREPARATION
。如要瞭解如何使用切面標註項目,請參閱 Dataplex 通用目錄說明文件中的「管理切面並強化中繼資料」。 - 類型
- 資料畫布的類型為
DATA_PREPARATION
。您可以使用aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION
查詢,在以面向為準的篩選器中篩選dataform-code-asset
系統項目類型和dataform-code-asset
面向類型中的資料準備作業。
如需搜尋資產的操作說明,請參閱 Dataplex Universal Catalog 說明文件中的「在 Dataplex Universal Catalog 中搜尋資料資產」。
後續步驟
- 進一步瞭解如何在 BigQuery 中準備資料。
- 瞭解如何手動執行或排程執行資料準備作業。
- 瞭解如何建立資料準備程序。