BigQuery 資料準備功能簡介

本文說明 BigQuery 的 AI 輔助資料準備功能。資料準備是 BigQuery 資源,可使用 Gemini in BigQuery 分析資料,並提供清理、轉換及補充資料的智慧型建議。您可以大幅減少手動資料準備作業所需的時間和工作量。資料準備作業的排程由 Dataform 提供支援。

優點

  • 您可以運用 Gemini 產生的轉換建議,瞭解相關資訊,縮短資料管道開發作業所需的時間。
  • 您可以在預覽畫面中驗證產生的結果,並透過自動結構定義對應功能,接收資料品質清理和強化建議。
  • Dataform 可讓您使用持續整合和持續開發 (CI/CD) 程序,支援跨團隊合作進行程式碼審查和原始碼控管。

資料準備作業進入點

您可以在 BigQuery Studio 頁面中建立及管理資料準備作業 (請參閱「在 BigQuery 中開啟資料準備編輯器」)。

在 BigQuery 資料準備工具中開啟資料表時,系統會使用您的憑證執行 BigQuery 工作。這項執行作業會從所選資料表建立樣本資料列,並將結果寫入相同專案中的臨時資料表。Gemini 會使用範例資料和結構定義,產生資料準備編輯器中顯示的資料準備建議。

資料準備編輯器中的檢視畫面

資料準備作業會以分頁的形式顯示在 BigQuery 頁面上。每個分頁都有一系列子分頁或資料準備檢視畫面,可用於設計及管理資料準備作業。

資料檢視

建立新的資料準備作業時,系統會開啟資料準備編輯器分頁,並顯示資料檢視畫面,其中包含資料表的代表性樣本。如要查看現有的資料準備作業,請在資料準備管道的圖表檢視畫面中按一下節點,即可前往資料檢視畫面。

您可以透過資料檢視畫面執行下列操作:

  • 與資料互動,以建立資料準備步驟。
  • 套用 Gemini 的建議。
  • 在儲存格中輸入範例值,提升 Gemini 建議的品質。

在表格中的每個欄上方,統計資料設定檔 (直方圖) 會顯示預覽列中每個欄的最高值計數。

資料準備編輯器中的資料檢視畫面

圖表檢視

圖表檢視畫面可視覺化呈現資料準備作業。當您開啟資料準備作業時,這個分頁會顯示在控制台的「BigQuery」BigQuery頁面中。圖表會顯示資料準備管道中所有步驟的節點。您可以選取圖表中的節點,設定該節點代表的資料準備步驟。

資料準備編輯器中的圖表檢視畫面

結構定義檢視畫面

資料準備結構定義檢視畫面會顯示目前處於活動狀態的資料準備步驟結構定義。顯示的結構定義與資料檢視中的欄相符。

在結構定義檢視畫面中,您可以執行專屬的結構定義作業,例如移除資料欄,這也會在「已套用的步驟」清單中建立步驟。

資料準備編輯器中的架構檢視畫面

Gemini 提供的建議

Gemini 會提供依據情境的建議,協助您完成下列資料準備作業:

  • 套用轉換和資料品質規則
  • 標準化及豐富資料
  • 自動化結構定義對應

每項建議都會顯示在資料準備編輯器的建議清單中。資訊卡包含下列資訊:

  • 步驟的高階類別,例如「保留資料列」或「轉換」
  • 步驟的說明,例如「Keep rows if COLUMN_NAME is not NULL
  • 用於執行步驟的對應 SQL 運算式

您可以預覽、編輯或套用建議資訊卡,也可以微調建議內容。您也可以手動新增步驟。詳情請參閱「使用 Gemini 準備資料」。

如要微調 Gemini 的建議,請提供資料欄變更項目的範例

資料取樣

BigQuery 會使用資料取樣功能,讓您預覽資料準備作業。您可以在每個節點的資料檢視畫面中查看樣本。樣本中的資料不會自動重新整理。詳情請參閱「重新整理資料準備範例」。

寫入模式

為節省成本和處理時間,您可以變更寫入模式設定,逐步處理來源的新資料。舉例來說,如果您在 BigQuery 中有一張每天都會插入記錄的資料表,以及一個必須反映變更資料的 Looker 資訊主頁,您可以排定 BigQuery 資料準備作業,以便逐漸讀取來源資料表的新記錄,並將這些記錄傳播至目的地資料表。

如要設定資料準備作業寫入目的地資料表的方式,請參閱「透過漸進式資料處理最佳化資料準備作業」。

支援下列寫入模式:

寫入模式選項 說明
完整重新整理 對所有來源資料執行資料準備步驟,然後完整重建目的地資料表。系統會重新建立資料表,而非截斷資料表。寫入目的地資料表時,預設模式為完整重新整理。
附加 將資料準備作業的所有資料插入目的地資料表中,做為額外的資料列。
增量 只將有異動或新的資料插入目的地資料表 (視您選擇的增量資料欄而定)。資料準備作業會根據您選擇的增量資料欄,選取最適合的變更記錄偵測機制。它會為數值和日期時間資料類型挑選「最大值」,為分類資料挑選「唯一值」。只有在指定資料欄的值大於目的地資料表中相同資料欄的最大值時,才會插入最大值。只有在目的地資料表中,指定資料欄的現有值不含指定資料欄值時,才會插入不重複的記錄。

支援的資料準備步驟

BigQuery 支援下列類型的資料準備步驟:

步驟類型 說明
來源 當您選取要讀取的 BigQuery 資料表,或新增彙整步驟時,會新增來源。
轉換 使用 SQL 運算式清理及轉換資料。您會收到下列表達法的建議資訊卡:
  • 類型轉換函式,例如 CAST
  • 字串函式,例如 SUBSTRCONCATREPLACEUPPERLOWERTRIM
  • 日期時間函式,例如 PARSE_DATETIMESTAMPEXTRACTDATE_ADD
  • JSON 函式,例如 JSON_EXTRACT

您也可以在手動轉換步驟中使用任何有效的 BigQuery SQL 運算式。例如:
  • 數學運算,例如將瓦小時轉換為千瓦小時
  • 陣列函式,例如 ARRAY_AGGARRAY_CONCATUNNEST
  • 窗型函式,例如 ROW_NUMBERLAGLEADRANKNTILE


詳情請參閱「新增轉換」。
篩選器 透過 WHERE 子句語法移除資料列。新增篩選器步驟時,您可以選擇將其設為驗證步驟。

詳情請參閱「篩選資料列」。
驗證 將不符合驗證規則條件的資料列傳送至錯誤表格。如果資料驗證規則失敗,且未設定錯誤表格,資料準備作業就會在執行期間失敗。

詳情請參閱「設定錯誤表格並新增驗證規則」。
加入 彙整兩個來源的值。資料表必須位於相同的位置。 彙整鍵欄必須是相同的資料類型。資料準備作業支援下列彙整作業:
  • 內部彙整
  • 左側彙整
  • 右側彙整
  • 完整外部彙整
  • 交叉彙整 (如果未選取彙整鍵資料欄,系統會使用交叉彙整)


詳情請參閱「新增彙整作業」。
目的地 定義輸出資料準備步驟的目的地。如果您輸入不存在的目的地資料表,資料準備作業會使用目前的結構定義資訊建立新資料表。

詳情請參閱「新增或變更目標資料表」一文。
刪除欄 從結構定義中刪除資料欄。您可以在結構定義檢視畫面中執行這個步驟。

詳情請參閱「刪除資料欄」。

排定資料準備作業執行時間

如要執行資料準備步驟,並將準備好的資料載入目的地資料表,請建立排程。您可以透過資料準備編輯器安排資料準備作業,並透過 BigQuery「排程」頁面管理這些作業。詳情請參閱「排定資料準備作業」。

使用資料準備工作建立管道

您可以建構由資料準備、SQL 查詢和 Notebook 工作組成的 BigQuery 管道。接著,您就可以按照排程執行這些管道。詳情請參閱「BigQuery 管道簡介」。

控管存取權

使用身分與存取權管理 (IAM) 角色、BigQuery 和 Dataform Cloud KMS 金鑰的加密功能,以及 VPC Service Controls,控管資料準備作業的存取權。

IAM 角色和權限

準備資料的使用者和執行工作的 Dataform 服務帳戶都需要 IAM 權限。詳情請參閱「必要角色」和「為 BigQuery 設定 Gemini」。

使用 Cloud KMS 金鑰進行加密

使用 BigQuery 中的預設客戶管理 Cloud KMS 金鑰,在資料集或專案層級加密資料。詳情請參閱「設定資料集預設鍵」和「設定專案預設鍵」。

根據預設,您可以使用 Dataform Cloud KMS 金鑰,在專案層級加密管道程式碼。

VPC Service Controls 範圍

如果您使用 VPC Service Controls,必須設定範圍來保護 Dataform 和 BigQuery。詳情請參閱 BigQueryDataform 的 VPC Service Controls 限制。

限制

資料準備功能適用下列限制:

  • 特定資料準備作業的所有 BigQuery 資料準備來源和目的地資料集,必須位於相同位置。詳情請參閱「位置」。
  • 在管道編輯期間,資料和互動會傳送至 Gemini 資料中心進行處理。詳情請參閱位置
  • 保證工作負載不支援 Gemini in BigQuery。
  • BigQuery 資料準備功能不支援查看、比較或還原資料準備版本。
  • Gemini 的回覆內容會根據您在設計資料準備管道時提供的資料集樣本。如需更多資訊,請參閱「Gemini for Google Cloud 如何使用您的資料」和 Gemini for Google Cloud 「信任的測試人員」計畫中的條款。
  • BigQuery 資料準備功能沒有專屬 API。如需瞭解必要的 API,請參閱「設定 Gemini 版 BigQuery」。

位置

您可以在任何支援的 BigQuery 位置中使用資料準備功能。系統會執行資料處理工作,並儲存在來源資料集的位置。如果指定存放區位置,則該位置必須與來源資料集位置相同。資料準備程式碼儲存區域可以與工作執行區域不同。

BigQuery Studio 中的所有程式碼資產都會使用相同的預設區域。如要設定程式碼資產的預設區域,請按照下列步驟操作:

  1. 前往「BigQuery」頁面

    前往 BigQuery

  2. 在「Explorer」窗格中,找出已啟用程式碼資產的專案。

  3. 按一下專案旁的 「View actions」,然後點選「Change my default code region」

  4. 在「區域」中,選取要用於程式碼資產的區域。

  5. 按一下 [選取]。

如需可用地區的清單,請參閱 BigQuery Studio 位置

Gemini in BigQuery 在全球運作,因此您在設計資料準備作業時,無法將 Gemini 的資料處理作業限制在特定區域,但設計和執行時的 BigQuery 資料處理作業一律會在來源資料集的位置執行。如要進一步瞭解 Gemini in BigQuery 處理資料的位置,請參閱「Gemini 服務位置」。

定價

執行資料準備作業和建立資料預覽範例時,會使用 BigQuery 資源,費用會按照 BigQuery 定價所示的費率計費。

Gemini in BigQuery 定價已包含資料準備功能。您可以在預覽期間使用 BigQuery 資料準備功能,無須額外付費。詳情請參閱「在 BigQuery 中設定 Gemini」。

配額

詳情請參閱「Gemini in BigQuery 的配額」。

後續步驟