使用 Gemini 準備資料

本文件說明如何針對 BigQuery 中的資料準備作業,產生及管理 SQL 程式碼建議。

詳情請參閱「BigQuery 資料準備功能簡介」。

事前準備

在 BigQuery 中開啟資料準備編輯器

您可以建立新的資料準備作業、從現有資料表建立作業,或開啟現有的資料準備作業,在 BigQuery 中開啟資料準備編輯器。如要進一步瞭解建立資料準備作業時會發生什麼事,請參閱「資料準備進入點」。

BigQuery 頁面上,您可以透過以下方式前往資料準備編輯器:

新建

如要在 BigQuery 中建立新的資料準備作業,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
    前往 BigQuery
  2. 前往「建立新」清單,然後按一下「資料準備」。 資料準備編輯器會顯示在新未命名的資料準備分頁中。
  3. 在編輯器的搜尋列中輸入表格名稱或關鍵字,然後選取表格。表格資料準備編輯器會隨即開啟,並在「資料」分頁中顯示資料的預覽畫面,以及 Gemini 提供的初始資料準備建議。

    「Explorer」窗格會顯示「資料準備」資源,您日後可以透過該窗格存取這項準備作業。
  4. 選用:如要簡化檢視畫面,請按一下「全螢幕」,開啟全螢幕模式。

使用資料表建立新資料表

如要從現有資料表建立新的資料準備作業,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
    前往 BigQuery
  2. 在「Explorer」窗格中,將游標懸停在資料表上。
  3. 依序按一下「more_vert」more_vert選單 >「查詢」>「資料準備」。表格資料準備編輯器會隨即開啟,並在「資料」分頁中顯示資料的預覽畫面,以及 Gemini 提供的初始資料準備建議。

    「Explorer」窗格會顯示「資料準備」資源,您日後可以透過該窗格存取這項準備作業。
  4. 選用:如要簡化檢視畫面,請按一下「全螢幕」,開啟全螢幕模式。

開啟現有

如要為現有資料準備作業開啟編輯器,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
    前往 BigQuery
  2. 在「Explorer」窗格中,依序點選專案名稱和「資料準備」
  3. 選取現有的資料準備作業。資料準備管道的圖表檢視畫面。
  4. 選取圖表中的其中一個節點。表格資料準備編輯器會隨即開啟,並在「資料」分頁中顯示資料的預覽畫面,以及 Gemini 提供的初始資料準備建議。
  5. 選用:如要簡化檢視畫面,請按一下「全螢幕」,開啟全螢幕模式。

新增資料準備步驟

您可以逐步準備資料。您可以預覽或套用 Gemini 建議的步驟。您也可以改善建議,或套用自己的步驟。

套用並改善 Gemini 的建議

當您為表格開啟資料準備編輯器時,Gemini 會檢查您載入表格的資料和結構定義,並產生篩選器和轉換建議。建議會顯示在「步驟」清單中的資訊卡中。

下圖顯示 Gemini 建議的步驟,以及您可以套用和改善這些步驟的位置:

資料準備編輯器中的資料檢視畫面,顯示預覽、編輯或套用 Gemini 建議的選項。

如要將 Gemini 的建議套用為資料準備步驟,請執行下列操作:

  1. 在資料檢視中,按一下資料欄名稱或特定儲存格。Gemini 會產生篩選和轉換資料的建議。
  2. 選用:如要改善建議,請編輯表格中一到三個儲存格的值,以示範資料欄中的值應如何顯示。舉例來說,輸入您要用來格式化所有日期的日期。Gemini 會根據變更內容產生新的建議。

    下圖顯示如何編輯值,以改善 Gemini 建議的步驟:

    編輯儲存格中的值,以顯示資料欄中應有的值,藉此改善建議。

  3. 選取建議資訊卡。

    1. 選用步驟:如要預覽建議卡片的結果,請按一下「預覽」
    2. 選用:如要使用自然語言修改建議資訊卡,請按一下「編輯」
  4. 按一下 [套用]

使用自然語言或 SQL 運算式新增步驟

如果現有建議不符合您的需求,請新增步驟。選擇資料欄或步驟類型,然後使用自然語言描述你想要的內容。

新增轉換

  1. 在資料或架構檢視畫面中,選擇「轉換」選項。您也可以選擇資料欄或新增範例,協助 Gemini 瞭解資料轉換作業。
  2. 在「Description」欄位中輸入提示,例如 Convert the state column to uppercase
  3. 依序按一下「傳送」

    Gemini 會根據提示產生 SQL 運算式和新說明。

  4. 在「目標欄」清單中選取或輸入欄名。

  5. 選用步驟:如要更新 SQL 運算式,請修改提示並點選「傳送」,或手動輸入 SQL 運算式。

  6. 選用步驟:按一下「預覽」,查看步驟。

  7. 按一下 [套用]

篩選表格列

如要新增可移除資料列的篩選器,請按照下列步驟操作:

  1. 在資料或架構檢視畫面中,選擇「篩選器」選項。您也可以選擇資料欄,協助 Gemini 瞭解資料篩選器。
  2. 在「Description」欄位中輸入提示,例如 Column ID should not be NULL
  3. 按一下「產生」。Gemini 會根據提示產生 SQL 運算式和新說明。
  4. 選用步驟:如要更新 SQL 運算式,請修改提示並按一下「傳送」,或手動輸入 SQL 運算式。
  5. 選用步驟:按一下「預覽」,查看步驟。
  6. 按一下 [套用]

篩選運算式格式

篩選條件的 SQL 運算式會保留符合指定條件的資料列。這相當於 SELECT … WHERE SQL_EXPRESSION 陳述式。

舉例來說,如果要保留資料欄 year 大於或等於 2000 的記錄,條件就是 year >= 2000

運算式必須遵循 WHERE 子句的 BigQuery SQL 語法。

設定錯誤表格並新增驗證規則

您可以新增篩選器來建立驗證規則,將錯誤傳送至錯誤表格,或讓資料準備作業失敗。

設定錯誤表格

如要設定錯誤表,請按照下列步驟操作:

  1. 在資料準備編輯器中,前往工具列,然後依序按一下「更多」>「錯誤表格」
  2. 按一下「啟用錯誤表格」
  3. 定義資料表位置。
  4. 選用:定義錯誤保留時長上限。
  5. 按一下 [儲存]

新增驗證規則

如要新增驗證規則,請按照下列步驟操作:

  1. 在資料或結構定義檢視畫面中,按一下「篩選器」選項。您也可以選擇資料欄,協助 Gemini 瞭解資料篩選器。
  2. 輸入步驟說明。
  3. WHERE 子句的形式輸入 SQL 運算式。
  4. 選用步驟:如要讓 SQL 運算式充當驗證規則,請選取「驗證失敗的資料列移至錯誤表格」核取方塊。您也可以在資料準備工具列中,按一下「更多」>「錯誤表格」,將篩選器變更為驗證條件。
  5. 選用步驟:按一下「預覽」,查看步驟。
  6. 按一下 [套用]

刪除資料欄

如要從資料準備中刪除一或多個資料欄,請按照下列步驟操作:

  1. 在資料或結構定義檢視畫面中,選取要捨棄的資料欄。
  2. 按一下「放棄」。系統會為刪除的資料欄新增一個套用步驟。

使用 Gemini 新增彙整作業

如要在資料準備程序中在兩個來源之間新增彙整運算作業步驟,請按照下列步驟操作:

  1. 在資料準備中,針對節點的資料檢視,前往「建議」清單,然後按一下「彙整」選項。
  2. 在「Add join」對話方塊中,按一下「Browse」,然後選取參與彙整作業的其他資料表 (稱為彙整作業的右側)。
  3. 選用:選取要執行的彙整作業類型,例如內部彙整
  4. 在下列欄位中查看 Gemini 產生的彙整鍵資訊:

    • Join description:彙整作業的 SQL 運算式自然語言說明。編輯說明後,點選「傳送」,Gemini 會建議新的 SQL 彙整條件。
    • 彙整條件:彙整作業的 ON 子句內的 SQL 運算式。您可以使用 LR 限定詞,分別參照左側和右側來源資料表。例如,如要將左方資料表的 customer_id 欄與右方資料表的 customer_id 欄彙整,請輸入 L.customerId = R.customerId。這些限定詞不區分大小寫。

  5. 選用:如要精進 Gemini 的建議,請編輯「Join description」欄位,然後點選「Send」

  6. 選用:如要預覽資料準備作業的彙整作業設定,請按一下「預覽」

  7. 按一下 [套用]

    彙整作業步驟已建立。您選取的來源資料表 (彙整作業的右側) 和彙整作業會顯示在已套用步驟的清單中,以及資料準備的圖表檢視畫面中的節點中。

新增或變更目的地資料表

如要為資料準備作業的輸出結果新增或變更目的地資料表,請按照下列步驟操作:

  1. 在資料或架構檢視畫面中,選擇「目的地」選項。
  2. 選取目標資料表的儲存專案。
  3. 選取其中一個資料集,或載入新的資料集。
  4. 輸入目的地資料表。如果資料表不存在,資料準備作業會在首次執行時建立新資料表。詳情請參閱「寫入模式」。
  5. 選取資料集做為目的地資料集。
  6. 按一下 [儲存]

查看已套用步驟的資料範例和結構定義

如要在資料準備過程中的特定步驟中查看範例和結構定義詳細資料,請執行下列操作:

  1. 在資料準備編輯器中,前往「步驟」清單,然後按一下「已套用的步驟」
  2. 選取步驟。系統會顯示「資料」和「結構定義」分頁,並顯示此步驟的資料範例和結構定義。

編輯套用的步驟

如要編輯已套用的步驟,請按照下列步驟操作:

  1. 在資料準備編輯器中,前往「步驟」清單,然後按一下「已套用的步驟」
  2. 選取步驟。
  3. 依序按一下步驟旁邊的 more_vert「選單」>「編輯」
  4. 在「Edit Applied Step」對話方塊中,您可以執行下列操作:
    • 編輯步驟的說明。
    • 如要取得 Gemini 的建議,請編輯說明並點選「傳送」
    • 編輯 SQL 運算式。
  5. 在「目標資料欄」欄位中,選取資料欄。
  6. 選用步驟:按一下「預覽」,查看步驟。
  7. 按一下 [套用]

刪除套用的步驟

如要刪除已套用的步驟,請按照下列步驟操作:

  1. 在資料準備編輯器中,前往「步驟」清單,然後按一下「已套用的步驟」
  2. 選取步驟。
  3. 依序點選「選單」>「刪除」more_vert

執行資料準備作業

新增資料準備步驟、設定目的地並修正所有驗證錯誤後,您可以對資料樣本執行測試,或是部署步驟並排定資料準備作業。詳情請參閱「排程資料準備作業」。

重新整理資料準備範例

樣本中的資料不會自動重新整理。如果資料準備作業的來源資料表資料有所變更,但變更內容並未反映在準備作業的資料樣本中,請按一下「更多」>「重新整理樣本」。

後續步驟