工作建立工具 UI 總覽

工作建構工具提供視覺化的使用者介面,可讓您在 Google Cloud 控制台中建構及執行 Dataflow pipeline,完全不需要編寫程式碼。

下圖顯示工作建立工具 UI 的詳細資料。在這張圖片中,使用者正在建立管道,以便從 Pub/Sub 讀取資料並寫入 BigQuery:

工作建構工具 UI 的螢幕截圖

總覽

作業建立工具支援讀取及寫入下列類型的資料:

  • Pub/Sub 訊息
  • BigQuery 資料表資料
  • Cloud Storage 中的 CSV 檔案、JSON 檔案和文字檔
  • PostgreSQL、MySQL、Oracle 和 SQL Server 資料表資料

支援的管道轉換包括篩選器、對應、SQL、分組依據、聯結和爆炸 (陣列扁平化)。

工作建構工具可讓您:

  • 透過轉換和視窗化匯總,將資料從 Pub/Sub 串流至 BigQuery
  • 將資料從 Cloud Storage 寫入 BigQuery
  • 使用錯誤處理機制篩選錯誤資料 (無效信件佇列)
  • 使用 SQL 轉換,透過 SQL 處理或匯總資料
  • 使用對應轉換功能新增、修改或捨棄資料中的欄位
  • 排定週期性批次工作

工作建立工具也可以將 pipeline 儲存為 Apache Beam YAML 檔案,並從 Beam YAML 檔案載入 pipeline 定義。使用這項功能,您可以在工作建構工具中設計管道,然後將 YAML 檔案儲存在 Cloud Storage 或原始碼控管存放區中,以供重複使用。您也可以使用 YAML 工作定義,透過 gcloud CLI 啟動工作。

在下列情況下,請考慮使用工作建構工具:

  • 您想快速建構 pipeline,不必編寫程式碼。
  • 您想將管道儲存為 YAML,以供重複使用。
  • 您可以使用支援的來源、接收器和轉換來表示管道。
  • 沒有符合您用途的Google 提供的範本

執行範例工作

「字數統計」範例是一個批次管道,可從 Cloud Storage 讀取文字,並將文字行代碼化為個別字詞,然後再計算每個字詞出現的頻率。

如果 Cloud Storage bucket 位於服務範圍外,請建立允許存取 bucket 的輸出規則

如要執行 Word Count 管道,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「Jobs」(工作) 頁面。

    前往「Jobs」(工作) 頁面

  2. 按一下「利用範本建立工作」

  3. 在側邊窗格中,按一下「工作建立工具」

  4. 按一下「載入藍圖」

  5. 按一下「字數統計」。工作建構工具會填入管道的圖示。

    工作建構工具會為每個管道步驟顯示一張卡片,其中指定該步驟的設定參數。舉例來說,第一個步驟是從 Cloud Storage 讀取文字檔。來源資料的位置會預先填入「文字位置」方塊。

工作建構工具的螢幕截圖

  1. 找出名為「New sink」(新水槽) 的資訊卡。你可能需要捲動畫面。

  2. 在「Text location」(文字位置) 方塊中,輸入輸出文字檔案的 Cloud Storage 位置路徑前置字串。

  3. 按一下「Run job」(執行工作)。工作建構工具會建立 Dataflow 工作,然後前往工作圖表。工作開始時,工作圖會以圖形表示管道。這個圖表表示方式與工作建構工具中顯示的類似。管線的每個步驟執行時,工作圖表中的狀態都會更新。

「Job info」(工作資訊) 面板會顯示工作的整體狀態。如果工作順利完成,「工作狀態」欄位會更新為 Succeeded

後續步驟