工作建構工具提供視覺化的使用者介面,可讓您在 Google Cloud 控制台中建構及執行 Dataflow pipeline,完全不需要編寫程式碼。
下圖顯示工作建立工具 UI 的詳細資料。在這張圖片中,使用者正在建立管道,以便從 Pub/Sub 讀取資料並寫入 BigQuery:
總覽
作業建立工具支援讀取及寫入下列類型的資料:
- Pub/Sub 訊息
- BigQuery 資料表資料
- Cloud Storage 中的 CSV 檔案、JSON 檔案和文字檔
- PostgreSQL、MySQL、Oracle 和 SQL Server 資料表資料
支援的管道轉換包括篩選器、對應、SQL、分組依據、聯結和爆炸 (陣列扁平化)。
工作建構工具可讓您:
- 透過轉換和視窗化匯總,將資料從 Pub/Sub 串流至 BigQuery
- 將資料從 Cloud Storage 寫入 BigQuery
- 使用錯誤處理機制篩選錯誤資料 (無效信件佇列)
- 使用 SQL 轉換,透過 SQL 處理或匯總資料
- 使用對應轉換功能新增、修改或捨棄資料中的欄位
- 排定週期性批次工作
工作建立工具也可以將 pipeline 儲存為 Apache Beam YAML 檔案,並從 Beam YAML 檔案載入 pipeline 定義。使用這項功能,您可以在工作建構工具中設計管道,然後將 YAML 檔案儲存在 Cloud Storage 或原始碼控管存放區中,以供重複使用。您也可以使用 YAML 工作定義,透過 gcloud CLI 啟動工作。
在下列情況下,請考慮使用工作建構工具:
- 您想快速建構 pipeline,不必編寫程式碼。
- 您想將管道儲存為 YAML,以供重複使用。
- 您可以使用支援的來源、接收器和轉換來表示管道。
- 沒有符合您用途的Google 提供的範本。
執行範例工作
「字數統計」範例是一個批次管道,可從 Cloud Storage 讀取文字,並將文字行代碼化為個別字詞,然後再計算每個字詞出現的頻率。
如果 Cloud Storage bucket 位於服務範圍外,請建立允許存取 bucket 的輸出規則。
如要執行 Word Count 管道,請按照下列步驟操作:
前往 Google Cloud 控制台的「Jobs」(工作) 頁面。
按一下「利用範本建立工作」
。在側邊窗格中,按一下「工作建立工具」
。按一下「載入藍圖」
。按一下「字數統計」。工作建構工具會填入管道的圖示。
工作建構工具會為每個管道步驟顯示一張卡片,其中指定該步驟的設定參數。舉例來說,第一個步驟是從 Cloud Storage 讀取文字檔。來源資料的位置會預先填入「文字位置」方塊。
找出名為「New sink」(新水槽) 的資訊卡。你可能需要捲動畫面。
在「Text location」(文字位置) 方塊中,輸入輸出文字檔案的 Cloud Storage 位置路徑前置字串。
按一下「Run job」(執行工作)。工作建構工具會建立 Dataflow 工作,然後前往工作圖表。工作開始時,工作圖會以圖形表示管道。這個圖表表示方式與工作建構工具中顯示的類似。管線的每個步驟執行時,工作圖表中的狀態都會更新。
「Job info」(工作資訊) 面板會顯示工作的整體狀態。如果工作順利完成,「工作狀態」欄位會更新為 Succeeded
。
後續步驟
- 使用 Dataflow 工作監控介面。
- 在工作建構工具中建立自訂工作。
- 在工作建立工具中儲存及載入 YAML 工作定義。
- 進一步瞭解 Beam YAML。