執行範本範例

「WordCount 範本」是一個批次管道,可從 Cloud Storage 讀取文字,並將文字行代碼化為個別字詞,然後再計算每個字詞出現的頻率。如要進一步瞭解 WordCount,請參閱 WordCount 範例管道

如果 Cloud Storage bucket 位於服務範圍外,請建立允許存取 bucket 的輸出規則

範本參數

參數 說明
inputFile Cloud Storage 輸入檔案的路徑。
outputFile Cloud Storage 輸出檔案的路徑和前置字串。

執行 WordCount 範本

控制台

  1. 前往 Dataflow 的「Create job from template」(透過範本建立工作) 頁面。
  2. 前往「依據範本建立工作」
  3. 在「工作名稱」欄位中,輸入專屬工作名稱。
  4. 選用:如要使用區域端點,請從下拉式選單中選取值。預設區域為 us-central1

    如需可執行 Dataflow 工作的地區清單,請參閱「Dataflow 位置」。

  5. 從「Dataflow template」(Dataflow 範本) 下拉式選單中選取 the WordCount template。
  6. 在提供的參數欄位中輸入參數值。
  7. 按一下「Run Job」(執行工作)

gcloud

在殼層或終端機中執行範本:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --region REGION_NAME \
    --parameters \
    inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,output=gs://BUCKET_NAME/output/my_output

更改下列內容:

  • JOB_NAME: 您選擇的不重複工作名稱

  • REGION_NAME: 您要部署 Dataflow 工作的地區,例如 us-central1

  • BUCKET_NAME:Cloud Storage bucket 的名稱

API

如要使用 REST API 執行範本,請傳送 HTTP POST 要求。如要進一步瞭解 API 和授權範圍,請參閱 projects.templates.launch

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}

更改下列內容:

  • PROJECT_ID: 您要執行 Dataflow 工作的專案 ID Google Cloud
  • JOB_NAME: 您選擇的不重複工作名稱

  • LOCATION: 您要部署 Dataflow 工作的地區,例如 us-central1

  • BUCKET_NAME:Cloud Storage bucket 的名稱