「WordCount 範本」是一個批次管道,可從 Cloud Storage 讀取文字,並將文字行代碼化為個別字詞,然後再計算每個字詞出現的頻率。如要進一步瞭解 WordCount,請參閱 WordCount 範例管道。
如果 Cloud Storage bucket 位於服務範圍外,請建立允許存取 bucket 的輸出規則。
範本參數
參數 | 說明 |
---|---|
inputFile |
Cloud Storage 輸入檔案的路徑。 |
outputFile |
Cloud Storage 輸出檔案的路徑和前置字串。 |
執行 WordCount 範本
控制台
- 前往 Dataflow 的「Create job from template」(透過範本建立工作) 頁面。 前往「依據範本建立工作」
- 在「工作名稱」欄位中,輸入專屬工作名稱。
- 選用:如要使用區域端點,請從下拉式選單中選取值。預設區域為
us-central1
。如需可執行 Dataflow 工作的地區清單,請參閱「Dataflow 位置」。
- 從「Dataflow template」(Dataflow 範本) 下拉式選單中選取 the WordCount template。
- 在提供的參數欄位中輸入參數值。
- 按一下「Run Job」(執行工作)。
gcloud
在殼層或終端機中執行範本:
gcloud dataflow jobs run JOB_NAME \
--gcs-location gs://dataflow-templates/latest/Word_Count \
--region REGION_NAME \
--parameters \
inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,output=gs://BUCKET_NAME/output/my_output
更改下列內容:
JOB_NAME
: 您選擇的不重複工作名稱REGION_NAME
: 您要部署 Dataflow 工作的地區,例如us-central1
BUCKET_NAME
:Cloud Storage bucket 的名稱
API
如要使用 REST API 執行範本,請傳送 HTTP POST 要求。如要進一步瞭解 API 和授權範圍,請參閱 projects.templates.launch
。
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
"jobName": "JOB_NAME",
"parameters": {
"inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
"output": "gs://BUCKET_NAME/output/my_output"
},
"environment": { "zone": "us-central1-f" }
}
更改下列內容:
PROJECT_ID
: 您要執行 Dataflow 工作的專案 ID Google Cloud
JOB_NAME
: 您選擇的不重複工作名稱LOCATION
: 您要部署 Dataflow 工作的地區,例如us-central1
BUCKET_NAME
:Cloud Storage bucket 的名稱