本頁面由 Cloud Translation API 翻譯而成。

更新現有管道

本文說明如何更新進行中的串流工作。您可能會因為以下原因而希望更新現有 Dataflow 工作：

您想增強或改善管道程式碼。
您想修正管道程式碼中的錯誤。
您想更新管道，以因應資料格式的異動，或資料來源中的版本或其他變更。
您想為所有 Dataflow 工作人員修補與 Container-Optimized OS 相關的安全漏洞。
您想調度串流 Apache Beam 管道的資源，以使用不同數量的工作站。

更新工作的方式有兩種：

執行中工作更新：對於使用 Streaming Engine 的串流工作，您可以更新 min-num-workers 和 max-num-workers 工作選項，不必停止工作或變更工作 ID。
替換工作：如要執行更新後的管道程式碼，或更新進行中工作更新作業不支援的工作選項，請啟動新工作來取代現有工作。如要確認取代工作是否有效，請先驗證新工作的工作圖，再啟動新工作。

更新工作時，Dataflow 服務會在目前執行中的工作與可能的替換工作之間執行相容性檢查，這項相容性檢查可確保將中繼狀態資訊和緩衝資料等項目，從先前的工作轉移至替換的工作。

您也可以使用 Apache Beam SDK 的內建記錄基礎架構，在更新工作時記錄資訊。詳情請參閱「處理管道記錄」。如要找出管道程式碼的問題，請使用DEBUG記錄層級。

如要瞭解如何更新使用傳統範本的串流工作，請參閱「更新自訂範本串流工作」。
如要瞭解如何更新使用 Flex 範本的串流工作，請按照本頁的 gcloud CLI 指令操作，或參閱「更新 Flex 範本工作」。

更新執行中的工作選項

如果串流工作使用 Streaming Engine，您可以更新下列工作選項，不必停止工作或變更工作 ID：

min-num-workers：Compute Engine 執行個體的最低數量。
max-num-workers：Compute Engine 執行個體的數量上限。
worker-utilization-hint：目標 CPU 使用率，範圍為 [0.1, 0.9]

如要更新其他工作，您必須取代目前的工作。詳情請參閱「啟動替代工作」。

執行飛行中更新

如要更新進行中的工作選項，請按照下列步驟操作。

gcloud

使用 gcloud dataflow jobs update-options 指令：

gcloud dataflow jobs update-options \
  --region=REGION \
  --min-num-workers=MINIMUM_WORKERS \
  --max-num-workers=MAXIMUM_WORKERS \
  --worker-utilization-hint=TARGET_UTILIZATION \
  JOB_ID

更改下列內容：

REGION：工作區域的 ID
MINIMUM_WORKERS：Compute Engine 執行個體的最低數量
MAXIMUM_WORKERS：Compute Engine 執行個體的數量上限
TARGET_UTILIZATION：範圍介於 [0.1, 0.9] 的值
JOB_ID：要更新的工作 ID

您也可以個別更新 --min-num-workers、--max-num-workers 和 worker-utilization-hint。

REST

請使用 projects.locations.jobs.update 方法：

PUT https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION/jobs/JOB_ID?updateMask=MASK
{
  "runtime_updatable_params": {
    "min_num_workers": MINIMUM_WORKERS,
    "max_num_workers": MAXIMUM_WORKERS,
    "worker_utilization_hint": TARGET_UTILIZATION
  }
}

更改下列內容：

MASK：以逗號分隔的參數清單，可從下列項目更新：
- runtime_updatable_params.max_num_workers
- runtime_updatable_params.min_num_workers
- runtime_updatable_params.worker_utilization_hint
PROJECT_ID：Dataflow 工作的 Google Cloud 專案 ID
REGION：工作區域的 ID
JOB_ID：要更新的工作 ID
MINIMUM_WORKERS：Compute Engine 執行個體的最低數量
MAXIMUM_WORKERS：Compute Engine 執行個體的數量上限
TARGET_UTILIZATION：範圍介於 [0.1, 0.9] 的值

你也可以個別更新 min_num_workers、max_num_workers 和 worker_utilization_hint。在 updateMask 查詢參數中指定要更新的參數，並在要求主體的 runtimeUpdatableParams 欄位中加入更新的值。以下範例會更新 min_num_workers：

PUT https://dataflow.googleapis.com/v1b3/projects/my_project/locations/us-central1/jobs/job1?updateMask=runtime_updatable_params.min_num_workers
{
  "runtime_updatable_params": {
    "min_num_workers": 5
  }
}

工作必須處於執行中狀態，才能接收即時更新。如果工作尚未啟動或已取消，就會發生錯誤。同樣地，如果您啟動替代工作，請等待工作開始執行，再將任何進行中的更新傳送至新工作。

提交更新要求後，建議等待要求完成再傳送其他更新。查看工作記錄，瞭解要求何時完成。

驗證替換工作

如要驗證替代工作是否有效，請先驗證新工作的工作圖，再啟動新工作。在 Dataflow 中，工作圖是管道的圖形表示法。驗證工作圖表可降低更新後管道發生錯誤或管道失敗的風險。此外，您不需要停止原始工作即可驗證更新，因此工作不會發生任何停機時間。

如要驗證工作圖，請按照步驟啟動替換工作。在更新指令中加入 graph_validate_only Dataflow 服務選項。

Java

傳送 --update 選項。
將 PipelineOptions 中的 --jobName 選項設為您要更新的工作名稱。
將 --region 選項設為與要更新的工作相同的地區。
加入 --dataflowServiceOptions=graph_validate_only 服務選項。
如果管道中有任何轉換名稱有所變更，您必須提供轉換對應，並使用 --transformNameMapping 選項加以傳送。
如果您提交的替代工作使用較新版本的 Apache Beam SDK，請將 --updateCompatibilityVersion 設為原始工作使用的 Apache Beam SDK 版本。

Python

傳送 --update 選項。
將 PipelineOptions 中的 --job_name 選項設為您要更新的工作名稱。
將 --region 選項設為與要更新的工作相同的地區。
加入 --dataflow_service_options=graph_validate_only 服務選項。
如果管道中有任何轉換名稱有所變更，您必須提供轉換對應，並使用 --transform_name_mapping 選項加以傳送。
如果您提交的替代工作使用較新版本的 Apache Beam SDK，請將 --updateCompatibilityVersion 設為原始工作使用的 Apache Beam SDK 版本。

Go

傳送 --update 選項。
將 --job_name 選項設為您要更新的工作名稱。
將 --region 選項設為與要更新的工作相同的地區。
加入 --dataflow_service_options=graph_validate_only 服務選項。
如果管道中有任何轉換名稱有所變更，您必須提供轉換對應，並使用 --transform_name_mapping 選項加以傳送。

gcloud

如要驗證 Flex 範本工作的工作圖，請使用 gcloud dataflow flex-template run 指令搭配 additional-experiments 選項：

傳送 --update 選項。
將 JOB_NAME 設為您要更新的工作名稱。
將 --region 選項設為與要更新的工作相同的地區。
加入 --additional-experiments=graph_validate_only 選項。
如果管道中有任何轉換名稱有所變更，您必須提供轉換對應，並使用 --transform-name-mappings 選項加以傳送。

例如：

gcloud dataflow flex-template run JOB_NAME --additional-experiments=graph_validate_only

將 JOB_NAME 替換為要更新的工作名稱。

REST

在 FlexTemplateRuntimeEnvironment (Flex 範本) 或 RuntimeEnvironment 物件中使用 additionalExperiments 欄位。

{
  additionalExperiments : ["graph_validate_only"]
  ...
}

graph_validate_only 服務選項只會驗證管道更新。建立或啟動管道時，請勿使用這個選項。如要更新管道，請啟動替換工作，但不要使用 graph_validate_only 服務選項。

工作圖表驗證成功後，工作狀態和工作記錄會顯示下列狀態：

工作狀態為 JOB_STATE_DONE。
在 Google Cloud 控制台中，「Job status」(工作狀態) 為 Succeeded。

作業記錄中會顯示下列訊息：

Workflow job: JOB_ID succeeded validation. Marking graph_validate_only job as Done.

如果工作圖驗證失敗，工作狀態和工作記錄檔會顯示下列狀態：

工作狀態為 JOB_STATE_FAILED。
在 Google Cloud 控制台中，「Job status」(工作狀態) 為 Failed。
工作記錄中會顯示訊息，說明不相容錯誤。訊息內容取決於錯誤。

啟動替換工作

您可能基於下列原因取代現有工作：

執行更新後的管道程式碼。
如要更新不支援即時更新的工作選項。

如要確認替代工作是否有效，請先驗證工作圖表，再啟動新工作。

啟動替換工作時，除了設定工作的標準選項以外，您還必須設定下列管道選項以執行更新程序：

Java

傳送 --update 選項。
將 PipelineOptions 中的 --jobName 選項設為您要更新的工作名稱。
將 --region 選項設為與要更新的工作相同的地區。
如果管道中有任何轉換名稱有所變更，您必須提供轉換對應，並使用 --transformNameMapping 選項加以傳送。
如果您提交的替代工作使用較新版本的 Apache Beam SDK，請將 --updateCompatibilityVersion 設為原始工作使用的 Apache Beam SDK 版本。

Python

傳送 --update 選項。
將 PipelineOptions 中的 --job_name 選項設為您要更新的工作名稱。
將 --region 選項設為與要更新的工作相同的地區。
如果管道中有任何轉換名稱有所變更，您必須提供轉換對應，並使用 --transform_name_mapping 選項加以傳送。
如果您提交的替代工作使用較新版本的 Apache Beam SDK，請將 --updateCompatibilityVersion 設為原始工作使用的 Apache Beam SDK 版本。

Go

傳送 --update 選項。
將 --job_name 選項設為您要更新的工作名稱。
將 --region 選項設為與要更新的工作相同的地區。
如果管道中有任何轉換名稱有所變更，您必須提供轉換對應，並使用 --transform_name_mapping 選項加以傳送。

gcloud

如要使用 gcloud CLI 更新彈性範本作業，請使用 gcloud dataflow flex-template run 指令。系統不支援使用 gcloud CLI 更新其他工作。

傳送 --update 選項。
將 JOB_NAME 設為您要更新的工作名稱。
將 --region 選項設為與要更新的工作相同的地區。
如果管道中有任何轉換名稱有所變更，您必須提供轉換對應，並使用 --transform-name-mappings 選項加以傳送。

REST

這些操作說明會示範如何使用 REST API 更新非範本工作。如要使用 REST API 更新傳統範本工作，請參閱「更新自訂範本串流工作」。如要使用 REST API 更新 Flex 範本工作，請參閱「更新 Flex 範本工作」。

使用 projects.locations.jobs.get 方法，擷取要更換工作的 job 資源。加入 view 查詢參數，並將值設為 JOB_VIEW_DESCRIPTION。包括 JOB_VIEW_DESCRIPTION 可限制回應中的資料量，以免後續要求超過大小限制。如需更詳細的工作資訊，請使用值 JOB_VIEW_ALL。
```
GET https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION/jobs/JOB_ID?view=JOB_VIEW_DESCRIPTION
```
替換下列值：
- PROJECT_ID：Dataflow 工作的 Google Cloud 專案 ID
- REGION：要更新的工作區域
- JOB_ID：要更新的工作 ID
如要更新工作，請使用 projects.locations.jobs.create 方法。在要求主體中，使用您擷取的 job 資源。
```
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION/jobs
{
  "id": JOB_ID,
  "replaceJobId": JOB_ID,
  "name": JOB_NAME,
  "type": "JOB_TYPE_STREAMING",
  "transformNameMapping": {
    string: string,
    ...
  },
}
```
更改下列內容：
- JOB_ID：與要更新的工作 ID 相同。
- JOB_NAME：與要更新的工作名稱相同。
如果管道中有任何轉換名稱有所變更，您必須提供轉換對應，並使用 transformNameMapping 欄位加以傳送。

選用：如要使用 curl (Linux、macOS 或 Cloud Shell) 傳送要求，請將要求儲存至 JSON 檔案，然後執行下列指令：

curl -X POST -d "@FILE_PATH" -H "Content-Type: application/json" -H "Authorization: Bearer $(gcloud auth print-access-token)"  https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION/jobs

將 FILE_PATH 改成包含要求內文的 JSON 檔案路徑。

指定替換工作名稱

Java

啟動替換工作時，針對 --jobName 選項所傳送的值必須與待替換工作的名稱完全相符。

Python

啟動替換工作時，針對 --job_name 選項所傳送的值必須與待替換工作的名稱完全相符。

Go

啟動替換工作時，針對 --job_name 選項所傳送的值必須與待替換工作的名稱完全相符。

gcloud

啟動替換工作時，JOB_NAME 必須與待替換工作的名稱完全相符。

REST

將 replaceJobId 欄位的值設為與要更新的工作相同的工作 ID。如要找到正確的工作名稱值，請在 Dataflow 監控介面中選取先前的工作。然後在「Job info」側邊面板中，找到「Job ID」欄位。

如要找到正確的工作名稱值，請在 Dataflow 監控介面中選取先前的工作。接著在「工作資訊」側邊面板中，找到「工作名稱」欄位：

執行中 Dataflow 工作的工作資訊側邊面板。 — 圖 1：執行中 Dataflow 工作的「Job info」(工作資訊) 側邊面板，其中有「Job name」(工作名稱) 欄位。

或者，您也可以使用 Dataflow 指令列介面來查詢現有工作的清單。方法是在殼層或終端機視窗中輸入 gcloud dataflow jobs list 指令，取得 Google Cloud Platform 專案中的 Dataflow 工作清單，接著找出要替換之工作的 NAME 欄位：

JOB_ID                                    NAME                        TYPE       CREATION_TIME        STATE    REGION
2020-12-28_12_01_09-yourdataflowjobid     ps-topic                    Streaming  2020-12-28 20:01:10  Running  us-central1

建立轉換對應

如果替代管道變更了先前管道中的任何轉換名稱，Dataflow 服務會需要轉換對應。轉換對應會將先前管道程式碼中的已命名轉換，對應至替代管道程式碼中的名稱。

Java

透過下列一般格式使用 --transformNameMapping 指令列選項來傳送對應：

--transformNameMapping= . 
{"oldTransform1":"newTransform1","oldTransform2":"newTransform2",...}

您只需要針對先前管道與替換管道之間有變更的轉換名稱，在 --transformNameMapping 中提供對應項目即可。

使用 --transformNameMapping 執行作業時，您可能需要視殼層情況將引號逸出。例如，在 Bash 中：

--transformNameMapping='{"oldTransform1":"newTransform1",...}'

Python

透過下列一般格式使用 --transform_name_mapping 指令列選項來傳送對應：

--transform_name_mapping= .
{"oldTransform1":"newTransform1","oldTransform2":"newTransform2",...}

您只需要針對先前管道與替換管道之間有變更的轉換名稱，在 --transform_name_mapping 中提供對應項目即可。

使用 --transform_name_mapping 執行作業時，您可能需要視殼層情況將引號逸出。例如，在 Bash 中：

--transform_name_mapping='{"oldTransform1":"newTransform1",...}'

Go

透過下列一般格式使用 --transform_name_mapping 指令列選項來傳送對應：

--transform_name_mapping= .
{"oldTransform1":"newTransform1","oldTransform2":"newTransform2",...}

您只需要針對先前管道與替換管道之間有變更的轉換名稱，在 --transform_name_mapping 中提供對應項目即可。

使用 --transform_name_mapping 執行作業時，您可能需要視殼層情況將引號逸出。例如，在 Bash 中：

--transform_name_mapping='{"oldTransform1":"newTransform1",...}'

gcloud

透過下列一般格式使用 --transform-name-mappings 選項來傳送對應：

--transform-name-mappings= .
{"oldTransform1":"newTransform1","oldTransform2":"newTransform2",...}

您只需要針對先前管道與替換管道之間有變更的轉換名稱，在 --transform-name-mappings 中提供對應項目即可。

使用 --transform-name-mappings 執行作業時，您可能需要視殼層情況將引號逸出。舉例來說，在 Bash 中：

--transform-name-mappings='{"oldTransform1":"newTransform1",...}'

REST

使用 transformNameMapping 欄位傳送對應，格式如下：

"transformNameMapping": {
  oldTransform1: newTransform1,
  oldTransform2: newTransform2,
  ...
}

您只需要針對先前管道與替換管道之間有變更的轉換名稱，在 transformNameMapping 中提供對應項目即可。

判斷轉換名稱

對應中每個執行個體的轉換名稱，就是您在管道中套用轉換時所提供的名稱。例如：

Java

  .apply("FormatResults", ParDo
    .of(new DoFn&lt;KV&lt;String, Long&gt;&gt;, String>() {
      ...
     }
  }))

Python

  | 'FormatResults' >> beam.ParDo(MyDoFn())

Go

  // In Go, this is always the package-qualified name of the DoFn itself.
  // For example, if the FormatResults DoFn is in the main package, its name
  // is "main.FormatResults".
  beam.ParDo(s, FormatResults, results)

您也可以在 Dataflow 監控介面中查看工作執行圖，藉此取得先前工作的轉換名稱：

WordCount 管道的執行圖。 — 圖 2：Dataflow 監控介面中顯示的 WordCount 管道執行圖。

複合轉換命名

轉換名稱為階層式結構，以管道中的轉換階層結構為依據。如果管道有複合式轉換，則巢狀轉換的名稱取決於其包含的轉換。舉例來說，假設管道包含名為 CountWidgets 的複合式轉換，且該轉換包含名為 Parse 的內部轉換。轉換的全名為 CountWidgets/Parse，而且您必須在轉換對應中指定該全名。

如果新管道會將複合式轉換對應至不同的名稱，所有的巢狀轉換也會自動重新命名，您必須在轉換對應中為內部轉換指定變更後的名稱。

重構轉換階層

如果替換管道使用與先前管道不同的轉換階層，您就必須明確宣告這項對應。您可能重構了複合轉換，或管道依賴已變更的程式庫中的複合轉換，因此轉換階層結構可能不同。

舉例來說，您先前的管道套用了 CountWidgets 複合式轉換，其中包含名為 Parse 的內部轉換。替代管道會重構 CountWidgets，並在另一個名為 Scan 的轉換中將 Parse 轉成巢狀結構。您必須明確將先前管道的完整轉換名稱 (CountWidgets/Parse) 對應至新管道的轉換名稱 (CountWidgets/Scan/Parse)，才能成功進行更新：