監控 Dataflow 自動調度資源

您可以在 Dataflow 監控介面中,查看串流工作的自動調度資源監控圖表。這些圖表會顯示管道工作期間的指標,並包含下列資訊:

  • 工作在任何時間點使用的工作站執行個體數量
  • 自動調度記錄檔
  • 預估待處理工作量變化趨勢
  • 一段時間內的平均 CPU 使用率

圖表會垂直對齊,方便您將待處理工作和 CPU 使用率指標與工作人員擴充事件建立關聯。

如要進一步瞭解 Dataflow 如何做出自動調度資源決策,請參閱「自動微調功能」說明文件。 如要進一步瞭解 Dataflow 監控和指標,請參閱「使用 Dataflow 監控介面」。

存取自動調度資源監控圖表

您可以使用Google Cloud console存取 Dataflow 監控介面。如要存取「自動調度」指標分頁,請按照下列步驟操作:

  1. 登入 Google Cloud 控制台。
  2. 選取 Google Cloud 專案。
  3. 開啟導覽選單。
  4. 在「Analytics」中,按一下「Dataflow」。 畫面上會顯示 Dataflow 工作清單,清單中也會顯示工作的狀態。
  5. 按一下要監控的工作,然後按一下「自動調度資源」分頁標籤。

監控自動調度資源指標

Dataflow 服務會自動選擇執行自動調度資源工作所需的工作站執行個體數量,工作站執行個體數量會因工作需求而隨著時間改變。

您可以在 Dataflow 介面的「自動調度資源」分頁中查看自動調度資源指標。每項指標都會整理成下列圖表:

自動調度資源動作列會顯示目前的自動調度資源狀態和工作站數量。

自動調度資源

「自動調度資源」圖表會顯示目前工作站數量、目標工作站數量,以及工作站數量下限和上限的時間序列圖。

資料視覺化,顯示管道中的工作站數量。

如要查看自動調度記錄,請按一下「顯示自動調度記錄」

如要查看自動調度資源變更的記錄,請按一下「顯示詳細記錄」。 系統會顯示表格,其中包含管道的工作站記錄資訊。記錄包含自動調度資源事件,包括工作站數量是否達到下限或上限。

顯示管道的 worker 記錄。

自動調度資源理由 (僅限 Streaming Engine)

「自動調度資源原因」圖表會顯示自動調度資源在特定時間範圍內向上擴充、縮減或未採取任何動作的原因。

資料視覺化圖表,顯示自動調度資源理由。

如要查看特定時間點的理由說明,請將游標懸停在圖表上。

資料視覺化:顯示自動調度資源理由的說明。

下表列出調整資源配置動作和可能的調整資源配置理由。

縮放動作 理由 說明
縮放比例未變更 收集更多資料以利決策 自動調度程式的信號不足,無法擴充或縮減資源配置。舉例來說,工作站集區狀態最近發生變化,或是積壓工作或使用率指標出現波動。
沒有縮放比例變化,信號穩定 達到非資源相關限制 調度作業會受到限制,例如金鑰平行處理量,或設定的工作站數量下限和上限。
積壓工作量少,工作人員使用率高 根據目前的流量和設定,管道的自動調度資源已收斂至穩定值。不需要變更縮放比例。
向上擴充 待處理項目過多 擴大團隊規模,減少待處理事項。
工作站使用率偏高 向上擴充,以達到目標 CPU 使用率。
達到非資源相關的限制 工作站數量下限已更新,目前的工作站數量低於設定的下限。
縮減 工作人員利用率偏低 縮減資源,以達到目標 CPU 使用率。
達到非資源相關的限制 工作站數量上限已更新,目前的工作站數量高於設定的上限。

工作站 CPU 使用率

CPU 使用率是指使用的 CPU 數量除以可供處理的 CPU 數量。「平均 CPU 使用率」圖表會顯示所有工作站的平均 CPU 使用率 (一段時間內)、工作站使用率提示,以及 Dataflow 是否主動將提示做為目標。

資料視覺化圖表,顯示所有 Dataflow 工作人員的平均 CPU 使用率。

待處理項目 (僅限 Streaming Engine)

「最大待處理項目」圖表提供待處理元素的相關資訊。圖表會顯示預估時間 (以秒為單位),說明在未傳入任何新資料,且處理量不變的情況下,完成目前待處理工作所需的預估時間。預估待處理時間是根據輸入來源的處理量和待處理位元組計算得出,串流自動調度功能會使用這項指標,判斷擴充或縮減資源的時機。

這張圖表的資料僅適用於使用 Streaming Engine 的工作。如果串流工作未使用 Streaming Engine,圖表會是空白。

資料視覺化內容,顯示串流管道中的最大積壓工作圖表。

建議

以下是您可能會在管道中觀察到的行為,以及如何調整自動調整規模的建議:

  • 過度縮小。如果目標 CPU 使用率設定過高,您可能會發現 Dataflow 縮減規模,積壓工作開始增加,而 Dataflow 再次擴大規模來補償,而不是收斂至穩定的工作站數量。如要解決這個問題,請試著設定較低的 Worker 利用率提示。觀察積壓工作開始增加時的 CPU 使用率,並將使用率提示設為該值。

  • 升頻速度過慢。如果擴充速度太慢,可能會跟不上流量暴增的情況,導致延遲時間增加。請嘗試降低工作站利用率提示,讓 Dataflow 更快擴充。觀察積壓工作開始增加時的 CPU 使用率,並將使用率提示設為該值。請同時監控延遲時間和成本,因為如果佈建更多工作站,較低的提示值可能會增加管道的總成本。

  • 過度放大。如果發現過度放大導致成本增加,請考慮提高工作人員使用率提示。監控延遲時間,確保延遲時間在您情境的合理範圍內。

詳情請參閱「設定工作人員使用率提示」。實驗新的工作人員使用率提示值時,請等待幾分鐘,讓管道在每次調整後穩定下來。

後續步驟