您可以在 Dataflow 監控介面中,查看串流工作的自動調度資源監控圖表。這些圖表會顯示管道工作期間的指標,並包含下列資訊:
- 工作在任何時間點使用的工作站執行個體數量
- 自動調度記錄檔
- 預估待處理工作量變化趨勢
- 一段時間內的平均 CPU 使用率
圖表會垂直對齊,方便您將待處理工作和 CPU 使用率指標與工作人員擴充事件建立關聯。
如要進一步瞭解 Dataflow 如何做出自動調度資源決策,請參閱「自動微調功能」說明文件。 如要進一步瞭解 Dataflow 監控和指標,請參閱「使用 Dataflow 監控介面」。
存取自動調度資源監控圖表
您可以使用Google Cloud console存取 Dataflow 監控介面。如要存取「自動調度」指標分頁,請按照下列步驟操作:
- 登入 Google Cloud 控制台。
- 選取 Google Cloud 專案。
- 開啟導覽選單。
- 在「Analytics」中,按一下「Dataflow」。 畫面上會顯示 Dataflow 工作清單,清單中也會顯示工作的狀態。
- 按一下要監控的工作,然後按一下「自動調度資源」分頁標籤。
監控自動調度資源指標
Dataflow 服務會自動選擇執行自動調度資源工作所需的工作站執行個體數量,工作站執行個體數量會因工作需求而隨著時間改變。
您可以在 Dataflow 介面的「自動調度資源」分頁中查看自動調度資源指標。每項指標都會整理成下列圖表:
自動調度資源動作列會顯示目前的自動調度資源狀態和工作站數量。
自動調度資源
「自動調度資源」圖表會顯示目前工作站數量、目標工作站數量,以及工作站數量下限和上限的時間序列圖。
如要查看自動調度記錄,請按一下「顯示自動調度記錄」。
如要查看自動調度資源變更的記錄,請按一下「顯示詳細記錄」。 系統會顯示表格,其中包含管道的工作站記錄資訊。記錄包含自動調度資源事件,包括工作站數量是否達到下限或上限。
自動調度資源理由 (僅限 Streaming Engine)
「自動調度資源原因」圖表會顯示自動調度資源在特定時間範圍內向上擴充、縮減或未採取任何動作的原因。
如要查看特定時間點的理由說明,請將游標懸停在圖表上。
下表列出調整資源配置動作和可能的調整資源配置理由。
縮放動作 | 理由 | 說明 |
---|---|---|
縮放比例未變更 | 收集更多資料以利決策 | 自動調度程式的信號不足,無法擴充或縮減資源配置。舉例來說,工作站集區狀態最近發生變化,或是積壓工作或使用率指標出現波動。 |
沒有縮放比例變化,信號穩定 | 達到非資源相關限制 | 調度作業會受到限制,例如金鑰平行處理量,或設定的工作站數量下限和上限。 |
積壓工作量少,工作人員使用率高 | 根據目前的流量和設定,管道的自動調度資源已收斂至穩定值。不需要變更縮放比例。 | |
向上擴充 | 待處理項目過多 | 擴大團隊規模,減少待處理事項。 |
工作站使用率偏高 | 向上擴充,以達到目標 CPU 使用率。 | |
達到非資源相關的限制 | 工作站數量下限已更新,目前的工作站數量低於設定的下限。 | |
縮減 | 工作人員利用率偏低 | 縮減資源,以達到目標 CPU 使用率。 |
達到非資源相關的限制 | 工作站數量上限已更新,目前的工作站數量高於設定的上限。 |
工作站 CPU 使用率
CPU 使用率是指使用的 CPU 數量除以可供處理的 CPU 數量。「平均 CPU 使用率」圖表會顯示所有工作站的平均 CPU 使用率 (一段時間內)、工作站使用率提示,以及 Dataflow 是否主動將提示做為目標。
待處理項目 (僅限 Streaming Engine)
「最大待處理項目」圖表提供待處理元素的相關資訊。圖表會顯示預估時間 (以秒為單位),說明在未傳入任何新資料,且處理量不變的情況下,完成目前待處理工作所需的預估時間。預估待處理時間是根據輸入來源的處理量和待處理位元組計算得出,串流自動調度功能會使用這項指標,判斷擴充或縮減資源的時機。
這張圖表的資料僅適用於使用 Streaming Engine 的工作。如果串流工作未使用 Streaming Engine,圖表會是空白。
建議
以下是您可能會在管道中觀察到的行為,以及如何調整自動調整規模的建議:
過度縮小。如果目標 CPU 使用率設定過高,您可能會發現 Dataflow 縮減規模,積壓工作開始增加,而 Dataflow 再次擴大規模來補償,而不是收斂至穩定的工作站數量。如要解決這個問題,請試著設定較低的 Worker 利用率提示。觀察積壓工作開始增加時的 CPU 使用率,並將使用率提示設為該值。
升頻速度過慢。如果擴充速度太慢,可能會跟不上流量暴增的情況,導致延遲時間增加。請嘗試降低工作站利用率提示,讓 Dataflow 更快擴充。觀察積壓工作開始增加時的 CPU 使用率,並將使用率提示設為該值。請同時監控延遲時間和成本,因為如果佈建更多工作站,較低的提示值可能會增加管道的總成本。
過度放大。如果發現過度放大導致成本增加,請考慮提高工作人員使用率提示。監控延遲時間,確保延遲時間在您情境的合理範圍內。
詳情請參閱「設定工作人員使用率提示」。實驗新的工作人員使用率提示值時,請等待幾分鐘,讓管道在每次調整後穩定下來。