查看指標,監控及最佳化工作資源

本文說明如何透過查看 Cloud Monitoring 中的指標,監控及盡量最佳化 Batch 作業的資源。如要進一步瞭解工作執行的資源,請參閱「工作資源」。

對於任何工作,Monitoring 都會提供 CPU 使用率和網路流量等基本指標。不過,只有在作業安裝作業套件代理程式時,才能收集部分指標,例如記憶體和程序使用率。作業資源的指標可協助您評估各項資源的成效和使用率。這項資訊可協助您找出日後可改進的地方。舉例來說,您可以移除未使用的資源來節省成本,也可以改善或增加資源,以提升效能。

事前準備

  1. 如果您從未使用過 Batch,請參閱「開始使用 Batch」,並完成專案和使用者的必要條件,啟用 Batch。
  2. 選用:如要收集工作的其他指標,請建立並執行會自動安裝 Ops Agent 的工作
  3. 如果專案尚未啟用 Monitoring API,請按照下列步驟啟用:

    Enable the API

  4. 如要取得查看可觀測性指標所需的權限,請要求管理員授予您專案的監控指標檢視者 (roles/monitoring.metricViewer) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

    您或許還可透過自訂角色或其他預先定義的角色取得必要權限。

查看工作資源的指標

Compute Engine 文件中的「觀察及監控 VM」一節提供 VM 指標的相關概念資訊,但建議您使用其他方法查看 Batch 工作的 VM 指標。具體來說,Compute Engine 說明文件說明如何使用 Compute Engine 的預先定義監控資訊主頁,或 Google Cloud 控制台中的 Compute Engine 頁面,查看指標。但重要的一點是,這些方法不會顯示已刪除 VM 的相關資訊。因此,除非您只想在批次作業執行期間查看相關指標,否則請勿使用這些方法。

如要查看執行中和已完成的 Batch 工作指標,請使用本節說明的 Metrics Explorer 圖表。請注意,除非將圖表儲存至自訂資訊主頁,否則圖表會暫時存在。

如要建立圖表來查看一或多個指標,請按照下列步驟操作:

  1. (選用) 如果打算儲存圖表,請找出或建立圖表的自訂資訊主頁
  2. 為一或多個指標建立 Metrics Explorer 圖表

    如果沒有篩選器,圖表中的每個 VM 指標都會包含專案中所有 VM 的資料。視需要篩選圖表,只納入所有或特定批次作業的指標,請新增下列篩選條件:

    group=RESOURCE_GROUP_NAME
    

    RESOURCE_GROUP_NAME 替換為 Batch 工作資源群組的名稱。詳情請參閱本文的「建立資源群組來篩選指標」。

建立資源群組來篩選指標

您可以將資源群組做為 Metrics Explorer 圖表的可自訂篩選器。如要為專案中所有或特定 Batch 作業建立資源群組,請按照下列步驟操作:

  1. 選取要用做成員資格條件的標籤,根據這些條件將工作納入群組:

    • 所有 Batch 工作:使用預先定義的 batch-node 標籤,系統會自動將這個標籤套用至所有 Batch 工作的所有資源,且標籤值為空值。
    • 特定 Batch 工作:僅針對特定 Batch 工作,使用套用至資源的標籤。

      舉例來說,如要根據完整或部分工作名稱建立群組,請使用預先定義的 batch-job-id 標籤名稱和特定值。系統會自動將 batch-job-id 標籤套用至所有批次工作的所有資源,並以工作名稱定義。

      或者,如果您使用自訂標籤,則必須在建立工作時,將自訂標籤套用至要納入群組的所有 Batch 工作資源。

  2. 確認專案中至少有一項工作含有您選取的標籤,且這項工作處於 RUNNING 狀態。否則,您嘗試建立資源群組時,這個標籤不會顯示為選項。

  3. 建立資源群組。 指定區隔歸屬條件時,請按照下列步驟操作:

    1. 將「類型」設為「代碼」
    2. 將「標籤」欄位設為所選標籤的名稱。然後,根據您希望群組包含的標籤值,設定下列欄位。

      舉例來說,如要讓這個群組包含所有 Batch 工作,請將「標記」設為 batch-node,並將「運算子」設為「存在」。或者,您希望這個群組包含名稱開頭為 test 的批次作業,請將「標記」設為 batch-job-id,將「運算子」設為「開頭為」,並將「值」設為 test

後續步驟