監控磁碟健康狀態


您可以查看「磁碟效能狀態」指標,檢查永久磁碟或 Google Cloud Hyperdisk 磁碟區的健康狀況。這項指標表示磁碟的效能是否可能受到 Compute Engine 中不利事件的影響。

影響磁碟效能狀態的問題也可能會顯示在專案的 Personal Service Health (PSH) 資訊主頁或 Google Cloud Service Health 資訊主頁中。

本文將說明磁碟效能狀態,以及如何使用磁碟效能狀態來排解效能問題。

檢查磁碟健康狀態的時機

如果發現磁碟有效能問題,請查看磁碟效能狀態指標,檢查磁碟的健康狀態。磁碟效能狀態指標每分鐘更新一次,代表前一個分鐘的磁碟效能。如要瞭解如何檢查磁碟的健康狀態,請參閱「查看磁碟效能狀態」一文。

下表列出磁碟效能狀態的可能值。

狀態 意義
Healthy 磁碟效能符合預期。
Degraded 您可能會暫時觀察到 I/O 延遲時間高於預期。
Severely degraded I/O 延遲時間過長或發生其他錯誤。

如果效能狀態不是 Healthy,請參閱「瞭解各項狀態」瞭解後續步驟。

如果效能狀態為 Healthy,表示磁碟運作正常,您需要檢查其他可能造成效能問題的原因。您應檢查應用程式或作業系統錯誤,並確保磁碟已正確最佳化。如需最佳化指南,請參閱「最佳化 Hyperdisk」和「最佳化永久磁碟」。

磁碟健康度與其他磁碟效能指標的關係

磁碟的健康狀態會透過成效狀態指標顯示,代表Google 的角度來看磁碟的內部狀態。如果磁碟的狀態為 DegradedSeverely Degraded,則問題的根本原因一定是 Compute Engine 基礎架構。

一般來說,您無法透過修改工作負載來變更磁碟的健康狀態。不過,在極少數情況下,工作負載的變更可能會觸發內部問題,因此修改工作負載或許可以減輕問題。

如要瞭解其他可用的磁碟效能指標,請參閱「查看磁碟效能指標」。

不會影響磁碟效能狀態的情況

磁碟效能狀態與下列因素造成的效能問題無關:

  • 磁碟最佳化不完整或不充分
  • 磁碟和機器類型的效能限制 (如果所選機器類型無法滿足工作負載的效能需求)
  • 因工作負載流量而增加磁碟負載
  • 使用者、應用程式或作業系統錯誤
  • 磁碟已滿或毀損
  • 針對 Hyperdisk 和極端永久磁碟磁碟區,IOPS 或處理量未充分佈建。

在這些情況下,您必須負責改善效能,例如最佳化磁碟、擴大工作負載、變更機器類型,以及配置更多容量、IOPS 或處理量。

在 Cloud Monitoring 中查看磁碟的健康狀態

如要查看磁碟的健康狀態,請在 Metrics Explorer 中建立圖表。

必要角色和權限

如要取得檢查磁碟效能狀態指標所需的權限,請要求管理員為您授予專案的下列 IAM 角色:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

您或許還可透過自訂角色或其他預先定義的角色取得必要權限。

在 Metrics Explorer 中建立圖表

如要建立圖表,請使用選單式介面、 Monitoring Query Language (MQL)PromQL 建立查詢。

如要在圖表中查看一或多個磁碟的健康狀態,請按照下列操作說明操作。
  1. 前往 Google Cloud 控制台的「Metrics Explorer」(Metrics Explorer) 頁面

    前往 Metrics Explorer

    如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

  2. 在 Google Cloud 控制台的工具列中,選取 Google Cloud 專案。 如要設定 App Hub,請選取 App Hub 主機專案或已啟用應用程式的資料夾管理專案。
  3. 在「指標」元素中,展開「選取指標」選單,在篩選列中輸入 VM Instance,然後使用子選單選取特定資源類型和指標:
    1. 在「有效資源」選單中,選取「VM 執行個體」
    2. 在「Active metric categories」(使用中的指標類別) 選單中,選取「Instance」
    3. 在「Active metrics」選單中,選取「Disk performance status」
    4. 按一下 [套用]
    這個指標的完整合格名稱為 compute.googleapis.com/instance/disk/performance_status
  4. 設定資料檢視方式。
    停用匯總功能。請確認在「Aggregation」元素中,第一個選單設為「Unaggregated」,第二個選單設為「None」
    如要查看特定磁碟的健康狀態,請篩選 device_name

    如要進一步瞭解如何設定圖表,請參閱「在使用 Metrics Explorer 時選取指標」。

MQL

  1. 開啟查詢編輯器:請按照「編寫 MQL 查詢」一文中的步驟操作。

  2. 在查詢編輯器中輸入查詢。例如,如要查看特定磁碟的效能狀態,請輸入下列查詢:

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    DISK_NAME 替換為磁碟名稱,例如 disk-1

PromQL

  1. 開啟查詢編輯器:請按照「編寫 PromQL 查詢」一節中的步驟操作。

  2. 在查詢編輯器中輸入查詢。例如,如要查看特定磁碟的效能狀態,請輸入下列查詢:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

DISK_NAME 替換為磁碟名稱,例如 disk-1

如果您在圖表中查看結果,每個磁碟會有 3 行,每個可能狀態一行。同樣地,如果您在資料表中查看查詢結果,每個磁碟會有 3 列。

如果您使用 PromQL 或 MQL 建立查詢,每個資料列或行都會具有 10 的值。如果是使用選單建立的查詢,則 100%0 會是值。

磁碟目前的健康狀態會以值為 100%1 的資料列或行來表示。

舉例來說,下圖顯示名為 a-test-VM 的磁碟圖表,其狀態為 Healthy

螢幕截圖:顯示磁碟狀態為「健康」的圖表

如果您以表格形式查看查詢結果,下表列出 Healthy 磁碟的結果範例:

performance_status
Healthy 1
Degraded 0
Severely Degraded 0

下圖顯示名為 replica-23509 的磁碟圖表,其狀態為「Degraded」顯示磁碟狀態為「Degraded」的圖表螢幕截圖

如要瞭解各項成效狀態代表的意義,請參閱「瞭解各項狀態」。建立圖表後,您可以將圖表儲存到資訊主頁,方便日後使用

部分結果

如果查詢結果包含小數值 (如下表所示),通常是因為所選的顯示期間過長。因此,Cloud Monitoring 會匯總一段時間內的資料。如果 Healthy 狀態的值為 77%,表示磁碟的狀態在所選顯示期間的 Healthy 為 77%。

performance_status
Healthy 77%
Degraded 23%
Severely Degraded 0

如要更精細地查看磁碟的健康狀態,請使用幾小時或幾分鐘的顯示時間。

瞭解各項狀態

本節將說明各狀態代表的意義,以及您可能需要採取進一步行動的時機。

Healthy

Healthy 狀態表示 Google 認為磁碟運作正常。

如果 Healthy 磁碟有效能問題,請勿與支援團隊聯絡。請改用下列建議的部分方法來排解磁碟問題:

  • 查看磁碟效能指標,例如延遲時間和佇列深度。
  • 檢查工作負載的記錄和指標,找出異常和瓶頸。
  • 如果您使用的是永久磁碟,請確認已配置的容量可滿足磁碟的效能需求。如果您使用 Hyperdisk 或 Extreme 永久磁碟磁碟區,請確認您已配置足夠的 IOPS 和總處理量。
  • 請確認您已按照指南最佳化磁碟。詳情請參閱「最佳化 Hyperdisk」和「最佳化永久磁碟」。

Degraded

如果磁碟狀態為 Degraded,通常不需要聯絡支援團隊Degraded status 通常是由於 Compute Engine 基礎架構的正常內部維護作業所致。

當磁碟狀態為 Degraded 時,您可能不會發現磁碟效能受到任何影響。如果效能問題與 Degraded 狀態在時間上有相關性,效能問題仍可能與 Degraded 狀態無關。

如果效能問題是由於 Degraded 狀態而發生,這種情況通常是暫時性的。磁碟的狀態應在幾分鐘內恢復為 Healthy

如果磁碟沒有效能問題,您可以放心忽略 Degraded 狀態。

發生效能問題時的處理方式

如果磁碟的效能狀態為 Degraded,且您發現效能問題,請按照下列步驟操作:

  1. 查看 PSH 資訊主頁,瞭解是否有事件影響磁碟。如果發生事件,請不要與支援團隊聯絡,因為 Google 已知曉並正在努力解決問題。
  2. 如果沒有任何已知問題,請等待至少 5 分鐘,讓效能問題自行解決。
  3. 如果 5 分鐘後效能問題仍未解決,狀態仍為 Degraded,請確認效能問題並非因為磁碟未充分最佳化而發生。例如檢查磁碟的延遲時間和佇列深度。效能問題和 Degraded 狀態可能沒有關聯,只是巧合。如要這麼做,請查看磁碟的指標效能最佳化指南

  4. 如果效能問題持續發生,且符合下列所有條件,您可以向支援團隊尋求協助:

    • 磁碟狀態為 Degraded 超過 5 分鐘
    • 您已對磁碟進行最佳化,並確認沒有其他問題 (例如瓶頸或應用程式超載),因此有理由相信這不是工作負載問題
    • PSH 資訊主頁沒有任何快訊

Google 不建議直接針對 Degraded 狀態建立快訊,而是建議針對較高層級的應用程式狀態建立快訊,並使用這項指標來偵錯問題。

Severely Degraded

效能狀態為 Severely Degraded 的磁碟發生效能問題。這個問題可能是由於事件或錯誤所致,且可能已顯示在 PSH 資訊主頁Google Cloud Service Health 資訊主頁中。

建議行動

如果磁碟的效能狀態為 Severely Degraded,請按照下列步驟操作:

  1. 查看 PSH 資訊主頁和一般 Google Cloud 健康狀態資訊主頁,瞭解是否有影響磁碟的事件。如果發生事件,Google 已知情並設法解決問題,因此請勿與支援團隊聯絡。
  2. 如果兩個資訊主頁都沒有已知問題,請與支援團隊聯絡。

決策樹

下圖說明磁碟發生效能問題時的處理方式,並總結前面各節的資訊。

流程圖:說明解讀磁碟效能狀態指標的步驟。

如流程圖所示,只有在 PSH 和 Cloud 服務資訊主頁中沒有已知的警示,且磁碟狀態為 Severely Degraded 時,才需要聯絡支援團隊。如果磁碟是 Degraded,請在滿足下列「所有」條件後,再與支援團隊聯絡:

  • 磁碟已 Degraded 超過 5 分鐘
  • 您已排除工作負載錯誤或設定錯誤 (例如網路問題)
  • 無法在應用程式、工作負載或磁碟層級執行其他最佳化作業
  • 您已查看所有磁碟的指標
  • 您已檢查工作負載和虛擬機器 (VM) 記錄

後續步驟