您可以查看「磁碟效能狀態」指標,檢查永久磁碟或 Google Cloud Hyperdisk 磁碟區的健康狀況。這項指標表示磁碟的效能是否可能受到 Compute Engine 中不利事件的影響。
影響磁碟效能狀態的問題也可能會顯示在專案的 Personal Service Health (PSH) 資訊主頁或 Google Cloud Service Health 資訊主頁中。
本文將說明磁碟效能狀態,以及如何使用磁碟效能狀態來排解效能問題。
檢查磁碟健康狀態的時機
如果發現磁碟有效能問題,請查看磁碟效能狀態指標,檢查磁碟的健康狀態。磁碟效能狀態指標每分鐘更新一次,代表前一個分鐘的磁碟效能。如要瞭解如何檢查磁碟的健康狀態,請參閱「查看磁碟效能狀態」一文。
下表列出磁碟效能狀態的可能值。
狀態 | 意義 |
---|---|
Healthy |
磁碟效能符合預期。 |
Degraded |
您可能會暫時觀察到 I/O 延遲時間高於預期。 |
Severely degraded |
I/O 延遲時間過長或發生其他錯誤。 |
如果效能狀態不是 Healthy
,請參閱「瞭解各項狀態」瞭解後續步驟。
如果效能狀態為 Healthy
,表示磁碟運作正常,您需要檢查其他可能造成效能問題的原因。您應檢查應用程式或作業系統錯誤,並確保磁碟已正確最佳化。如需最佳化指南,請參閱「最佳化 Hyperdisk」和「最佳化永久磁碟」。
磁碟健康度與其他磁碟效能指標的關係
磁碟的健康狀態會透過成效狀態指標顯示,代表Google 的角度來看磁碟的內部狀態。如果磁碟的狀態為 Degraded
或 Severely Degraded
,則問題的根本原因一定是 Compute Engine 基礎架構。
一般來說,您無法透過修改工作負載來變更磁碟的健康狀態。不過,在極少數情況下,工作負載的變更可能會觸發內部問題,因此修改工作負載或許可以減輕問題。
如要瞭解其他可用的磁碟效能指標,請參閱「查看磁碟效能指標」。
不會影響磁碟效能狀態的情況
磁碟效能狀態與下列因素造成的效能問題無關:
- 磁碟最佳化不完整或不充分
- 磁碟和機器類型的效能限制 (如果所選機器類型無法滿足工作負載的效能需求)
- 因工作負載流量而增加磁碟負載
- 使用者、應用程式或作業系統錯誤
- 磁碟已滿或毀損
- 針對 Hyperdisk 和極端永久磁碟磁碟區,IOPS 或處理量未充分佈建。
在這些情況下,您必須負責改善效能,例如最佳化磁碟、擴大工作負載、變更機器類型,以及配置更多容量、IOPS 或處理量。
在 Cloud Monitoring 中查看磁碟的健康狀態
如要查看磁碟的健康狀態,請在 Metrics Explorer 中建立圖表。
必要角色和權限
如要取得檢查磁碟效能狀態指標所需的權限,請要求管理員為您授予專案的下列 IAM 角色:
-
Monitoring Viewer (
roles/monitoring.viewer
) -
如何將圖表儲存至資訊主頁:
Monitoring 編輯器 (
roles/monitoring.editor
)
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
在 Metrics Explorer 中建立圖表
如要建立圖表,請使用選單式介面、 Monitoring Query Language (MQL) 或 PromQL 建立查詢。
選單式介面
如要在圖表中查看一或多個磁碟的健康狀態,請按照下列操作說明操作。
-
前往 Google Cloud 控制台的「Metrics Explorer」(Metrics Explorer) 頁面leaderboard:
如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果。
- 在 Google Cloud 控制台的工具列中,選取 Google Cloud 專案。 如要設定 App Hub,請選取 App Hub 主機專案或已啟用應用程式的資料夾管理專案。
- 在「指標」元素中,展開「選取指標」選單,在篩選列中輸入
VM Instance
,然後使用子選單選取特定資源類型和指標:- 在「有效資源」選單中,選取「VM 執行個體」。
- 在「Active metric categories」(使用中的指標類別) 選單中,選取「Instance」。
- 在「Active metrics」選單中,選取「Disk performance status」。
- 按一下 [套用]。
compute.googleapis.com/instance/disk/performance_status
。 - 設定資料檢視方式。
停用匯總功能。請確認在「Aggregation」元素中,第一個選單設為「Unaggregated」,第二個選單設為「None」。
如要查看特定磁碟的健康狀態,請篩選device_name
。
如要進一步瞭解如何設定圖表,請參閱「在使用 Metrics Explorer 時選取指標」。
MQL
開啟查詢編輯器:請按照「編寫 MQL 查詢」一文中的步驟操作。
在查詢編輯器中輸入查詢。例如,如要查看特定磁碟的效能狀態,請輸入下列查詢:
fetch gce_instance | metric 'compute.googleapis.com/instance/disk/performance_status' | filter metric.device_name == 'DISK_NAME' | group_by 1m, [value_performance_status_fraction_true: fraction_true(value.performance_status)] | every 1m
將
DISK_NAME
替換為磁碟名稱,例如disk-1
。
PromQL
開啟查詢編輯器:請按照「編寫 PromQL 查詢」一節中的步驟操作。
在查詢編輯器中輸入查詢。例如,如要查看特定磁碟的效能狀態,請輸入下列查詢:
last_over_time (compute_googleapis_com:instance_disk_performance_status {monitored_resource="gce_instance", project_id ="PROJECT_ID", device_name="DISK_NAME"}[${__interval}])
將 DISK_NAME
替換為磁碟名稱,例如 disk-1
。
如果您在圖表中查看結果,每個磁碟會有 3 行,每個可能狀態一行。同樣地,如果您在資料表中查看查詢結果,每個磁碟會有 3 列。
如果您使用 PromQL 或 MQL 建立查詢,每個資料列或行都會具有 1
或 0
的值。如果是使用選單建立的查詢,則 100%
或 0
會是值。
磁碟目前的健康狀態會以值為 100%
或 1
的資料列或行來表示。
舉例來說,下圖顯示名為 a-test-VM
的磁碟圖表,其狀態為 Healthy
:
如果您以表格形式查看查詢結果,下表列出 Healthy
磁碟的結果範例:
performance_status | 值 |
---|---|
Healthy |
1 |
Degraded |
0 |
Severely Degraded |
0 |
下圖顯示名為 replica-23509
的磁碟圖表,其狀態為「Degraded」:
如要瞭解各項成效狀態代表的意義,請參閱「瞭解各項狀態」。建立圖表後,您可以將圖表儲存到資訊主頁,方便日後使用。
部分結果
如果查詢結果包含小數值 (如下表所示),通常是因為所選的顯示期間過長。因此,Cloud Monitoring 會匯總一段時間內的資料。如果 Healthy
狀態的值為 77%
,表示磁碟的狀態在所選顯示期間的 Healthy
為 77%。
performance_status | 值 |
---|---|
Healthy |
77% |
Degraded |
23% |
Severely Degraded |
0 |
如要更精細地查看磁碟的健康狀態,請使用幾小時或幾分鐘的顯示時間。
瞭解各項狀態
本節將說明各狀態代表的意義,以及您可能需要採取進一步行動的時機。
Healthy
Healthy
狀態表示 Google 認為磁碟運作正常。
如果 Healthy
磁碟有效能問題,請勿與支援團隊聯絡。請改用下列建議的部分方法來排解磁碟問題:
- 查看磁碟效能指標,例如延遲時間和佇列深度。
- 檢查工作負載的記錄和指標,找出異常和瓶頸。
- 如果您使用的是永久磁碟,請確認已配置的容量可滿足磁碟的效能需求。如果您使用 Hyperdisk 或 Extreme 永久磁碟磁碟區,請確認您已配置足夠的 IOPS 和總處理量。
- 請確認您已按照指南最佳化磁碟。詳情請參閱「最佳化 Hyperdisk」和「最佳化永久磁碟」。
Degraded
如果磁碟狀態為 Degraded
,通常不需要聯絡支援團隊。Degraded status
通常是由於 Compute Engine 基礎架構的正常內部維護作業所致。
當磁碟狀態為 Degraded
時,您可能不會發現磁碟效能受到任何影響。如果效能問題與 Degraded
狀態在時間上有相關性,效能問題仍可能與 Degraded
狀態無關。
如果效能問題是由於 Degraded
狀態而發生,這種情況通常是暫時性的。磁碟的狀態應在幾分鐘內恢復為 Healthy
。
如果磁碟沒有效能問題,您可以放心忽略 Degraded
狀態。
發生效能問題時的處理方式
如果磁碟的效能狀態為 Degraded
,且您發現效能問題,請按照下列步驟操作:
- 查看 PSH 資訊主頁,瞭解是否有事件影響磁碟。如果發生事件,請不要與支援團隊聯絡,因為 Google 已知曉並正在努力解決問題。
- 如果沒有任何已知問題,請等待至少 5 分鐘,讓效能問題自行解決。
如果 5 分鐘後效能問題仍未解決,狀態仍為
Degraded
,請確認效能問題並非因為磁碟未充分最佳化而發生。例如檢查磁碟的延遲時間和佇列深度。效能問題和Degraded
狀態可能沒有關聯,只是巧合。如要這麼做,請查看磁碟的指標和效能最佳化指南。如果效能問題持續發生,且符合下列所有條件,您可以向支援團隊尋求協助:
- 磁碟狀態為
Degraded
超過 5 分鐘 - 您已對磁碟進行最佳化,並確認沒有其他問題 (例如瓶頸或應用程式超載),因此有理由相信這不是工作負載問題
- PSH 資訊主頁沒有任何快訊
- 磁碟狀態為
Google 不建議直接針對 Degraded
狀態建立快訊,而是建議針對較高層級的應用程式狀態建立快訊,並使用這項指標來偵錯問題。
Severely Degraded
效能狀態為 Severely Degraded
的磁碟發生效能問題。這個問題可能是由於事件或錯誤所致,且可能已顯示在 PSH 資訊主頁或 Google Cloud Service Health 資訊主頁中。
建議行動
如果磁碟的效能狀態為 Severely Degraded
,請按照下列步驟操作:
- 查看 PSH 資訊主頁和一般 Google Cloud 健康狀態資訊主頁,瞭解是否有影響磁碟的事件。如果發生事件,Google 已知情並設法解決問題,因此請勿與支援團隊聯絡。
- 如果兩個資訊主頁都沒有已知問題,請與支援團隊聯絡。
決策樹
下圖說明磁碟發生效能問題時的處理方式,並總結前面各節的資訊。
如流程圖所示,只有在 PSH 和 Cloud 服務資訊主頁中沒有已知的警示,且磁碟狀態為 Severely Degraded
時,才需要聯絡支援團隊。如果磁碟是 Degraded
,請在滿足下列「所有」條件後,再與支援團隊聯絡:
- 磁碟已
Degraded
超過 5 分鐘 - 您已排除工作負載錯誤或設定錯誤 (例如網路問題)
- 無法在應用程式、工作負載或磁碟層級執行其他最佳化作業
- 您已查看所有磁碟的指標
- 您已檢查工作負載和虛擬機器 (VM) 記錄
後續步驟
- 進一步瞭解如何使用 Metrics Explorer 建立圖表,以及如何在圖表中新增篩選器來縮小查詢結果範圍。
- 在 Personal Service Health 資訊主頁和 Google Service Health 中,查看目前和過去的服務健康事件
- 如需效能最佳化指南,請參閱「最佳化 Hyperdisk」和「最佳化永久磁碟」。