運用可觀察性偵測潛在失敗

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework 的可靠性支柱中,這項原則提供相關建議,協助您主動找出可能發生錯誤和失敗的領域。

這項原則與可靠性的觀察 重點領域相關。

原則總覽

如要維持及提升工作負載在Google Cloud中的可靠性,您需要使用指標、記錄和追蹤記錄,實作有效的觀測功能。

  • 指標是您想在特定時間間隔內追蹤的應用程式活動數值。舉例來說,您可能想追蹤要求率和錯誤率等技術指標,這些指標可用做服務水準指標 (SLI)。您可能也需要追蹤特定應用程式的業務指標,例如訂單數和收到的款項。
  • 記錄檔是應用程式或系統中發生的個別事件,並附有時間戳記。事件可能是失敗、錯誤或狀態變更。記錄可能包含指標,您也可以將記錄用於 SLI。
  • 追蹤記錄代表單一使用者或交易在多個獨立應用程式或應用程式元件中的歷程。舉例來說,這些元件可以是微服務。追蹤記錄可協助您追蹤旅程中使用的元件、瓶頸所在位置,以及旅程所需時間。

您可以透過指標、記錄和追蹤記錄持續監控系統。全面監控可協助您找出錯誤發生的位置和原因。您也可以在發生錯誤前偵測潛在的故障。

建議

如要有效偵測潛在失敗,請考慮下列小節中的建議。

取得全方位的洞察資料

如要追蹤回應時間和錯誤率等重要指標,請使用 Cloud MonitoringCloud Logging。這些工具也有助於確保指標持續符合工作負載需求。

如要根據資料做出決策,請分析預設服務指標,瞭解元件依附元件及其對整體工作負載效能的影響。

如要自訂監控策略,請使用 Google Cloud SDK 建立及發布自己的指標。

主動排解問題

在 Google Cloud中,針對工作負載的所有元件實作健全的錯誤處理機制,並啟用記錄功能。啟用記錄,例如 Cloud Storage 存取記錄VPC 流量記錄

設定記錄時,請考量相關費用。如要控管記錄費用,您可以在記錄接收器上設定排除篩選器,排除特定記錄檔的儲存作業。

充分善用資源

監控 CPU 用量、網路 I/O 指標和磁碟 I/O 指標,偵測 GKE、Compute Engine 和 Dataproc 等服務中資源配置不足和過度配置的情況。如需支援服務的完整清單,請參閱 Cloud Monitoring 總覽

確定警告處理順序

針對快訊,請著重於重要指標、設定適當的門檻,盡量避免快訊疲勞,並確保及時回應重大問題。這種有目標的處理方式可讓您主動維護工作負載的可靠性。詳情請參閱快訊總覽