GKE 觀測能力


本頁面說明如何瞭解應用程式的健康狀態,以及如何維持應用程式的可用性和可靠性。

預設可觀測性功能

根據預設,GKE 叢集的設定如下:

自訂及強化資料收集功能

根據預設,GKE 會建立 Logging 存放區,用於儲存每個叢集的記錄。您可以控管要將哪些記錄和指標 (如有) 從 GKE 叢集傳送至 Cloud Logging 和 Cloud Monitoring。

您也可以控管是否要啟用 Google Cloud Managed Service for Prometheus

對於 GKE Autopilot 叢集,您無法停用 Cloud Monitoring 和 Cloud Logging 整合功能。

其他可觀測性指標

您可以啟用一或多個可觀測性指標套件,收集其他可觀測性指標。

  • 控制層指標: 收集 Kubernetes API 伺服器、排程器和控制器管理工具的指標,監控 Kubernetes 元件的健康狀態。這些指標是定義服務等級目標 (SLO) 時,判斷服務健康狀態的實用訊號。
  • Kube 狀態指標: 監控 Kubernetes 物件 (例如部署、節點和 Pod) 的健康狀態。
  • cAdvisor/Kubelet 指標: 監控容器和 kubelet 的健康狀態。

如果您已在專案中啟用 GKE Enterprise,當您在建立叢集時註冊機群,系統會預設啟用這些指標。

第三方和使用者定義的指標

如要監控叢集上執行的第三方應用程式 (例如 Postgres、MongoDB 和 Redis),請搭配使用 Prometheus 匯出工具和 Google Cloud Managed Service for Prometheus。

您也可以編寫自訂匯出工具,監控健康狀態和效能的其他信號。

使用收集到的資料

在開發、部署及維護應用程式時,您可以使用收集到的資料分析應用程式健康狀態、偵錯、排解問題及測試。

GKE 提供內建的觀測功能,可協助您快速入門:

  • 在 GKE 可觀測性資訊主頁上,查看叢集和工作負載的收集資料。您可以自訂提供的資訊主頁,以達到下列目的:

    • 查看叢集的重要指標,例如 CPU 使用率、記憶體使用率和未解決的事件數。
    • 依據基礎架構、工作負載或服務來查看叢集。
    • 檢查命名空間、節點、工作負載、服務、Pod 和容器。
    • 針對 Pod 和容器,您可以查看確切時點的指標,並檢視記錄項目。

    您也可以建立自己的資訊主頁,或匯入 Grafana 資訊主頁,滿足自身需求。

  • 您可以在「可觀測性」分頁中建立建議的快訊政策,以便在發生問題時收到通知。如要進一步瞭解快訊,請參閱快訊總覽

  • 建立 SLO,使用收集到的 GKE 指標監控服務效能目標。

  • 使用 GKE 劇本排解常見問題,例如無法排程的 Pod,以及重新啟動後不斷當機的容器

  • 使用記錄檔探索工具指標探索工具錯誤報告等工具,探索及分析資料。

  • 查看 GKE 稽核記錄,這些記錄會記錄管理活動和存取權,屬於 Cloud 稽核記錄的一部分。稽核記錄政策會決定要記錄哪些事件,以及記錄項目屬於管理員活動記錄還是資料存取記錄。

其他功能

GKE 與其他 Google Cloud 服務整合,協助您監控及管理叢集和工作負載。

定價

與 Cloud Logging (包括 Cloud 稽核記錄)、Cloud Monitoring 和 Google Cloud Managed Service for Prometheus 整合的費用,取決於收集的記錄和指標數量。詳情請參閱「定價」頁面。

「其他功能」中列出的其他 Google Cloud 服務,價格另計。詳情請參閱這些說明文件頁面的「定價」部分。

後續步驟