本頁面說明如何瞭解應用程式的健康狀態,以及如何維持應用程式的可用性和可靠性。
預設可觀測性功能
根據預設,GKE 叢集的設定如下:
- 將系統記錄、稽核記錄和應用程式記錄傳送至 Cloud Logging。
- 將系統指標傳送至 Cloud Monitoring。
- 使用 Google Cloud Managed Service for Prometheus 收集設定的第三方和使用者定義指標,然後傳送至 Cloud Monitoring。Google Cloud Managed Service for Prometheus 可讓您使用 Prometheus 監控工作負載並發出快訊,而無須大規模地管理及操作 Prometheus。
自訂及強化資料收集功能
根據預設,GKE 會建立 Logging 存放區,用於儲存每個叢集的記錄。您可以控管要將哪些記錄和指標 (如有) 從 GKE 叢集傳送至 Cloud Logging 和 Cloud Monitoring。
您也可以控管是否要啟用 Google Cloud Managed Service for Prometheus。
對於 GKE Autopilot 叢集,您無法停用 Cloud Monitoring 和 Cloud Logging 整合功能。
其他可觀測性指標
您可以啟用一或多個可觀測性指標套件,收集其他可觀測性指標。
- 控制層指標: 收集 Kubernetes API 伺服器、排程器和控制器管理工具的指標,監控 Kubernetes 元件的健康狀態。這些指標是定義服務等級目標 (SLO) 時,判斷服務健康狀態的實用訊號。
- Kube 狀態指標: 監控 Kubernetes 物件 (例如部署、節點和 Pod) 的健康狀態。
- cAdvisor/Kubelet 指標: 監控容器和 kubelet 的健康狀態。
如果您已在專案中啟用 GKE Enterprise,當您在建立叢集時註冊機群,系統會預設啟用這些指標。
第三方和使用者定義的指標
如要監控叢集上執行的第三方應用程式 (例如 Postgres、MongoDB 和 Redis),請搭配使用 Prometheus 匯出工具和 Google Cloud Managed Service for Prometheus。
您也可以編寫自訂匯出工具,監控健康狀態和效能的其他信號。
使用收集到的資料
在開發、部署及維護應用程式時,您可以使用收集到的資料分析應用程式健康狀態、偵錯、排解問題及測試。
GKE 提供內建的觀測功能,可協助您快速入門:
在 GKE 可觀測性資訊主頁上,查看叢集和工作負載的收集資料。您可以自訂提供的資訊主頁,以達到下列目的:
- 查看叢集的重要指標,例如 CPU 使用率、記憶體使用率和未解決的事件數。
- 依據基礎架構、工作負載或服務來查看叢集。
- 檢查命名空間、節點、工作負載、服務、Pod 和容器。
- 針對 Pod 和容器,您可以查看確切時點的指標,並檢視記錄項目。
您也可以建立自己的資訊主頁,或匯入 Grafana 資訊主頁,滿足自身需求。
您可以在「可觀測性」分頁中建立建議的快訊政策,以便在發生問題時收到通知。如要進一步瞭解快訊,請參閱快訊總覽。
建立 SLO,使用收集到的 GKE 指標監控服務效能目標。
使用 GKE 劇本排解常見問題,例如無法排程的 Pod,以及重新啟動後不斷當機的容器。
查看 GKE 稽核記錄,這些記錄會記錄管理活動和存取權,屬於 Cloud 稽核記錄的一部分。稽核記錄政策會決定要記錄哪些事件,以及記錄項目屬於管理員活動記錄還是資料存取記錄。
其他功能
GKE 與其他 Google Cloud 服務整合,協助您監控及管理叢集和工作負載。
根據我們的標準和業界最佳做法,使用安全防護狀態資訊主頁找出安全疑慮。
查看洞察資料和建議,最佳化叢集。
使用網路政策記錄功能,協助排解 Kubernetes 網路政策問題。如果您使用 GKE Dataplane V2,系統會內建網路政策記錄功能。
定價
與 Cloud Logging (包括 Cloud 稽核記錄)、Cloud Monitoring 和 Google Cloud Managed Service for Prometheus 整合的費用,取決於收集的記錄和指標數量。詳情請參閱「定價」頁面。
「其他功能」中列出的其他 Google Cloud 服務,價格另計。詳情請參閱這些說明文件頁面的「定價」部分。
後續步驟
觀察叢集。 瞭解如何查看資訊主頁、整理叢集資訊,以及查看快訊詳細資料。
在 GKE 叢集節點上啟用詳細的 OS 層級稽核記錄,以及如何將記錄匯出至 Cloud Logging。