本頁面由 Cloud Translation API 翻譯而成。

GKE 觀測能力

自動駕駛標準

本頁面說明如何瞭解應用程式的健康狀態，以及如何維持應用程式的可用性和可靠性。

預設可觀測性功能

根據預設，GKE 叢集的設定如下：

將系統記錄、稽核記錄和應用程式記錄傳送至 Cloud Logging。
將系統指標傳送至 Cloud Monitoring。
使用 Google Cloud Managed Service for Prometheus 收集設定的第三方和使用者定義指標，然後傳送至 Cloud Monitoring。Google Cloud Managed Service for Prometheus 可讓您使用 Prometheus 監控工作負載並發出快訊，而無須大規模地管理及操作 Prometheus。

根據預設，GKE 會建立 Logging 存放區，用於儲存每個叢集的記錄。您可以控管要將哪些記錄和指標 (如有) 從 GKE 叢集傳送至 Cloud Logging 和 Cloud Monitoring。

對於 GKE Autopilot 叢集，您無法停用 Cloud Monitoring 和 Cloud Logging 整合功能。

您可以啟用一或多個可觀測性指標套件，收集其他可觀測性指標。

控制層指標：收集 Kubernetes API 伺服器、排程器和控制器管理工具的指標，監控 Kubernetes 元件的健康狀態。這些指標是定義服務等級目標 (SLO) 時，判斷服務健康狀態的實用訊號。
Kube 狀態指標：監控 Kubernetes 物件 (例如部署、節點和 Pod) 的健康狀態。
cAdvisor/Kubelet 指標：監控容器和 kubelet 的健康狀態。

如要監控叢集上執行的第三方應用程式 (例如 Postgres、MongoDB 和 Redis)，請搭配使用 Prometheus 匯出工具和 Google Cloud Managed Service for Prometheus。

您也可以編寫自訂匯出工具，監控健康狀態和效能的其他信號。

在開發、部署及維護應用程式時，您可以使用收集到的資料分析應用程式健康狀態、偵錯、排解問題及測試。

GKE 提供內建的觀測功能，可協助您快速入門：

在 GKE 可觀測性資訊主頁上，查看叢集和工作負載的收集資料。您可以自訂提供的資訊主頁，以達到下列目的：
- 查看叢集的重要指標，例如 CPU 使用率、記憶體使用率和未解決的事件數。
- 依據基礎架構、工作負載或服務來查看叢集。
- 檢查命名空間、節點、工作負載、服務、Pod 和容器。
- 針對 Pod 和容器，查看確切時點的指標，並檢視記錄項目。
您也可以建立自己的資訊主頁，或匯入 Grafana 資訊主頁，滿足自身需求。

注意： 提供的 GKE 資訊主頁只會顯示在 Google Cloud上執行的 GKE 叢集資訊。如果 GKE 叢集在其他位置執行 (例如使用地端或裸機伺服器)，這些頁面就不會顯示相關資訊。
您可以在「可觀測性」分頁中建立建議的快訊政策，以便在發生問題時收到通知。如要進一步瞭解快訊，請參閱快訊總覽。
建立 SLO，使用收集到的 GKE 指標監控服務效能目標。
使用 GKE 劇本排解常見問題，例如無法排程的 Pod，以及在重新啟動後不斷當機的容器。
使用記錄檔探索工具、指標探索工具和錯誤報告等工具，探索及分析資料。
查看 GKE 稽核記錄，記錄管理活動和存取權，這些記錄是 Cloud 稽核記錄的一部分。稽核記錄政策會決定要記錄哪些事件，以及記錄項目屬於管理員活動記錄還是資料存取記錄。

GKE 與其他 Google Cloud 服務整合，協助您監控及管理叢集和工作負載。

與 Cloud Logging (包括 Cloud 稽核記錄)、Cloud Monitoring 和 Google Cloud Managed Service for Prometheus 整合的定價，取決於收集的記錄和指標數量。詳情請參閱定價頁面。

「其他功能」中列出的其他 Google Cloud 服務，價格另計。詳情請參閱這些說明文件頁面的「定價」部分。

觀察叢集。瞭解如何查看資訊主頁、整理叢集資訊，以及查看警報詳細資料。
在 GKE 叢集節點上啟用詳細的 OS 層級稽核記錄，以及如何將記錄匯出至 Cloud Logging。
如要進一步瞭解如何使用可觀測性功能排解 GKE 問題，請參閱「使用 Cloud Logging 進行歷史分析」和「使用 Cloud Monitoring 執行主動監控」。