Google Cloud 控制台中的 GKE Enterprise 總覽資訊主頁會提供機群的「大方向」總覽。總覽頁面會顯示機群的安全疑慮數量、機群範圍的 Policy Controller 涵蓋範圍,以及 Config Sync 套件的同步狀態,協助您使用 GKE Enterprise 功能。此外,資訊主頁還提供機群層級的機群、叢集和團隊資源使用率檢視畫面。您可以運用這項資訊,協助最佳化支出、應用程式設計和資源分配 (包括 CPU、記憶體和磁碟使用率)。
閱讀本頁內容前,請先熟悉 Kubernetes 資源管理,如 Kubernetes 說明文件中的「Pod 和容器的資源管理」一文所述。
只有啟用 GKE Enterprise 的機群使用者,才能在 Google Cloud 控制台中查看 GKE Enterprise 總覽。
查看總覽
如要查看總覽資訊主頁,請按照下列步驟操作:
選取機群主機專案,然後前往 Google Cloud 控制台中的 GKE Enterprise 總覽。
選取時間篩選器
根據預設,GKE Enterprise 總覽會顯示過去一小時的資源用量。如要變更這段時間,請使用時間篩選器選項:
- 選取要查看車隊容器平均資源用量的時間範圍。選擇其中一個預先定義的選項,或選取「自訂」指定自訂時間範圍。
查看叢集、團隊範圍、費用和資源總用量
第一個部分會顯示叢集、團隊範圍、機群預估費用,以及您所選時間範圍內的 CPU/記憶體/磁碟使用率總覽。資源用量指標是根據車隊叢集的系統 Cloud Monitoring 資料產生。
如果看到「缺少來自...的資料」通知,請參閱「為艦隊叢集啟用系統 Cloud Monitoring」一節,解決這個問題。
查看叢集狀態
在「這個機群中的叢集」部分,您可以查看機群中的叢集數量。如果叢集與車隊的連線有任何問題,系統會顯示警告或錯誤訊息。舉例來說,如果您刪除叢集但未先取消註冊,或是需要登入Google Cloud外部的叢集才能查看詳細資料,就會發生這種情況。
- 如果系統顯示錯誤或警告,請按一下通知,查看有問題的叢集,然後修正問題。
- 按一下「查看所有叢集」,即可查看機群的完整叢集清單。
查看團隊範圍
在「團隊範圍」部分,您可以查看這個機群的團隊範圍數量。團隊範圍可讓您針對個別團隊定義部分的機群資源。定義這些範圍後,您可以使用團隊管理功能,讓每個團隊在機群上做為個別「租戶」。
- 按一下「查看所有團隊範圍」,即可查看車隊中的完整團隊範圍清單。
查看每月預估費用
在「預估每月費用」部分,您可以查看所有車隊資源的預估每月費用。
- 按一下「在成本最佳化中查看」,即可查看車隊更詳細的費用相關使用率指標。
查看資源總使用率
「總使用率」部分會顯示相較於這個機群中可分配的各叢集節點資源,所有機群容器的實際 CPU、記憶體和磁碟資源平均使用率。系統會顯示所選時間範圍內的資料。Kubernetes 節點上的「可分配資源」是指該節點上一般 Pod 可使用的資源量。
這個檢視畫面會快速總覽車隊的資源用量和可用資源,並指出可能的問題,方便您使用更詳細的指標進一步調查。舉例來說,如果 CPU 總使用率非常低,您可以使用「依叢集」指標,找出可以調整大小的叢集。
查看功能管理
查看安全疑慮
如要找出影響機群成員叢集的安全問題,例如現有安全漏洞或工作負載設定問題,請查看「安全疑慮」部分。這個部分會顯示下列資訊:
- 車隊中發現的疑慮總數。系統會依嚴重程度分組,並根據 CVSS 定性嚴重程度評分標準指派嚴重程度。
- 依類型細分的疑慮。這有助於判斷問題是來自設定問題、安全性公告還是安全漏洞。
如要查看 GKE 安全性總覽,以及如何解決發現的任何問題,請按一下「查看安全防護機制」。如果您先前未使用安全防護機制資訊主頁,請按一下「啟用安全防護機制」,啟用 Container Security API 並存取安全防護機制資訊主頁。
詳情請參閱「安全防護機制資訊主頁簡介」。
查看 Policy Controller 涵蓋範圍
Policy Controller 能對叢集強制執行完全程式化的政策。這些政策是「防護機制」,用來防止 Kubernetes API 設定上的異動違反貴機構的安全性、營運或法規遵循控管。
「政策狀態」部分會顯示已啟用 Policy Controller 的叢集數量。
按一下「查看政策」,即可查看 Policy Controller 資訊主頁。如果尚未在叢集上安裝 Policy Controller,請按一下「啟用政策」。
如要進一步瞭解 Policy Controller,請參閱說明文件。
查看 Config Sync 套件健康狀態
Config Sync 是一項 GitOps 服務,可讓叢集操作人員和平台管理員從可靠來源部署套件。套件包含您從中同步叢集的每個來源所含的所有設定。來源可以是 Git 存放區、Git 存放區中的目錄、OCI 映像檔或 Helm 存放區。由於您可以從多個來源同步叢集,因此每個叢集可能有多個套件。
「設定狀態」部分會顯示下列資訊:
- 車隊中的包裹總數
- 機群中套件的同步狀態
按一下「查看 Config 總覽」,即可查看 Config Sync 資訊主頁。如果尚未在叢集上安裝 Config Sync,請按一下「Enable Config Sync」(啟用 Config Sync)。
如要進一步瞭解 Config Sync,請參閱其說明文件。
查看車隊效率
本節詳細說明機群如何使用雲端或地端資源,包括機群的資源使用率,以及資源使用率最高和最低的叢集。舉例來說,這有助於您找出可能未充分利用或過度利用的叢集,並視需要調整大小。如要進一步瞭解這些指標的計算方式,請參閱「機群資源使用率指標」。
查看一段時間內的資源使用率
「依機群劃分的 CPU/記憶體/磁碟使用率」列可讓您深入瞭解機群的資源使用情況。您也可以查看叢集要求的資源、可分配的資源和實際用量。每個面板都會顯示您所選時間範圍內,機群匯總的 CPU、記憶體或磁碟使用率圖表,並以個別線條顯示下列資訊:
- 可分配:可在機群叢集節點間分配的資源量
- 要求:機群中容器要求的資源量
- 已用:容器實際使用的資源量
如要查看圖表上特定時間點的詳細資料,請在圖表上捲動至您感興趣的時間 (例如圖表上實際用量明顯飆升的時間)。系統會顯示該時間的資源可分配量、要求量和實際用量資訊。
如要切換顯示圖表中的一或多條線,請按一下圖表下方的相關指標。
查看各叢集的最高資源使用率
下一列會顯示機群的「各個叢集的最高 CPU/記憶體/磁碟使用率」,讓您快速瞭解哪些特定叢集最常使用可分配資源。每個面板都會依使用率列出前五大叢集 (使用率最高者優先)。您可以針對每個叢集查看資源用量圖表,以及在所選時間範圍內,資源用量相對於可分配資源的平均值。舉例來說,這個檢視畫面可協助您查看使用率過高的叢集。如果叢集的可用資源不足,可能無法排定 Pod。
按一下感興趣的叢集名稱,即可查看叢集資源用量的詳細資料。在用量檢視畫面中,您也可以查看叢集有多少容器重新啟動和錯誤記錄。
按一下「依 CPU/記憶體/磁碟使用率查看所有叢集」,即可查看機群中所有叢集的排序清單。
依叢集查看資源用量偏低的情況
最後一列的資源使用率會顯示叢集的 CPU/記憶體/磁碟使用率偏低,方便您快速找出使用率偏低的叢集。每個面板頂端會顯示使用最少資源的五個叢集,並附上使用率圖表,以及所選時間範圍內,相較於可分配資源的平均資源使用率。
按一下感興趣的叢集名稱,即可查看叢集資源用量的詳細資料。在用量檢視畫面中,您也可以查看叢集有多少容器重新啟動和錯誤記錄。
按一下「依 CPU/記憶體/磁碟使用率查看所有叢集」,即可查看機群中所有叢集的排序清單。
查看團隊效率
本節提供總覽畫面,顯示團隊使用雲端或內部部署資源的情況。此外,您也可以監控哪些團隊遇到問題。
按一下感興趣的團隊,即可在團隊資訊主頁中進一步查看詳細資料。在團隊資訊主頁中,您可以查看資源用量和團隊命名空間的詳細資料。這有助於瞭解哪些命名空間會影響團隊的資源用量。
依團隊範圍查看資源使用率
依範圍劃分的 CPU/記憶體/磁碟使用率可讓您快速查看哪些特定團隊是資源使用量最大的使用者。每個面板都會依使用率列出前幾名的團隊 (使用率最高者優先)。每個團隊的資源用量都會以圖表呈現,並顯示相對於要求的平均資源用量。
如要查看所選時間範圍內所有團隊的資源使用率,請按一下「按照 CPU/記憶體/磁碟使用率查看所有團隊」。
依範圍查看錯誤分布情形
這張資訊卡會顯示所選時間範圍內,錯誤記錄檔數量最多的團隊。
如要查看依錯誤數排序的團隊清單,請按一下「按照錯誤數查看所有範圍」。
依範圍查看重新啟動次數
這個專區會顯示所選時間範圍內,容器重新啟動次數最多的團隊。
如要查看依重新啟動次數排序的團隊清單,請按一下「按照重新啟動次數查看所有範圍」。
為車隊叢集啟用系統 Cloud Monitoring
如「查看叢集、團隊範圍和資源總使用量」一節所述,資訊主頁中的指標是使用叢集元件 (例如 kube-system
和 gke-connect
命名空間中的工作負載) 的 Cloud Monitoring 資料產生。因此,您必須為機群成員叢集的所有系統、控制層和 Kube 狀態指標元件啟用 Cloud Monitoring。
大多數 GKE 和 GKE Enterprise 叢集預設會啟用 Cloud Logging 和 Cloud Monitoring,但您仍須手動為所有叢集元件啟用 Cloud Monitoring。附加叢集一律需要手動設定 Cloud Monitoring。
如果車隊的任何叢集元件未啟用 Cloud Monitoring,頁面頂端會顯示面板,指出缺少資料的叢集數量。
如要為這些叢集上的元件啟用 Cloud Monitoring,請參閱下列叢集類型指南:
- 設定 GKE 的記錄與監控功能
- 搭配 Google Distributed Cloud 使用 Cloud Logging 和 Cloud Monitoring
- 為 Google Distributed Cloud 設定 Cloud Logging 和 Cloud Monitoring
- 監控附加叢集:
- 授權 GKE on AWS 的記錄和監控功能
- 授權 Azure 上的 GKE 記錄和監控功能
- AWS 上的 GKE (舊版) 記錄和監控功能
為跨專案註冊的叢集啟用監控功能
如要收集及查看多項 Google Cloud 專案的指標,Cloud Monitoring 可讓您建立多專案指標範圍。將其他專案的 GKE 叢集註冊至機群主機專案時,系統會自動建立新的指標範圍,其中包含這兩個專案 (如果範圍尚不存在)。這樣一來,您就能在總覽中查看叢集的用量資料。
後續步驟
- 進一步瞭解資訊主頁中的資源使用率指標,以及如何使用機群資源使用率指標
- 進一步瞭解如何使用 Cloud Logging 和 Cloud Monitoring 觀察叢集及其工作負載。