本文說明如何建立一組建議的自訂資訊主頁,監控在 Google Distributed Cloud (僅限軟體) for VMware 中建立的叢集。
建立資訊主頁的權限
如要建立資訊主頁,您的 Google 帳戶必須具備下列權限:
monitoring.dashboards.create
monitoring.dashboards.delete
monitoring.dashboards.update
如果帳戶具備下列任一角色,就會擁有這些權限。您可以檢查權限 (在 Google Cloud 控制台中):
monitoring.dashboardEditor
monitoring.editor
- 專案
editor
- 專案
owner
此外,如要使用 gcloud
(gcloud CLI) 建立資訊主頁,您的 Google 帳戶必須具備 serviceusage.services.use
權限。
如果您的帳戶具備下列其中一個角色,就會擁有這項權限:
roles/serviceusage.serviceUsageConsumer
roles/serviceusage.serviceUsageAdmin
roles/owner
roles/editor
- 專案
editor
- 專案
owner
建議的資訊主頁
建立叢集 (管理員或使用者) 後,最佳做法是使用 Cloud Monitoring 建立下列資訊主頁,讓營運團隊監控叢集健康狀態:
如果叢集也執行 Windows Server OS 節點,您可以建立下列資訊主頁,監控 Windows 節點和 Pod 的狀態:
- Windows 節點狀態資訊主頁
- Windows Pod 狀態資訊主頁
如果啟用 Cloud Monitoring,系統會在安裝管理員叢集時自動建立資訊主頁。
本節說明如何建立這些資訊主頁。如要進一步瞭解下列章節所述的資訊主頁建立程序,請參閱「透過 API 管理資訊主頁」。
建立控制層運作時間資訊主頁
控制層包含 API 伺服器、排程器、控制器管理工具和 etcd。如要監控控制層的狀態,請建立資訊主頁來監控這些元件的狀態。
下載資訊主頁設定:
control-plane-uptime.json
。執行下列指令,使用設定檔建立自訂資訊主頁:
gcloud monitoring dashboards create --config-from-file=control-plane-uptime.json
在 Google Cloud 控制台中選取「Monitoring」,或使用下列按鈕:
依序選取「資源」>「資訊主頁」,然後查看名為「GKE on-prem control plane uptime」(GKE On-Prem 控制層運作時間) 的資訊主頁。系統會從管理員叢集中的個別命名空間,收集每個使用者叢集的控制層正常運作時間。namespace_name 欄位是使用者叢集名稱。
視需要建立快訊政策。
建立 Pod 狀態資訊主頁
如要建立資訊主頁,顯示每個 Pod 的階段,以及每個容器的重新啟動次數和資源用量,請按照下列步驟操作。
下載資訊主頁設定:
pod-status.json
。執行下列指令,使用設定檔建立自訂資訊主頁:
gcloud monitoring dashboards create --config-from-file=pod-status.json
在 Google Cloud 控制台中選取「Monitoring」,或使用下列按鈕:
依序選取「資源」>「資訊主頁」,然後查看名為「GKE on-prem pod status」的資訊主頁。
視需要建立快訊政策。
建立節點狀態資訊主頁
如要建立節點狀態資訊主頁,監控節點狀況、CPU、記憶體和磁碟用量,請按照下列步驟操作:
下載資訊主頁設定:
node-status.json
。執行下列指令,使用設定檔建立自訂資訊主頁:
gcloud monitoring dashboards create --config-from-file=node-status.json
在 Google Cloud 控制台中選取「Monitoring」,或使用下列按鈕:
依序選取「資源」>「資訊主頁」,然後查看名為「GKE on-prem node status」的資訊主頁。
視需要建立快訊政策。
建立 VM 健康狀態資訊主頁
VM 健康狀態資訊主頁會監控管理員叢集和使用者叢集中的 VM,並顯示 CPU、記憶體和磁碟資源爭用信號。
如要建立 VM 健康狀態資訊主頁,請按照下列步驟操作:
確認
stackdriver.disableVsphereResourceMetrics
已設為 false。請參閱「使用者叢集設定檔」。下載資訊主頁設定:
vm-health-status.json
。執行下列指令,使用設定檔建立自訂資訊主頁:
gcloud monitoring dashboards create --config-from-file=vm-health-status.json
在 Google Cloud 控制台中選取「Monitoring」,或使用下列按鈕:
依序選取「資源」>「資訊主頁」,然後查看名為「GKE on-prem VM health status」的資訊主頁。
視需要建立快訊政策。
建立節點使用率資訊主頁
節點使用率資訊主頁會顯示叢集中的下列使用率:
- 節點 CPU 分配比率
- 可用於排定 Kubernetes 工作負載的 vCPU
- 節點記憶體配置比率
- 可排定 k8s 工作負載的記憶體
- 節點磁碟使用率
如要建立節點使用率資訊主頁,請按照下列步驟操作:
下載資訊主頁設定:
node-utilization.json
。執行下列指令,使用這個設定檔建立自訂資訊主頁:
gcloud monitoring dashboards create --config-from-file=node-utilization.json
在 Google Cloud 控制台中選取「Monitoring」,或使用下列按鈕:
依序選取「資源」>「資訊主頁」,然後查看名為「GKE On-Prem 節點使用率」的資訊主頁。
視需要建立快訊政策。
建立 Anthos 使用量計量資訊主頁
Anthos 使用量計算資訊主頁會依命名空間和 Pod 標籤,顯示叢集中的 CPU 和記憶體使用率。
如要建立 Anthos 使用量計算資訊主頁,請按照下列步驟操作:
下載資訊主頁設定:
anthos-utilization.json
。執行下列指令,使用這個設定檔建立自訂資訊主頁:
gcloud monitoring dashboards create --config-from-file=anthos-utilization.json
在 Google Cloud 控制台中選取「Monitoring」,或使用下列按鈕:
依序選取「資源」>「資訊主頁」,然後查看名為「Anthos Utilization Metering」的資訊主頁。
視需要建立快訊政策。