建立資訊主頁

本文說明如何建立一組建議的自訂資訊主頁,監控在 Google Distributed Cloud (僅限軟體) for VMware 中建立的叢集。

建立資訊主頁的權限

如要建立資訊主頁,您的 Google 帳戶必須具備下列權限

  • monitoring.dashboards.create
  • monitoring.dashboards.delete
  • monitoring.dashboards.update

如果帳戶具備下列任一角色,就會擁有這些權限。您可以檢查權限 (在 Google Cloud 控制台中):

  • monitoring.dashboardEditor
  • monitoring.editor
  • 專案 editor
  • 專案 owner

此外,如要使用 gcloud (gcloud CLI) 建立資訊主頁,您的 Google 帳戶必須具備 serviceusage.services.use 權限。

如果您的帳戶具備下列其中一個角色,就會擁有這項權限:

  • roles/serviceusage.serviceUsageConsumer
  • roles/serviceusage.serviceUsageAdmin
  • roles/owner
  • roles/editor
  • 專案 editor
  • 專案 owner

建立叢集 (管理員或使用者) 後,最佳做法是使用 Cloud Monitoring 建立下列資訊主頁,讓營運團隊監控叢集健康狀態:

如果叢集也執行 Windows Server OS 節點,您可以建立下列資訊主頁,監控 Windows 節點和 Pod 的狀態:

  • Windows 節點狀態資訊主頁
  • Windows Pod 狀態資訊主頁

如果啟用 Cloud Monitoring,系統會在安裝管理員叢集時自動建立資訊主頁。

本節說明如何建立這些資訊主頁。如要進一步瞭解下列章節所述的資訊主頁建立程序,請參閱「透過 API 管理資訊主頁」。

建立控制層運作時間資訊主頁

控制層包含 API 伺服器、排程器、控制器管理工具和 etcd。如要監控控制層的狀態,請建立資訊主頁來監控這些元件的狀態。

  1. 下載資訊主頁設定:control-plane-uptime.json

  2. 執行下列指令,使用設定檔建立自訂資訊主頁:

    gcloud monitoring dashboards create --config-from-file=control-plane-uptime.json
  3. 在 Google Cloud 控制台中選取「Monitoring」,或使用下列按鈕:

    前往「Monitoring」頁面

  4. 依序選取「資源」>「資訊主頁」,然後查看名為「GKE on-prem control plane uptime」(GKE On-Prem 控制層運作時間) 的資訊主頁。系統會從管理員叢集中的個別命名空間,收集每個使用者叢集的控制層正常運作時間。namespace_name 欄位是使用者叢集名稱。

  5. 視需要建立快訊政策

建立 Pod 狀態資訊主頁

如要建立資訊主頁,顯示每個 Pod 的階段,以及每個容器的重新啟動次數和資源用量,請按照下列步驟操作。

  1. 下載資訊主頁設定:pod-status.json

  2. 執行下列指令,使用設定檔建立自訂資訊主頁:

    gcloud monitoring dashboards create --config-from-file=pod-status.json
  3. 在 Google Cloud 控制台中選取「Monitoring」,或使用下列按鈕:

    前往「Monitoring」頁面

  4. 依序選取「資源」>「資訊主頁」,然後查看名為「GKE on-prem pod status」的資訊主頁。

  5. 視需要建立快訊政策

建立節點狀態資訊主頁

如要建立節點狀態資訊主頁,監控節點狀況、CPU、記憶體和磁碟用量,請按照下列步驟操作:

  1. 下載資訊主頁設定:node-status.json

  2. 執行下列指令,使用設定檔建立自訂資訊主頁:

    gcloud monitoring dashboards create --config-from-file=node-status.json
  3. 在 Google Cloud 控制台中選取「Monitoring」,或使用下列按鈕:

    前往「Monitoring」頁面

  4. 依序選取「資源」>「資訊主頁」,然後查看名為「GKE on-prem node status」的資訊主頁。

  5. 視需要建立快訊政策

建立 VM 健康狀態資訊主頁

VM 健康狀態資訊主頁會監控管理員叢集和使用者叢集中的 VM,並顯示 CPU、記憶體和磁碟資源爭用信號。

如要建立 VM 健康狀態資訊主頁,請按照下列步驟操作:

  1. 確認 stackdriver.disableVsphereResourceMetrics 已設為 false。請參閱「使用者叢集設定檔」。

  2. 下載資訊主頁設定:vm-health-status.json

  3. 執行下列指令,使用設定檔建立自訂資訊主頁:

    gcloud monitoring dashboards create --config-from-file=vm-health-status.json
  4. 在 Google Cloud 控制台中選取「Monitoring」,或使用下列按鈕:

    前往「Monitoring」頁面

  5. 依序選取「資源」>「資訊主頁」,然後查看名為「GKE on-prem VM health status」的資訊主頁。

  6. 視需要建立快訊政策

建立節點使用率資訊主頁

節點使用率資訊主頁會顯示叢集中的下列使用率:

  • 節點 CPU 分配比率
  • 可用於排定 Kubernetes 工作負載的 vCPU
  • 節點記憶體配置比率
  • 可排定 k8s 工作負載的記憶體
  • 節點磁碟使用率

如要建立節點使用率資訊主頁,請按照下列步驟操作:

  1. 下載資訊主頁設定:node-utilization.json

  2. 執行下列指令,使用這個設定檔建立自訂資訊主頁:

    gcloud monitoring dashboards create --config-from-file=node-utilization.json
  3. 在 Google Cloud 控制台中選取「Monitoring」,或使用下列按鈕:

    前往「Monitoring」頁面

  4. 依序選取「資源」>「資訊主頁」,然後查看名為「GKE On-Prem 節點使用率」的資訊主頁。

  5. 視需要建立快訊政策

建立 Anthos 使用量計量資訊主頁

Anthos 使用量計算資訊主頁會依命名空間和 Pod 標籤,顯示叢集中的 CPU 和記憶體使用率。

如要建立 Anthos 使用量計算資訊主頁,請按照下列步驟操作:

  1. 下載資訊主頁設定:anthos-utilization.json

  2. 執行下列指令,使用這個設定檔建立自訂資訊主頁:

    gcloud monitoring dashboards create --config-from-file=anthos-utilization.json
  3. 在 Google Cloud 控制台中選取「Monitoring」,或使用下列按鈕:

    前往「Monitoring」頁面

  4. 依序選取「資源」>「資訊主頁」,然後查看名為「Anthos Utilization Metering」的資訊主頁。

  5. 視需要建立快訊政策