Cloud Monitoring

本文說明 GKE on AWS 如何與 Cloud Monitoring 整合,以及如何查看指標。

事前準備

  1. 設定 Google Cloud CLI,並在 Google Cloud 專案中啟用必要的 API。

  2. 授權 Cloud Logging / Cloud Monitoring 設定 Google Cloud Observability 的權限。

總覽

GKE on AWS 內建與 Cloud Monitoring 的整合功能,可監控節點、Pod 和容器的系統指標。方便您輕鬆查看叢集中工作負載的資源耗用量、建構資訊主頁及設定快訊。

GKE on AWS 會在叢集中安裝指標收集器 gke-metrics-agent。這個代理程式是以 OpenTelemetry Collector 為基礎,並在叢集中的每個節點上執行。每分鐘取樣一次指標,並將測量結果上傳至 Cloud Monitoring。

叢集的指標上傳後,就會儲存在Google Cloud 專案中。您可以匯總所有叢集的資料、建立自訂資訊主頁、探索單一叢集的資料、查看折線圖及設定快訊等。

使用 Metrics Explorer

1.27 以上版本

如要使用 Metrics Explorer 查看受監控資源的指標,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的 「Metrics Explorer」頁面:

    前往 Metrics Explorer

    如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

  2. 在 Google Cloud 控制台的工具列中,選取您的 Google Cloud 專案。 如要進行 App Hub 設定,請選取 App Hub 主專案或已啟用應用程式的資料夾管理專案。
  3. 在「指標」元素中,展開「選取指標」選單, 在篩選列中輸入 Kubernetes Container, 然後使用子選單選取特定資源類型和指標:
    1. 在「Active resources」(有效資源) 選單中,選取「Kubernetes Container」(Kubernetes 容器)
    2. 在「Active metric categories」(使用中的指標類別) 選單中,選取「Anthos」
    3. 在「Active metrics」(使用中的指標) 選單中,選取「CPU usage time」(CPU 使用時間)
    4. 按一下 [套用]
  4. 如要從顯示畫面中移除時間序列,請使用「篩選器」元素

  5. 如要合併時間序列,請使用「Aggregation」元素上的選單。舉例來說,如要依據 VM 的所在區域顯示 CPU 使用率,請將第一個選單設為「平均值」,第二個選單設為「區域」

    將「Aggregation」(匯總) 元素的第一個選單設為「Unaggregated」(未匯總) 時,系統會顯示所有時間序列。「匯總」元素的預設設定取決於您選取的指標類型。

  6. 如要取得每日一個樣本的配額和其他指標,請按照下列步驟操作:
    1. 在「顯示」窗格中,將「小工具類型」設為「堆疊長條圖」
    2. 將時間範圍設為至少一週。

1.26 以下版本

如要使用 Metrics Explorer 查看受監控資源的指標,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的 「Metrics Explorer」頁面:

    前往 Metrics Explorer

    如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

  2. 在 Google Cloud 控制台的工具列中,選取您的 Google Cloud 專案。 如要進行 App Hub 設定,請選取 App Hub 主專案或已啟用應用程式的資料夾管理專案。
  3. 在「指標」元素中,展開「選取指標」選單, 在篩選列中輸入 Kubernetes Container, 然後使用子選單選取特定資源類型和指標:
    1. 在「Active resources」(有效資源) 選單中,選取「Kubernetes Container」(Kubernetes 容器)
    2. 在「Active metric categories」(使用中的指標類別) 選單中,選取「Container」(容器)
    3. 在「Active metrics」(使用中的指標) 選單中,選取「CPU usage time」(CPU 使用時間)
    4. 按一下 [套用]
  4. 如要從顯示畫面中移除時間序列,請使用「篩選器」元素

  5. 如要合併時間序列,請使用「Aggregation」元素上的選單。舉例來說,如要依據 VM 的所在區域顯示 CPU 使用率,請將第一個選單設為「平均值」,第二個選單設為「區域」

    將「Aggregation」(匯總) 元素的第一個選單設為「Unaggregated」(未匯總) 時,系統會顯示所有時間序列。「匯總」元素的預設設定取決於您選取的指標類型。

  6. 如要取得每日一個樣本的配額和其他指標,請按照下列步驟操作:
    1. 在「顯示」窗格中,將「小工具類型」設為「堆疊長條圖」
    2. 將時間範圍設為至少一週。

指標受監控的資源類型

系統會使用下列三種受監控資源類型之一,收集指標。 這些類型對應於要進行評估的 Kubernetes 物件:

舉例來說,Pod 的相關指標會使用 k8s_pod 受監控資源類型。因此,這些指標會包含 pod_namenamespace_name 的標籤,用於識別特定 Pod。如要查看特定叢集的指標,請使用下列格式:

awsClusters/CLUSTER_NAME

每種受監控資源類型都會使用不同的指標類型。如要進一步瞭解這些指標類型,請參閱「GKE 系統指標」。

收集的指標

後續步驟