このページでは、Google Cloud Managed Service for Prometheus を使用して、厳選された一連の Kube の状態(Deployment と Pod の指標を含む)を Cloud Monitoring に送信するように Google Kubernetes Engine(GKE)クラスタを構成する方法について説明します。このページでは、これらの指標が Monitoring に書き込まれる際の形式と、指標のクエリ方法についても説明します。
始める前に
作業を始める前に、次のことを確認してください。
- Google Kubernetes Engine API を有効にする。 Google Kubernetes Engine API の有効化
- このタスクに Google Cloud CLI を使用する場合は、gcloud CLI をインストールして初期化する。すでに gcloud CLI をインストールしている場合は、
gcloud components update
を実行して最新のバージョンを取得する。
要件
Kube 状態指標を収集するには、GKE クラスタが次の要件を満たしている必要があります。
- クラスタで GKE 1.27.2-gke.1200 以降を実行している必要があります。バージョン 1.29.2-gke.2000 以降の GKE Standard クラスタとバージョン 1.27.4-gke.900 以降の GKE Autopilot クラスタでは、Kube 状態指標パッケージがデフォルトで有効になっています。
- クラスタでシステム指標が有効になっている。
- クラスタで Google Cloud Managed Service for Prometheus マネージド コレクションが有効になっている。新しいクラスタでは、Google Cloud Managed Service for Prometheus マネージド コレクションがデフォルトで有効になっています。
Kube 状態指標の収集を構成する
kube 状態指標は、Google Cloud コンソール、gcloud CLI、または Terraform を使用して有効にできます。
コンソール
Kube 状態指標は、クラスタまたはクラスタ内の Deployment の [オブザーバビリティ] タブで有効にできます。指標パッケージを有効にする前に、使用可能なグラフと指標をプレビューすることもできます。
クラスタの [オブザーバビリティ] タブでは、Kube 状態指標のグラフのセットを次の 2 つの項目でフィルタできます。
- ワークロードの状態: Pods、Deployments、StatefulSets、DaemonSets、HorizontalPodAutoscaler リソースの指標が含まれます。
- [ストレージ] > [永続性]: 永続ボリュームと永続ボリュームの要求の指標が含まれます。
いずれかまたは両方の指標セットを有効にできます。
クラスタの [オブザーバビリティ] タブから Kube 状態指標を有効にするには、次の操作を行います。
-
Google Cloud コンソールで、[Kubernetes クラスタ] ページに移動します。
検索バーを使用してこのページを検索する場合は、小見出しが [Kubernetes Engine] である結果を選択します。
クラスタの名前をクリックし、[オブザーバビリティ] タブを選択します。
機能のリストから [ワークロードの状態] または [ストレージ] > [永続性] を選択します。
[パッケージを有効にする] をクリックします。
Kube 状態指標パッケージがすでに有効になっている場合は、代わりに Kube 状態指標の一連のグラフが表示されます。
Deployment の [オブザーバビリティ] タブから Kube 状態指標を有効にするには、次の操作を行います。
-
Google Cloud コンソールの [ワークロード] ページに移動します。
検索バーを使用してこのページを検索する場合は、小見出しが [Kubernetes Engine] である結果を選択します。
Deployment の名前をクリックし、[オブザーバビリティ] タブを選択します。
機能のリストから [Kube の状態] を選択します。
[パッケージを有効にする] をクリックします。パッケージはクラスタ全体で有効になります。
Kube 状態指標パッケージがすでに有効になっている場合は、Pod、Deployment、HorizontalPodAutoscaler の指標のセットのグラフが表示されます。
クラスタの [詳細] タブで Kube 状態指標を構成するには、次の操作を行います。
-
Google Cloud コンソールで、[Kubernetes クラスタ] ページに移動します。
検索バーを使用してこのページを検索する場合は、小見出しが [Kubernetes Engine] である結果を選択します。
クラスタの名前をクリックします。
[機能] で「Cloud Monitoring」というラベルの付いた行の編集アイコンをクリックします。
表示された [Cloud Monitoring の編集] ダイアログ ボックスで、[Cloud Monitoring を有効にする] が選択されていることを確認します。
[コンポーネント] プルダウン メニューで、指標の収集元となる Kube 状態コンポーネントを選択します。
[OK] をクリックします。
[Save Changes] をクリックします。
gcloud
指標を収集するようにクラスタを更新します。
gcloud container clusters update CLUSTER_NAME \
--location=COMPUTE_LOCATION \
--enable-managed-prometheus \
--monitoring=SYSTEM,DAEMONSET,DEPLOYMENT,HPA,POD,STATEFULSET,STORAGE
次のように置き換えます。
CLUSTER_NAME
: 既存のクラスタの名前。COMPUTE_LOCATION
: クラスタの Compute Engine のロケーション。
monitoring
フラグに指定された値のセットは、以前の設定をオーバーライドします。
Terraform
Terraform を使用して kube 状態指標のコレクションを構成するには、
google_container_cluster
の Terraform レジストリの monitoring_config
ブロックをご覧ください。Terraform と Google Cloud を使用する場合の一般的な情報については、Google Cloud での Terraform をご覧ください。
割り当て
Kube 状態指標は、Cloud Monitoring API の1 分あたりの時系列取り込みリクエストの割り当てを消費します。kube 状態指標を有効にする前に、その割り当ての直近のピーク使用量を確認してください。同じプロジェクトに多くのクラスタがある場合や、すでに割り当ての上限に近づいている場合は、いずれかのオブザーバビリティ パッケージを有効にする前に割り当ての上限の引き上げをリクエストできます。
料金
Kube 状態指標は、Google Cloud Managed Service for Prometheus を使用して、Cloud Monitoring に指標を読み込みます。Cloud Monitoring では、取り込まれたサンプルの数に基づいて、これらの指標の取り込みに対して課金されます。ただし、GKE Enterprise エディションが有効になっているプロジェクトに属する登録済みクラスタでは、これらの指標は無料です。
詳細については、Cloud Monitoring の料金をご覧ください。
指標の形式
Cloud Monitoring に書き込まれる Kubernetes kube 状態指標はすべて、リソースタイプ prometheus_target
を使用します。各指標名には接頭辞 prometheus.googleapis.com/
が使用され、Prometheus 指標タイプ(/gauge
、/histogram
、/counter
など)を示す接尾辞があります。それ以外の場合、各指標名はオープンソースの Kubernetes によって公開される指標名と同一です。
Cloud Monitoring からのエクスポート
kube state 指標は、Cloud Monitoring API を使用して Cloud Monitoring からエクスポートできます。すべての kube 状態指標は Google Cloud Managed Service for Prometheus を使用して取り込まれるため、kube 状態指標は Prometheus Query Language(PromQL)を使用してクエリできます。Monitoring Query Language(MQL)を使用してクエリすることもできます。
指標のクエリ
kube 状態指標をクエリするときに使用する名前は、PromQL と Cloud Monitoring ベースの機能(MQL、Metrics Explorer のメニュー形式のインターフェースなど)のどちらを使用するかによって異なります。
次の kube 状態指標の表では、指標名ごとに 2 つのバージョンを示します。
- PromQL の指標名: Google Cloud コンソールの Cloud Monitoring ページまたは Cloud Monitoring API の PromQL フィールドで PromQL を使用する場合は、PromQL の指標名を使用します。
- Cloud Monitoring の指標名: 他の Cloud Monitoring 機能を使用する場合は、以下の表の Cloud Monitoring の指標名を使用します。この名前には接頭辞として
prometheus.googleapis.com/
を付ける必要があります(表中の項目では省略されています)。
ストレージ指標
この表の Cloud Monitoring の指標名には、prometheus.googleapis.com/
という接頭辞を付ける必要があります。この接頭辞は、表中の項目では省略されています。
PromQL の指標名 Cloud Monitoring の指標名 |
|
---|---|
種類、タイプ、単位
モニタリング対象リソース 必要な GKE バージョン |
説明 ラベル |
kube_persistentvolume_capacity_bytes kube_persistentvolume_capacity_bytes/gauge
|
|
GAUGE 、DOUBLE 、By
prometheus_target 1.27.2-gke.1200 |
Persistentvolume の容量(バイト単位)。
30 秒ごとにサンプリングされます。persistentvolume : persistentvolume。
|
kube_persistentvolume_claim_ref kube_persistentvolume_claim_ref/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
永続ボリュームの要求リファレンスに関する情報。30 秒ごとにサンプリングされます。claim_name : claim_name。name : 名前。persistentvolume : persistentvolume。
|
kube_persistentvolume_info kube_persistentvolume_info/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
persistentvolume に関する情報。30 秒ごとにサンプリングされます。csi_driver : csi_driver。
csi_volume_handle : csi_volume_handle。
local_fs : local_fs。local_path : local_path。
persistentvolume : persistentvolume。
storageclass : storageclass。
|
kube_persistentvolume_status_phase kube_persistentvolume_status_phase/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
フェーズは、ボリュームが使用可能か、クレームにバインドされているか、クレームによってリリースされているかを示します。30 秒ごとにサンプリングされます。persistentvolume : persistentvolume。
phase : フェーズ。
|
kube_persistentvolumeclaim_info kube_persistentvolumeclaim_info/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
永続ボリュームの要求に関する情報。30 秒ごとにサンプリングされます。persistentvolumeclaim : persistentvolumeclaim。
storageclass : storageclass。
volumename : volumename。
|
kube_persistentvolumeclaim_resource_requests_storage_bytes kube_persistentvolumeclaim_resource_requests_storage_bytes/gauge
|
|
GAUGE 、DOUBLE 、By
prometheus_target 1.27.2-gke.1200 |
永続ボリュームの要求によってリクエストされたストレージ容量。30 秒ごとにサンプリングされます。persistentvolumeclaim : persistentvolumeclaim。
|
kube_persistentvolumeclaim_status_phase kube_persistentvolumeclaim_status_phase/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
永続ボリュームの要求が現在のフェーズです。30 秒ごとにサンプリングされます。persistentvolumeclaim : persistentvolumeclaim。
phase : phase. |
詳細については、PersistentVolume 指標と PersistentVolumeClaim 指標をご覧ください。
Pod の指標
Pod とは、ストレージとネットワーク リソースを共有するコンテナの実行方法の仕様を備えた 1 つ以上のコンテナのグループです。
Pod の指標の表
Pod の指標を使用すると、Pod の動作のモニタリングとアラートの作成を行うことができます。次の表に、Kube 状態指標パッケージで使用可能な指標を示します。
この表の Cloud Monitoring の指標名には、prometheus.googleapis.com/
という接頭辞を付ける必要があります。この接頭辞は、表中の項目では省略されています。
PromQL の指標名 Cloud Monitoring の指標名 |
|
---|---|
種類、タイプ、単位
モニタリング対象リソース 必要な GKE バージョン |
説明 ラベル |
kube_pod_container_status_ready kube_pod_container_status_ready/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
コンテナ readiness チェックが成功したかどうかを示します。
30 秒ごとにサンプリングされます。container : コンテナ。
pod : Pod。
uid : UID。
|
kube_pod_container_status_waiting_reason kube_pod_status_container_status_waiting_reason/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
コンテナが現在待機状態にある理由を表します。30 秒ごとにサンプリングされます。container : コンテナ。
pod : Pod。
reason : 理由。
uid : UID。
|
kube_pod_status_phase kube_pod_status_phase/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
Pod の現在のフェーズ。30 秒ごとにサンプリングされます。phase : フェーズ。
pod : Pod。
uid : UID。
|
kube_pod_status_unschedulable kube_pod_status_unschedulable/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
Pod のスケジュール対象外ステータスを表します。
30 秒ごとにサンプリングされます。pod : Pod。
uid : uid. |
詳細については、Pod の指標をご覧ください。
Pod の指標のサンプルクエリ
スケジュール不可の Pod があるかどうかを確認するには、次の PromQL 式を使用します。
sum(kube_pod_status_unschedulable{cluster="CLUSTER", namespace="NAMESPACE"})
名前空間内のスケジュール不可の Pod の数に対してアラートを出すには、次の PromQL 式を使用します。
sum(kube_pod_status_unschedulable{cluster="CLUSTER", namespace="NAMESPACE"}) > LIMIT
kube_pod_container_status_waiting_reason
指標で、次のような PromQL 式を使用して、特定の待機状態で停止しているコンテナのアラートを作成できます。
max_over_time(kube_pod_container_status_waiting_reason{reason="REASON", cluster="CLUSTER", namespace="NAMESPACE"}[5m]) >= 1
REASON の値は、コンテナの待機状態を指定します。次に例を示します。
CrashLoopBackOff
ImagePullBackOff
ContainerCreating
いずれかの待機状態で停止したコンテナのアラートを作成するには、次の PromQL 式を使用します。
max_over_time(kube_pod_container_status_waiting_reason{cluster="CLUSTER", namespace="NAMESPACE"}[5m]) >= 1
readiness チェックに失敗したコンテナの数を確認するには、次の PromQL 式を使用します。
sum(kube_pod_container_status_ready) by (pod, container) == 0
このセクションのクエリとアラートの式の一部は、GitHub の Prometheus コミュニティ Kubernetes Helm チャート リポジトリの kubernetes-apps.yaml
ファイルから適用されています。
インタラクティブ ハンドブック
Kube 状態指標は、スケジュール不可の Pod またはクラッシュ ループの Pod のトラブルシューティングに、GKE インタラクティブ ハンドブックでも使用されます。これらの障害モードの詳細については、次のトラブルシューティングのドキュメントをご覧ください。
Kube 状態指標パッケージが有効になっていない場合、Pod のスケジューリングの問題を検出する主な方法は、「Failed Scheduling」ログイベントのクエリを行うことです。Kube 状態指標パッケージを有効にすると、kube_pod_status_unschedulable
指標を使用できます。これは同じ目的を果たしますが、集計とグラフ化が簡単になります。この指標を使用すると、スケジュールできない Pod の数と、問題が発生した日時を確認できます。
同様に、GKE システム指標 kubernetes.io/container/restart_count
を使用して、クラッシュ ループの Pod を検出できます。kube_pod_container_status_waiting_reason
指標でもクラッシュループの Pod を列挙して、Pod が CrashLookBackOff
以外の待機状態(ImagePullBackOff
や ContainerCreating
など)で停止しているかどうかを判断することもできます。
インタラクティブ ハンドブックを探すには、次の操作を行います。
-
Google Cloud コンソールで [ダッシュボード] ページに移動します。
検索バーを使用してこのページを検索する場合は、小見出しが「Monitoring」の結果を選択します。
- [GCP] カテゴリをクリックして、ダッシュボード リストをフィルタリングします。
- リスト内の「GKE Interactive Playbook」ダッシュボードの名前をクリックします。
デプロイ指標
Deployment は、Pod などのリソースの状態を更新して、ロールアウトや停止といったイベントを管理するコントローラです。
Deployment の指標の表
Deployment の指標を使用すると、コントローラの動作のモニタリングとアラートの作成を行うことができます。次の表に、Kube 状態指標パッケージで使用可能な指標を示します。
この表の Cloud Monitoring の指標名には、prometheus.googleapis.com/
という接頭辞を付ける必要があります。この接頭辞は、表中の項目では省略されています。
PromQL の指標名 Cloud Monitoring の指標名 |
|
---|---|
種類、タイプ、単位
モニタリング対象リソース 必要な GKE バージョン |
説明 ラベル |
kube_deployment_spec_replicas kube_deployment_spec_replicas/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
デプロイに必要な Pod の数。30 秒ごとにサンプリングされます。deployment : デプロイ。
|
kube_deployment_status_replicas_available kube_deployment_status_replicas_available/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
Deployment ごとの使用可能なレプリカの数。30 秒ごとにサンプリングされます。deployment : デプロイ。
|
kube_deployment_status_replicas_updated kube_deployment_status_replicas_updated/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
デプロイごとの更新されたレプリカの数。30 秒ごとにサンプリングされます。deployment : deployment. |
詳細については、Deployment の指標をご覧ください。
Deployment の指標のサンプルクエリ
Deployment の指標をクラスタ、名前空間、Deployment の名前でフィルタすることで、個々の Deployment のグラフとアラート ポリシーを作成できます。
たとえば、使用可能なレプリカの数と 1 つの Deployment で想定されるレプリカの数を比較する場合は、次の PromQL クエリを使用すると両方の指標を 1 つのグラフにプロットできます。
kube_deployment_spec_replicas{cluster="CLUSTER", namespace="NAMESPACE", deployment=DEPLOYMENT"}
kube_deployment_status_replicas_available{cluster="CLUSTER", namespace="NAMESPACE", deployment=DEPLOYMENT"}
失敗した Deployment または停滞している Deployment に対してアラートを出すには、次の PromQL 式を使用します。
( kube_deployment_spec_replicas{cluster="CLUSTER", namespace="NAMESPACE", deployment="DEPLOYMENT"} > kube_deployment_status_replicas_available{cluster="CLUSTER", namespace="NAMESPACE", deployment="DEPLOYMENT"} ) and ( changes(kube_deployment_status_replicas_updated{cluster="CLUSTER", namespace="NAMESPACE", deployment="DEPLOYMENT"}[10m]) == 0 )
このセクションのクエリとアラートの式の一部は、GitHub の Prometheus コミュニティ Kubernetes Helm チャート リポジトリの kubernetes-apps.yaml
ファイルから適用されています。
StatefulSet の指標
StatefulSet は、ステートフル アプリケーションで一連の Pod のデプロイとスケーリングを管理するコントローラです。このコントローラは、Pod の順序と一意性を管理します。
StatefulSet の指標の表
StatefulSet の指標を使用すると、コントローラの動作のモニタリングとアラートの作成を行うことができます。次の表に、Kube 状態指標パッケージで使用可能な指標を示します。
この表の Cloud Monitoring の指標名には、prometheus.googleapis.com/
という接頭辞を付ける必要があります。この接頭辞は、表中の項目では省略されています。
PromQL の指標名 Cloud Monitoring の指標名 |
|
---|---|
種類、タイプ、単位
モニタリング対象リソース 必要な GKE バージョン |
説明 ラベル |
kube_statefulset_replicas kube_statefulset_replicas/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
StatefulSet に必要な Pod の数。30 秒ごとにサンプリングされます。statefulset : StatefulSet。
|
kube_statefulset_status_replicas_ready kube_statefulset_status_replicas_ready/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
StatefulSet ごとの Ready レプリカの数。30 秒ごとにサンプリングされます。statefulset : StatefulSet。
|
kube_statefulset_status_replicas_updated kube_statefulset_status_replicas_updated/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
StatefulSet ごとの更新されたレプリカの数。30 秒ごとにサンプリングされます。statefulset : statefulset. |
詳細については、StatefulSet の指標をご覧ください。
StatefulSet の指標のサンプルクエリ
StatefulSet の指標をクラスタ、Namespace、StatefulSet の名前でフィルタリングすることで、個々の StatefulSet のグラフとアラート ポリシーを作成できます。
たとえば、使用可能なレプリカの数と 1 つの StatefulSet で想定されるレプリカの数を比較する場合は、次の PromQL クエリを使用すると両方の指標を 1 つのグラフにプロットできます。
kube_statefulset_replicas{cluster="CLUSTER", namespace="NAMESPACE", statefulset="STATEFULSET"}
kube_statefulset_status_replicas_ready{cluster="CLUSTER", namespace="NAMESPACE", statefulset="STATEFULSET"}
失敗した StatefulSet または停滞している StatefulSet に対してアラートを出すには、次の PromQL 式を使用します。
( kube_statefulset_replicas{cluster="CLUSTER", namespace="NAMESPACE", statefulset="STATEFULSET"} > kube_statefulset_status_replicas_ready{cluster="CLUSTER", namespace="NAMESPACE", statefulset="STATEFULSET"} ) and ( changes(kube_statefulset_status_replicas_updated{cluster="CLUSTER", namespace="NAMESPACE", statefulset="STATEFULSET"}[10m]) == 0 )
このセクションのクエリとアラートの式の一部は、GitHub の Prometheus コミュニティ Kubernetes Helm チャート リポジトリの kubernetes-apps.yaml
ファイルから適用されています。
DaemonSet の指標
DaemonSet は、いくつかのノードのセットが Pod のコピーを実行するようにするコントローラです。たとえば、ノードがクラスタに追加されると、DaemonSet はそのノードに Pod を追加します。このコントローラは、特定のプロセスがすべてのノードで実行されるようにする場合に便利です。
DaemonSet の指標の表
DaemonSet の指標を使用すると、コントローラの動作のモニタリングとアラートの作成を行うことができます。次の表に、Kube 状態指標パッケージで使用可能な指標を示します。
この表の Cloud Monitoring の指標名には、prometheus.googleapis.com/
という接頭辞を付ける必要があります。この接頭辞は、表中の項目では省略されています。
PromQL の指標名 Cloud Monitoring の指標名 |
|
---|---|
種類、タイプ、単位
モニタリング対象リソース 必要な GKE バージョン |
説明 ラベル |
kube_daemonset_status_desired_number_scheduled kube_daemonset_status_desired_number_scheduled/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
デーモン Pod を実行するノードの数。30 秒ごとにサンプリングされます。daemonset : DaemonSet。
|
kube_daemonset_status_number_misscheduled kube_daemonset_status_number_misscheduled/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
予定していなかったにもかかわらず、デーモン Pod を実行しているノードの数。30 秒ごとにサンプリングされます。daemonset : DaemonSet。
|
kube_daemonset_status_number_ready kube_daemonset_status_number_ready/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
デーモン Pod を実行するノードで、1 つ以上のデーモン Pod が実行可能な状態になっているノードの数。30 秒ごとにサンプリングされます。daemonset : DaemonSet。
|
kube_daemonset_status_updated_number_scheduled kube_daemonset_status_updated_number_scheduled/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
更新されたデーモン Pod を実行しているノードの数。30 秒ごとにサンプリングされます。daemonset : daemonset. |
詳細については、DaemonSet の指標をご覧ください。
DaemonSet の指標のサンプルクエリ
DaemonSet の指標を、クラスタ、名前空間、DaemonSet の名前でフィルタすることで、個々の DaemonSet のグラフとアラート ポリシーを作成できます。
たとえば、使用可能なレプリカの数と 1 つの DaemonSet で想定されるレプリカの数を比較する場合は、次の PromQL クエリを使用すると両方の指標を 1 つのグラフにプロットできます。
kube_daemonset_status_updated_number_scheduled{cluster="CLUSTER", namespace="NAMESPACE", daemonsetset=DAEMONSET"}
kube_daemonset_status_desired_number_scheduled{cluster="CLUSTER", namespace="NAMESPACE", daemonset=DAEMONSET"}
失敗した DaemonSet または停滞している DaemonSet に対してアラートを出すには、次の PromQL 式を使用します。
( ( kube_daemonset_status_number_misscheduled{cluster="CLUSTER", namespace="NAMESPACE", daemonset="DAEMONSET"} != 0 ) or ( kube_daemonset_status_updated_number_scheduled{cluster="CLUSTER", namespace="NAMESPACE", daemonset="DAEMONSET"} != kube_daemonset_status_desired_number_scheduled{cluster="CLUSTER", namespace="NAMESPACE", daemonset="DAEMONSET"} ) ) and ( changes(kube_daemonset_status_updated_number_scheduled{cluster="CLUSTER", namespace="NAMESPACE", daemonset="DAEMONSET"}[5m]) == 0 )
このセクションのクエリとアラートの式の一部は、GitHub の Prometheus コミュニティ Kubernetes Helm チャート リポジトリの kubernetes-apps.yaml
ファイルから適用されています。
HorizontalPodAutoscaler の指標
HorizontalPodAutoscaler(HPA)は、CPU やメモリ使用率などの指標に応じて、ワークロード(Deployment や StatefulSet など)の Pod の数を定期的に変更するコントローラです。ワークロードで使用できる Pod の数を変更すると、ワークロードの応答性を維持しながら効率性を確保できます。
HPA の詳細については、HorizontalPodAutoscaler の詳細表示をご覧ください。
HPA の指標の表
HorizontalPodAutoscaler の指標を使用すると、コントローラの動作のモニタリングとアラートの作成を行うことができます。次の表に、Kube 状態指標パッケージで使用可能な指標を示します。
この表の Cloud Monitoring の指標名には、prometheus.googleapis.com/
という接頭辞を付ける必要があります。この接頭辞は、表中の項目では省略されています。
PromQL の指標名 Cloud Monitoring の指標名 |
|
---|---|
種類、タイプ、単位
モニタリング対象リソース 必要な GKE バージョン |
説明 ラベル |
kube_horizontalpodautoscaler_spec_max_replicas kube_horizontalpodautoscaler_spec_max_replicas/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
オートスケーラーが設定できる Pod 数の上限(MinReplicas より小さい値にはできません)。30 秒ごとにサンプリングされます。horizontalpodautoscaler : horizontalpodautoscaler。
|
kube_horizontalpodautoscaler_spec_min_replicas kube_horizontalpodautoscaler_spec_min_replicas/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
オートスケーラーが設定できる Pod 数の下限(デフォルトは 1)30 秒ごとにサンプリングされます。horizontalpodautoscaler : horizontalpodautoscaler。
|
kube_horizontalpodautoscaler_spec_target_metric kube_horizontalpodautoscaler_spec_target_metric/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
目的のレプリカ数を計算するときに、このオートスケーラーが使用する指標の指定。30 秒ごとにサンプリングされます。horizontalpodautoscaler : horizontalpodautoscaler。
metric_name : metric_name。
metric_target_type : metric_target_type。 |
kube_horizontalpodautoscaler_status_condition kube_horizontalpodautoscaler_status_condition/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
このオートスケーラーの条件。30 秒ごとにサンプリングされます。condition : 条件。
horizontalpodautoscaler : horizontalpodautoscaler。
namespace : 名前空間。
status : ステータス。
|
kube_horizontalpodautoscaler_status_current_replicas kube_horizontalpodautoscaler_status_status_current_replicas/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
このオートスケーラーによって管理される Pod の現在のレプリカの数。30 秒ごとにサンプリングされます。horizontalpodautoscaler : horizontalpodautoscaler。
|
kube_horizontalpodautoscaler_status_desired_replicas kube_horizontalpodautoscaler_status_desired_replicas/gauge
|
|
GAUGE 、DOUBLE 、1
prometheus_target 1.27.2-gke.1200 |
このオートスケーラーによって管理される Pod のレプリカの数。30 秒ごとにサンプリングされます。horizontalpodautoscaler : horizontalpodautoscaler. |
詳細については、HorizontalPodAutoscaler の指標をご覧ください。
HPA の指標のサンプルクエリ
たとえば、HPA がレプリカの最大数に近づいているかどうかを判断する場合は、次の比率をプロットします。
kube_horizontalpodautoscaler_status_current_replicas{cluster="CLUSTER", namespace="NAMESPACE", horizontalpodautoscaler="HPA"} / kube_horizontalpodautoscaler_spec_max_replicas{cluster="CLUSTER", namespace="NAMESPACE", horizontalpodautoscaler="HPA"}
最大数のレプリカで HPA を実行している場合は、Pod の最大数の仕様を増やすことをおすすめします。次の PromQL 式を使用するとこのケースを通知するアラートを作成できます。
kube_horizontalpodautoscaler_status_current_replicas{cluster="CLUSTER", namespace="NAMESPACE", horizontalpodautoscaler="HPA"} == kube_horizontalpodautoscaler_spec_max_replicas{cluster="CLUSTER", namespace="NAMESPACE", horizontalpodautoscaler="HPA"}
kube_horizontalpodautoscaler_status_current_replicas
と kube_horizontalpodautoscaler_status_desired_replicas
の指標の値を比較して、現在のレプリカ数と必要なレプリカ数の間に差異があるかどうかを判断することもできます。この差異は、クラスタ内のリソースの制約を示している可能性があります。次の PromQL 式は、現在のレプリカ数と必要なレプリカ数、最小レプリカ数、最大レプリカ数との差異、現在のレプリカ数の変化を調べます。
(kube_horizontalpodautoscaler_status_desired_replicas{job="kube-state-metrics", namespace=~"NAMESPACE"} != kube_horizontalpodautoscaler_status_current_replicas{job="kube-state-metrics", namespace=~"NAMESPACE"}) and (kube_horizontalpodautoscaler_status_current_replicas{job="kube-state-metrics", namespace=~"NAMESPACE"} > kube_horizontalpodautoscaler_spec_min_replicas{job="kube-state-metrics", namespace=~"NAMESPACE"}) and (kube_horizontalpodautoscaler_status_current_replicas{job="kube-state-metrics", namespace=~"NAMESPACE"} < kube_horizontalpodautoscaler_spec_max_replicas{job="kube-state-metrics", namespace=~"NAMESPACE"}) and changes(kube_horizontalpodautoscaler_status_current_replicas{job="kube-state-metrics", namespace=~"NAMESPACE"}[15m]) == 0
kube_horizontalpodautoscaler_status_condition
指標の condition
ラベルと status
ラベルは、HPA がさまざまな障害モードに陥ったタイミングを検出する場合にも役立ちます。例:
- 条件
ScalingLimited
とステータスtrue
は、HPA がレプリカの最小数と最大数のいずれかでバインドされていることを示します。kube_horizontalpodautoscaler_status_condition{status="true", condition="ScalingLimited"} == 1
条件
AbleToScale
とステータスfalse
は、HPA でスケールの取得または更新に関する問題が発生していることを示します。kube_horizontalpodautoscaler_status_condition{status="false", condition="AbleToScale"} == 1
条件
ScalingActive
とステータスfalse
は、HPA が無効になっているか、新しいスケールを計算できないことを示しています。kube_horizontalpodautoscaler_status_condition{status="false", condition="ScalingActive"} == 1
このセクションのクエリとアラートの式の一部は、GitHub の Prometheus コミュニティ Kubernetes Helm チャート リポジトリの kubernetes-apps.yaml
ファイルから適用されています。