Halaman ini diterjemahkan oleh Cloud Translation API.

Health check cluster

Pemeriksaan kondisi adalah cara untuk menguji dan memantau pengoperasian cluster yang ada. Health check berjalan sendiri secara berkala. Anda juga dapat menggunakan gkectl diagnose cluster untuk menjalankan health check sesuai permintaan. Dokumen ini menjelaskan setiap pemeriksaan, dalam keadaan apa pemeriksaan berjalan secara otomatis, cara dan waktu menjalankan pemeriksaan secara manual, serta cara menafsirkan hasil.

Apa yang diperiksa?

Ada dua kategori pemeriksaan kondisi Google Distributed Cloud:

Pemeriksaan mesin node
Pemeriksaan di seluruh cluster

Bagian berikut menguraikan apa yang diperiksa untuk setiap kategori. Pemeriksaan ini digunakan untuk health check berkala dan on-demand.

Pemeriksaan mesin node

Bagian ini menjelaskan apa yang dievaluasi oleh health check untuk mesin node. Pemeriksaan ini mengonfirmasi bahwa mesin node dikonfigurasi dengan benar dan memiliki resource dan konektivitas yang memadai untuk pembuatan cluster, upgrade cluster, dan operasi cluster.

Pemeriksaan ini sesuai dengan resource kustom Bare Metal HealthCheck yang bernama bm-system-NODE_IP_ADDRESS-machine (misalnya, bm-system-192.0.2.54-machine) yang berjalan di cluster admin dalam namespace cluster. Untuk mengetahui informasi selengkapnya tentang resource pemeriksaan kondisi, lihat HealthCheck resource kustom.

Pemeriksaan umum mesin terdiri dari:

Komputer cluster menggunakan sistem operasi (OS) yang didukung.
Versi OS didukung.
OS menggunakan versi kernel yang didukung.
Kernel mengaktifkan opsi compiler Just In Time (JIT) BPF (CONFIG_BPF_JIT=y).
Untuk Ubuntu, Uncomplicated Firewall (UFW) dinonaktifkan.
Mesin node memenuhi persyaratan CPU minimum.
Mesin node memiliki lebih dari 20% resource CPU yang tersedia.
Mesin node memenuhi persyaratan memori minimum.
Mesin node memenuhi persyaratan penyimpanan disk minimum.
Sinkronisasi waktu dikonfigurasi di komputer node.
Rute default untuk merutekan paket ke gateway default ada di node.
Domain Name System (DNS) berfungsi (pemeriksaan ini dilewati jika cluster dikonfigurasi untuk berjalan di balik proxy).
Jika cluster dikonfigurasi untuk menggunakan mirror registry, mirror registry dapat dijangkau.

Pemeriksaan Google Cloud mesin terdiri dari hal-hal berikut:

Artifact Registry, gcr.io dapat dijangkau (pemeriksaan ini dilewati jika cluster dikonfigurasi untuk menggunakan mirror registry).
Google API dapat dijangkau.

Pemeriksaan kondisi mesin terdiri dari hal-hal berikut:

kubelet aktif dan berjalan di mesin node.
containerd aktif dan berjalan di mesin node.
Status endpoint kesehatan Antarmuka Jaringan Container (CNI) adalah sehat.
CIDR Pod tidak tumpang-tindih dengan alamat IP mesin node.

Untuk mengetahui informasi selengkapnya tentang persyaratan node, lihat Persyaratan CPU, RAM, dan penyimpanan.

Pemeriksaan di seluruh cluster

Bagian ini menjelaskan apa yang dievaluasi oleh health check untuk cluster.

Pemeriksaan default

Pemeriksaan cluster default, yang berjalan secara otomatis sebagai bagian dari health check berkala, juga dapat dijalankan sesuai permintaan sebagai bagian dari health check cluster. Pemeriksaan ini memastikan bahwa resource cluster Kubernetes dikonfigurasi dengan benar dan berfungsi dengan baik.

Pemeriksaan ini sesuai dengan resource kustom Bare Metal HealthCheck bernama bm-system-default-*resources yang berjalan di cluster admin dalam namespace cluster. Untuk mengetahui informasi selengkapnya tentang resource pemeriksaan kondisi, lihat HealthCheck resource kustom.

Pemeriksaan cluster default mengaudit jenis dan kondisi resource berikut:

DaemonSet
- Konfigurasi valid
- DaemonSet responsif
Deployment
- Konfigurasi valid
- Deployment responsif
Node (berikut adalah semua kondisi Node)
- Status siap node
- tekanan disk kubelet
- tekanan memori kubelet
- Tekanan ID proses (PID) kubelet
- frekuensi mulai ulang kubelet
- kubelet responsif
- Ketersediaan jaringan
- Fungsi containerd
- Frekuensi mulai ulang containerd
- Fungsi Docker Overlay2
- Frekuensi mulai ulang Docker
- Frekuensi peristiwa pembatalan pendaftaran perangkat jaringan
- Deadlock kernel
- KubeProxy responsif
- Sistem file hanya baca
Pod
- Konfigurasi valid
- Pod responsif
- Container responsif
PodDisruptionBudget (PDB)
- Konfigurasi valid
- Fungsi runtime PDB
- PDB cocok dengan pod
- Pod yang tidak dikelola oleh beberapa PDB
Permintaan resource
- Pod pada node target memiliki permintaan CPU dan memori yang ditetapkan
- Permintaan resource rata-rata per node berada dalam batas yang dilacak
Layanan
- Konfigurasi valid
- Layanan responsif
StatefulSet
- Konfigurasi valid
- StatefulSet

Pemeriksaan jaringan

Pemeriksaan jaringan node cluster sisi klien berikut berjalan secara otomatis sebagai bagian dari health check berkala. Pemeriksaan jaringan tidak dapat dijalankan sesuai permintaan. Pemeriksaan ini sesuai dengan resource kustom Bare Metal HealthCheck bernama bm-system-network yang berjalan di cluster admin dalam namespace cluster. Untuk mengetahui informasi selengkapnya tentang resource health check, lihat resource kustom HealthCheck.

Jika cluster menggunakan load balancing gabungan, node di kumpulan node load balancing harus memiliki konektivitas protokol resolusi alamat (ARP) Layer 2. ARP diperlukan untuk penemuan VIP.
Node bidang kontrol memiliki port 8443 dan 8444 yang terbuka untuk digunakan oleh GKE Identity Service.
Node bidang kontrol membuka port 2382 dan 2383 untuk digunakan oleh instance etcd-events.

Untuk mengetahui informasi tentang penggunaan protokol dan port untuk cluster Anda, lihat Aturan proxy dan firewall.

Kubernetes

Pemeriksaan Kubernetes, yang berjalan secara otomatis sebagai bagian dari pemeriksaan awal dan pemeriksaan kondisi berkala, juga dapat dijalankan sesuai permintaan. Pemeriksaan kondisi ini tidak menampilkan error jika salah satu komponen panel kontrol yang tercantum tidak ada. Pemeriksaan hanya menampilkan error jika komponen ada dan memiliki error pada waktu eksekusi perintah.

Pemeriksaan ini sesuai dengan resource kustom Bare Metal HealthCheck bernama bm-system-kubernetesresources yang berjalan di cluster admin dalam namespace cluster. Untuk mengetahui informasi selengkapnya tentang resource pemeriksaan kondisi, lihat HealthCheck resource kustom.

Server API berfungsi.
Operator anetd dikonfigurasi dengan benar.
Semua node bidang kontrol dapat dioperasikan.
Komponen bidang kontrol berikut berfungsi dengan baik:
- anthos-cluster-operator
- controller-manager
- cluster-api-provider
- ais
- capi-kubeadm-bootstrap-system
- cert-manager
- kube-dns

Add-on

Pemeriksaan add-on berjalan secara otomatis sebagai bagian dari pemeriksaan pra-penerbangan dan pemeriksaan kondisi berkala serta dapat dijalankan sesuai permintaan. Pemeriksaan kondisi ini tidak menampilkan error jika salah satu add-on yang tercantum tidak ada. Pemeriksaan hanya menampilkan error jika add-on ada dan mengalami error pada waktu eksekusi perintah.

Pemeriksaan ini sesuai dengan resource kustom Bare Metal HealthCheck bernama bm-system-add-ons*resource yang berjalan di cluster admin dalam namespace cluster. Untuk mengetahui informasi selengkapnya tentang resource pemeriksaan kondisi, lihat HealthCheck resource kustom.

Komponen Stackdriver Cloud Logging dan Agen Connect dapat dioperasikan:
- stackdriver-log-aggregator
- stackdriver-log-forwarder
- stackdriver-metadata-agent
- stackdriver-prometheus-k8
- gke-connect-agent
Resource yang dikelola Google Distributed Cloud tidak menunjukkan perubahan manual (penyimpangan konfigurasi):
- Nilai kolom belum diperbarui
- Kolom opsional belum ditambahkan atau dihapus
- Referensi belum dihapus

Jika health check mendeteksi penyimpangan konfigurasi, nilai resource kustom bm-system-add-ons Bare Metal HealthCheck Status.Pass akan ditetapkan ke false. Kolom Description di bagian Failures berisi detail tentang semua resource yang telah berubah, termasuk informasi berikut:

Version: versi API untuk resource.
Kind: skema objek, seperti Deployment, untuk resource.
Namespace: namespace tempat resource berada.
Name: nama resource.
Diff: perbandingan format string perbedaan antara manifes resource yang tercatat dan manifes untuk resource yang diubah.

`HealthCheck` resource kustom

Saat health check berjalan, Google Distributed Cloud akan membuat resource kustom HealthCheck. HealthCheckresource kustom bersifat persisten dan memberikan catatan terstruktur mengenai aktivitas dan hasil health check. Ada dua kategori resource kustom HeathCheck:

Resource kustom Bare Metal HealthCheck (API Version: baremetal.cluster.gke.io/v1): resource ini memberikan detail tentang pemeriksaan kesehatan berkala. Resource ini ada di cluster admin dalam namespace cluster. Resource Bare Metal HealthCheck bertanggung jawab untuk membuat cron job dan tugas health check. Referensi ini terus diupdate dengan hasil terbaru.
Resource kustom Anthos HealthCheck (API Version: anthos.gke.io/v1): resource ini digunakan untuk melaporkan metrik health check. Resource ini berada di namespace kube-system setiap cluster. Pembaruan sumber daya ini dilakukan dengan upaya terbaik. Jika update gagal karena masalah, seperti error jaringan sementara, kegagalan akan diabaikan.

Tabel berikut mencantumkan jenis resource yang dibuat untuk kategori HealthCheck:

Pemeriksaan Kondisi Bare Metal HealthChecks Anthos Keparahan

Pemeriksaan Kondisi Bare Metal	HealthChecks Anthos	Keparahan
Jenis: default Nama: `bm-system-default-daemonset` Nama: `bm-system-default-deployment` Nama: `bm-system-default-node` Nama: `bm-system-default-pod` Nama: `bm-system-default-poddisruptionbudget` Nama: `bm-system-default-resource` Nama: `bm-system-default-service` Nama: `bm-system-default-statefulset`	Jenis: default Nama: `bm-system-default-daemonset` Nama: `bm-system-default-deployment` Nama: `bm-system-default-node` Nama: `bm-system-default-pod` Nama: `bm-system-default-poddisruptionbudget` Nama: `bm-system-default-resource` Nama: `bm-system-default-service` Nama: `bm-system-default-statefulset`	Kritis
Jenis: machine Nama: `bm-system-NODE_IP_ADDRESS-machine`	Jenis: machine Nama: `bm-system-NODE_IP_ADDRESS-machine`	Kritis
Jenis: jaringan Nama: `bm-system-network`	Jenis: jaringan Nama: `bm-system-network`	Kritis
Jenis: kubernetes Nama: `bm-system-kubernetes`	Jenis: kubernetes Nama: `bm-system-kubernetes`	Kritis
Jenis: add-on Nama: `bm-system-add-ons`	Jenis: add-on Nama: `bm-system-add-ons-add-ons` Nama: `bm-system-add-ons-configdrift`	Opsional

Jenis: default

Nama: bm-system-default-daemonset

Nama: bm-system-default-deployment

Nama: bm-system-default-node

Nama: bm-system-default-pod

Nama: bm-system-default-poddisruptionbudget

Nama: bm-system-default-resource

Nama: bm-system-default-service

Nama: bm-system-default-statefulset

Jenis: default

Nama: bm-system-default-daemonset

Nama: bm-system-default-deployment

Nama: bm-system-default-node

Nama: bm-system-default-pod

Nama: bm-system-default-poddisruptionbudget

Nama: bm-system-default-resource

Nama: bm-system-default-service

Nama: bm-system-default-statefulset

Kritis

Jenis: machine

Nama: bm-system-NODE_IP_ADDRESS-machine

Jenis: machine

Nama: bm-system-NODE_IP_ADDRESS-machine

Kritis

Jenis: jaringan

Nama: bm-system-network

Jenis: jaringan

Nama: bm-system-network

Kritis

Jenis: kubernetes

Nama: bm-system-kubernetes

Jenis: kubernetes

Nama: bm-system-kubernetes

Kritis

Jenis: add-on

Nama: bm-system-add-ons

Jenis: add-on

Nama: bm-system-add-ons-add-ons

Nama: bm-system-add-ons-configdrift

Opsional

Untuk mengambil status HealthCheck:

Untuk membaca hasil pemeriksaan kesehatan berkala, Anda bisa mendapatkan resource kustom terkait:

kubectl get healthchecks.baremetal.cluster.gke.io \
    --kubeconfig ADMIN_KUBECONFIG \
    --all-namespaces

Ganti ADMIN_KUBECONFIG dengan jalur file kubeconfig cluster admin.

Contoh berikut menunjukkan health check yang berjalan secara berkala dan apakah pemeriksaan berhasil saat terakhir kali dijalankan:

NAMESPACE               NAME                               PASS    AGE
cluster-test-admin001   bm-system-192.0.2.52-machine       true    11d
cluster-test-admin001   bm-system-add-ons                  true    11d
cluster-test-admin001   bm-system-kubernetes               true    11d
cluster-test-admin001   bm-system-network                  true    11d
cluster-test-user001    bm-system-192.0.2.53-machine       true    56d
cluster-test-user001    bm-system-192.0.2.54-machine       true    56d
cluster-test-user001    bm-system-add-ons                  true    56d
cluster-test-user001    bm-system-kubernetes               true    56d
cluster-test-user001    bm-system-network                  true    56d

Untuk membaca detail pemeriksaan kesehatan tertentu, gunakan kubectl describe:

kubectl describe healthchecks.baremetal.cluster.gke.io HEALTHCHECK_NAME \
    --kubeconfig ADMIN_KUBECONFIG \
    --namespace CLUSTER_NAMESPACE

Ganti kode berikut:

HEALTHCHECK_NAME: nama health check.
ADMIN_KUBECONFIG: jalur file kubeconfig cluster admin.
CLUSTER_NAMESPACE: namespace cluster.

Saat Anda meninjau resource, bagian Status: berisi kolom penting berikut:

Pass: menunjukkan apakah tugas health check terakhir berhasil atau tidak.
Checks: berisi informasi tentang tugas pemeriksaan kondisi terbaru.
Failures: berisi informasi tentang tugas yang gagal terbaru.
Periodic: berisi informasi seperti kapan terakhir kali tugas pemeriksaan kondisi dijadwalkan dan diukur.

Contoh HealthCheck berikut adalah untuk pemeriksaan mesin yang berhasil:

Name:         bm-system-192.0.2.54-machine
Namespace:    cluster-test-user001
Labels:       baremetal.cluster.gke.io/periodic-health-check=true
              machine=192.0.2.54
              type=machine
Annotations:  <none>
API Version:  baremetal.cluster.gke.io/v1
Kind:         HealthCheck
Metadata:
  Creation Timestamp:  2023-09-22T18:03:27Z
  ...
Spec:
  Anthos Bare Metal Version:  1.16.0
  Cluster Name:               nuc-user001
  Interval In Seconds:        3600
  Node Addresses:
    192.168.1.54
  Type:  machine
Status:
  Check Image Version:  1.16.0-gke.26
  Checks:
    192.168.1.54:
      Job UID:  345b74a6-ce8c-4300-a2ab-30769ea7f855
      Message:
      Pass:     true
  ...
  Cluster Spec:
    Anthos Bare Metal Version:  1.16.0
    Bypass Preflight Check:     false
    Cluster Network:
      Bundled Ingress:  true
      Pods:
        Cidr Blocks:
          10.0.0.0/16
      Services:
        Cidr Blocks:
          10.96.0.0/20
  ...
  Conditions:
    Last Transition Time:  2023-11-22T17:53:18Z
    Observed Generation:   1
    Reason:                LastPeriodicHealthCheckFinished
    Status:                False
    Type:                  Reconciling
  Node Pool Specs:
    node-pool-1:
      Cluster Name:  nuc-user001
    ...
  Pass:                  true
  Periodic:
    Last Schedule Time:                    2023-11-22T17:53:18Z
    Last Successful Instrumentation Time:  2023-11-22T17:53:18Z
  Start Time:                              2023-09-22T18:03:28Z
Events:
  Type    Reason                  Age                  From                    Message
  ----    ------                  ----                 ----                    -------
  Normal  HealthCheckJobFinished  6m4s (x2 over 6m4s)  healthcheck-controller  health check job bm-system-192.0.2.54-machine-28344593 finished

Contoh HealthCheck berikut adalah untuk pemeriksaan mesin yang gagal:

Name:         bm-system-192.0.2.57-machine
Namespace:    cluster-user-cluster1
...
API Version:  baremetal.cluster.gke.io/v1
Kind:         HealthCheck
...
Status:
  Checks:
    192.0.2.57:
      Job UID:  492af995-3bd5-4441-a950-f4272cb84c83
      Message:  following checks failed, ['check_kubelet_pass']
      Pass:     false
  Failures:
    Category:     AnsibleJobFailed
    Description:  Job: machine-health-check.
    Details:       Target: 1192.0.2.57. View logs with: [kubectl logs -n cluster-user-test bm-system-192.0.2.57-machine-28303170-qgmhn].
    Reason:       following checks failed, ['check_kubelet_pass']
  Pass:                  false
  Periodic:
    Last Schedule Time:                    2023-10-24T23:04:21Z
    Last Successful Instrumentation Time:  2023-10-24T23:31:30Z
  ...

Untuk mendapatkan daftar health check untuk metrik, gunakan perintah berikut:

kubectl get healthchecks.anthos.gke.io \
    --kubeconfig CLUSTER_KUBECONFIG \
    --namespace kube-system

Ganti CLUSTER_KUBECONFIG dengan jalur file kubeconfig cluster target.

Contoh berikut menunjukkan format respons:

NAMESPACE     NAME                                            COMPONENT   NAMESPACE   STATUS    LAST_COMPLETED
kube-system   bm-system-add-ons-add-ons                                               Healthy   48m
kube-system   bm-system-add-ons-configdrift                                           Healthy   48m
kube-system   bm-system-default-daemonset                                             Healthy   52m
kube-system   bm-system-default-deployment                                            Healthy   52m
kube-system   bm-system-default-node                                                  Healthy   52m
kube-system   bm-system-default-pod                                                   Healthy   52m
kube-system   bm-system-default-poddisruptionbudget                                   Healthy   52m
kube-system   bm-system-default-resource                                              Healthy   52m
kube-system   bm-system-default-service                                               Healthy   52m
kube-system   bm-system-default-statefulset                                           Healthy   57m
kube-system   bm-system-kubernetes                                                    Healthy   57m
kube-system   bm-system-network                                                       Healthy   32m
kube-system   component-status-controller-manager                                     Healthy   5s
kube-system   component-status-etcd-0                                                 Healthy   5s
kube-system   component-status-etcd-1                                                 Healthy   5s
kube-system   component-status-scheduler                                              Healthy   5s

Cron job pemeriksaan kondisi

Untuk health check berkala, setiap resource kustom HealthCheck bare metal memiliki CronJob yang sesuai dengan nama yang sama. CronJob ini bertanggung jawab untuk menjadwalkan health check yang sesuai agar berjalan pada interval yang ditetapkan. CronJob juga mencakup penampung ansible-runner yang menjalankan health check dengan membuat koneksi shell aman (SSH) ke node.

Untuk mengambil informasi tentang cron job:

Dapatkan daftar cron job yang telah berjalan untuk cluster tertentu:

kubectl get cronjobs \
    --kubeconfig ADMIN_KUBECONFIG \
    --namespace CLUSTER_NAMESPACE

Ganti kode berikut:

ADMIN_KUBECONFIG: jalur file kubeconfig cluster admin.
CLUSTER_NAMESPACE: namespace cluster.

Contoh berikut menunjukkan respons umum:

NAMESPACE           NAME                           SCHEDULE       SUSPEND   ACTIVE   LAST SCHEDULE   AGE
cluster-test-admin   bm-system-10.200.0.3-machine   17 */1 * * *   False     0        11m             25d
cluster-test-admin   bm-system-add-ons              25 */1 * * *   False     0        3m16s           25d
cluster-test-admin   bm-system-kubernetes           16 */1 * * *   False     0        12m             25d
cluster-test-admin   bm-system-network              41 */1 * * *   False     0        47m             25d

Nilai di kolom SCHEDULE menunjukkan jadwal untuk setiap tugas pemeriksaan kondisi yang dijalankan dalam sintaksis jadwal. Misalnya, tugas bm-system-kubernetes berjalan pada 17 menit setelah jam (17) setiap jam (*/1) setiap hari (* * *). Interval waktu untuk pemeriksaan kondisi berkala tidak dapat diedit, tetapi berguna untuk memecahkan masalah untuk mengetahui kapan pemeriksaan tersebut seharusnya berjalan.

Mengambil detail untuk resource kustom CronJob tertentu:

kubectl describe cronjob CRONJOB_NAME \
    --kubeconfig ADMIN_KUBECONFIG \
    --namespace CLUSTER_NAMESPACE

Ganti kode berikut:

ADMIN_KUBECONFIG: jalur file kubeconfig cluster admin.
CLUSTER_NAMESPACE: namespace cluster.

Contoh berikut menunjukkan CronJob yang berhasil:

Name:                          bm-system-network
Namespace:                     cluster-test-admin
Labels:                        AnthosBareMetalVersion=1.16.1
                               baremetal.cluster.gke.io/check-name=bm-system-network
                               baremetal.cluster.gke.io/periodic-health-check=true
                               controller-uid=2247b728-f3f5-49c2-86df-9e5ae9505613
                               type=network
Annotations:                   target: node-network
Schedule:                      41 */1 * * *
Concurrency Policy:            Forbid
Suspend:                       False
Successful Job History Limit:  1
Failed Job History Limit:      1
Starting Deadline Seconds:     <unset>
Selector:                      <unset>
Parallelism:                   <unset>
Completions:                   1
Active Deadline Seconds:       3600s
Pod Template:
  Labels:           baremetal.cluster.gke.io/check-name=bm-system-network
  Annotations:      target: node-network
  Service Account:  ansible-runner
  Containers:
  ansible-runner:
    Image:      gcr.io/anthos-baremetal-release/ansible-runner:1.16.1-gke.5
    Port:       <none>
    Host Port:  <none>
    Command:
      cluster
    Args:
      -execute-command=network-health-check
      -login-user=root
      -controlPlaneLBPort=443
    Environment:  <none>
    Mounts:
      /data/configs from inventory-config-volume (ro)
      /etc/ssh-key from ssh-key-volume (ro)
  Volumes:
  inventory-config-volume:
    Type:      ConfigMap (a volume populated by a ConfigMap)
    Name:      bm-system-network-inventory-bm-system-ne724a7cc3584de0635099
    Optional:  false
  ssh-key-volume:
    Type:            Secret (a volume populated by a Secret)
    SecretName:      ssh-key
    Optional:        false
Last Schedule Time:  Tue, 14 Nov 2023 18:41:00 +0000
Active Jobs:         <none>
Events:
  Type    Reason            Age   From                Message
  ----    ------            ----  ----                -------
  Normal  SuccessfulCreate  48m   cronjob-controller  Created job bm-system-network-28333121
  Normal  SawCompletedJob   47m   cronjob-controller  Saw completed job: bm-system-network-28333121, status: Complete
  Normal  SuccessfulDelete  47m   cronjob-controller  Deleted job bm-system-network-28333061

Log health check

Saat dijalankan, health check akan menghasilkan log. Baik Anda menjalankan health check dengan gkectl diagnose cluster atau health check dijalankan secara otomatis sebagai bagian dari health check berkala, log akan dikirim ke Cloud Logging. Saat Anda menjalankan health check sesuai permintaan, file log dibuat di /home/ubuntu/.config/gke-on-prem/logs/gkectl-$(date).log.

Melihat log secara lokal

Anda dapat menggunakan kubectl untuk melihat log untuk health check berkala:

Dapatkan pod dan temukan pod pemeriksaan kesehatan tertentu yang Anda minati:

kubectl get pods \
    --kubeconfig ADMIN_KUBECONFIG \
    --namespace CLUSTER_NAMESPACE

Ganti kode berikut:

ADMIN_KUBECONFIG: jalur file kubeconfig cluster admin.
CLUSTER_NAMESPACE: namespace cluster.

Contoh respons berikut menunjukkan beberapa pod health check:

NAME                                                              READY   STATUS      RESTARTS   AGE
bm-system-10.200.0.4-machine-28353626-lzx46                       0/1     Completed   0          12m
bm-system-10.200.0.5-machine-28353611-8vjw2                       0/1     Completed   0          27m
bm-system-add-ons-28353614-gxt8f                                  0/1     Completed   0          24m
bm-system-check-kernel-gce-user001-02fd2ac273bc18f008192e177x2c   0/1     Completed   0          75m
bm-system-cplb-init-10.200.0.4-822aa080-7a2cdd71a351c780bf8chxk   0/1     Completed   0          74m
bm-system-cplb-update-10.200.0.4-822aa082147dbd5220b0326905lbtj   0/1     Completed   0          67m
bm-system-gcp-check-create-cluster-202311025828f3c13d12f65k2xfj   0/1     Completed   0          77m
bm-system-kubernetes-28353604-4tc54                               0/1     Completed   0          34m
bm-system-kubernetes-check-bm-system-kub140f257ddccb73e32c2mjzn   0/1     Completed   0          63m
bm-system-machine-gcp-check-10.200.0.4-6629a970165889accb45mq9z   0/1     Completed   0          77m
...
bm-system-network-28353597-cbwk7                                  0/1     Completed   0          41m
bm-system-network-health-check-gce-user05e0d78097af3003dc8xzlbd   0/1     Completed   0          76m
bm-system-network-preflight-check-create275a0fdda700cb2b44b264c   0/1     Completed   0          77m

Ambil log pod:

kubectl logs POD_NAME  \
    --kubeconfig ADMIN_KUBECONFIG \
    --namespace CLUSTER_NAMESPACE

Ganti kode berikut:

POD_NAME: nama pod health check.
ADMIN_KUBECONFIG: jalur file kubeconfig cluster admin.
CLUSTER_NAMESPACE: namespace cluster.

Contoh berikut menunjukkan sebagian log pod untuk pemeriksaan kondisi mesin node yang berhasil:

...
TASK [Summarize health check] **************************************************
Wednesday 29 November 2023  00:26:22 +0000 (0:00:00.419)       0:00:19.780 ****
ok: [10.200.0.4] => {
    "results": {
        "check_cgroup_pass": "passed",
        "check_cni_pass": "passed",
        "check_containerd_pass": "passed",
        "check_cpu_pass": "passed",
        "check_default_route": "passed",
        "check_disks_pass": "passed",
        "check_dns_pass": "passed",
        "check_docker_pass": "passed",
        "check_gcr_pass": "passed",
        "check_googleapis_pass": "passed",
        "check_kernel_version_pass": "passed",
        "check_kubelet_pass": "passed",
        "check_memory_pass": "passed",
        "check_pod_cidr_intersect_pass": "passed",
        "check_registry_mirror_reachability_pass": "passed",
        "check_time_sync_pass": "passed",
        "check_ubuntu_1804_kernel_version": "passed",
        "check_ufw_pass": "passed",
        "check_vcpu_pass": "passed"
    }
}
...

Contoh berikut menunjukkan bagian dari log pod health check mesin node yang gagal. Contoh menunjukkan bahwa pemeriksaan kubelet (check_kubelet_pass) gagal, yang menunjukkan bahwa kubelet tidak berjalan di node ini.

...
TASK [Reach a final verdict] ***************************************************
Thursday 02 November 2023  17:30:19 +0000 (0:00:00.172)       0:00:17.218 *****
fatal: [10.200.0.17]: FAILED! => {"changed": false, "msg": "following checks failed, ['check_kubelet_pass']"}
...

Lihat log di Cloud Logging

Log pemeriksaan kondisi di-streaming ke Cloud Logging dan dapat dilihat di Logs Explorer. Health check berkala diklasifikasikan sebagai Pod di log konsol.

Di konsol Google Cloud , buka halaman Logs Explorer di menu Logging.

Buka Logs Explorer

Di kolom Query, masukkan kueri dasar berikut:

resource.type="k8s_container"
resource.labels.pod_name=~"bm-system.*-machine.*"

Jendela Query results menampilkan log untuk health check mesin node.

Berikut adalah daftar kueri untuk health check berkala:

Default

resource.type="k8s_container"
resource.labels.pod_name=~"bm-system.default-*"

Mesin node

resource.type="k8s_container"
resource.labels.pod_name=~"bm-system.*-machine.*"

Jaringan

resource.type="k8s_container"
resource.labels.pod_name=~"bm-system-network.*"

Kubernetes

resource.type="k8s_container"
resource.labels.pod_name=~"bm-system-kubernetes.*"

Add-on

resource.type="k8s_container"
resource.labels.pod_name=~"bm-system-add-ons.*"

Health check berkala

Secara default, health check berkala dijalankan setiap jam dan memeriksa komponen cluster berikut:

Default
Machine
Jaringan
Kubernetes
Add-on

Anda dapat memeriksa kondisi cluster dengan melihat resource kustom HealthCheck (healthchecks.baremetal.cluster.gke.io) Bare Metal di cluster admin. Pemeriksaan Jaringan, Kubernetes, dan Add-on adalah pemeriksaan tingkat cluster, sehingga ada satu resource untuk setiap pemeriksaan. Pemeriksaan Mesin dijalankan untuk setiap node di cluster target, sehingga ada resource untuk setiap node.

Untuk mencantumkan resource HealthCheck Bare Metal untuk cluster tertentu, jalankan perintah berikut:

kubectl get healthchecks.baremetal.cluster.gke.io \
    --kubeconfig=ADMIN_KUBECONFIG \
    --namespace=CLUSTER_NAMESPACE

Ganti kode berikut:

ADMIN_KUBECONFIG: jalur file kubeconfig cluster admin.
CLUSTER_NAMESPACE: namespace cluster target pemeriksaan kesehatan.

Contoh respons berikut menunjukkan formatnya:

NAMESPACE               NAME                               PASS    AGE
cluster-test-user001    bm-system-192.0.2.53-machine       true    56d
cluster-test-user001    bm-system-192.0.2.54-machine       true    56d
cluster-test-user001    bm-system-add-ons                  true    56d
cluster-test-user001    bm-system-kubernetes               true    56d
cluster-test-user001    bm-system-network                  true    56d

Kolom Pass untuk healthchecks.baremetal.cluster.gke.io menunjukkan apakah health check terakhir berhasil (true) atau gagal (false).

Untuk mengetahui informasi selengkapnya tentang cara memeriksa status health check berkala, lihat HealthCheck resource kustom dan Log health check.

Health check sesuai permintaan

Untuk menjalankan health check sesuai permintaan, gunakan perintah gkectl diagnose cluster. Saat Anda menggunakan gkectl diagnose cluster untuk menjalankan health check, aturan berikut berlaku:

Saat Anda memeriksa cluster pengguna dengan perintah gkectl diagnose cluster, tentukan jalur file kubeconfig untuk cluster admin dengan flag --kubeconfig.
Log dibuat dalam direktori yang diberi stempel waktu di folder log cluster di workstation admin Anda (secara default, /home/ubuntu/.config/gke-on-prem/logs/gkectl-$(date).log).
Log health check juga dikirim ke Cloud Logging. Untuk mengetahui informasi selengkapnya tentang log, lihat Log health check.

Deteksi penyimpangan konfigurasi

Saat pemeriksaan kondisi add-on berjalan, antara lain, pemeriksaan ini akan memeriksa perubahan yang tidak terduga pada resource yang dikelola oleh Google Distributed Cloud. Secara khusus, pemeriksaan ini menilai manifes untuk resource ini guna menentukan apakah perubahan telah dilakukan oleh entitas eksternal. Pemeriksaan ini dapat membantu memperingatkan perubahan yang tidak disengaja yang mungkin merusak kesehatan cluster. Mereka juga memberikan informasi pemecahan masalah yang berharga.

Manifes yang diperiksa

Dengan beberapa pengecualian, health check add-on meninjau semua resource yang dikelola Google Distributed Cloud untuk cluster Anda. Resource ini diinstal dan dikelola oleh software Google Distributed Cloud. Ada ratusan resource ini dan sebagian besar manifesnya diperiksa untuk mendeteksi penyimpangan konfigurasi. Manifes ditujukan untuk semua jenis resource, termasuk, tetapi tidak terbatas pada, berikut ini:

ClusterRoles
ClusterRoleBindings
CustomResourceDefinitions
DaemonSet
Deployment
HorizontalPodAutoscalers
Penerbit

MetricsServers
MutatingWebhookConfigurations
Namespace
Jaringan
NetworkLoggings
PodDisruptionBudgets
Penyedia

Peran
RoleBindings
Layanan
StorageClasses
ValidatingWebhookConfigurations

Manifes yang tidak diperiksa

Secara desain, kami mengecualikan beberapa manifes dari peninjauan. Kami mengabaikan jenis resource tertentu, seperti Sertifikat, Secret, dan ServiceAccount, karena alasan privasi dan keamanan. Pemeriksaan add-on juga mengabaikan beberapa kolom resource dan resource, karena kami berharap kolom tersebut diubah dan kami tidak ingin perubahan tersebut memicu error penyimpangan konfigurasi. Misalnya, pemeriksaan mengabaikan kolom replicas di Deployment, karena Autoscaler dapat mengubah nilai ini.

Cara mengecualikan manifes tambahan atau sebagian manifes dari peninjauan

Secara umum, sebaiknya Anda tidak melakukan perubahan pada resource yang dikelola Google Distributed Cloud atau mengabaikan perubahan yang dilakukan pada resource tersebut. Namun, kami tahu bahwa terkadang resource memerlukan modifikasi untuk memenuhi persyaratan kasus unik atau untuk memperbaiki masalah. Oleh karena itu, kami menyediakan ConfigMap ignore-config-drift untuk setiap cluster di fleet Anda. Anda menggunakan ConfigMaps ini untuk menentukan resource dan kolom resource tertentu yang akan dikecualikan dari penilaian.

Google Distributed Cloud membuat ConfigMap ignore-config-drift untuk setiap cluster. ConfigMap ini berada di cluster pengelola (admin atau hybrid) di namespace cluster yang sesuai. Misalnya, jika Anda memiliki cluster admin (admin-one) yang mengelola dua cluster pengguna (user-one dan user-two), Anda dapat menemukan ConfigMap ignore-config-drift untuk cluster user-one di cluster admin-one dalam namespace cluster-user-one.

Untuk mengecualikan resource atau kolom resource dari peninjauan:

Tambahkan kolom data.ignore-resources ke ConfigMap ignore-config-drift.

Kolom ini mengambil array string JSON, dengan setiap string menentukan resource dan, secara opsional, kolom tertentu dalam resource.
Tentukan resource dan, secara opsional, kolom tertentu yang akan diabaikan sebagai objek JSON dalam array string:

Objek JSON untuk resource dan kolom memiliki struktur berikut:
```
{
  "Version": "RESOURCE_VERSION",
  "Kind": "RESOURCE_KIND",
  "Namespace": "RESOURCE_NAMESPACE",
  "Name": "RESOURCE_NAME",
  "Fields": [
    "FIELD_1_NAME",
    "FIELD_2_NAME",
    ...
    "FIELD_N_NAME"
  ]
}
```
Ganti kode berikut:
- RESOURCE_VERSION: (opsional) nilai apiVersion untuk resource.
- RESOURCE_KIND: (opsional) nilai kind untuk resource.
- RESOURCE_NAMESPACE: (opsional) nilai metadata.namespace untuk resource.
- RESOURCE_NAME: (opsional) nilai metadata.name untuk resource.
- FIELD_NAME: (opsional) tentukan array kolom resource yang akan diabaikan. Jika Anda tidak menentukan kolom apa pun, pemeriksaan add-on akan mengabaikan semua perubahan pada resource.
Setiap kolom dalam objek JSON bersifat opsional, sehingga berbagai permutasi diizinkan. Anda dapat mengecualikan seluruh kategori resource, atau Anda dapat mengecualikan kolom tertentu dari resource tertentu dengan sangat tepat.

Misalnya, jika Anda ingin pemeriksaan add-on mengabaikan perubahan apa pun hanya pada bagian command dari Deployment ais di cluster admin, JSON mungkin terlihat seperti berikut:
```
{
  "Version": "apps/v1",
  "Kind": "Deployment",
  "Namespace": "anthos-identity-service",
  "Name": "ais",
  "Fields": [
    "command"
  ]
}
```
Anda akan menambahkan objek JSON ini ke ignore-resources di ConfigMap config-drift-ignore sebagai nilai string dalam array seperti yang ditunjukkan dalam contoh berikut:
```
apiVersion: v1
kind: ConfigMap
metadata:
  creationTimestamp: "2024-09-24T00:39:45Z"
  name: config-drift-ignore
  namespace: cluster-example-admin
  ownerReferences:
  - apiVersion: baremetal.cluster.gke.io/v1
    kind: Cluster
    name: example-admin
  ...
data:
  ignore-resources: '[{"Version":"apps/v1","Kind":"Deployment","Namespace":"anthos-identity-service","Name":"ais","Fields":["command"]}]'
  ...
```
Setelan ConfigMap contoh ini memungkinkan Anda menambahkan, menghapus, atau mengedit kolom command di Deployment ais tanpa memicu error penyimpangan konfigurasi. Namun, pengeditan pada kolom di luar bagian command dalam Deployment masih terdeteksi oleh pemeriksaan add-on dan dilaporkan sebagai penyimpangan konfigurasi.

Jika Anda ingin mengecualikan semua Deployment, nilai ignore-resources mungkin terlihat seperti berikut:
```
...
data:
  ignore-resources: '[{"Kind":"Deployment"}]'
...
```
Karena ignore-resources menerima array string JSON, Anda dapat menentukan beberapa pola pengecualian. Jika Anda sedang memecahkan masalah atau bereksperimen dengan cluster dan tidak ingin memicu error penyimpangan konfigurasi, fleksibilitas untuk mengecualikan resource dan kolom resource yang sangat tertarget atau kategori resource yang lebih luas dari deteksi penyimpangan ini dapat berguna.

Langkah berikutnya

Untuk informasi selengkapnya, lihat referensi berikut:

Jika Anda memerlukan bantuan tambahan, hubungi Layanan Pelanggan Cloud.

Anda juga dapat melihat bagian Mendapatkan dukungan untuk mengetahui informasi selengkapnya tentang sumber dukungan, termasuk:

Persyaratan untuk membuka kasus dukungan.
Alat untuk membantu Anda memecahkan masalah, seperti log dan metrik.
Komponen yang didukung, versi, dan fitur Google Distributed Cloud untuk VMware (khusus software).

Health check cluster

Apa yang diperiksa?

Pemeriksaan mesin node

Pemeriksaan di seluruh cluster

Pemeriksaan default

Pemeriksaan jaringan

Kubernetes

Add-on

HealthCheck resource kustom

Cron job pemeriksaan kondisi

Log health check

Melihat log secara lokal

Lihat log di Cloud Logging

Health check berkala

Health check sesuai permintaan

Deteksi penyimpangan konfigurasi

Manifes yang diperiksa

Manifes yang tidak diperiksa

Cara mengecualikan manifes tambahan atau sebagian manifes dari peninjauan

Langkah berikutnya

`HealthCheck` resource kustom