Memeriksa konektivitas cluster dengan nettest

GKE on Bare Metal nettest mengidentifikasi masalah konektivitas pada objek Kubernetes di cluster Anda, seperti Pod, Node, Layanan, dan beberapa target eksternal. nettest tidak memeriksa koneksi dari target eksternal ke Pod, Node, atau Layanan. Dokumen ini menjelaskan cara men-deploy dan menjalankan nettest dengan salah satu manifes, nettest.yaml atau nettest_rhel.yaml, di repositori GitHub anthos-samples. Gunakan nettest_rhel.yaml jika Anda menjalankan GKE di Bare Metal di Red HatEnterprise Linux (RHEL) atau CentOS. Gunakan nettest.yaml jika Anda menjalankan GKE di Bare Metal di Ubuntu.

Dokumen ini juga menjelaskan cara menafsirkan log yang dihasilkan oleh nettest untuk mengidentifikasi masalah konektivitas dengan cluster Anda.

Tentang nettest

Alat diagnostik nettest terdiri dari objek Kubernetes berikut. Setiap objek ditentukan dalam file manifes YAML nettest.

  • cloudprober: DaemonSet dan Layanan yang bertanggung jawab untuk mengumpulkan status koneksi jaringan, seperti tingkat error dan latensi.
  • echoserver: DaemonSet dan Layanan yang bertanggung jawab untuk merespons cloudprober, yang memberikan metrik untuk konektivitas jaringan.
  • nettest: Pod yang berisi container prometheus dan nettest.
    • prometheus mengumpulkan metrik dari cloudprober.
    • nettest membuat kueri prometheus dan menampilkan hasil pengujian jaringan dalam log.
  • nettest-engine: ConfigMap untuk mengonfigurasi penampung nettest di Pod nettest.

Manifes juga menentukan namespace nettest dan ServiceAccount khusus (beserta ClusterRole dan ClusterRoleBinding) untuk mengisolasi nettest dari resource cluster lainnya.

Jalankan nettest

Deploy nettest dengan menjalankan perintah berikut untuk sistem operasi Anda. Saat Pod nettest dimulai, pengujian akan berjalan secara otomatis. Tes ini memerlukan waktu sekitar lima menit untuk diselesaikan.

Untuk Ubuntu OS:

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/anthos-samples/main/anthos-bm-utils/abm-nettest/nettest.yaml

Untuk RHEL atau CentOS OS:

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/anthos-samples/main/anthos-bm-utils/abm-nettest/nettest_rhel.yaml

Mendapatkan hasil pengujian

Setelah pengujian selesai, yang akan memakan waktu sekitar lima menit setelah manifes nettest di-deploy, jalankan perintah berikut untuk melihat hasil nettest:

kubectl -n nettest logs nettest -c nettest

Saat nettest berjalan, kode akan mengirimkan pesan seperti berikut ke stdout:

I0413 03:33:04.879141       1 collectorui.go:130] Listening on ":8999"
I0413 03:33:04.879258       1 prometheus.go:172] Running prometheus controller
E0413 03:33:04.879628       1 prometheus.go:178] Prometheus controller: failed to
retries probers: Get "http://127.0.0.1:9090/api/v1/targets": dial tcp 127.0.0.1:9090:
connect: connection refused

Jika nettest berhasil berjalan tanpa mengidentifikasi kegagalan konektivitas, Anda akan melihat entri log berikut:

I0211 21:58:34.689290       1 validate_metrics.go:78] Metric validation passed!

Jika nettest menemukan masalah koneksi, maka akan menulis entri log seperti berikut:

E0211 06:40:11.948634       1 collector.go:65] Engine error: step validateMetrics failed:
"Error rate in percentage": probe from "10.200.0.3" to "172.26.115.210:80" has value 100.000000,
threshold is 1.000000
"Error rate in percentage": probe from "10.200.0.3" to "172.26.27.229:80" has value 100.000000,
threshold is 1.000000
"Error rate in percentage": probe from "192.168.3.248" to "echoserver-hostnetwork_10.200.0.2_8080"
has value 2.007046, threshold is 1.000000

Meskipun batas defaultnya adalah satu persen (1.000000), tingkat error hingga lima persen dapat diabaikan dengan aman. Misalnya, tingkat error untuk konektivitas dari alamat IP 192.168.3.248 ke echoserver-hostnetwork_10.200.0.2_8080 di contoh sebelumnya adalah sekitar dua persen (2.007046). Ini adalah contoh masalah konektivitas yang dilaporkan yang dapat Anda abaikan.

Menafsirkan hasil pengujian

Setelah nettest selesai dan menemukan masalah konektivitas, Anda akan melihat entri berikut dalam log Pod nettest:

"Error rate in percentage": probe from {src} to {dst} has value 100.000000, threshold is 1.000000

Di sini, {src} dan {dst} dapat berupa:

  • IP Pod echoserver: koneksi ke/dari Pod pada node.
  • IP node: koneksi ke/dari node.
  • IP Layanan (lihat teks berikut untuk mengetahui detailnya)

Selain itu, {dst} juga dapat:

  • google.com: koneksi eksternal.
  • dns: koneksi ke Layanan non-hostNetwork melalui DNS, yaitu echoserver-non-hostnetwork.nettest.svc.cluster.local.

    Detail untuk IP Layanan terdapat dalam entri pemeriksaan berformat JSON dalam log, seperti contoh berikut. Contoh pemeriksaan berikut menunjukkan bahwa 172.26.27.229:80 adalah alamat untuk service-clusterip. Ada dua pemeriksaan dengan nilai targets ini, satu untuk Pod (pod-service-clusterip) dan satu untuk Node (node-service-clusterip).

    probe {
      name: "node-service-clusterip"
      
      targets {
        host_names: "172.26.27.229:80"
      }
    

Memvalidasi perbaikan

Setelah mengatasi semua masalah konektivitas yang dilaporkan, hapus Pod nettest dan terapkan ulang manifes nettest untuk menjalankan kembali uji konektivitas.

Misalnya, untuk menjalankan kembali nettest untuk Ubuntu, jalankan perintah berikut:

kubectl -n nettest delete pod nettest
kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/anthos-samples/main/anthos-bm-utils/abm-nettest/nettest.yaml

Bersihkan nettest

Setelah selesai menguji, jalankan perintah berikut untuk menghapus semua resource nettest:

kubectl delete namespace nettest
kubectl delete clusterroles nettest:nettest
kubectl delete clusterrolebindings nettest:nettest