Memecahkan masalah kemampuan observasi Google Distributed Cloud

Dokumen ini membantu Anda memecahkan masalah kemampuan pengamatan di Google Distributed Cloud. Jika Anda mengalami salah satu masalah ini, tinjau perbaikan dan solusi yang disarankan.

Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.

Anda juga dapat melihat bagian Mendapatkan dukungan untuk mengetahui informasi selengkapnya tentang sumber dukungan, termasuk yang berikut:

  • Persyaratan untuk membuka kasus dukungan.
  • Alat untuk membantu Anda memecahkan masalah, seperti log dan metrik.
  • Komponen yang didukung, versi, dan fitur Google Distributed Cloud untuk VMware (khusus software).

Cloud Audit Logs tidak dikumpulkan

Periksa apakah Cloud Audit Logs diaktifkan di bagian cloudAuditLogging dari konfigurasi cluster. Pastikan project ID, lokasi, dan kunci akun layanan dikonfigurasi dengan benar. Project ID harus sama dengan project ID di bagian gkeConnect.

Jika Cloud Audit Logs diaktifkan, izin adalah alasan paling umum mengapa log tidak dikumpulkan. Dalam skenario ini, pesan error izin ditolak ditampilkan di penampung proxy Cloud Audit Logs.

Container proxy Cloud Audit Logs berjalan sebagai salah satu dari berikut ini:

  • Pod statis di cluster admin atau mandiri.
  • Sebagai container sidecar di Pod kube-apiserver.

Jika Anda melihat error izin, ikuti langkah-langkah untuk memecahkan masalah dan mengatasi masalah izin.

Penyebab lain yang mungkin terjadi adalah project Anda telah mencapai batas akun layanan yang didukung, lihat Akun layanan Cloud Audit Logs bocor.

Metrik kube-state-metrics tidak dikumpulkan

kube-state-metrics (KSM) berjalan sebagai Deployment replika tunggal di cluster dan menghasilkan metrik di hampir semua resource dalam cluster. Jika KSM dan gke-metrics-agent berjalan di node yang sama, ada risiko yang lebih besar terjadinya gangguan di antara agen metrik di semua node.

Metrik KSM memiliki nama yang mengikuti pola kube_<ResourceKind>, seperti kube_pod_container_info. Metrik yang dimulai dengan kube_onpremusercluster_ berasal dari pengontrol cluster lokal, bukan dari KSM.

Jika metrik KSM tidak ada, tinjau langkah-langkah pemecahan masalah berikut:

  • Di Cloud Monitoring, periksa CPU, memori, dan jumlah mulai ulang KSM menggunakan metrik summary API seperti kubernetes.io/anthos/container/... . Ini adalah pipeline terpisah dengan KSM. Pastikan Pod KSM tidak dibatasi karena kurangnya resource.
    • Jika metrik API ringkasan ini tidak tersedia untuk KSM, gke-metrics-agent pada node yang sama mungkin juga mengalami masalah yang sama.
  • Di cluster, periksa status dan log Pod KSM dan Pod gke-metrics-agent di node yang sama dengan KSM.

kube-state-metrics pengulangan error

Gejala

Tidak ada metrik dari kube-state-metrics (KSM) yang tersedia dari Cloud Monitoring.

Penyebab

Skenario ini lebih mungkin terjadi di cluster besar, atau cluster dengan jumlah resource yang besar. KSM berjalan sebagai Deployment replika tunggal dan mencantumkan hampir semua resource di cluster seperti Pod, Deployment, DaemonSet, ConfigMap, Secret, dan PersistentVolume. Metrik dibuat di setiap objek resource ini. Jika salah satu resource memiliki banyak objek, seperti cluster dengan lebih dari 10.000 Pod, KSM berpotensi kehabisan memori.

Versi yang terpengaruh

Masalah ini dapat terjadi di semua versi Google Distributed Cloud.

Batas CPU dan memori default telah ditingkatkan dalam beberapa versi Google Distributed Cloud terakhir, sehingga masalah resource ini akan lebih jarang terjadi.

Perbaikan dan solusi

Untuk memeriksa apakah masalah Anda disebabkan oleh masalah kehabisan memori, tinjau langkah-langkah berikut:

  • Gunakan kubectl describe pod atau kubectl get pod -o yaml dan periksa pesan status error.
  • Periksa metrik penggunaan dan pemakaian memori untuk KSM dan konfirmasi apakah KSM mencapai batas sebelum dimulai ulang.

Jika Anda mengonfirmasi bahwa masalah kehabisan memori adalah penyebabnya, gunakan salah satu solusi berikut:

  • Tingkatkan permintaan dan batas memori untuk KSM.

    Untuk menyesuaikan CPU dan memori KSM:

    • Untuk Google Distributed Cloud versi 1.16.0 atau yang lebih baru, Google Cloud Observability mengelola KSM. Untuk mengupdate KSM, lihat Mengganti permintaan dan batas CPU dan memori default untuk komponen Stackdriver.

    • Untuk Google Distributed Cloud versi 1.10.7 atau yang lebih baru, 1.11.3 atau yang lebih baru, 1.12.2 atau yang lebih baru, dan 1.13 dan yang lebih baru, tetapi lebih lama dari 1.16.0, buat ConfigMap untuk menyesuaikan CPU dan memori:

      1. Buat ConfigMap bernama kube-state-metrics-resizer-config di namespace kube-system (gke-managed-metrics-server untuk 1.13 atau yang lebih baru) dengan definisi berikut. Sesuaikan jumlah CPU dan memori sesuai kebutuhan:

          apiVersion: v1
          kind: ConfigMap
          metadata:
            name: kube-state-metrics-resizer-config
            namespace: kube-system
          data:
            NannyConfiguration: |-
              apiVersion: nannyconfig/v1alpha1
              kind: NannyConfiguration
              baseCPU: 200m
              baseMemory: 1Gi
              cpuPerNode: 3m
              memoryPerNode: 20Mi
          ```
        
      2. Setelah membuat ConfigMap, mulai ulang Deployment KSM dengan menghapus Pod KSM menggunakan perintah berikut:

        kubectl -n kube-system rollout restart deployment kube-state-metrics
        
    • Untuk Google Distributed Cloud versi 1.9 dan yang lebih lama, 1.10.6 atau yang lebih lama, 1.11.2 atau yang lebih lama, dan 1.12.1 atau yang lebih lama:

      • Tidak ada solusi jangka panjang yang baik - jika Anda mengedit resource terkait KSM, perubahan akan otomatis dikembalikan oleh monitoring-operator.
      • Anda dapat memperkecil monitoring-operator menjadi 0 replika, lalu mengedit Deployment KSM untuk menyesuaikan batas resource-nya. Namun, cluster tidak akan menerima patch kerentanan yang dikirimkan oleh rilis patch baru menggunakan monitoring-operator. Jangan lupa untuk menskalakan monitoring-operator kembali setelah cluster diupgrade ke versi yang lebih baru dengan perbaikan.
  • Kurangi jumlah metrik dari KSM.

    Untuk Google Distributed Cloud 1.13, KSM hanya mengekspos sejumlah kecil metrik yang disebut Metrik Inti secara default. Perilaku ini berarti penggunaan resource lebih kecil daripada versi sebelumnya, tetapi prosedur yang sama dapat diikuti untuk mengurangi lebih lanjut jumlah metrik KSM.

    Untuk Google Distributed Cloud versi sebelum 1.13, KSM menggunakan flag default. Konfigurasi ini mengekspos sejumlah besar metrik.

gke-metrics-agent pengulangan error

Jika gke-metrics-agent hanya mengalami masalah kehabisan memori di node tempat kube-state-metrics berada, penyebabnya adalah banyaknya metrik kube-state-metrics. Untuk memitigasi masalah ini, turunkan skala stackdriver-operator dan ubah KSM untuk mengekspos sejumlah kecil metrik yang diperlukan seperti yang dijelaskan di bagian sebelumnya. Jangan lupa untuk menskalakan kembali stackdriver-operator setelah cluster diupgrade ke Google Distributed Cloud 1.13, yang secara default mengekspos lebih sedikit Metrik Utama KSM.

Untuk masalah yang tidak terkait dengan peristiwa kehabisan memori, periksa log Pod gke-metric-agent. Anda dapat menyesuaikan CPU dan memori untuk semua gke-metrics-agent Pod dengan menambahkan kolom resourceAttrOverride ke resource kustom Stackdriver.

stackdriver-metadata-agent pengulangan error

Gejala

Tidak ada label metadata sistem yang tersedia saat memfilter metrik di Cloud Monitoring.

Penyebab

Kasus paling umum dari stackdriver-metadata-agentpengulangan error adalah karena peristiwa kehabisan memori. Acara ini mirip dengan kube-state-metrics. Meskipun tidak mencantumkan semua resource, stackdriver-metadata-agent tetap mencantumkan semua objek untuk jenis resource yang relevan seperti Pod, Deployment, dan NetworkPolicy. Agen berjalan sebagai Deployment replika tunggal, yang meningkatkan risiko peristiwa kehabisan memori jika jumlah objek terlalu besar.

Versi yang terpengaruh

Masalah ini dapat terjadi di semua versi Google Distributed Cloud.

Batas CPU dan memori default telah ditingkatkan dalam beberapa versi Google Distributed Cloud terakhir, sehingga masalah resource ini akan lebih jarang terjadi.

Perbaikan dan solusi

Untuk memeriksa apakah masalah Anda disebabkan oleh masalah kehabisan memori, tinjau langkah-langkah berikut:

  • Gunakan kubectl describe pod atau kubectl get pod -o yaml dan periksa pesan status error.
  • Periksa metrik konsumsi dan pemanfaatan memori untuk stackdriver-metadata-agent dan konfirmasi apakah sudah mencapai batas sebelum dimulai ulang.
Jika Anda mengonfirmasi bahwa masalah kehabisan memori menyebabkan masalah, tingkatkan batas memori di kolom resourceAttrOverride dari resource kustom Stackdriver.

metrics-server pengulangan error

Gejala

Horizontal Pod Autoscaler dan kubectl top tidak berfungsi di cluster Anda.

Penyebab dan versi yang terpengaruh

Masalah ini tidak terlalu umum, tetapi disebabkan oleh error kehabisan memori di cluster besar atau di cluster dengan kepadatan Pod yang tinggi.

Masalah ini dapat terjadi di semua versi Google Distributed Cloud.

Perbaikan dan solusi

Meningkatkan batas resource server metrik. Di Google Distributed Cloud versi 1.13 dan yang lebih baru, namespace metrics-server dan konfigurasinya telah dipindahkan dari kube-system ke gke-managed-metrics-server.

Tidak semua resource dihapus selama penghapusan akun layanan Cloud Audit Logs

Saat Anda menghapus akun layanan yang digunakan untuk Cloud Audit Logs, tidak semua Google Cloud resource akan dihapus. Jika Anda secara rutin menghapus dan membuat ulang akun layanan yang digunakan untuk Cloud Audit Logs, pada akhirnya pencatatan log audit akan gagal.

Gejala

Pesan error izin ditolak ditampilkan di penampung proxy Cloud Audit Logs.

Untuk mengonfirmasi bahwa kegagalan log audit disebabkan oleh masalah ini, jalankan perintah berikut:

curl -X GET -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://gkehub.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/global/features/cloudauditlogging

Ganti PROJECT_NUMBER dengan nomor project Anda.

Respons menampilkan semua akun layanan yang digunakan dengan Cloud Audit Logs dalam project, termasuk akun layanan yang telah dihapus.

Penyebab dan versi yang terpengaruh

Tidak semua resource Google Cloud dihapus saat Anda menghapus akun layanan yang digunakan untuk Cloud Audit Logs, dan pada akhirnya Anda mencapai batas 1.000 akun layanan untuk project.

Masalah ini dapat terjadi di semua versi Google Distributed Cloud.

Perbaikan dan solusi

  1. Buat variabel lingkungan yang berisi daftar semua akun layanan yang dipisahkan koma yang ingin Anda pertahankan. Sertakan setiap email akun layanan dalam tanda kutip tunggal, dan sertakan seluruh daftar dalam tanda kutip ganda. Anda dapat menggunakan berikut sebagai titik awal:

    SERVICE_ACCOUNT_EMAILS="'SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com'"
    

    Ganti kode berikut:

    • PROJECT_ID: project ID Anda.
    • SERVICE_ACCOUNT_NAME: nama akun layanan.

    Daftar yang telah selesai akan mirip dengan contoh berikut:

    "'sa_name1@example-project-12345.iam.gserviceaccount.com','sa_name2@example-project-12345.iam.gserviceaccount.com','sa_name3@example-project-12345.iam.gserviceaccount.com'"
    
  2. Jalankan perintah berikut untuk menghapus fitur Cloud Audit Logs dari project:

    curl -X DELETE -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    https://gkehub.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/FLEET_REGION /features/cloudauditlogging
    

    Ganti kode berikut:

    • PROJECT_NUMBER: nomor project.
    • FLEET_REGION: lokasi keanggotaan fleet untuk cluster Anda. Ini bisa berupa wilayah tertentu seperti us-central1 atau global. Anda dapat menjalankan perintah gcloud container fleet memberships list untuk mendapatkan lokasi keanggotaan.

    Perintah ini akan menghapus semua akun layanan sepenuhnya.

  3. Buat ulang fitur Cloud Audit Logs hanya dengan akun layanan yang ingin Anda pertahankan:

    curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        -H "Content-Type: application/json" \
        https://gkehub.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/FLEET_REGION/features?feature_id=cloudauditlogging \
        -d '{"spec":{"cloudauditlogging":{"allowlistedServiceAccounts":[$SERVICE_ACCOUNT_EMAILS]}}}'
    

Langkah berikutnya

Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.

Anda juga dapat melihat bagian Mendapatkan dukungan untuk mengetahui informasi selengkapnya tentang sumber dukungan, termasuk yang berikut:

  • Persyaratan untuk membuka kasus dukungan.
  • Alat untuk membantu Anda memecahkan masalah, seperti log dan metrik.
  • Komponen yang didukung, versi, dan fitur Google Distributed Cloud untuk VMware (khusus software).