Memecahkan masalah soft lockup vCPU


Dokumen ini menjelaskan cara memecahkan masalah soft lockup vCPU. Soft lockup terjadi saat vCPU instance mesin virtual (VM) tidak dapat menjalankan tugas baru selama lebih dari 20 detik. Sebagian besar soft lockup disebabkan oleh bug dalam software aplikasi.

Soft lockup dapat menyebabkan VM tidak merespons dalam waktu singkat, mengganggu akses SSH ke VM, dan memicu waktu tunggu aplikasi atau failover. VM yang mengalami soft lockup juga mungkin memiliki pemakaian CPU yang sangat tinggi atau sangat rendah, bergantung pada penyebab pasti soft lockup.

Mengidentifikasi penguncian sementara

Untuk mengidentifikasi apakah VM Anda mengalami soft lockup, lakukan salah satu hal berikut:

Contoh pelacakan tumpukan soft lockup

watchdog: BUG: soft lockup - CPU#3 stuck for 22s!

Untuk mendeteksi soft lockup di masa mendatang, Anda dapat melakukan hal berikut:

  1. Aktifkan logging output port serial.

  2. Buat kebijakan pemberitahuan berbasis log untuk log berikut:

    resource.type="gce_instance" log_id("serialconsole.googleapis.com/serial_port_1_output") textPayload=~"watchdog.*lockup"
    

Memecahkan masalah penguncian sementara

Setelah Anda mengidentifikasi bahwa terjadi soft lockup, coba langkah-langkah pemecahan masalah berikut untuk menyelesaikan masalah:

  1. Periksa situs vendor OS Anda untuk mengetahui apakah ada error yang diketahui pada versi OS Anda. Terkadang, Anda mungkin menemukan referensi ke modul kernel tertentu dalam rekaman aktivitas yang menunjukkan fungsi atau operasi tertentu yang terlibat.
  2. Identifikasi apakah soft lockup berulang dengan frekuensi apa pun, seperti bertepatan dengan beban tinggi atau aktivitas tertentu. Jika soft lockup berkorelasi dengan beban tinggi, Anda mungkin perlu mengonfigurasi ulang workload, misalnya dengan menggunakan VM yang lebih besar atau membagi beban di lebih banyak VM.
  3. Periksa apakah soft lockup berkorelasi dengan perubahan pada lingkungan runtime Anda, seperti deployment software baru atau update image OS.
  4. Evaluasi apakah ada peristiwa pemeliharaan yang terjadi di sekitar waktu soft lockup, dengan meninjau log audit untuk log audit peristiwa sistem.

Jika langkah-langkah pemecahan masalah sebelumnya tidak menyelesaikan masalah, ajukan kasus dukungan dan sertakan semua informasi yang Anda kumpulkan dari pemecahan masalah.

Praktik terbaik untuk menghindari soft lockup

Untuk membantu mencegah VM Anda mengalami soft lockup, sebaiknya terapkan praktik terbaik berikut:

  • Pastikan Anda telah mengonfigurasi komponen redundan yang sesuai untuk sistem Anda, seperti cluster ketersediaan tinggi, untuk menyediakan kemampuan failover jika VM tertentu mengalami soft lockup yang berkepanjangan. Untuk mengetahui informasi selengkapnya, lihat Mendesain sistem yang tangguh.
  • Untuk workload yang membutuhkan komputasi intensif, pertimbangkan untuk menggunakan kelompok mesin yang dioptimalkan untuk komputasi.
  • Uji workload Anda dengan peristiwa pemeliharaan yang disimulasikan untuk mempelajari performa workload Anda selama migrasi langsung (jika diaktifkan), terutama saat pengujian beban.
  • Jika Anda menjalankan Kernel Linux kustom atau modul kustom di VM, uji perubahan baru di bawah beban sebelum men-deploy-nya ke lingkungan produksi. Pastikan perubahan kustom Anda tidak membuat Anda tidak memenuhi syarat untuk menerima dukungan dari vendor OS Anda.
  • Selalu update sistem operasi Anda. Untuk mengetahui informasi selengkapnya, baca Detail sistem operasi.