Menangani peristiwa pemeliharaan host GPU


VM yang telah memasang GPU tidak dapat dimigrasikan langsung. Anda harus menetapkan VM ini ke berhenti saat terjadi peristiwa pemeliharaan host. Jika perlu, Anda dapat menetapkan VM yang dihentikan untuk memulai ulang secara otomatis setelah peristiwa pemeliharaan selesai. Hosting peristiwa pemeliharaan di Compute Engine memiliki frekuensi dua minggu sekali, tetapi terkadang bisa berjalan lebih sering.

Untuk meminimalkan gangguan workload selama peristiwa pemeliharaan, Anda dapat memantau jadwal pemeliharaan untuk instance virtual machine (VM) dan menyiapkan workload untuk bertransisi melalui mulai ulang sistem.

Untuk menerima pemberitahuan awal tentang peristiwa host, pantau nilai metadata /computeMetadata/v1/instance/maintenance-event. Jika permintaan ke server metadata menampilkan NONE, VM tidak dijadwalkan untuk berhenti. Misalnya, jalankan perintah berikut dari dalam VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Jika server metadata menampilkan TERMINATE_ON_HOST_MAINTENANCE, VM Anda akan dijadwalkan untuk berhenti. Compute Engine memberi VM GPU pemberitahuan berhenti 1 jam, sedangkan VM normal hanya menerima pemberitahuan 60 detik. Konfigurasi aplikasi Anda untuk bertransisi melalui peristiwa pemeliharaan. Misalnya, Anda dapat menggunakan salah satu teknik berikut:

  • Konfigurasikan aplikasi Anda untuk memindahkan sementara pekerjaan yang sedang berlangsung ke bucket Cloud Storage, lalu ambil data tersebut setelah VM dimulai ulang.

  • Menulis data ke persistent disk sekunder. Saat VM dimulai ulang secara otomatis, persistent disk dapat dipasang kembali dan aplikasi Anda dapat melanjutkan pekerjaan.

Apa langkah selanjutnya?