Proses migrasi langsung selama peristiwa pemeliharaan


Selama peristiwa pemeliharaan terencana untuk hardware dasar instance mesin virtual (VM) atau instance bare metal, server host tidak tersedia. Agar instance tetap berjalan selama peristiwa host, Compute Engine melakukan migrasi langsung instance ke server host lain di zona yang sama. Untuk mengetahui informasi selengkapnya tentang peristiwa host, lihat Tentang peristiwa host.

Dengan migrasi langsung, Google Cloud dapat melakukan pemeliharaan tanpa mengganggu workload, memulai ulang instance, atau mengubah properti instance, seperti alamat IP, metadata, data block storage, status aplikasi, atau setelan jaringan.

Migrasi langsung membuat instance tetap berjalan selama situasi berikut:

  • Pemeliharaan infrastruktur. Pemeliharaan infrastruktur mencakup hardware host, jaringan, dan jaringan listrik di pusat data, serta sistem operasi (OS) dan BIOS host.

  • Update terkait keamanan dan perubahan konfigurasi sistem. Hal ini mencakup peristiwa seperti menginstal patch keamanan dan mengubah ukuran partisi root host untuk penyimpanan image dan paket OS host.

  • Kegagalan hardware. Hal ini termasuk kegagalan di memori, CPU, kartu antarmuka jaringan, dan disk. Jika kegagalan terdeteksi sebelum terjadi kegagalan server yang lengkap, Compute Engine akan melakukan migrasi langsung preventif instance ke server host baru. Jika hardware gagal sepenuhnya atau mencegah migrasi langsung, instance akan dihentikan dan dimulai ulang secara otomatis.

Compute Engine hanya melakukan migrasi langsung VM yang kebijakan pemeliharaan host-nya ditetapkan untuk dimigrasikan. Untuk mengetahui informasi cara mengubah kebijakan pemeliharaan host, lihat Menetapkan kebijakan pemeliharaan host VM.

Proses migrasi langsung dan disk SSD Lokal

Compute Engine dapat melakukan migrasi langsung instance dengan disk SSD Lokal yang terpasang (kecuali instance Z3 dengan lebih dari 18 TiB SSD Titanium yang terpasang). Compute Engine memindahkan instance VM beserta data SSD Lokalnya ke mesin baru sebelum pemeliharaan terencana apa pun.

Batasan

Migrasi langsung tidak didukung untuk jenis VM berikut:

  • Instance bare metal. Instance yang dibuat dengan jenis mesin bare metal tidak mendukung migrasi langsung. Perilaku pemeliharaan untuk instance ini ditetapkan ke TERMINATE dan RESTART.
  • Sebagian besar instance Confidential VM. Migrasi langsung untuk instance Confidential VM hanya didukung di jenis mesin N2D dengan platform CPU AMD EPYC Milan yang menjalankan AMD SEV. Semua instance Confidential VM lainnya tidak mendukung migrasi langsung, dan harus disetel untuk berhenti dan dimulai ulang secara opsional selama peristiwa pemeliharaan host. Lihat Migrasi langsung untuk mengetahui detail selengkapnya.
  • VM dengan GPU terpasang. Instance VM dengan GPU yang terpasang harus ditetapkan untuk berhenti dan dimulai ulang secara opsional. Compute Engine menawarkan pemberitahuan sebelum instance VM dengan GPU terpasang dihentikan, bergantung pada jenis GPU:

    • Untuk sebagian besar GPU, Compute Engine memberikan pemberitahuan 60 menit.
    • Untuk kelompok GPU yang berjalan di AI Hypercomputer Cluster Director, Compute Engine memberikan pemberitahuan 10 menit.

    Untuk mempelajari pemberitahuan peristiwa pemeliharaan ini lebih lanjut, baca Membuat kueri server metadata untuk pemberitahuan peristiwa pemeliharaan.

    Untuk mempelajari lebih lanjut cara menangani pemeliharaan host dengan GPU, baca Menangani pemeliharaan host di dokumentasi GPU.

  • Cloud TPU. Cloud TPU tidak mendukung migrasi langsung.
  • VM yang dioptimalkan untuk penyimpanan. VM Z3 dengan lebih dari 18 TiB SSD Titanium yang terpasang tidak mendukung migrasi langsung. Perilaku pemeliharaan untuk VM ini ditetapkan ke TERMINATE dan RESTART.Compute Engine mempertahankan data di Titanium SSD selama peristiwa pemeliharaan, seperti yang dijelaskan dalam Ketahanan disk setelah penghentian instance.

Bagaimana cara kerja proses migrasi langsung?

Saat VM dijadwalkan untuk melakukan migrasi langsung, Compute Engine akan memberikan notifikasi sehingga Anda dapat menyiapkan workload dan aplikasi untuk gangguan migrasi langsung ini. Selama migrasi langsung, Google Cloud mengamati waktu gangguan minimum, yang biasanya jauh kurang dari 1 detik. Jika VM tidak ditetapkan ke migrasi langsung, Compute Engine akan menghentikan VM selama pemeliharaan host. VM yang ditetapkan untuk dihentikan selama peristiwa host dihentikan dan (opsional) dimulai ulang.

Saat memigrasikan VM yang berjalan dari satu host ke host lainnya, Google Cloud memindahkan status lengkap VM dari sumber ke tujuan dengan cara yang transparan ke OS tamu dan apa pun yang berkomunikasi dengannya. Google Cloud Ada banyak komponen yang terlibat agar pekerjaan ini berjalan lancar, tetapi langkah-langkah tingkat tingginya ditunjukkan dalam ilustrasi berikut:

Memigrasikan VM dan setiap resource-nya ke sistem host baru
            tanpa harus memulai ulang sistem operasi tamu.
Komponen migrasi langsung

Proses ini dimulai dengan notifikasi bahwa VM perlu dipindahkan dari mesin host saat ini. Notifikasi ini mungkin dimulai dengan perubahan file yang menunjukkan bahwa versi BIOS baru tersedia, pemeliharaan penjadwalan operasi hardware, atau sinyal otomatis dari kegagalan hardware yang akan terjadi.

Software pengelolaan clusterGoogle Cloudterus memantau peristiwa ini dan menjadwalkannya berdasarkan kebijakan yang mengontrol pusat data, seperti tingkat penggunaan kapasitas dan jumlah VM yang dapat dimigrasikan oleh satu pelanggan sekaligus.

Setelah VM dipilih untuk migrasi, Google Cloud akan memberikan notifikasi kepada tamu bahwa migrasi akan segera terjadi. Setelah periode tunggu, host target dipilih dan host diminta untuk menyiapkan VM "target" baru yang kosong untuk menerima VM "sumber" yang dimigrasikan. Otentikasi digunakan untuk menghubungkan antara sumber dan target.

Ada tiga tahap yang terlibat dalam migrasi VM:

  1. Pengurangan kapasitas sumber. VM masih berjalan di sumber, sementara sebagian besar status dikirim dari sumber ke target. Misalnya,Google Cloud menyalin semua memori tamu ke target, sambil melacak halaman yang telah diubah di sumber. Waktu yang dihabiskan dalam penonaktifan sumber adalah fungsi dari ukuran memori tamu dan kecepatan halaman yang diubah.

  2. Pemadaman. Saat VM tidak berjalan di mana pun, VM sumber dijeda, dan semua status tersisa yang diperlukan untuk mulai menjalankan VM pada target akan dikirim. VM memasuki tahap penonaktifan saat pengiriman perubahan status selama tahap pengurangan kapasitas sumber mencapai titik penurunan hasil. Sebuah algoritma digunakan untuk menyeimbangkan jumlah byte memori yang dikirim terhadap kecepatan VM tamu membuat perubahan.

    Selama peristiwa pemadaman, jam sistem akan tampak melompat ke depan, hingga 5 detik. Jika peristiwa penonaktifan melebihi 5 detik, Google Cloud berhenti dan menyinkronkan jam menggunakan daemon yang disertakan sebagai bagian dari paket tamu VM.

  3. Menargetkan pengurangan kapasitas. VM dijalankan pada VM target. VM sumber tersedia dan mungkin menyediakan dukungan untuk VM target. Misalnya, hingga fabric jaringan berhasil menemukan lokasi baru VM target, VM sumber akan menyediakan layanan penerusan untuk paket ke dan dari VM target.

Terakhir, migrasi selesai dan sistem akan menghapus VM sumber. Anda dapat melihat bahwa migrasi terjadi di log Cloud Logging untuk VM Anda.

Migrasi langsung VM sole-tenant

Saat workload Anda berjalan, sebaiknya pindahkan VM ke grup node atau node tenant tunggal yang berbeda. Jika Anda memindahkan VM ke sekelompok node, Compute Engine akan menentukan node mana yang akan menempatkan VM. Untuk mengetahui informasi tentang tenancy tunggal, lihat ringkasan tenancy tunggal.

Untuk memindahkan VM tenant tunggal ke node atau grup node lain, Anda dapat memulai migrasi langsung secara manual. Anda juga dapat memulai migrasi langsung secara manual untuk memindahkan VM di host multi-tenant ke sole-tenant node. Untuk mengetahui informasi selengkapnya, lihat Melakukan migrasi langsung VM secara manual.

Langkah berikutnya