Memulai peristiwa pemeliharaan host secara manual

Halaman ini menjelaskan cara memulai peristiwa pemeliharaan host secara manual di VM TPU yang didukung. Hal ini berguna untuk beban kerja yang mungkin terpengaruh oleh penurunan performa atau periode nonaktif, yang memerlukan masa pemeliharaan untuk dimulai pada waktu tertentu.

Saat Anda memulai peristiwa pemeliharaan secara manual, peristiwa pemeliharaan host akan segera dimulai. Anda tidak dapat menentukan tanggal atau waktu mulai peristiwa pemeliharaan. Jika Anda tidak menggunakan fitur ini, peristiwa pemeliharaan akan terjadi pada waktu yang ditunjukkan dalam notifikasi pemeliharaan mendatang.

Untuk mengetahui informasi tentang cara memulai pemeliharaan secara manual untuk TPU di GKE, lihat Mengelola gangguan node GKE untuk GPU dan TPU.

Batasan

Anda hanya dapat memulai peristiwa pemeliharaan host secara manual untuk VM TPU dengan konfigurasi berikut:

  • VM TPU v4 atau v5p
  • VM TPU v5e atau v6e dengan konfigurasi topologi 2x4 (misalnya, v6e-8 jika menggunakan kolom jenis akselerator di Cloud TPU API) atau yang lebih besar
  • Node pool multi-host GKE v5e atau v6e dengan VM TPU yang berukuran 2x4 atau lebih besar

Memulai pemeliharaan host segera untuk slice yang lebih besar dapat menyebabkan slice tidak tersedia hingga beberapa jam. Biasanya, peristiwa pemeliharaan host akan menyebabkan slice dijadwalkan ulang sesegera mungkin ke set host lain yang memenuhi syarat, tetapi untuk permintaan peristiwa pemeliharaan host yang lebih besar, mungkin tidak ada kapasitas yang cukup untuk segera menjadwalkan ulang slice, sehingga menyebabkan waktu tunggu yang lebih lama.

Selain itu, memulai pemeliharaan pada slice Cloud TPU akan memulai pemeliharaan untuk semua VM TPU yang mendasarinya. Jika Anda melakukan pemeliharaan langsung pada salah satu instance menggunakan Instances API, semua instance dalam slice Cloud TPU akan memasuki pemeliharaan. Sebagai gantinya, gunakan queued-resources Cloud TPU API untuk menentukan node mana yang harus menjalankan pemeliharaan.

Memulai peristiwa pemeliharaan host secara manual

Anda dapat menggunakan notifikasi pemeliharaan untuk menentukan kapan Anda dapat memulai peristiwa pemeliharaan secara manual di TPU.

Periksa informasi notifikasi

Anda dapat menemukan notifikasi untuk peristiwa pemeliharaan mendatang menggunakan Cloud TPU API atau dengan membuat kueri server metadata di VM Anda. Untuk mengetahui informasi selengkapnya, lihat Melihat notifikasi pemeliharaan.

Anda dapat memulai peristiwa pemeliharaan lebih awal jika ada notifikasi pemeliharaan host mendatang di TPU. Untuk memulai peristiwa pemeliharaan lebih awal, notifikasi pemeliharaan host mendatang harus memiliki canReschedule yang ditetapkan ke true dan maintenanceStatus yang ditetapkan ke PENDING.

Mulai peristiwa pemeliharaan

Untuk memulai peristiwa pemeliharaan host, Anda dapat menggunakan Cloud TPU API dengan perintah perform-maintenance:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

Saat operasi selesai, kolom windowEndTime dan windowStartTime akan berubah menjadi waktu saat Anda memulai peristiwa pemeliharaan, dan kolom maintenanceStatus akan berubah menjadi ONGOING. Peristiwa pemeliharaan host akan segera dimulai.

Gunakan perintah gcloud alpha compute tpus tpu-vm describe untuk melihat status peristiwa pemeliharaan:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

Pada outputnya, akan terdapat bagian yang mirip seperti berikut ini:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

Pemeliharaan selesai saat status TPU VM adalah READY dan output dari perintah gcloud alpha compute tpus tpu-vm describe tidak lagi berisi kolom metadata upcomingMaintenance.

Untuk lingkungan Multislice, Anda dapat memulai peristiwa pemeliharaan host secara manual pada slice tertentu menggunakan perintah berikut:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES adalah daftar slice (node) yang dipisahkan koma dalam resource yang diantrekan, yang ingin Anda mulai peristiwa pemeliharaan hostnya. Misalnya, jika resource yang diantrekan memiliki node bernama my-qr-0, my-qr-1, dan my-qr-2, input yang valid untuk perintah perform-maintenance adalah --node-names=my-qr-0,my-qr-1.

Langkah berikutnya