Memulai peristiwa pemeliharaan host secara manual
Halaman ini menjelaskan cara memulai peristiwa pemeliharaan host secara manual di VM TPU yang didukung. Hal ini berguna untuk beban kerja yang mungkin terpengaruh oleh penurunan performa atau periode nonaktif, yang memerlukan masa pemeliharaan untuk dimulai pada waktu tertentu.
Saat Anda memulai peristiwa pemeliharaan secara manual, peristiwa pemeliharaan host akan segera dimulai. Anda tidak dapat menentukan tanggal atau waktu mulai peristiwa pemeliharaan. Jika Anda tidak menggunakan fitur ini, peristiwa pemeliharaan akan terjadi pada waktu yang ditunjukkan dalam notifikasi pemeliharaan mendatang.
Untuk mengetahui informasi tentang cara memulai pemeliharaan secara manual untuk TPU di GKE, lihat Mengelola gangguan node GKE untuk GPU dan TPU.
Batasan
Anda hanya dapat memulai peristiwa pemeliharaan host secara manual untuk VM TPU dengan konfigurasi berikut:
- VM TPU v4 atau v5p
- VM TPU v5e atau v6e dengan konfigurasi topologi
2x4
(misalnya,v6e-8
jika menggunakan kolom jenis akselerator di Cloud TPU API) atau yang lebih besar - Node pool multi-host GKE v5e atau v6e dengan VM TPU yang berukuran
2x4
atau lebih besar
Memulai pemeliharaan host segera untuk slice yang lebih besar dapat menyebabkan slice tidak tersedia hingga beberapa jam. Biasanya, peristiwa pemeliharaan host akan menyebabkan slice dijadwalkan ulang sesegera mungkin ke set host lain yang memenuhi syarat, tetapi untuk permintaan peristiwa pemeliharaan host yang lebih besar, mungkin tidak ada kapasitas yang cukup untuk segera menjadwalkan ulang slice, sehingga menyebabkan waktu tunggu yang lebih lama.
Selain itu, memulai pemeliharaan pada slice Cloud TPU akan memulai pemeliharaan untuk semua VM TPU yang mendasarinya. Jika Anda melakukan pemeliharaan langsung pada salah satu instance menggunakan Instances API, semua instance dalam slice Cloud TPU akan memasuki pemeliharaan. Sebagai gantinya, gunakan
queued-resources
Cloud TPU API untuk menentukan node mana yang harus
menjalankan pemeliharaan.
Memulai peristiwa pemeliharaan host secara manual
Anda dapat menggunakan notifikasi pemeliharaan untuk menentukan kapan Anda dapat memulai peristiwa pemeliharaan secara manual di TPU.
Periksa informasi notifikasi
Anda dapat menemukan notifikasi untuk peristiwa pemeliharaan mendatang menggunakan Cloud TPU API atau dengan membuat kueri server metadata di VM Anda. Untuk mengetahui informasi selengkapnya, lihat Melihat notifikasi pemeliharaan.
Anda dapat memulai peristiwa pemeliharaan lebih awal jika ada notifikasi pemeliharaan host mendatang di TPU. Untuk memulai peristiwa pemeliharaan lebih awal, notifikasi pemeliharaan host mendatang harus memiliki
canReschedule
yang ditetapkan ke true
dan maintenanceStatus
yang ditetapkan ke PENDING
.
Mulai peristiwa pemeliharaan
Untuk memulai peristiwa pemeliharaan host, Anda dapat menggunakan Cloud TPU API dengan perintah perform-maintenance
:
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
Saat operasi selesai, kolom windowEndTime
dan windowStartTime
akan berubah menjadi waktu saat Anda memulai peristiwa pemeliharaan, dan kolom maintenanceStatus
akan berubah menjadi ONGOING
. Peristiwa pemeliharaan host
akan segera dimulai.
Gunakan perintah gcloud alpha compute tpus tpu-vm describe
untuk melihat
status peristiwa pemeliharaan:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
Pada outputnya, akan terdapat bagian yang mirip seperti berikut ini:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
Pemeliharaan selesai saat status TPU VM adalah READY
dan output dari
perintah gcloud alpha compute tpus tpu-vm describe
tidak lagi berisi kolom metadata
upcomingMaintenance
.
Untuk lingkungan Multislice, Anda dapat memulai peristiwa pemeliharaan host secara manual pada slice tertentu menggunakan perintah berikut:
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES
adalah daftar slice (node) yang dipisahkan koma dalam resource yang diantrekan, yang ingin Anda mulai peristiwa pemeliharaan hostnya. Misalnya, jika resource
yang diantrekan memiliki node bernama my-qr-0, my-qr-1
, dan my-qr-2
, input yang valid untuk perintah
perform-maintenance
adalah --node-names=my-qr-0,my-qr-1
.