Melihat notifikasi pemeliharaan
Peristiwa pemeliharaan host adalah saat Google Cloud harus melakukan aktivitas pemeliharaan atau perbaikan pada TPU Anda. Google mengirimkan notifikasi untuk pemeliharaan host mendatang sebelum pemeliharaan dilakukan. Saat masa pemeliharaan dimulai, Google Cloud pemeliharaan otomatis akan dilakukan pada instance Anda. Dengan memantau masa pemeliharaan mendatang instance, Anda dapat secara proaktif menyiapkan workload untuk menangani pemeliharaan mendatang dengan gangguan minimal.
Cloud TPU memungkinkan Anda melihat notifikasi pemeliharaan menggunakan Google Cloud CLI dan dengan membuat kueri server metadata. Anda juga dapat melihat peristiwa pemeliharaan mendatang di Cloud Logging. Untuk mengetahui informasi tentang cara melihat notifikasi pemeliharaan untuk TPU di GKE, lihat Mengelola gangguan node GKE untuk GPU dan TPU.
Kolom notifikasi pemeliharaan
Notifikasi pemeliharaan berisi kolom berikut:
windowStartTime
: Awal periode waktu saat pemeliharaan akan terjadiwindowEndTime
: Akhir interval waktu saat pemeliharaan akan terjadilatestWindowStartTime
: Waktu terbaru saat masa pemeliharaan dapat dipindahkanmaintenanceType
: Jenis pemeliharaan yang akan dilakukanSCHEDULED
: Pemeliharaan akan mendapatkan pemberitahuan tujuh hari sebelumnyaUNSCHEDULED
: Pemeliharaan mewakili update penting yang pemberitahuannya lebih singkat daripada peristiwa pemeliharaan terjadwal
canReschedule
: Apakah Anda dapat memulai pemeliharaan secara manual selama periode notifikasi untuk VM ini.TRUE
: Anda dapat memulai pemeliharaan secara manual selama periode pemberitahuan.FALSE
: Anda tidak dapat memulai pemeliharaan secara manual di VM ini. Hal ini biasanya terjadi selama periode saat VM sedang menjalani pemeliharaan secara aktif.
maintenanceStatus
: Status operasi pemeliharaan saat iniONGOING
: Operasi pemeliharaan sedang berlangsungPENDING
: Operasi pemeliharaan belum dimulai, tetapi dijadwalkan
Jika tidak ada notifikasi pemeliharaan, responsnya akan terlihat seperti berikut:
{ "error": "no notifications have been received yet, try again later" }
Perilaku status pemeliharaan
Saat mengelola peristiwa pemeliharaan, periksa nilai untuk canReschedule
dan
maintenanceStatus
. Jika digabungkan, kolom ini menunjukkan tindakan yang dapat atau tidak dapat Anda lakukan terkait memulai peristiwa pemeliharaan secara manual:
canReschedule=True
danmaintenanceStatus=Pending
: Anda dapat memulai peristiwa pemeliharaan untuk instance secara manual sebelum waktu mulai yang dijadwalkan.canReschedule=False
danmaintenanceStatus=Ongoing
: pemeliharaan sedang berlangsung dan tidak dapat dijadwalkan ulang.canReschedule=False
danmaintenanceStatus=Pending
: instance Anda tidak mendukung peristiwa pemeliharaan yang dipicu secara manual.
Melihat notifikasi pemeliharaan
Anda dapat melihat notifikasi pemeliharaan dengan:
- Memanggil Cloud TPU API menggunakan Google Cloud CLI
- Membuat kueri server metadata di VM Anda
- Memeriksa Cloud Logging
Periksa TPU untuk melihat notifikasi pemeliharaan
gcloud
Gunakan perintah gcloud alpha compute tpus tpu-vm
describe
untuk melihat
notifikasi pemeliharaan:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
Jika ada acara pemeliharaan mendatang, respons akan berisi bagian seperti berikut:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: PENDING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
Dalam respons ini:
- Pemeliharaan dijadwalkan untuk tanggal dan waktu yang ditampilkan di
windowStartTime
. canReschedule
disetel ketrue
danmaintenanceStatus
disetel kePENDING
. Setelan ini menunjukkan bahwa Anda dapat memulai acara pemeliharaan terjadwal secara manual sebelum tanggal yang ditampilkan dilatestWindowStartTime
.
Server metadata
Dari VM TPU, buat kueri server metadata untuk melihat peristiwa pemeliharaan berikutnya:
curl http://metadata.google.internal/computeMetadata/v1/instance/upcoming-maintenance?alt=json -H "Metadata-Flavor: Google"
Jika ada acara pemeliharaan mendatang, respons akan berisi bagian yang mirip dengan berikut ini:
Upcoming maintenance: { "can_reschedule" : "true", "latest_window_start_time" : "2024-06-12T16:00:01+00:00", "maintenance_status" : "PENDING", "type" : "SCHEDULED", "window_end_time" : "2024-06-12T20:00:00+00:00", "window_start_time" : "2024-06-12T16:00:00+00:00" }
Anda dapat membuat kueri server metadata dari TPU VM mana pun dalam slice karena notifikasi peristiwa pemeliharaan mendatang sama untuk semua VM dalam slice.
Untuk mengetahui informasi selengkapnya tentang metadata VM, lihat artikel Tentang metadata VM dalam dokumentasi Compute Engine.
Periksa Cloud Logging untuk melihat notifikasi pemeliharaan
Saat notifikasi dijadwalkan di Cloud TPU Anda, Cloud Logging akan berisi log peristiwa sistem untuk peristiwa tersebut, dengan methodName
:
compute.instance.upcomingMaintenance
. Untuk melihat log untuk acara pemeliharaan mendatang:
Di menu navigasi konsol Google Cloud , buka halaman Logs Explorer:
Gunakan kueri penelusuran berikut untuk melihat TPU yang memiliki acara pemeliharaan mendatang yang dijadwalkan:
"compute.instances.upcomingMaintenance"
Cloud TPU mencatat peristiwa pemeliharaan mendatang di Cloud Logging menurut instance VM individual, misalnya,
t1v-n-5bdca789-w-0
.
Contoh log notifikasi pemeliharaan
Notifikasi peristiwa pemeliharaan muncul di Logs Explorer dengan nilai yang mirip dengan berikut:
methodName
:"compute.instances.upcomingMaintenance"
metadata
:maintenanceStatus
:"PENDING"
windowStartTime
:"2024-07-23T20:00:00Z"
Berikut adalah contoh entri log lengkap untuk acara pemeliharaan mendatang:
{
"protoPayload": {
"@type": "type.googleapis.com/google.cloud.audit.AuditLog",
"status": {
"message": "Maintenance is scheduled for this instance. Review the maintenance schedule by describing the VM with gcloud CLI or querying the http://metadata.google.internal/computeMetadata/v1/instance/upcoming-maintenance metadata key."
},
"serviceName": "compute.googleapis.com",
"methodName": "compute.instances.upcomingMaintenance",
"resourceName": "projects/cloud-tpu-multipod-dev/zones/europe-west4-b/instances/t1v-n-9472280f-w-0",
"request": {
"@type": "type.googleapis.com/compute.instances.upcomingMaintenance"
},
"metadata": {
"type": "SCHEDULED",
"windowStartTime": "2024-11-15T04:00:00Z",
"canReschedule": true,
"latestWindowStartTime": "2024-11-15T04:00:01Z",
"windowEndTime": "2024-11-15T08:00:00Z",
"maintenanceStatus": "PENDING"
},
"logName": "projects/cloud-tpu-multipod-dev/logs/cloudaudit.googleapis.com%2Fsystem_event",
"operation": {
"id": "systemevent-1731038451389-6265ecbfcd453-5127b81e-f40b8149",
"producer": "compute.instances.upcomingMaintenance",
"first": true,
"last": true
},
"receiveTimestamp": "2024-11-08T04:00:54.457835088Z"
}
Saat peristiwa pemeliharaan dimulai, peristiwa informasi baru akan muncul di log dengan nilai yang mirip dengan berikut ini:
methodName
:"compute.instances.upcomingMaintenance"
metadata
:maintenanceStatus
:"ONGOING"
windowStartTime
:"2024-07-23T20:00:00Z"
Saat peristiwa pemeliharaan berakhir, peristiwa informasi baru akan muncul di log audit dengan nilai yang mirip dengan berikut ini:
methodName
:"compute.instances.upcomingMaintenance"
status: { message: "Maintenance window has completed for this instance. All maintenance notifications on the instance have been removed." }