Melihat notifikasi pemeliharaan

Peristiwa pemeliharaan host adalah saat Google Cloud harus melakukan aktivitas pemeliharaan atau perbaikan pada TPU Anda. Google mengirimkan notifikasi untuk pemeliharaan host mendatang sebelum pemeliharaan dilakukan. Saat masa pemeliharaan dimulai, Google Cloud pemeliharaan otomatis akan dilakukan pada instance Anda. Dengan memantau masa pemeliharaan mendatang instance, Anda dapat secara proaktif menyiapkan workload untuk menangani pemeliharaan mendatang dengan gangguan minimal.

Cloud TPU memungkinkan Anda melihat notifikasi pemeliharaan menggunakan Google Cloud CLI dan dengan membuat kueri server metadata. Anda juga dapat melihat peristiwa pemeliharaan mendatang di Cloud Logging. Untuk mengetahui informasi tentang cara melihat notifikasi pemeliharaan untuk TPU di GKE, lihat Mengelola gangguan node GKE untuk GPU dan TPU.

Kolom notifikasi pemeliharaan

Notifikasi pemeliharaan berisi kolom berikut:

  • windowStartTime: Awal periode waktu saat pemeliharaan akan terjadi
  • windowEndTime: Akhir interval waktu saat pemeliharaan akan terjadi
  • latestWindowStartTime: Waktu terbaru saat masa pemeliharaan dapat dipindahkan
  • maintenanceType: Jenis pemeliharaan yang akan dilakukan
    • SCHEDULED: Pemeliharaan akan mendapatkan pemberitahuan tujuh hari sebelumnya
    • UNSCHEDULED: Pemeliharaan mewakili update penting yang pemberitahuannya lebih singkat daripada peristiwa pemeliharaan terjadwal
  • canReschedule: Apakah Anda dapat memulai pemeliharaan secara manual selama periode notifikasi untuk VM ini.
    • TRUE: Anda dapat memulai pemeliharaan secara manual selama periode pemberitahuan.
    • FALSE: Anda tidak dapat memulai pemeliharaan secara manual di VM ini. Hal ini biasanya terjadi selama periode saat VM sedang menjalani pemeliharaan secara aktif.
  • maintenanceStatus: Status operasi pemeliharaan saat ini
    • ONGOING: Operasi pemeliharaan sedang berlangsung
    • PENDING: Operasi pemeliharaan belum dimulai, tetapi dijadwalkan

Jika tidak ada notifikasi pemeliharaan, responsnya akan terlihat seperti berikut:

{ "error": "no notifications have been received yet, try again later" }

Perilaku status pemeliharaan

Saat mengelola peristiwa pemeliharaan, periksa nilai untuk canReschedule dan maintenanceStatus. Jika digabungkan, kolom ini menunjukkan tindakan yang dapat atau tidak dapat Anda lakukan terkait memulai peristiwa pemeliharaan secara manual:

  • canReschedule=True dan maintenanceStatus=Pending: Anda dapat memulai peristiwa pemeliharaan untuk instance secara manual sebelum waktu mulai yang dijadwalkan.
  • canReschedule=False dan maintenanceStatus=Ongoing: pemeliharaan sedang berlangsung dan tidak dapat dijadwalkan ulang.
  • canReschedule=False dan maintenanceStatus=Pending: instance Anda tidak mendukung peristiwa pemeliharaan yang dipicu secara manual.

Melihat notifikasi pemeliharaan

Anda dapat melihat notifikasi pemeliharaan dengan:

  • Memanggil Cloud TPU API menggunakan Google Cloud CLI
  • Membuat kueri server metadata di VM Anda
  • Memeriksa Cloud Logging

Periksa TPU untuk melihat notifikasi pemeliharaan

gcloud

Gunakan perintah gcloud alpha compute tpus tpu-vm describe untuk melihat notifikasi pemeliharaan:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

Jika ada acara pemeliharaan mendatang, respons akan berisi bagian seperti berikut:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: PENDING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

Dalam respons ini:

  • Pemeliharaan dijadwalkan untuk tanggal dan waktu yang ditampilkan di windowStartTime.
  • canReschedule disetel ke true dan maintenanceStatus disetel ke PENDING. Setelan ini menunjukkan bahwa Anda dapat memulai acara pemeliharaan terjadwal secara manual sebelum tanggal yang ditampilkan di latestWindowStartTime.

Server metadata

Dari VM TPU, buat kueri server metadata untuk melihat peristiwa pemeliharaan berikutnya:

curl http://metadata.google.internal/computeMetadata/v1/instance/upcoming-maintenance?alt=json -H "Metadata-Flavor: Google"

Jika ada acara pemeliharaan mendatang, respons akan berisi bagian yang mirip dengan berikut ini:

Upcoming maintenance: {
    "can_reschedule" : "true",
    "latest_window_start_time" : "2024-06-12T16:00:01+00:00",
    "maintenance_status" : "PENDING",
    "type" : "SCHEDULED",
    "window_end_time" : "2024-06-12T20:00:00+00:00",
    "window_start_time" : "2024-06-12T16:00:00+00:00"
}

Anda dapat membuat kueri server metadata dari TPU VM mana pun dalam slice karena notifikasi peristiwa pemeliharaan mendatang sama untuk semua VM dalam slice.

Untuk mengetahui informasi selengkapnya tentang metadata VM, lihat artikel Tentang metadata VM dalam dokumentasi Compute Engine.

Periksa Cloud Logging untuk melihat notifikasi pemeliharaan

Saat notifikasi dijadwalkan di Cloud TPU Anda, Cloud Logging akan berisi log peristiwa sistem untuk peristiwa tersebut, dengan methodName: compute.instance.upcomingMaintenance. Untuk melihat log untuk acara pemeliharaan mendatang:

  1. Di menu navigasi konsol Google Cloud , buka halaman Logs Explorer:

    Buka Logs Explorer

  2. Gunakan kueri penelusuran berikut untuk melihat TPU yang memiliki acara pemeliharaan mendatang yang dijadwalkan:

    "compute.instances.upcomingMaintenance"

    Cloud TPU mencatat peristiwa pemeliharaan mendatang di Cloud Logging menurut instance VM individual, misalnya, t1v-n-5bdca789-w-0.

Contoh log notifikasi pemeliharaan

Notifikasi peristiwa pemeliharaan muncul di Logs Explorer dengan nilai yang mirip dengan berikut:

  • methodName: "compute.instances.upcomingMaintenance"
  • metadata:
    • maintenanceStatus: "PENDING"
    • windowStartTime: "2024-07-23T20:00:00Z"

Berikut adalah contoh entri log lengkap untuk acara pemeliharaan mendatang:

{
  "protoPayload": {
    "@type": "type.googleapis.com/google.cloud.audit.AuditLog",
    "status": {
      "message": "Maintenance is scheduled for this instance. Review the maintenance schedule by describing the VM with gcloud CLI or querying the http://metadata.google.internal/computeMetadata/v1/instance/upcoming-maintenance metadata key."
    },
    "serviceName": "compute.googleapis.com",
    "methodName": "compute.instances.upcomingMaintenance",
    "resourceName": "projects/cloud-tpu-multipod-dev/zones/europe-west4-b/instances/t1v-n-9472280f-w-0",
    "request": {
      "@type": "type.googleapis.com/compute.instances.upcomingMaintenance"
    },
    "metadata": {
      "type": "SCHEDULED",
      "windowStartTime": "2024-11-15T04:00:00Z",
      "canReschedule": true,
      "latestWindowStartTime": "2024-11-15T04:00:01Z",
      "windowEndTime": "2024-11-15T08:00:00Z",
      "maintenanceStatus": "PENDING"
  },
  "logName": "projects/cloud-tpu-multipod-dev/logs/cloudaudit.googleapis.com%2Fsystem_event",
  "operation": {
    "id": "systemevent-1731038451389-6265ecbfcd453-5127b81e-f40b8149",
    "producer": "compute.instances.upcomingMaintenance",
    "first": true,
    "last": true
  },
  "receiveTimestamp": "2024-11-08T04:00:54.457835088Z"
}

Saat peristiwa pemeliharaan dimulai, peristiwa informasi baru akan muncul di log dengan nilai yang mirip dengan berikut ini:

  • methodName: "compute.instances.upcomingMaintenance"
  • metadata:
    • maintenanceStatus: "ONGOING"
    • windowStartTime: "2024-07-23T20:00:00Z"

Saat peristiwa pemeliharaan berakhir, peristiwa informasi baru akan muncul di log audit dengan nilai yang mirip dengan berikut ini:

  • methodName: "compute.instances.upcomingMaintenance"
  • status: { message: "Maintenance window has completed for this instance. All maintenance notifications on the instance have been removed." }

Langkah berikutnya