Quando Compute Engine esegue la manutenzione di una macchina virtuale (VM) con unità di elaborazione grafica (GPU) collegate, la VM deve essere arrestata. Questo perché non è possibile eseguire la migrazione live delle VM con GPU collegate.
Devi impostare queste VM in modo che si arrestino per gli eventi di manutenzione dell'host. Puoi impostare le VM arrestate in modo che si riavviino automaticamente al termine dell'evento di manutenzione.
Gli eventi di manutenzione dell'host si verificano in genere una volta ogni due settimane, ma a volte potrebbero essere eseguiti più di frequente.
Questo documento illustra come ridurre al minimo le interruzioni dei workload durante un evento di manutenzione.
Ricevi una notifica in anticipo prima degli eventi di manutenzione
Puoi monitorare la pianificazione della manutenzione per l'istanza della tua macchina virtuale (VM) e preparare i tuoi workload per la transizione durante il riavvio del sistema.
Per ricevere un preavviso degli eventi dell'host, monitora il
valore dei metadati /computeMetadata/v1/instance/maintenance-event
.
Se la richiesta al server dei metadati restituisce NONE
, l'arresto della VM
non è pianificato. Ad esempio, esegui il seguente comando da una VM:
curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"
NONE
Se il server metadati restituisce TERMINATE_ON_HOST_MAINTENANCE
,
l'interruzione della VM è pianificata. Compute Engine invia alle VM GPU
un preavviso di arresto di 1 ora, mentre le VM normali ricevono solo
un preavviso di 60 secondi. Configura l'applicazione in modo che effettui la transizione tramite
l'evento di manutenzione. Ad esempio, puoi utilizzare una delle seguenti tecniche:
Configura l'applicazione in modo da spostare temporaneamente il lavoro in corso in un bucket Cloud Storage, quindi recupera i dati dopo il riavvio della VM.
Scrivi i dati su un disco permanente secondario. Quando la VM si riavvia automaticamente, il disco permanente può essere nuovamente collegato e l'applicazione può riprendere il lavoro.
Passaggi successivi
- Scopri di più sulle piattaforme GPU.
- Per scoprire di più sulla gestione e sull'adattamento alle dimensioni di gruppi di VM, consulta Imposta la dimensione target del gruppo.
- Per monitorare le prestazioni della GPU, consulta Monitoraggio delle prestazioni della GPU.
- Per migliorare le prestazioni della rete, consulta Utilizza una larghezza di banda di rete superiore.
- Scopri come risolvere i problemi relativi agli arresti e ai riavvii delle VM.