Cuando Compute Engine realiza mantenimiento en una máquina virtual (VM) con unidades de procesamiento de gráficos (GPU) conectadas , se debe detener la VM. Esto se debe a que las máquinas virtuales con GPU conectadas no se pueden migrar en vivo .
Debe configurar estas máquinas virtuales para que se detengan en caso de eventos de mantenimiento del host . Puede configurar sus máquinas virtuales detenidas para que se reinicien automáticamente una vez que se complete el evento de mantenimiento.
Los eventos de mantenimiento del host suelen ocurrir una vez cada dos semanas, pero en ocasiones pueden realizarse con más frecuencia.
Este documento analiza cómo puede minimizar las interrupciones en sus cargas de trabajo durante un evento de mantenimiento.
Reciba un aviso previo antes de los eventos de mantenimiento
Puede monitorear el programa de mantenimiento de su instancia de máquina virtual (VM) y preparar sus cargas de trabajo para la transición durante el reinicio del sistema.
Para recibir notificaciones anticipadas sobre eventos del host, supervise el valor de metadatos /computeMetadata/v1/instance/maintenance-event
. Si la solicitud al servidor de metadatos devuelve NONE
, entonces la máquina virtual no está programada para detenerse. Por ejemplo, ejecute el siguiente comando desde una VM:
curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"
NONE
Si el servidor de metadatos devuelve TERMINATE_ON_HOST_MAINTENANCE
, entonces su VM está programada para detenerse. Compute Engine proporciona a las máquinas virtuales con GPU un aviso de detención de 1 hora, mientras que las máquinas virtuales normales reciben solo un aviso de 60 segundos. Configure su aplicación para realizar la transición a través del evento de mantenimiento. Por ejemplo, podría utilizar una de las siguientes técnicas:
Configure su aplicación para mover temporalmente el trabajo en progreso a un depósito de Cloud Storage y luego recupere esos datos después de que se reinicie la VM.
Escriba datos en un disco persistente secundario . Cuando la máquina virtual se reinicia automáticamente, el disco persistente se puede volver a conectar y su aplicación puede reanudar el trabajo.
¿Qué sigue?
- Obtenga más información sobre las plataformas GPU .
- Para obtener más información sobre cómo administrar y escalar grupos de máquinas virtuales, consulte Establecer el tamaño objetivo del grupo .
- Para monitorear el rendimiento de la GPU, consulte Monitoreo del rendimiento de la GPU .
- Para mejorar el rendimiento de la red, consulte Usar un mayor ancho de banda de red .
- Aprenda cómo solucionar problemas de apagados y reinicios de VM .