Cuando Compute Engine realiza mantenimiento en una máquina virtual (VM) con unidades de procesamiento gráfico (GPUs) conectadas, la VM debe detenerse. Esto se debe a que las máquinas virtuales con GPUs conectadas no se pueden migrar en directo.
Debes configurar estas VMs para que se detengan cuando se produzcan eventos de mantenimiento del host. Puedes configurar tus VMs detenidas para que se reinicien automáticamente una vez que se haya completado el evento de mantenimiento.
Los eventos de mantenimiento de los hosts suelen producirse una vez cada dos semanas, pero en ocasiones pueden realizarse con más frecuencia.
En este documento se explica cómo puedes minimizar las interrupciones en tus cargas de trabajo durante un evento de mantenimiento.
Recibir un aviso con antelación antes de los eventos de mantenimiento
Puedes monitorizar la programación del mantenimiento de tu instancia de máquina virtual y preparar tus cargas de trabajo para que pasen por el reinicio del sistema.
Para recibir un aviso anticipado de los eventos del anfitrión, monitoriza el valor de metadatos /computeMetadata/v1/instance/maintenance-event
.
Si la solicitud al servidor de metadatos devuelve NONE
, significa que la VM no tiene programada ninguna parada. Por ejemplo, ejecuta el siguiente comando desde una máquina virtual:
curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"
NONE
Si el servidor de metadatos devuelve TERMINATE_ON_HOST_MAINTENANCE
, significa que se ha programado la detención de tu VM. Compute Engine avisa con 1 hora de antelación a las máquinas virtuales con GPU, mientras que las máquinas virtuales normales reciben un aviso de solo 60 segundos. Configura tu aplicación para que pase por el evento de mantenimiento. Por ejemplo, puede usar una de las siguientes técnicas:
Configura tu aplicación para que mueva temporalmente el trabajo en curso a un segmento de Cloud Storage y, a continuación, recupere esos datos después de que se reinicie la VM.
Escribir datos en un disco persistente secundario. Cuando la máquina virtual se reinicie automáticamente, el disco persistente se podrá volver a conectar y tu aplicación podrá reanudar el trabajo.
Siguientes pasos
- Consulta más información sobre las plataformas de GPU.
- Para obtener más información sobre cómo gestionar y escalar grupos de VMs, consulta Definir el tamaño objetivo del grupo.
- Para monitorizar el rendimiento de la GPU, consulta Monitorizar el rendimiento de la GPU.
- Para mejorar el rendimiento de la red, consulta Usar un ancho de banda de red mayor.
- Consulta cómo solucionar problemas de apagado y reinicio de máquinas virtuales.