Gerenciar eventos de manutenção do host da GPU

Quando o Compute Engine realiza manutenção em uma máquina virtual (VM) com unidades de processamento gráfico (GPUs) anexadas, a VM precisa ser interrompida. Isso ocorre porque as VMs com GPUs anexadas não podem ser migradas em tempo real.

Defina essas VMs para interromper os eventos de manutenção de host. É possível configurar as VMs interrompidas para que sejam reiniciadas automaticamente após a conclusão do evento de manutenção.

Os eventos de manutenção do host geralmente ocorrem uma vez a cada duas semanas, mas podem ser executados com mais frequência.

Este documento discute como minimizar as interrupções das cargas de trabalho durante um evento de manutenção.

Receber avisos com antecedência antes de eventos de manutenção

Você pode monitorar o cronograma de manutenção da instância de máquina virtual (VM) e preparar as cargas de trabalho para a transição durante a reinicialização do sistema.

Para receber aviso antecipado de eventos do host, monitore o valor de metadados /computeMetadata/v1/instance/maintenance-event. Se a solicitação ao servidor de metadados retornar NONE, a VM não está programada para ser interrompida. Por exemplo, execute o seguinte comando em uma VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Se o servidor de metadados retornar TERMINATE_ON_HOST_MAINTENANCE, a instância de VM estará programada para ser encerrada. O Compute Engine fornece às VMs de GPU um aviso de interrupção de uma hora, enquanto as VMs normais recebem apenas um aviso de 60 segundos. Configure seu aplicativo para a transição durante o evento de manutenção. Por exemplo, é possível usar uma das técnicas a seguir:

Configure seu aplicativo para migrar o trabalho em andamento temporariamente para um bucket do Cloud Storage e, em seguida, recuperar esses dados após a reinicialização da instância.
Grave os dados em um disco permanente secundário. Quando a VM reiniciar automaticamente, o disco permanente poderá ser reanexado e o aplicativo continuará com o trabalho.

A seguir

Saiba mais sobre as plataformas de GPU.
Para saber mais sobre como gerenciar e escalonar os grupos de VMs, consulte Definir o tamanho de destino do grupo.
Consulte Como monitorar o desempenho da GPU para mais informações sobre esse assunto.
Para melhorar o desempenho da rede, consulte Usar uma largura de banda de rede maior.
Saiba como resolver problemas de desligamento e reinicializações da VM.

Gerenciar eventos de manutenção do host da GPU Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Receber avisos com antecedência antes de eventos de manutenção

A seguir

Gerenciar eventos de manutenção do host da GPU