Monitorando o desempenho da GPU em VMs Linux


Você pode acompanhar métricas como utilização de GPU e memória de GPU de instâncias de máquina virtual (VM) usando o Ops Agent , que é a solução de coleta de telemetria recomendada pelo Google para o Compute Engine. Ao usar o Ops Agent, você pode gerenciar suas VMs de GPU da seguinte maneira:

  • Visualize a integridade da sua frota de GPUs NVIDIA com nossos painéis pré-configurados.
  • Otimize custos identificando GPUs subutilizadas e consolidando cargas de trabalho.
  • Planeje o dimensionamento observando as tendências para decidir quando expandir a capacidade da GPU ou atualizar as GPUs existentes.
  • Use métricas de criação de perfil do NVIDIA Data Center GPU Manager (DCGM) para identificar gargalos e problemas de desempenho em suas GPUs.
  • Configure grupos gerenciados de instâncias (MIGs) para escalonar recursos automaticamente.
  • Receba alertas sobre métricas de suas GPUs NVIDIA.

Este documento aborda os procedimentos para monitorar GPUs em VMs Linux usando o Ops Agent. Como alternativa, um script de relatório está disponível no GitHub que também pode ser configurado para monitorar o uso de GPU em VMs Linux. Consulte script de monitoramento compute-gpu-monitoring . Este script não é mantido ativamente.

Para monitorar GPUs em VMs do Windows, consulte Monitorando o desempenho da GPU (Windows) .

Visão geral

O Ops Agent, versão 2.38.0 ou posterior, pode rastrear automaticamente a utilização da GPU e as taxas de uso de memória da GPU nas VMs Linux que têm o agente instalado. Essas métricas, obtidas da NVIDIA Management Library (NVML), são rastreadas por GPU e por processo para qualquer processo que use GPUs. Para visualizar as métricas monitoradas pelo agente de operações, consulte Métricas do agente: gpu .

Você também pode configurar a integração do NVIDIA Data Center GPU Manager (DCGM) com o Ops Agent. Essa integração permite que o agente de operações rastreie métricas usando os contadores de hardware na GPU. O DCGM fornece acesso às métricas no nível do dispositivo GPU. Isso inclui utilização de bloco de multiprocessador de streaming (SM), ocupação de SM, utilização de pipe SM, taxa de tráfego PCIe e taxa de tráfego NVLink. Para visualizar as métricas monitoradas pelo agente de operações, consulte Métricas de aplicativos de terceiros: NVIDIA Data Center GPU Manager (DCGM) .

Para revisar as métricas de GPU usando o Ops Agent, conclua as etapas a seguir:

  1. Em cada VM, verifique se você atendeu aos requisitos .
  2. Em cada VM, instale o Ops Agent .
  3. Opcional: em cada VM, configure a integração do NVIDIA Data Center GPU Manager (DCGM) .
  4. Revise as métricas no Cloud Monitoring .

Limitações

  • O Ops Agent não rastreia a utilização da GPU em VMs que usam o Container-Optimized OS.

Requisitos

Em cada uma das suas VMs, verifique se você atende aos seguintes requisitos:

Instale o agente de operações

Para instalar o Ops Agent, conclua as seguintes etapas:

  1. Se você estava usando anteriormente o script de monitoramento compute-gpu-monitoring para rastrear a utilização da GPU, desative o serviço antes de instalar o Ops Agent. Para desabilitar o script de monitoramento, execute o seguinte comando:

    sudo systemctl --no-reload --now disable google_gpu_monitoring_agent
  2. Instale a versão mais recente do Ops Agent. Para obter instruções detalhadas, consulte Instalando o Ops Agent .

  3. Depois de instalar o agente de operações, se precisar instalar ou atualizar os drivers de GPU usando os scripts de instalação fornecidos pelo Compute Engine , revise a seção de limitações .

Revise as métricas NVML no Compute Engine

Você pode revisar as métricas NVML que o agente de operações coleta nas guias Observabilidade para instâncias de VM Linux do Compute Engine.

Para visualizar as métricas de uma única VM, faça o seguinte:

  1. No console do Google Cloud, acesse a página de instâncias de VM .

    Acesse as instâncias de VM

  2. Selecione uma VM para abrir a página Detalhes .

  3. Clique na guia Observabilidade para exibir informações sobre a VM.

  4. Selecione o filtro rápido GPU .

Para visualizar as métricas de várias VMs, faça o seguinte:

  1. No console do Google Cloud, acesse a página de instâncias de VM .

    Acesse as instâncias de VM

  2. Clique na guia Observabilidade .

  3. Selecione o filtro rápido GPU .

Opcional: configurar a integração do NVIDIA Data Center GPU Manager (DCGM)

O Ops Agent também fornece integração para o NVIDIA Data Center GPU Manager (DCGM) para coletar as principais métricas avançadas de GPU, como utilização de bloco de multiprocessador de streaming (SM), ocupação de SM, utilização de pipe SM, taxa de tráfego PCIe e taxa de tráfego NVLink.

Essas métricas avançadas de GPU não são coletadas dos modelos NVIDIA P100 e P4.

Para obter instruções detalhadas sobre como configurar e usar essa integração em cada VM, consulte NVIDIA Data Center GPU Manager (DCGM) .

Revise as métricas do DCGM no Cloud Monitoring

  1. No console do Google Cloud, acesse a página Monitoramento > Painéis .

    Vá para Monitoramento

  2. Selecione a guia Biblioteca de amostras .

  3. No campo Filtro , digite NVIDIA . O painel Visão geral do monitoramento de GPU NVIDIA (GCE e GKE) é exibido.

    Se você configurou a integração do NVIDIA Data Center GPU Manager (DCGM), o painel NVIDIA GPU Monitoring Advanced DCGM Metrics (GCE Only) também será exibido.

    Painéis do Cloud Monitoring

  4. Para o painel necessário, clique em Visualizar . A página de visualização do painel de amostra é exibida.

  5. Na página Visualização do painel de amostra , clique em Importar painel de amostra .

    • O painel Visão geral do monitoramento de GPU NVIDIA (GCE e GKE) exibe as métricas de GPU, como utilização de GPU, taxa de tráfego de NIC e uso de memória de GPU.

      A exibição de utilização da GPU é semelhante à seguinte saída:

      Monitoramento de nuvem (NVML)

    • O painel NVIDIA GPU Monitoring Advanced DCGM Metrics (GCE Only) exibe as principais métricas avançadas, como utilização de SM, ocupação de SM, utilização de pipe SM, taxa de tráfego PCIe e taxa de tráfego NVLink.

      Sua exibição Advanced DCGM Metric é semelhante à seguinte saída:

      Monitoramento de nuvem (DCGM)

O que vem a seguir?