Gerar relatório de bug da NVIDIA para GPUs Blackwell


Neste documento, explicamos como criar um relatório de bugs da NVIDIA para seus tipos de máquina que usam GPUs NVIDIA Blackwell. Para identificar quais dos seus tipos de máquina estão usando a GPU NVIDIA Blackwell, consulte Modelos de GPU.

Se o tipo de máquina usar a arquitetura de GPU NVIDIA Blackwell, o relatório de bug gerado não vai incluir dados críticos de hardware de baixo nível ao executar o script nvidia-bug-report.sh. Esses dados contêm informações como o status da camada física das conexões NVLink, valores de registro internos da GPU e segmentos de diagnóstico brutos do firmware. Essas informações são essenciais para diagnosticar problemas, especialmente os relacionados ao NVLink, que podem levar a erros Xid da GPU ou degradação de desempenho não resolvida.

Gerar um relatório de bugs da NVIDIA

Para gerar um relatório de bug, siga estas etapas:

  1. Conecte-se à instância de GPU. Escolha uma das seguintes opções:

  2. Faça o download e instale o pacote MFT selecionando uma das seguintes opções:

Container-Optimized OS

Se a instância usar um Container-Optimized OS (COS) como o sistema operacional convidado, use a ferramenta de código aberto GCE COS NVIDIA Bug Report Collector para gerar o relatório de erros com MFT. Essa ferramenta injeta automaticamente módulos de kernel MST compatíveis que correspondem ao kernel do COS, instala a ferramenta de espaço do usuário, gera o relatório de bug e, opcionalmente, faz upload do resultado para um bucket do Cloud Storage.

Outros SOs

Para outros SOs Linux, siga estas etapas:

  1. Faça o download e instale a versão 4.32.0 ou mais recente do software NVIDIA Firmware Tools (MFT) no site da NVIDIA.
  2. Instale a ferramenta. Para mais informações, consulte Compilação e instalação na documentação das ferramentas de firmware da NVIDIA (MFT). Depois de instalar o MFT, o script nvidia-bug-report.sh usa automaticamente as ferramentas do MFT para gerar o relatório. Não é necessário interagir diretamente com as ferramentas de MFT.
  3. Execute o script nvidia-bug-report.sh para gerar um relatório do bug. Esse processo leva cerca de dois minutos.
  4. Extraia o relatório.
  5. Para verificar se o relatório inclui dados de MFT, execute o seguinte comando no arquivo extraído:
    grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT

    A resposta será semelhante a:

    Starting GPU MST dump..
    ... (additional MFT data) ...