NVIDIA-Fehlerbericht für Blackwell-GPUs erstellen


In diesem Dokument wird beschrieben, wie Sie einen NVIDIA-Fehlerbericht für Ihre Maschinentypen erstellen, die NVIDIA Blackwell-GPUs verwenden. Wenn Sie herausfinden möchten, welche Ihrer Maschinentypen die NVIDIA Blackwell-GPU verwenden, lesen Sie den Abschnitt GPU-Modelle.

Wenn Ihr Maschinentyp die NVIDIA Blackwell-GPU-Architektur verwendet, enthält der generierte NVIDIA-Fehlerbericht keine wichtigen Hardware-Daten auf niedriger Ebene, wenn Sie das Skript nvidia-bug-report.sh ausführen. Diese Daten enthalten Informationen wie den Status der physischen Schicht von NVLink-Verbindungen, interne GPU-Registerwerte und Rohdiagnosesegmente aus der Firmware. Diese Informationen sind wichtig, um Probleme zu diagnostizieren, insbesondere solche, die mit NVLink zusammenhängen und zu GPU-Xid-Fehlern oder nicht behobenen Leistungseinbußen führen können.

NVIDIA-Fehlerbericht erstellen

So erstellen Sie einen Fehlerbericht:

  1. Stellen Sie eine Verbindung zu Ihrer GPU-Instanz her. Wählen Sie eine der folgenden Optionen aus:

  2. Laden Sie das MFT-Paket herunter und installieren Sie es, indem Sie eine der folgenden Optionen auswählen:

Container-Optimized OS

Wenn auf Ihrer Instanz Container-Optimized OS (COS) als Gastbetriebssystem verwendet wird, können Sie das Open-Source-Tool GCE COS NVIDIA Bug Report Collector verwenden, um den Fehlerbericht mit MFT zu generieren. Dieses Tool fügt automatisch unterstützte MST-Kernelmodule ein, die mit dem COS-Kernel übereinstimmen, installiert das Userspace-Tool, generiert den Fehlerbericht und lädt das Ergebnis optional in einen Cloud Storage-Bucket hoch.

Andere Betriebssysteme

Führen Sie für andere Linux-Betriebssysteme die folgenden Schritte aus:

  1. Laden Sie die Softwareversion 4.32.0 oder höher der NVIDIA Firmware Tools (MFT) von der NVIDIA-Website herunter und installieren Sie sie.
  2. Installieren Sie das Tool. Weitere Informationen finden Sie in der Dokumentation zu NVIDIA Firmware Tools (MFT) unter Compilation and installation (Kompilierung und Installation). Nach der Installation von MFT wird das Skript nvidia-bug-report.sh automatisch verwendet, um den Bericht zu generieren. Sie müssen nicht direkt mit MFT-Tools interagieren.
  3. Führen Sie das Skript nvidia-bug-report.sh aus, um einen Fehlerbericht zu erstellen. Dieser Vorgang dauert etwa zwei Minuten.
  4. Bericht extrahieren
  5. Prüfen Sie, ob der Bericht MFT-Daten enthält, indem Sie den folgenden Befehl für die extrahierte Fehlerberichtsdatei ausführen:
    grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT

    Die Ausgabe sieht etwa so aus wie im folgenden Beispiel.

    Starting GPU MST dump..
    ... (additional MFT data) ...