Auf dieser Seite wird beschrieben, wie Sie Probleme mit VMs beheben, die in Compute Engine ausgeführt werden und an die GPUs angehängt sind.
Wenn Sie versuchen, eine VM mit angehängten GPUs zu erstellen, und Fehler erhalten, lesen Sie die Abschnitte Fehlerbehebung bei Fehlern zur Ressourcenverfügbarkeit und Fehlerbehebung beim Erstellen und Aktualisieren von VMs.
Fehlerbehebung bei GPU-VMs mit NVIDIA DCGM
NVIDIA Data Center GPU Manager (DCGM) ist eine Reihe von Tools zum Verwalten und Überwachen von NVIDIA-Rechenzentrum-GPUs in Clusterumgebungen.
Wenn Sie DCGM zur Fehlerbehebung in Ihrer GPU-Umgebung verwenden möchten, führen Sie die folgenden Schritte aus:
- Achten Sie darauf, dass Sie den neuesten empfohlenen NVIDIA-Treiber für das GPU-Modell verwenden, das an Ihre VM angehängt ist. Informationen zu Treiberversionen finden Sie unter Empfohlene NVIDIA-Treiberversionen.
- Prüfen Sie, ob Sie die neueste Version von DCGM installiert haben. Informationen zur Installation der aktuellen Version finden Sie unter DCGM installieren.
Probleme diagnostizieren
Wenn Sie einen dcgmi
-Diagnosebefehl ausführen, enthalten die vom Diagnosetool gemeldeten Probleme die nächsten Schritte, die Sie unternehmen können, um das Problem zu beheben. Das folgende Beispiel zeigt die umsetzbare Ausgabe des Befehls dcgmi diag -r memory -j
.
{ ........ "category":"Hardware", "tests":[ { "name":"GPU Memory", "results":[ { "gpu_id":"0", "info":"GPU 0 Allocated 23376170169 bytes (98.3%)", "status":"Fail", ""warnings":[ { "warning":"Pending page retirements together with a DBE were detected on GPU 0. Drain the GPU and reset it or reboot the node to resolve this issue.", "error_id":83, "error_category":10, "error_severity":6 } ] } .........
Im obigen Auszug sehen Sie, dass für GPU 0
ausstehende Seitenentfernungen aufgrund eines nicht behebaren Fehlers vorliegen.
Die Ausgabe enthält die eindeutige error_id
und Tipps zur Fehlerbehebung.
Für diese Beispielausgabe wird empfohlen, die GPU zu entleeren und die VM neu zu starten. In den meisten Fällen kann das Problem behoben werden, wenn Sie der Anleitung in diesem Abschnitt der Ausgabe folgen.
Supportfall eröffnen
Wenn Sie die Probleme nicht mithilfe der Anleitung beheben können, die in der Ausgabe Ihres dcgmi
-Diagnoselaufs enthalten ist, können Sie eine Supportanfrage erstellen. Wenn Sie eine Supportanfrage stellen, müssen Sie die folgenden Informationen angeben:
- Der ausgeführte Befehl und die zurückgegebene Ausgabe.
Relevante Logdateien wie Host-Engine- und Diagnoseprotokolle. Sie können das Skript
gather-dcgm-logs.sh
ausführen, um die erforderlichen Logdateien zu erfassen.Bei einer Standardinstallation auf Debian- und RPM-basierten Systemen befindet sich dieses Skript unter
/usr/local/dcgm/scripts
.Bei
dcgmi diag
-Fehlern müssen Sie die Statistikdateien für die fehlgeschlagenen Plug-ins angeben. Die Statistikdatei verwendet die folgende Namenskonvention:stats_PLUGIN_NAME.json
.Wenn beispielsweise das
pcie
-Plug-in fehlgeschlagen ist, fügen Sie die Datei mit dem Namenstats_pcie.json
hinzu.NVIDIA-Systeminformationen und Treiberstatus. Um diese Informationen zu erfassen, können Sie das
nvidia-bug-report.sh
-Skript ausführen. Wenn Sie eine Instanz mit Blackwell-GPUs verwenden, folgen Sie der Anleitung unter NVIDIA-Fehlerbericht für Blackwell-GPUs erstellen, um einen umfassenden Fehlerbericht zu erhalten.Das Ausführen dieses Scripts kann auch bei der zusätzlichen Fehlerbehebung helfen, wenn das Problem durch andere NVIDIA-Abhängigkeiten und nicht durch einen Fehler in DCGM selbst verursacht wird.
Details zu allen Änderungen, die vor dem Fehler in Ihrer Umgebung vorgenommen wurden.
Xid-Nachrichten
Nachdem Sie eine VM mit angehängten GPUs erstellt haben, müssen Sie NVIDIA-Gerätetreiber auf Ihren GPU-VMs installieren, damit Ihre Anwendungen auf die GPUs zugreifen können. Manchmal geben diese Treiber jedoch Fehlermeldungen zurück.
Eine Xid-Meldung ist ein Fehlerbericht des NVIDIA-Treibers, der in das Kernel- oder Ereignisprotokoll des Betriebssystems Ihrer Linux-VM geschrieben wird. Diese Nachrichten werden in der Datei /var/log/messages
platziert.
Weitere Informationen zu Xid-Meldungen, einschließlich möglicher Ursachen, finden Sie in der NVIDIA-Dokumentation.
Der folgende Abschnitt enthält Anleitungen zum Umgang mit einigen Xid-Nachrichten, die nach den häufigsten Typen gruppiert sind: GPU-Arbeitsspeicherfehler, GPU-Systemprozessor-Fehler und Fehler bezüglich ungültigen Arbeits-Speicherzugriff.
GPU-Arbeitsspeicherfehler
GPU-Arbeitsspeicher ist der Speicher, der auf einem GPU-Gerät verfügbar ist und zum temporären Speichern von Daten verwendet werden kann. Der GPU-Arbeits-Speicher ist durch den Fehlerkorrekturcode ECC geschützt, der Single-Bit-Fehler (SBE) erkennt und korrigiert und Double-Bit-Fehler (DBE) erkennt und meldet.
Vor der Veröffentlichung der NVIDIA A100-GPUs wurde die dynamische Seitendeaktivierung unterstützt. Für NVIDIA A100- und neuere GPU-Releases (z. B. NVIDIA H100) wird die Wiederherstellung nach Zeilenneuzuordnungsfehlern eingeführt. ECC ist standardmäßig aktiviert. Google empfiehlt dringend, ECC aktiviert zu lassen.
Im Folgenden sind einige häufige GPU-Arbeits-Speicherfehler und ihre empfohlenen Lösungen aufgeführt.
Xid-Fehlermeldung | Lösung |
---|---|
Xid 48: Double Bit ECC |
|
Xid 63: ECC page retirement or row remapping recording
event |
|
Xid 64: ECC page retirement or row remapper recording
failure
Die Nachricht enthält die folgenden Informationen: Xid 64: All reserved rows for bank are remapped
|
|
Wenn Sie mindestens zwei der folgenden Xid-Meldungen zusammen erhalten:
Die Nachricht enthält die folgenden Informationen: Xid XX: row remap pending
|
|
Xid 92: High single-bit ECC error rate |
Diese Xid-Meldung wird zurückgegeben, nachdem der GPU-Treiber einen behebaren Fehler korrigiert hat. Sie sollte sich nicht auf Ihre Arbeitslasten auswirken. Diese Xid-Meldung dient nur zur Information. Sie müssen nichts tun. |
Xid 94: Contained ECC error |
|
Xid 95: Uncontained ECC error |
|
Fehler im GSP
Ein GPU-Systemprozessor (GPU System Processor, GSP) ist ein Mikrocontroller, der auf GPUs ausgeführt wird und einige der Hardwareverwaltungsfunktionen auf niedriger Ebene übernimmt.
Xid-Fehlermeldung | Lösung |
---|---|
Xid 119: GSP RPC timeout |
|
Xid 120: GSP error |
Ungültiger Arbeitsspeicherzugriff-Fehler
Die folgenden Xids werden zurückgegeben, wenn Anwendungen illegale Arbeits-Speicherzugriffsprobleme haben:
Xid 13: Graphics Engine Exception
Xid 31: GPU memory page fault
Ungültiger Arbeits-Speicherzugriff-Fehler werden normalerweise dadurch verursacht, dass Arbeitslasten versuchen, auf Arbeitsspeicher zuzugreifen, der bereits freigegeben wurde oder außerhalb des zulässigen Bereichs liegt. Dies kann durch Probleme wie die Dereferenzierung eines ungültigen Zeigers oder durch ein Array außerhalb des gültigen Bereichs verursacht werden.
Um dieses Problem zu beheben, müssen Sie Ihre Anwendung debuggen. Zum Debuggen Ihrer Anwendung können Sie cuda-memcheck und CUDA-GDB verwenden.
In einigen sehr seltenen Fällen kann ein Hardwareverschlechterung dazu führen, dass Fehler zu ungültigem Arbeits-Speicherzugriff zurückgegeben werden. Wenn Sie feststellen möchten, ob das Problem an Ihrer Hardware liegt, verwenden Sie NVIDIA Data Center GPU Manager (DCGM).
Sie können dcgmi diag -r 3
oder dcgmi diag -r 4
ausführen, um verschiedene Level an Testabdeckung und -dauer auszuführen. Wenn Sie feststellen, dass das Problem an der Hardware liegt, eröffnen Sie einen Fall bei Cloud Customer Care.
Weitere häufige Xid-Fehlermeldungen
Xid-Fehlermeldung | Lösung |
---|---|
Xid 74: NVLINK error |
|
Xid 79: GPU has fallen off the bus
Das bedeutet, dass der Treiber nicht mit der GPU kommunizieren kann. |
Starten Sie die VM neu. |
GPUs zurücksetzen
Bei einigen Problemen müssen Sie möglicherweise Ihre GPUs zurücksetzen. So setzen Sie GPUs zurück:
- Starten Sie für N1-, G2- und A2-VMs die VM neu, indem Sie
sudo reboot
ausführen. - Führen Sie für A3- und A4-VMs
sudo nvidia-smi --gpu-reset
aus.- Bei den meisten Linux-VMs befindet sich die ausführbare Datei
nvidia-smi
im Verzeichnis/var/lib/nvidia/bin
. - Bei GKE-Knoten befindet sich die ausführbare Datei
nvidia-smi
im Verzeichnis/home/kubernetes/bin/nvidia
.
- Bei den meisten Linux-VMs befindet sich die ausführbare Datei
Wenn die Fehler nach dem Zurücksetzen der GPU weiterhin bestehen, müssen Sie die VM löschen und neu erstellen.
Wenn der Fehler nach einem Löschen und Neuerstellen weiterhin besteht, senden Sie eine Supportanfrage an den Cloud Customer Care, um die VM in die Reparaturphase zu verschieben.
Nächste Schritte
GPUMaschinentypen ansehen