Fehlerbehebung bei PyTorch – TPU

Diese Anleitung enthält Informationen zur Fehlerbehebung, mit denen Sie Probleme beim Trainieren von PyTorch-Modellen auf Cloud TPU identifizieren und beheben können. Eine allgemeine Anleitung zum Einstieg in Cloud TPU finden Sie in der PyTorch-Kurzanleitung.

Fehlerbehebung bei langsamer Trainingsleistung

Wenn das Modelltraining langsam abläuft, können Sie einen Messwertbericht generieren und dann prüfen.

Wenn Sie den Messwertbericht automatisch analysieren lassen und automatisch eine Zusammenfassung dessen bereitstellen möchten, führen Sie die Arbeitslast einfach mit PT_XLA_DEBUG=1 aus.

Weitere Informationen zu Problemen, die dazu führen können, dass das Training des Modells langsam voranschreitet, finden Sie unter Bekannte Leistungseinschränkungen.

Leistungsprofilerstellung

In den folgenden Ressourcen erfahren Sie, wie Sie ein detailliertes Profil der Arbeitslast erstellen, um Engpässe zu erkennen:

Weitere Debugging-Tools

Sie können Umgebungsvariablen angeben, um das Verhalten des PyTorch/XLA-Softwarestacks zu steuern.

Wenn Sie auf einen unerwarteten Fehler stoßen und Hilfe benötigen, können Sie das Problem auf GitHub melden.

XLA-Tensoren verwalten

XLA-Tensor-Quirks beschreibt, was Sie bei der Arbeit mit XLA-Tensoren und gemeinsam genutzten Gewichtungen tun sollten und was nicht.