PyTorch - TPU のトラブルシューティング

このガイドでは、Cloud TPU で PyTorch モデルをトレーニングする際に発生する可能性のある問題の特定と解決に役立つトラブルシューティング情報について説明します。Cloud TPU を使い始める際の一般的なガイドについては、PyTorch クイックスタートをご覧ください。

トレーニング パフォーマンスが遅い場合のトラブルシューティング

モデルのトレーニングが遅い場合は、指標レポートを生成して確認します

指標レポートを自動的に分析してサマリーを生成するには、PT_XLA_DEBUG=1 でワークロードを実行します。

モデルのトレーニングが遅くなる原因となる可能性のある問題については、既知のパフォーマンスに関する注意事項をご覧ください。

パフォーマンス プロファイリング

ワークロードを詳細にプロファイリングしてボトルネックを検出するには、次のリソースをご覧ください。

その他のデバッグツール

環境変数を指定して、PyTorch/XLA ソフトウェア スタックの動作を制御できます。

予期しないバグが発生してサポートが必要な場合は、GitHub で問題を報告してください。

XLA テンソルの管理

XLA テンソルの特徴では、XLA テンソルと共有重みを使用する場合に行うべきことと、すべきでないことについて説明しています。