PyTorch - TPU 疑難排解

本指南提供疑難排解資訊,協助您找出並解決在 Cloud TPU 上訓練 PyTorch 模型時可能遇到的問題。如需 Cloud TPU 的一般入門指南,請參閱 PyTorch 快速入門導覽課程

排解訓練效能緩慢的問題

如果模型訓練速度緩慢,請產生並查看指標報表

如要自動分析指標報表並提供摘要,請在執行工作負載時設定 PT_XLA_DEBUG=1。

如要進一步瞭解可能導致模型訓練速度變慢的問題,請參閱「已知的效能警告」。

效能分析

如要深入分析工作負載並找出瓶頸,請參閱下列資源:

更多偵錯工具

您可以指定環境變數來控制 PyTorch/XLA 軟體堆疊的行為。

如果遇到非預期的錯誤,並需要協助,請在 GitHub 回報問題

管理 XLA 張量

XLA 張量特性說明使用 XLA 張量和共用權重時,應做和不應做的事。