PyTorch - TPU 问题排查

本指南提供了问题排查信息,可帮助您识别和解决在 Cloud TPU 上训练 PyTorch 模型时可能遇到的问题。如需了解如何开始使用 Cloud TPU,请参阅 PyTorch 快速入门

对训练性能缓慢进行问题排查

如果模型训练缓慢,请生成并查看指标报告

如需自动分析指标报告并提供摘要,请使用 PT_XLA_DEBUG=1 运行工作负载。

如需详细了解可能导致模型训练缓慢的问题,请参阅已知的性能注意事项

性能分析

如需深入剖析工作负载性能以发现瓶颈,请查看以下资源:

更多调试工具

您可以指定环境变量来控制 PyTorch/XLA 软件栈的行为。

如果您遇到意外 bug 并需要帮助,请在 GitHub 上提交问题

管理 XLA 张量

XLA 张量杂项介绍了使用 XLA 张量和共享权重时应该和不应该执行的操作。