Résoudre les problèmes liés à PyTorch – TPU
Ce guide fournit des informations de dépannage pour vous aider à identifier et à résoudre les problèmes que vous pouvez rencontrer lors de l'entraînement de modèles PyTorch sur Cloud TPU. Pour obtenir des conseils plus généraux pour faire vos premiers pas avec Cloud TPU, consultez le guide de démarrage rapide de PyTorch.
Résoudre les problèmes de lenteur d'entraînement
Si l'entraînement de votre modèle est lent, générez et examinez un rapport de métriques.
Pour analyser automatiquement le rapport des métriques et fournir un résumé, exécutez votre charge de travail avec PT_XLA_DEBUG=1.
Pour en savoir plus sur les problèmes susceptibles de ralentir l'entraînement de votre modèle, consultez la section Mises en garde connues concernant les performances.
Profilage des performances
Pour profiler votre charge de travail en profondeur afin d'identifier les goulots d'étranglement, consultez les ressources suivantes:
Autres outils de débogage
Vous pouvez spécifier des variables d'environnement pour contrôler le comportement de la pile logicielle PyTorch/XLA.
Si vous rencontrez un bug inattendu et que vous avez besoin d'aide, signalez-le sur GitHub.
Gérer les Tensors XLA
XLA Tensor Quirks décrit ce que vous devez et ne devez pas faire lorsque vous utilisez des Tensors XLA et des pondérations partagées.