PyTorch 문제 해결 - TPU

이 가이드에서는 Cloud TPU에서 PyTorch 모델을 학습하는 동안에 발생할 수 있는 문제를 식별하고 해결하는 데 도움이 되는 문제 해결 정보를 제공합니다. Cloud TPU 시작에 대한 보다 일반적인 가이드는 PyTorch 빠른 시작을 참조하세요.

느린 학습 성능 문제 해결

모델 학습이 느리게 진행되면 측정항목 보고서를 생성하고 검토합니다.

측정항목 보고서를 자동으로 분석하고 요약을 제공하려면 PT_XLA_DEBUG=1로 워크로드를 실행합니다.

모델 학습 속도를 늦출 수 있는 문제에 대한 자세한 내용은 알려진 성능 주의사항을 참조하세요.

성능 프로파일링

병목 현상을 발견하기 위해 워크로드를 심층적으로 프로파일링하려면 다음 리소스를 검토하세요.

디버깅 도구 더보기

환경 변수를 지정하여 PyTorch/XLA 소프트웨어 스택의 동작을 제어할 수 있습니다.

예기치 않은 버그가 발생하여 도움이 필요하면 GitHub 문제를 등록하세요.

XLA 텐서 관리

XLA 텐서 Quirks는 XLA 텐서 및 공유 가중치로 작업할 때 수행해야 하는 작업과 수행하지 않아야 하는 작업을 설명합니다.