Memecahkan masalah PyTorch - TPU

Panduan ini memberikan informasi pemecahan masalah untuk membantu Anda mengidentifikasi dan menyelesaikan masalah yang mungkin Anda alami saat melatih model PyTorch di Cloud TPU. Untuk panduan yang lebih umum tentang cara memulai Cloud TPU, lihat panduan memulai PyTorch.

Memecahkan masalah performa pelatihan yang lambat

Jika model Anda dilatih dengan lambat, buat dan tinjau laporan metrik.

Untuk menganalisis laporan metrik secara otomatis dan memberikan ringkasan, jalankan beban kerja Anda dengan PT_XLA_DEBUG=1.

Untuk mengetahui informasi selengkapnya tentang masalah yang mungkin menyebabkan model Anda dilatih dengan lambat, lihat Peringatan performa yang diketahui.

Pembuatan profil performa

Untuk membuat profil workload secara mendalam guna menemukan bottleneck, tinjau referensi berikut:

Alat proses debug lainnya

Anda dapat menentukan variabel lingkungan untuk mengontrol perilaku stack software PyTorch/XLA.

Jika Anda mengalami bug yang tidak terduga dan memerlukan bantuan, ajukan masalah di GitHub.

Mengelola tensor XLA

Keanehan tensor XLA menjelaskan hal yang boleh dan tidak boleh dilakukan saat menggunakan tensor XLA dan bobot bersama.