Risoluzione dei problemi di PyTorch - TPU
Questa guida fornisce informazioni per la risoluzione dei problemi che potresti riscontrare durante l'addestramento dei modelli PyTorch su Cloud TPU. Per una guida più generale su come iniziare a utilizzare Cloud TPU, consulta la guida rapida di PyTorch.
Risolvere i problemi di prestazioni di addestramento lente
Se il modello viene addestrato lentamente, genera ed esamina un report sulle metriche.
Per analizzare automaticamente il report sulle metriche e fornire un riepilogo, esegui il tuo carico di lavoro con PT_XLA_DEBUG=1.
Per ulteriori informazioni sui problemi che potrebbero causare un'addestramento lento del modello, consulta Limitazioni note relative al rendimento.
Profilazione del rendimento
Per analizzare in modo approfondito il tuo carico di lavoro e scoprire i colli di bottiglia, consulta queste risorse:
- Profilazione delle prestazioni di PyTorch/XLA
- Script di addestramento MNIST di esempio con profilazione
Altri strumenti di debug
Puoi specificare variabili di ambiente per controllare il comportamento dello stack software PyTorch/XLA.
Se riscontri un bug imprevisto e hai bisogno di aiuto, segnala un problema su GitHub.
Gestione dei tensori XLA
Aspetti insoliti dei tensori XLA descrive cosa devi e non devi fare quando lavori con i tensori XLA e i pesi condivisi.