常見問題 - Cloud TPU

這份說明文件列出了 Cloud TPU 的相關常見問題。可分為以下幾個部分:

  1. 不限架構的常見問題 - 無論您使用哪種 ML 架構,都適用於使用 Cloud TPU 的相關問題。
  2. JAX 常見問題 - 關於使用 Cloud TPU 搭配 JAX 的問題。
  3. PyTorch 常見問題 - 關於如何搭配使用 Cloud TPU 和 PyTorch 的問題。

不依架構而定的常見問題

如何檢查 Cloud TPU VM 上哪個程序正在使用 TPU?

在 Cloud TPU VM 上執行 sudo lsof -w /dev/accel*,即可列印程序 ID 和其他使用 TPU 的程序相關資訊。

如何在 Cloud TPU VM 中新增永久磁碟磁區?

詳情請參閱「將永久磁碟新增至 TPU VM」。

使用 TPU VM 訓練時,支援/建議使用哪些儲存空間選項?

詳情請參閱「Cloud TPU 儲存空間選項」。

JAX 常見問題

如何判斷我的程式是否正在使用 TPU?

您可以透過幾種方式確認 JAX 是否使用 TPU:

  1. 使用 jax.devices() 函式。例如:

    assert jax.devices()[0].platform == 'tpu'
    
  2. 分析程式,並確認設定檔包含 TPU 運算。詳情請參閱「剖析 JAX 程式」。

詳情請參閱 JAX 常見問題

Pytorch 常見問題

如何判斷我的程式是否正在使用 TPU?

您可以執行下列 Python 指令:

>>> import torch_xla.core.xla_model as xm
>>> xm.get_xla_supported_devices(devkind="TPU")

並確認是否可以看到任何 TPU 裝置。