抢占式 TPU

抢占式 TPU 的费用远低于非抢占式 TPU。如果 Cloud TPU 服务需要额外的 TPU 资源,可以随时抢占(关停)这些 TPU。

创建抢占式 TPU 虚拟机

gcloud

$ gcloud compute tpus tpu-vm create demo-tpu \
  --zone=europe-west4-a \
  --accelerator-type=v3-8 \
  --version=tpu-vm-tf-2.17.1-pjrt \
  --preemptible
  

其中:

  • demo-tpu 是 TPU 的名称。
  • accelerator-type 是 TPU 的类型。如需详细了解每个 TPU 版本支持的加速器类型,请参阅 TPU 版本
  • version 是要安装的 Cloud TPU 软件版本
  • preemptible 允许 Cloud TPU 抢占此 TPU。

抢占式 TPU 的价格与配额

抢占式 TPU 的价格远低于普通 TPU。 如需了解详情,请参阅价格页面。如果 TPU 在您创建后第一分钟就被抢占,您不需要支付费用。

抢占式 TPU 的配额通常较高,并且与普通 TPU 的配额相互独立。请参阅配额页面

检测 TPU 是否已被抢占

您可以使用以下 gcloud 命令检查 Cloud TPU 服务是否抢占了您的 TPU:

列出您的可用 TPU:

gcloud compute tpus tpu-vm list
  --zone=us-central1-b
  

该命令的输出显示项目中创建的 TPU 的详细信息。如果 TPU 已被抢占,则状态会从 READY 更改为 PREEMPTED

例如:

NAME       ZONE           ACCELERATOR_TYPE  NETWORK_ENDPOINT   NETWORK  RANGE          STATUS
demo-tpu   us-central1-b  v2-8              10.240.1.2:8470    default  10.240.1.0/29  PREEMPTED

将机器学习应用设计为可在抢占式 TPU 上运行

通过定期保存模型检查点,同时配置应用以在重启时恢复最近的检查点,从而确保您的应用能够灵活应对虚拟机和 TPU 的重启。