TPU v3

本文說明 Cloud TPU v3 的架構和支援的設定。

系統架構

每個 v3 TPU 晶片都包含兩個 TensorCore。每個 TensorCore 都有兩個矩陣乘法單元 (MXU)、一個向量單元和一個純量單元。下表列出 v3 TPU Pod 的主要規格和值。

主要規格 v3 Pod 值
每個晶片的尖峰運算效能 每秒 123 兆次浮點運算 (bf16)
HBM2 容量和頻寬 32 GiB,900 GBps
測得的最小/平均/最大功率 123/220/262 瓦
TPU Pod 大小 1024 個晶片
互連網路拓撲 2D 環面
每個 Pod 的尖峰運算效能 每秒 126 千兆次浮點運算 (bf16)
每個 Pod 的 All-reduce 頻寬 340 TB/秒
每個 Pod 的對分頻寬 6.4 TB/秒

下圖說明 TPU v3 晶片。

TPU v3 晶片圖表

如要瞭解 TPU v3 的架構詳細資料和效能特徵,請參閱「A Domain Specific Supercomputer for Training Deep Neural Networks」一文。

TPU v3 相較於 v2 的效能優勢

在 TPU v3 配置中,每個 TensorCore 的 FLOPS 和記憶體容量均有所提升,可從下列方面改善模型的成效:

  • 針對受運算能力限制的模型,TPU v3 配置可提供顯著的個別 TensorCore 效能優勢。但針對 TPU v2 配置中的受記憶體限制模型,如果其在 TPU v3 配置中也是受記憶體限制,則可能不會有同等的效能改善幅度。

  • 在 TPU v2 配置中,有時記憶體無法容納資料,在這種情況下,TPU v3 可改善效能並減少重新計算中繼值 (再實體化) 的情況。

  • TPU v3 配置可執行 Cloud TPU v2 配置上批量不符的新模型。舉例來說,TPU v3 可允許更深層的 ResNet 模型和 RetinaNet 大型圖片。

某些模型在 TPU v2 上會因訓練步驟在等候輸入而幾乎受到輸入限制 (「饋入」),這類模型在 Cloud TPU v3 上也可能會受到輸入限制。管道效能指南可協助您解決饋入問題。

設定

TPU v3 Pod 由 1024 個以高速連結互相連結的晶片組成。如要建立 TPU v3 裝置或配量,請在 TPU 建立指令 (gcloud compute tpus tpu-vm) 中使用 --accelerator-type 標記。您可以指定 TPU 版本和 TPU 核心數量,藉此指定加速器類型。例如,如果是單一 v3 TPU,請使用 --accelerator-type=v3-8。如果是含有 128 個 TensorCore 的 v3 配量,請使用 --accelerator-type=v3-128

下表列出支援的 v3 TPU 類型:

TPU 版本 結束支援
v3-8 (結束日期尚未訂定)
v3-32 (結束日期尚未訂定)
v3-128 (結束日期尚未訂定)
v3-256 (結束日期尚未訂定)
v3-512 (結束日期尚未訂定)
v3-1024 (結束日期尚未訂定)
v3-2048 (結束日期尚未訂定)

下列指令說明如何建立含有 128 個 TensorCore 的 v3 TPU 切片:

  $ gcloud compute tpus tpu-vm create tpu-name \
    --zone=europe-west4-a \
    --accelerator-type=v3-128 \
    --version=tpu-ubuntu2204-base

如要進一步瞭解如何管理 TPU,請參閱「管理 TPU」。如要進一步瞭解 Cloud TPU 的系統架構,請參閱「系統架構」。