TPU v3
本文說明 Cloud TPU v3 的架構和支援的設定。
系統架構
每個 v3 TPU 晶片都包含兩個 TensorCore。每個 TensorCore 都有兩個矩陣乘法單元 (MXU)、一個向量單元和一個純量單元。下表列出 v3 TPU Pod 的主要規格和值。
主要規格 | v3 Pod 值 |
---|---|
每個晶片的尖峰運算效能 | 每秒 123 兆次浮點運算 (bf16) |
HBM2 容量和頻寬 | 32 GiB,900 GBps |
測得的最小/平均/最大功率 | 123/220/262 瓦 |
TPU Pod 大小 | 1024 個晶片 |
互連網路拓撲 | 2D 環面 |
每個 Pod 的尖峰運算效能 | 每秒 126 千兆次浮點運算 (bf16) |
每個 Pod 的 All-reduce 頻寬 | 340 TB/秒 |
每個 Pod 的對分頻寬 | 6.4 TB/秒 |
下圖說明 TPU v3 晶片。
如要瞭解 TPU v3 的架構詳細資料和效能特徵,請參閱「A Domain Specific Supercomputer for Training Deep Neural Networks」一文。
TPU v3 相較於 v2 的效能優勢
在 TPU v3 配置中,每個 TensorCore 的 FLOPS 和記憶體容量均有所提升,可從下列方面改善模型的成效:
針對受運算能力限制的模型,TPU v3 配置可提供顯著的個別 TensorCore 效能優勢。但針對 TPU v2 配置中的受記憶體限制模型,如果其在 TPU v3 配置中也是受記憶體限制,則可能不會有同等的效能改善幅度。
在 TPU v2 配置中,有時記憶體無法容納資料,在這種情況下,TPU v3 可改善效能並減少重新計算中繼值 (再實體化) 的情況。
TPU v3 配置可執行 Cloud TPU v2 配置上批量不符的新模型。舉例來說,TPU v3 可允許更深層的 ResNet 模型和 RetinaNet 大型圖片。
某些模型在 TPU v2 上會因訓練步驟在等候輸入而幾乎受到輸入限制 (「饋入」),這類模型在 Cloud TPU v3 上也可能會受到輸入限制。管道效能指南可協助您解決饋入問題。
設定
TPU v3 Pod 由 1024 個以高速連結互相連結的晶片組成。如要建立 TPU v3 裝置或配量,請在 TPU 建立指令 (gcloud compute tpus tpu-vm
) 中使用 --accelerator-type
標記。您可以指定 TPU 版本和 TPU 核心數量,藉此指定加速器類型。例如,如果是單一 v3 TPU,請使用 --accelerator-type=v3-8
。如果是含有 128 個 TensorCore 的 v3 配量,請使用 --accelerator-type=v3-128
。
下表列出支援的 v3 TPU 類型:
TPU 版本 | 結束支援 |
---|---|
v3-8 | (結束日期尚未訂定) |
v3-32 | (結束日期尚未訂定) |
v3-128 | (結束日期尚未訂定) |
v3-256 | (結束日期尚未訂定) |
v3-512 | (結束日期尚未訂定) |
v3-1024 | (結束日期尚未訂定) |
v3-2048 | (結束日期尚未訂定) |
下列指令說明如何建立含有 128 個 TensorCore 的 v3 TPU 切片:
$ gcloud compute tpus tpu-vm create tpu-name \ --zone=europe-west4-a \ --accelerator-type=v3-128 \ --version=tpu-ubuntu2204-base
如要進一步瞭解如何管理 TPU,請參閱「管理 TPU」。如要進一步瞭解 Cloud TPU 的系統架構,請參閱「系統架構」。