TPU v5p

本文說明 Cloud TPU v5p 的架構和支援的設定。

系統架構

本節將說明 v5p 版本專屬的系統架構。每個 TensorCore 都有四個矩陣乘法單元 (MXU)、一個向量單元和一個純量單元。

單一 v5p 切片包含 8960 個方塊。可排程的最大工作為 96 個立方體 (6144 個方塊) 的工作。

下表列出 v5p 的主要規格。

主要規格 v5p 值
每個晶片的尖峰運算效能 (bf16) 459 TFLOPS
HBM2e 容量和頻寬 95 GB,2765 GBps
TPU Pod 大小 8960 個晶片
互連網路拓撲 3D 圓環 *
晶片間互連 BW 4800 Gbps

設定

TPU v5p Pod 由 8960 個晶片組成,這些晶片透過可重新設定的高速連結互相連接。TPU v5p 的彈性網路可讓您以多種方式連結相同大小的配量中的晶片。使用 gcloud compute tpus tpu-vm create 指令建立 TPU 配量時,您會使用 AcceleratorType 參數指定其類型和形狀。

下表列出 v5p 支援的常見單切片形狀,以及大於 1 個立方體的大多數 (但非全部) 完整立方體形狀。最大 v5p 形狀為 16x16x24 (6144 個方塊、96 個立方體)。

拓撲 核心 方塊 主持人 立方體 是否支援 Twisted?
2x2x1 8 4 1 不適用 不適用
2x2x2 16 8 2 不適用 不適用
2x4x4 64 32 8 不適用 不適用
4x4x4 128 64 16 1 不適用
4x4x8 256 128 32 2
4x8x8 512 256 64 4
8x8x8 1024 512 128 8 不適用
8x8x16 2048 1024 256 16
8x16x16 4096 2048 512 32
16x16x16 8192 4096 1024 64 不適用
16x16x24 12288 6144 1536 96 不適用

單一切片訓練最多可支援 6144 個晶片。您可以使用多切片功能,將圖片縮放至最多 18432 個方塊。如要進一步瞭解 Multislice,請參閱 Cloud TPU Multislice 總覽

使用 AcceleratorType 參數

分配 TPU 資源時,您會使用 --accelerator-type 引數指定切片中的 TensorCore 數量。--accelerator-type 是格式化的字串「v$VERSION_NUMBERp-$CORES_COUNT」。舉例來說,v5p-32 會指定含有 32 個 TensorCore (16 個晶片) 的 v5p TPU 配量。

如要為 v5p 訓練工作配置 TPU,請在 CLI 或 TPU API 建立要求中使用下列加速器類型之一:

  • v5p-8
  • v5p-16
  • v5p-32
  • v5p-64
  • v5p-128 (一個完整的立方體/機架)
  • v5p-256 (2 個立方體)
  • v5p-512
  • v5p-1024 ... v5p-12288

下列指令會建立 v5p TPU 切片,其中含有 256 個 v5p 晶片,可用於訓練:

  $ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5p-256 \
    --version=v2-alpha-tpuv5

如要進一步瞭解如何管理 TPU,請參閱「管理 TPU」。如要進一步瞭解 Cloud TPU 的系統架構,請參閱「系統架構」。

Cloud TPU ICI 復原能力

ICI 彈性可改善光學連結和光學電路切換器 (OCS) 的容錯能力,這些連結和切換器可在立方體之間連接 TPU。(立方體內的 ICI 連線會使用不會受到影響的銅線連結)。ICI 復原功能可讓 ICI 連線繞過 OCS 和光學 ICI 故障。因此,這項功能可改善 TPU 分片的排程可用性,但代價是 ICI 效能會暫時降低。

與 Cloud TPU v4 類似,如果 v5p 配量為一個立方體或更大,系統預設會啟用 ICI 復原功能:

  • 指定加速器類型時的 v5p-128
  • 指定加速器設定時為 4x4x4

VM、主機和切片屬性

屬性 TPU 的價值
v5p 方塊數 4
vCPU 數量 208 (如果使用 NUMA 繫結,則只有一半可用,以避免跨 NUMA 的效能懲罰)
RAM (GB) 448 (如果使用 NUMA 繫結來避免跨 NUMA 效能懲罰,則只能使用一半)
# of NUMA Nodes 2
NIC 傳輸量 (Gbps) 200

Pod 中 TensorCore、晶片、主機/VM 和立方體數量之間的關係:

核心 晶片 主機/VM 立方體
主機 8 4 1
Cube (又稱為機架) 128 64 16 1
支援的最大切片 12288 6144 1536 96
v5p 完整 Pod 17920 8960 2240 140