TPU v5p
本文說明 Cloud TPU v5p 的架構和支援的設定。
系統架構
本節將說明 v5p 版本專屬的系統架構。每個 TensorCore 都有四個矩陣乘法單元 (MXU)、一個向量單元和一個純量單元。
單一 v5p 切片包含 8960 個方塊。可排程的最大工作為 96 個立方體 (6144 個方塊) 的工作。
下表列出 v5p 的主要規格。
主要規格 | v5p 值 |
---|---|
每個晶片的尖峰運算效能 (bf16) | 459 TFLOPS |
HBM2e 容量和頻寬 | 95 GB,2765 GBps |
TPU Pod 大小 | 8960 個晶片 |
互連網路拓撲 | 3D 圓環 * |
晶片間互連 BW | 4800 Gbps |
設定
TPU v5p Pod 由 8960 個晶片組成,這些晶片透過可重新設定的高速連結互相連接。TPU v5p 的彈性網路可讓您以多種方式連結相同大小的配量中的晶片。使用 gcloud compute tpus tpu-vm create
指令建立 TPU 配量時,您會使用 AcceleratorType
參數指定其類型和形狀。
下表列出 v5p 支援的常見單切片形狀,以及大於 1 個立方體的大多數 (但非全部) 完整立方體形狀。最大 v5p 形狀為 16x16x24 (6144 個方塊、96 個立方體)。
拓撲 | 核心 | 方塊 | 主持人 | 立方體 | 是否支援 Twisted? |
2x2x1 | 8 | 4 | 1 | 不適用 | 不適用 |
2x2x2 | 16 | 8 | 2 | 不適用 | 不適用 |
2x4x4 | 64 | 32 | 8 | 不適用 | 不適用 |
4x4x4 | 128 | 64 | 16 | 1 | 不適用 |
4x4x8 | 256 | 128 | 32 | 2 | 是 |
4x8x8 | 512 | 256 | 64 | 4 | 是 |
8x8x8 | 1024 | 512 | 128 | 8 | 不適用 |
8x8x16 | 2048 | 1024 | 256 | 16 | 是 |
8x16x16 | 4096 | 2048 | 512 | 32 | 是 |
16x16x16 | 8192 | 4096 | 1024 | 64 | 不適用 |
16x16x24 | 12288 | 6144 | 1536 | 96 | 不適用 |
單一切片訓練最多可支援 6144 個晶片。您可以使用多切片功能,將圖片縮放至最多 18432 個方塊。如要進一步瞭解 Multislice,請參閱 Cloud TPU Multislice 總覽。
使用 AcceleratorType 參數
分配 TPU 資源時,您會使用 --accelerator-type
引數指定切片中的 TensorCore 數量。--accelerator-type
是格式化的字串「v$VERSION_NUMBER
p-$CORES_COUNT
」。舉例來說,v5p-32
會指定含有 32 個 TensorCore (16 個晶片) 的 v5p TPU 配量。
如要為 v5p 訓練工作配置 TPU,請在 CLI 或 TPU API 建立要求中使用下列加速器類型之一:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (一個完整的立方體/機架)
- v5p-256 (2 個立方體)
- v5p-512
- v5p-1024 ... v5p-12288
下列指令會建立 v5p TPU 切片,其中含有 256 個 v5p 晶片,可用於訓練:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5p-256 \ --version=v2-alpha-tpuv5
如要進一步瞭解如何管理 TPU,請參閱「管理 TPU」。如要進一步瞭解 Cloud TPU 的系統架構,請參閱「系統架構」。
Cloud TPU ICI 復原能力
ICI 彈性可改善光學連結和光學電路切換器 (OCS) 的容錯能力,這些連結和切換器可在立方體之間連接 TPU。(立方體內的 ICI 連線會使用不會受到影響的銅線連結)。ICI 復原功能可讓 ICI 連線繞過 OCS 和光學 ICI 故障。因此,這項功能可改善 TPU 分片的排程可用性,但代價是 ICI 效能會暫時降低。
與 Cloud TPU v4 類似,如果 v5p 配量為一個立方體或更大,系統預設會啟用 ICI 復原功能:
- 指定加速器類型時的 v5p-128
- 指定加速器設定時為 4x4x4
VM、主機和切片屬性
屬性 | TPU 的價值 |
v5p 方塊數 | 4 |
vCPU 數量 | 208 (如果使用 NUMA 繫結,則只有一半可用,以避免跨 NUMA 的效能懲罰) |
RAM (GB) | 448 (如果使用 NUMA 繫結來避免跨 NUMA 效能懲罰,則只能使用一半) |
# of NUMA Nodes | 2 |
NIC 傳輸量 (Gbps) | 200 |
Pod 中 TensorCore、晶片、主機/VM 和立方體數量之間的關係:
核心 | 晶片 | 主機/VM | 立方體 | |
---|---|---|---|---|
主機 | 8 | 4 | 1 | |
Cube (又稱為機架) | 128 | 64 | 16 | 1 |
支援的最大切片 | 12288 | 6144 | 1536 | 96 |
v5p 完整 Pod | 17920 | 8960 | 2240 | 140 |