TPU v5e
本文說明 Cloud TPU v5e 的架構和支援的設定。
TPU v5e 支援單一和多主機訓練,以及單一主機推論。 系統支援使用 Sax 進行多主機推論。 詳情請參閱「Cloud TPU 推論」。
系統架構
每個 v5e 晶片都包含一個 TensorCore。每個 TensorCore 都有四個矩陣乘法單元 (MXU)、一個向量單元和一個純量單元。
下圖說明 TPU v5e 晶片。
下表列出 v5e 的主要晶片規格和值。
主要晶片規格 | v5e 值 |
---|---|
每個晶片的尖峰運算效能 (bf16) | 197 TFLOPS |
HBM2 容量和頻寬 | 16 GB,819 GBps |
晶片間互連 BW | 1600 Gbps |
下表列出 v5e 的 Pod 規格和值。
Key Pod 規格 | v5e 值 |
---|---|
TPU Pod 大小 | 256 個晶片 |
互連網路拓撲 | 2D 環面 |
每個 Pod 的尖峰運算效能 | 100 PetaOps (Int8) |
每個 Pod 的 All-reduce 頻寬 | 51.2 TB/秒 |
每個 Pod 的對分頻寬 | 1.6 TB/秒 |
每個 Pod 的資料中心網路頻寬 | 6.4 Tbps |
設定
Cloud TPU v5e 是結合訓練和推論 (服務) 的產品。如要區分訓練和推論環境,請使用 TPU API 的 AcceleratorType
參數,或建立 Google Kubernetes Engine (GKE) 節點集區時使用 --machine-type
旗標。
訓練工作是針對總處理量和可用性進行最佳化調整,而服務工作則針對延遲進行最佳化調整。為服務佈建的 TPU 訓練工作可用性可能較低,同樣地,在為訓練佈建的 TPU 上執行的服務工作延遲時間可能較長。
您可以使用 AcceleratorType
指定要使用的 TensorCore 數量。
使用 gcloud CLI 或 Google Cloud 控制台建立 TPU 時,請指定 AcceleratorType
。您為 AcceleratorType
指定的值是字串,格式為:v$VERSION_NUMBER-$CHIP_COUNT
。
v5e 支援下列 2D 切片形狀:
拓撲 | TPU 晶片數量 | 主機數量 |
---|---|---|
1x1 | 1 | 1/8 |
2x2 | 4 | 1/2 |
2x4 | 8 | 1 |
4x4 | 16 | 2 |
4x8 | 32 | 4 |
8x8 | 64 | 8 |
8x16 | 128 | 16 |
16x16 | 256 | 32 |
VM 類型
v5e TPU 配量中的每個 TPU VM 包含 1、4 或 8 個晶片。在 4 晶片和更小的切片中,所有 TPU 晶片共用同一個非一致性記憶體存取 (NUMA) 節點。
對於 8 個晶片的 v5e TPU VM,CPU-TPU 通訊在 NUMA 分區內會更有效率。舉例來說,在下圖中,CPU0-Chip0
通訊會比 CPU0-Chip4
通訊更快。
下表列出 TPU v5e VM 類型的比較:
VM 類型 | 機器類型 (GKE API) | 每個 VM 的 vCPU 數量 | 每個 VM 的 RAM (GB) | 每個 VM 的 NUMA 節點數量 |
---|---|---|---|---|
1 個晶片的 VM | ct5lp-hightpu-1t |
24 | 48 | 1 |
4 晶片 VM | ct5lp-hightpu-4t |
112 | 192 | 1 |
8 個晶片的 VM | ct5lp-hightpu-8t |
224 | 384 | 2 |
用於服務的 Cloud TPU v5e 類型
單一主機最多可支援 8 個 v5e 晶片。系統支援以下設定:1x1、2x2 和 2x4 切片。每個切片分別有 1 個、4 個和 8 個晶片。
如要為服務工作佈建 TPU,請在 CLI 或 API TPU 建立要求中使用下列其中一種加速器類型:
AcceleratorType (TPU API) | 機器類型 (GKE API) |
---|---|
v5litepod-1 |
ct5lp-hightpu-1t |
v5litepod-4 |
ct5lp-hightpu-4t |
v5litepod-8 |
ct5lp-hightpu-8t |
下列指令會建立含有 8 個 v5e 晶片的 v5e TPU 節點,用於提供服務:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-central1-a \ --accelerator-type=v5litepod-8 \ --version=v2-alpha-tpuv5-lite
如要進一步瞭解如何管理 TPU,請參閱「管理 TPU」。 如要進一步瞭解 Cloud TPU 的系統架構,請參閱「系統架構」。
使用 Sax 即可在超過 8 個 v5e 晶片上提供服務 (也稱為多主機服務)。詳情請參閱「Cloud TPU 推論」。
用於訓練的 Cloud TPU v5e 類型
最多支援 256 個晶片的訓練作業。
如要為 v5e 訓練工作佈建 TPU,請在 CLI 或 API TPU 建立要求中使用下列其中一種加速器類型:
AcceleratorType (TPU API) | 機器類型 (GKE API) | 拓撲 |
---|---|---|
v5litepod-16 |
ct5lp-hightpu-4t |
4x4 |
v5litepod-32 |
ct5lp-hightpu-4t |
4x8 |
v5litepod-64 |
ct5lp-hightpu-4t |
8x8 |
v5litepod-128 |
ct5lp-hightpu-4t |
8x16 |
v5litepod-256 |
ct5lp-hightpu-4t |
16x16 |
下列指令會建立含有 256 個 v5e 晶片的 v5e TPU 節點,用於訓練:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5litepod-256 \ --version=v2-alpha-tpuv5-lite
如要進一步瞭解如何管理 TPU,請參閱「管理 TPU」。 如要進一步瞭解 Cloud TPU 的系統架構,請參閱「系統架構」。