TPU v5e

In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v5e beschrieben.

TPU v5e unterstützt Training mit einem oder mehreren Hosts sowie Inferenz mit einem einzelnen Host. Die Multi-Host-Inferenz wird mit Sax unterstützt. Weitere Informationen finden Sie unter Large Language Model Serving.

Systemarchitektur

Jeder v5e-Chip enthält einen TensorCore. Jeder TensorCore hat vier Matrixmultiplikationseinheiten (MXUs), eine Vektoreinheit und eine Skalareinheit.

Das folgende Diagramm zeigt einen TPU v5e-Chip.

Diagramm eines v5e-Chips

In der folgenden Tabelle sind die wichtigsten Chip-Spezifikationen und ihre Werte für v5e aufgeführt.

Wichtige Chip-Spezifikationen v5e-Werte
Maximale Rechenleistung pro Chip (bf16) 197 TFLOPS
HBM2-Kapazität und ‑Bandbreite 16 GB, 819 Gbit/s
Interchip-Interconnect-BW 1.600 Gbit/s

In der folgenden Tabelle sind die Pod-Spezifikationen und ihre Werte für v5e aufgeführt.

Wichtige Pod-Spezifikationen v5e-Werte
TPU-Pod-Größe 256 Chips
Interconnect-Topologie 2D-Torus
Spitzenberechnung pro Pod 100 PetaOps(Int8)
All-Reduce-Bandbreite pro Pod 51,2 TB/s
Geteilte Bandbreite pro Pod 1,6 TB/s
Rechenzentrumsnetzwerkbandbreite pro Pod 6,4 Tbit/s

Konfigurationen

Cloud TPU v5e ist ein kombiniertes Produkt für Training und Inferenz (Ausführung). Wenn Sie zwischen einer Trainings- und einer Inferenzumgebung unterscheiden möchten, verwenden Sie den Parameter AcceleratorType mit der TPU API oder das Flag --machine-type, wenn Sie einen GKE-Knotenpool erstellen.

Trainingsjobs sind für Durchsatz und Verfügbarkeit optimiert, während Bereitstellungsjobs für Latenz optimiert sind. Ein Trainingsjob auf TPUs, die für die Bereitstellung bereitgestellt sind, kann eine geringere Verfügbarkeit haben. Ebenso kann ein Bereitstellungsjob, der auf TPUs ausgeführt wird, die für das Training bereitgestellt sind, eine höhere Latenz haben.

Mit AcceleratorType geben Sie die Anzahl der zu verwendenden TensorCores an. Sie geben den AcceleratorType an, wenn Sie eine TPU mit der gcloud CLI oder der Google Cloud Console erstellen. Der für AcceleratorType angegebene Wert ist ein String im Format: v$VERSION_NUMBER-$CHIP_COUNT.

Für Version 5e werden die folgenden 2D-Scheibenformen unterstützt:

Topologie Anzahl der TPU-Chips Anzahl der Hosts
1x1 1 1/8
2x2 4 1/2
2x4 8 1
4x4 16 2
4x8 32 4
8x8 64 8
8x16 128 16
16x16 256 32

Jede TPU-VM in einem TPU-Slice vom Typ v5e enthält 1, 4 oder 8 Chips. In Slices mit 4 Chips und weniger teilen sich alle TPU-Chips denselben NUMA-Knoten (Non Uniform Memory Access).

Bei TPU-VMs mit 8 Chips vom Typ v5e ist die CPU-TPU-Kommunikation innerhalb von NUMA-Partitionen effizienter. In der folgenden Abbildung ist beispielsweise die CPU0-Chip0-Kommunikation schneller als die CPU0-Chip4-Kommunikation.

NUMA-Knotenkommunikation

Cloud TPU v5e-Typen für die Bereitstellung

Die Auslieferung über einen einzelnen Host wird für bis zu 8 v5e-Chips unterstützt. Folgende Konfigurationen werden unterstützt: 1 × 1, 2 × 2 und 2 × 4 Scheiben. Jedes Slice hat jeweils 1, 4 und 8 Chips.

TPU v5e-Konfigurationen, die die Bereitstellung unterstützen: 1x1, 2x2 und 2x4.

Wenn Sie TPUs für einen Bereitstellungsjob bereitstellen möchten, verwenden Sie in Ihrer CLI- oder API-Anfrage zum Erstellen von TPUs einen der folgenden Beschleunigertypen:

AcceleratorType (TPU API) Maschinentyp (GKE API)
v5litepod-1 ct5lp-hightpu-1t
v5litepod-4 ct5lp-hightpu-4t
v5litepod-8 ct5lp-hightpu-8t

Mit dem folgenden Befehl wird ein TPU-Speichereinsatz vom Typ v5e mit 8 v5e-Chips zum Bereitstellen erstellt:

  $ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-central1-a \
    --accelerator-type=v5litepod-8 \
    --version=v2-alpha-tpuv5-lite

Weitere Informationen zum Verwalten von TPUs finden Sie unter TPUs verwalten. Weitere Informationen zur Systemarchitektur von Cloud TPU finden Sie unter Systemarchitektur.

Das Bereitstellen auf mehr als 8 v5e-Chips, auch als Multihost-Auslieferung bezeichnet, wird mit Sax unterstützt. Weitere Informationen finden Sie unter Large Language Model Serving.

Cloud TPU v5e-Typen für das Training

Das Training wird für bis zu 256 Chips unterstützt.

Wenn Sie TPUs für einen v5e-Trainingsjob bereitstellen möchten, verwenden Sie in Ihrer CLI- oder API-Anfrage zum Erstellen von TPUs einen der folgenden Beschleunigertypen:

AcceleratorType (TPU API) Maschinentyp (GKE API) Topologie
v5litepod-16 ct5lp-hightpu-4t 4x4
v5litepod-32 ct5lp-hightpu-4t 4x8
v5litepod-64 ct5lp-hightpu-4t 8x8
v5litepod-128 ct5lp-hightpu-4t 8x16
v5litepod-256 ct5lp-hightpu-4t 16x16

Mit dem folgenden Befehl wird ein TPU-Speichere v5e mit 256 v5e-Chips für das Training erstellt:

  $ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5litepod-256 \
    --version=v2-alpha-tpuv5-lite

Weitere Informationen zum Verwalten von TPUs finden Sie unter TPUs verwalten. Weitere Informationen zur Systemarchitektur von Cloud TPU finden Sie unter Systemarchitektur.