TPU v5p
In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v5p beschrieben.
Systemarchitektur
In diesem Abschnitt wird die Systemarchitektur speziell für die Version v5p beschrieben. Jeder TensorCore hat vier MXUs (Matrix Multiply Units), eine Vektoreinheit und eine Skalareinheit.
Ein einzelner v5p-Slice enthält 8.960 Chips. Der größte Job, der geplant werden kann, ist ein Job mit 96 Cubes (6.144 Chips).
In der folgenden Tabelle sind die wichtigsten Spezifikationen für v5p aufgeführt.
Wichtige Spezifikationen | v5p-Werte |
---|---|
Maximale Rechenleistung pro Chip (bf16) | 459 TFLOPs |
HBM2e-Kapazität und ‑Bandbreite | 95 GB, 2.765 GB/s |
TPU-Pod-Größe | 8.960 Chips |
Interconnect-Topologie | 3D-Torus* |
Interchip-Interconnect-Bandbreite | 4.800 Gbit/s |
Konfigurationen
Ein TPU v5p-Pod besteht aus 8.960 Chips, die über rekonfigurierbare Hochgeschwindigkeitsverbindungen miteinander verbunden sind. Die flexible Vernetzung von TPU v5p ermöglicht Ihnen, die Chips in einem Slice derselben Größe auf verschiedene Arten zu verbinden. Wenn Sie mit dem Befehl gcloud compute tpus tpu-vm create
einen TPU-Slice erstellen, geben Sie den Typ und die Form mit dem Parameter AcceleratorType
an.
In der folgenden Tabelle sind die gängigsten Formen für einzelne Slices aufgeführt, die bei v5p unterstützt werden, sowie die meisten (aber nicht alle) Formen für vollständige Cubes mit mehr als einem Cube. Die maximale v5p-Form ist 16x16x24 (6.144 Chips, 96 Cubes).
Topologie | Kerne | Chips | Hosts | Cubes | Verdrehung unterstützt? |
2x2x1 | 8 | 4 | 1 | – | – |
2x2x2 | 16 | 8 | 2 | – | – |
2x4x4 | 64 | 32 | 8 | – | – |
4x4x4 | 128 | 64 | 16 | 1 | – |
4x4x8 | 256 | 128 | 32 | 2 | Ja |
4x8x8 | 512 | 256 | 64 | 4 | Ja |
8x8x8 | 1.024 | 512 | 128 | 8 | – |
8x8x16 | 2.048 | 1.024 | 256 | 16 | Ja |
8x16x16 | 4.096 | 2.048 | 512 | 32 | Ja |
16x16x16 | 8.192 | 4.096 | 1.024 | 64 | – |
16x16x24 | 12.288 | 6144 | 1.536 | 96 | – |
Das Training mit einem einzelnen Slice wird für bis zu 6.144 Chips unterstützt. Mit Multislice können Sie auf bis zu 18.432 Chips hochskalieren. Weitere Informationen zu Multislice finden Sie unter Cloud TPU-Multislice – Übersicht.
AcceleratorType-Parameter verwenden
Wenn Sie TPU-Ressourcen zuweisen, verwenden Sie das Argument --accelerator-type
, um die Anzahl der TensorCores in einem Slice anzugeben. --accelerator-type
ist ein String mit dem Format „v$VERSION_NUMBER
p-$CORES_COUNT
“.
v5p-32
gibt beispielsweise einen v5p-TPU-Slice mit 32 TensorCores (16 Chips) an.
Wenn Sie TPUs für einen v5p-Trainingsjob bereitstellen möchten, verwenden Sie einen der folgenden Beschleunigertypen in Ihrer CLI- oder TPU-API-Erstellungsanfrage:
- v5p‑8
- v5p‑16
- v5p‑32
- v5p‑64
- v5p‑128 (ein vollständiger Cube / ein vollständiges Rack)
- v5p‑256 (2 Cubes)
- v5p‑512
- v5p‑1024 … v5p‑12288
Mit dem folgenden Befehl wird ein v5p‑TPU-Slice mit 256 v5p-TensorCores (128 Chips) für das Training erstellt:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5p-256 \ --version=v2-alpha-tpuv5
Weitere Informationen zum Verwalten von TPUs finden Sie unter TPU-Ressourcen verwalten. Weitere Informationen zur Systemarchitektur von Cloud TPU finden Sie unter TPU-Architektur.
Cloud TPU-ICI-Ausfallsicherheit
Die ICI-Ausfallsicherheit trägt zur Verbesserung der Fehlertoleranz von optischen Verbindungen und optischen Schaltern (Optical Circuit Switches, OCS) bei, die TPUs zwischen Cubes verbinden. (Für ICI-Verbindungen innerhalb eines Cubes werden Kupferverbindungen verwendet, die nicht betroffen sind.) Die ICI-Ausfallsicherheit ermöglicht es, ICI-Verbindungen um OCS und optische ICI-Fehler herumzuleiten. Dadurch wird die Planungsverfügbarkeit von TPU-Slices verbessert, allerdings auf Kosten einer vorübergehenden Beeinträchtigung der ICI-Leistung.
Ähnlich wie bei Cloud TPU v4 ist die ICI-Ausfallsicherheit standardmäßig für v5p-Slices aktiviert, die mindestens einen Cube umfassen:
- v5p‑128 bei Angabe des Beschleunigertyps
- 4x4x4 bei der Angabe der Beschleunigerkonfiguration
VM-, Host- und Slice-Attribute
Attribut | Wert in einer TPU |
Anzahl der v5p-Chips | 4 |
Anzahl der vCPUs | 208 (nur die Hälfte ist nutzbar, wenn NUMA-Bindung verwendet wird, um Leistungseinbußen beim Zugriff über mehrere NUMA-Knoten hinweg zu vermeiden) |
RAM (GB) | 448 (nur die Hälfte ist nutzbar, wenn NUMA-Bindung verwendet wird, um Leistungseinbußen beim Zugriff über mehrere NUMA-Knoten hinweg zu vermeiden) |
Anzahl der NUMA-Knoten | 2 |
NIC-Durchsatz (Gbit/s) | 200 |
Beziehung zwischen der Anzahl der TensorCores, Chips, Hosts/VMs und Cubes in einem Pod:
Kerne | Chips | Hosts/VMs | Cubes | |
---|---|---|---|---|
Host | 8 | 4 | 1 | |
Cube (auch Rack genannt) | 128 | 64 | 16 | 1 |
Größter unterstützter Slice | 12.288 | 6144 | 1.536 | 96 |
Vollständiger v5p-Pod | 17920 | 8960 | 2240 | 140 |