TPU v5p
In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v5p beschrieben.
Systemarchitektur
In diesem Abschnitt wird die Systemarchitektur beschrieben, die speziell für die Version 5p gilt. Jeder TensorCore hat vier Matrix Multiply Units (MXU), eine Vektoreinheit und eine Skalareinheit.
Ein einzelnes v5p-Speicher-Slice enthält 8.960 Chips. Der größte Job, der geplant werden kann, ist ein Job mit 96 Würfeln (6.144 Chips).
In der folgenden Tabelle sind die wichtigsten Spezifikationen für eine v5p aufgeführt.
Wichtige technische Daten | V5p-Werte |
---|---|
Maximale Rechenleistung pro Chip (bf16) | 459 TFLOPS |
HBM2e-Kapazität und ‑Bandbreite | 95 GB, 2.765 GB/s |
TPU-Pod-Größe | 8.960 Chips |
Interconnect-Topologie | 3D-Torus * |
Interchip-Interconnect-BW | 4.800 Gbit/s |
Konfigurationen
Ein TPU v5p-Pod besteht aus 8.960 Chips, die über rekonfigurierbare Hochgeschwindigkeitsverbindungen miteinander verbunden sind. Dank der flexiblen Vernetzung von TPU v5p können Sie die Chips in einem Slice derselben Größe auf verschiedene Arten verbinden. Wenn Sie ein TPU-Speicher-Slice mit dem Befehl gcloud compute tpus tpu-vm create
erstellen, geben Sie den Typ und die Form mit dem Parameter AcceleratorType
an.
In der folgenden Tabelle sind die gängigsten Formen mit einer einzelnen Scheibe aufgeführt, die mit v5p unterstützt werden, sowie die meisten (aber nicht alle) Formen mit mehreren Würfeln. Die maximale v5p-Form ist 16 × 16 × 24 (6.144 Chips, 96 Würfel).
Topologie | Kerne | Chips | Hosts | Würfel | Unterstützt Twisted? |
2x2x1 | 8 | 4 | 1 | – | – |
2x2x2 | 16 | 8 | 2 | – | – |
2x4x4 | 64 | 32 | 8 | – | – |
4x4x4 | 128 | 64 | 16 | 1 | – |
4x4x8 | 256 | 128 | 32 | 2 | Ja |
4x8x8 | 512 | 256 | 64 | 4 | Ja |
8 × 8 × 8 | 1.024 | 512 | 128 | 8 | – |
8x8x16 | 2.048 | 1.024 | 256 | 16 | Ja |
8x16x16 | 4.096 | 2.048 | 512 | 32 | Ja |
16 x 16 x 16 | 8.192 | 4.096 | 1.024 | 64 | – |
16x16x24 | 12.288 | 6144 | 1.536 | 96 | – |
Das Training mit einer einzelnen Spule wird für bis zu 6.144 Chips unterstützt. Mit Multislice können Sie bis zu 18.432 Chips skalieren. Weitere Informationen zu Multislice finden Sie unter Cloud TPU Multislice – Übersicht.
Parameter „AcceleratorType“ verwenden
Wenn Sie TPU-Ressourcen zuweisen, geben Sie mit dem Argument --accelerator-type
die Anzahl der TensorCores in einem Slice an. --accelerator-type
ist ein formatierter String „v$VERSION_NUMBER
p-$CORES_COUNT
“.
v5p-32
gibt beispielsweise ein TPU-Segment vom Typ v5p mit 32 TensorCores (16 Chips) an.
Wenn Sie TPUs für einen v5p-Trainingsjob bereitstellen möchten, verwenden Sie in Ihrer CLI- oder TPU API-Erstellungsanfrage einen der folgenden Beschleunigertypen:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (ein vollständiger Würfel/Rack)
- v5p-256 (2 Würfel)
- v5p-512
- v5p-1024…v5p-12288
Mit dem folgenden Befehl wird ein TPU-Speichereinsatz vom Typ v5p mit 256 v5p-Chips für das Training erstellt:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5p-256 \ --version=v2-alpha-tpuv5
Weitere Informationen zum Verwalten von TPUs finden Sie unter TPUs verwalten. Weitere Informationen zur Systemarchitektur von Cloud TPU finden Sie unter Systemarchitektur.
Cloud TPU-Resilienz bei ICI
Die ICI-Resilienz trägt dazu bei, die Fehlertoleranz optischer Verbindungen und optischer Schalter (Optical Circuit Switches, OCS) zu verbessern, die TPUs zwischen den Würfeln verbinden. ICI-Verbindungen innerhalb eines Würfels verwenden Kupferverbindungen, die nicht betroffen sind. Durch die ICI-Ausfallsicherheit können ICI-Verbindungen um OCS- und optische ICI-Fehler herumgeleitet werden. Dadurch wird die Planungsverfügbarkeit von TPU-Scheiben verbessert, was jedoch zu vorübergehenden Leistungseinbußen bei der ICI führt.
Ähnlich wie bei Cloud TPU v4 ist die ICI-Resilienz standardmäßig für v5p-Segmente aktiviert, die mindestens ein Würfel sind:
- v5p-128 bei Angabe des Beschleunigertyps
- 4x4x4 bei Angabe der Beschleunigerkonfiguration
VM-, Host- und Sliver-Attribute
Attribut | Wert einer TPU |
Anzahl der v5p-Chips | 4 |
Anzahl der vCPUs | 208 (bei Verwendung der NUMA-Bindung nur die Hälfte nutzbar, um NUMA-übergreifende Leistungseinbußen zu vermeiden) |
RAM (GB) | 448 (bei Verwendung der NUMA-Bindung nur die Hälfte nutzbar, um NUMA-übergreifende Leistungseinbußen zu vermeiden) |
Anzahl der NUMA-Knoten | 2 |
NIC-Durchsatz (Gbit/s) | 200 |
Beziehung zwischen der Anzahl der Tensorkerne, Chips, Hosts/VMs und Würfel in einem Pod:
Kerne | Chips | Hosts/VMs | Würfel | |
---|---|---|---|---|
Moderator:in | 8 | 4 | 1 | |
Cube (auch Rack) | 128 | 64 | 16 | 1 |
Größter unterstützter Ausschnitt | 12.288 | 6144 | 1.536 | 96 |
v5p-Voll-Pod | 17920 | 8960 | 2240 | 140 |