TPU v5p
Questo documento descrive l'architettura e le configurazioni supportate di Cloud TPU v5p.
Architettura di sistema
Questa sezione descrive l'architettura di sistema specifica della versione v5p. Ogni Tensor Core ha quattro unità di moltiplicazione a matrice (MXU), un'unità vettoriale e un'unità scalare.
Ci sono 8960 chip in una singola sezione v5p. Il job più grande che può essere pianificato è un job di 96 cubi (6144 chip).
La tabella seguente mostra le specifiche chiave per un v5p.
Specifiche principali | Valori v5p |
---|---|
Picco di calcolo per chip (bf16) | 459 TFLOP |
Capacità e larghezza di banda HBM2e | 95GB, 2765 GBps |
Dimensioni pod di TPU | 8960 chip |
Topologia di interconnessione | Toro 3D * |
Interconnessione interchip BW | 4800 Gbps |
Configurazioni
Un pod TPU v5p è composto da 8960 chip interconnessi con collegamenti riconfigurabili ad alta velocità. Il networking flessibile di TPU v5p ti consente di connettere i chip in una sezione delle stesse dimensioni in più modi. Quando crei una sezione TPU utilizzando il comando
gcloud compute tpus tpu-vm create
, specifichi il tipo e la forma
utilizzando il parametro AcceleratorType
.
La tabella seguente mostra le forme a una sola fetta più comuni supportate con v5p, oltre alla maggior parte (ma non tutte) delle forme a cubo intero maggiori di un cubo. La forma massima v5p è 16x16x24 (6144 chip, 96 cubi).
Topologia | Core | Patatine | Host | Cubetti | Supporta Twisted? |
2x2x1 | 8 | 4 | 1 | N/D | N/D |
2x2x2 | 16 | 8 | 2 | N/D | N/D |
2x4x4 | 64 | 32 | 8 | N/D | N/D |
4x4x4 | 128 | 64 | 16 | 1 | N/D |
4x4x8 | 256 | 128 | 32 | 2 | Sì |
4x8x8 | 512 | 256 | 64 | 4 | Sì |
8x8x8 | 1024 | 512 | 128 | 8 | N/D |
8x8x16 | 2048 | 1024 | 256 | 16 | Sì |
8x16x16 | 4096 | 2048 | 512 | 32 | Sì |
16x16x16 | 8192 | 4096 | 1024 | 64 | N/D |
16x16x24 | 12288 | 6144 | 1536 | 96 | N/D |
L'addestramento a una sola fetta è supportato per un massimo di 6144 chip. Puoi scalare fino a 18.432 chip utilizzando Multislice. Per saperne di più su Multislice, consulta la panoramica di Cloud TPU Multislice.
Utilizzo del parametro AcceleratorType
Quando allochi risorse TPU, utilizzi l'argomento --accelerator-type
per specificare il numero di TensorCore in una sezione. --accelerator-type
è una
stringa formattata "v$VERSION_NUMBER
p-$CORES_COUNT
".
Ad esempio, v5p-32
specifica una sezione TPU v5p con 32 TensorCore (16 chip).
Per eseguire il provisioning delle TPU per un job di addestramento v5p, utilizza uno dei seguenti tipi di acceleratore nella richiesta di creazione dell'API TPU o della CLI:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (un cubo/rack completo)
- v5p-256 (2 cubi)
- v5p-512
- v5p-1024 ... v5p-12288
Il comando seguente crea uno slice TPU v5p con 256 TensorCore v5p (128 chip) per l'addestramento:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5p-256 \ --version=v2-alpha-tpuv5
Per saperne di più sulla gestione delle TPU, consulta Gestire le TPU. Per ulteriori informazioni sull'architettura di sistema di Cloud TPU, consulta la sezione Architettura di sistema.
Resilienza dell'ICI di Cloud TPU
La resilienza dell'ICI contribuisce a migliorare la tolleranza agli errori dei collegamenti ottici e degli switch di circuiti ottici (OCS) che collegano le TPU tra i cubi. (le connessioni ICI all'interno di un cubo utilizzano collegamenti in rame che non sono interessati). La resilienza ICI consente di instradare le connessioni ICI intorno a OCS e ai guasti ottici ICI. Di conseguenza, migliora la disponibilità di pianificazione degli slice TPU, con il compromesso di un peggioramento temporaneo delle prestazioni dell'ICI.
Analogamente a Cloud TPU v4, la resilienza ICI è abilitata per impostazione predefinita per le sezioni v5p che sono un cubo o più grandi:
- v5p-128 quando specifichi il tipo di acceleratore
- 4x4x4 quando specifichi la configurazione dell'acceleratore
Proprietà di VM, host e slice
Proprietà | Valore di una TPU |
Numero di chip v5p | 4 |
Numero di vCPU | 208 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare penalità di prestazioni cross-NUMA) |
RAM (GB) | 448 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare penalità di prestazioni cross-NUMA) |
# of NUMA Nodes | 2 |
Throughput NIC (Gbps) | 200 |
Relazione tra il numero di Tensor Core, chip, host/VM e cubi in un pod:
Core | Chip | Host/VM | Cubi | |
---|---|---|---|---|
Organizzatore | 8 | 4 | 1 | |
Cube (aka rack) | 128 | 64 | 16 | 1 |
Fetta più grande supportata | 12288 | 6144 | 1536 | 96 |
v5p full Pod | 17920 | 8960 | 2240 | 140 |