TPU v5e
Questo documento descrive l'architettura e le configurazioni supportate di Cloud TPU v5e.
TPU v5e supporta l'addestramento su un singolo host e su più host e l'inferenza su un singolo host. L'inferenza multi-host è supportata utilizzando Sax. Per maggiori informazioni, consulta Inferenza Cloud TPU.
Architettura di sistema
Ogni chip v5e contiene un TensorCore. Ogni Tensor Core ha quattro unità di moltiplicazione a matrice (MXU), un'unità vettoriale e un'unità scalare.
Il seguente diagramma illustra un chip TPU v5e.
La tabella seguente mostra le specifiche del chip della chiave e i relativi valori per v5e.
Specifiche del chip della chiave | Valori v5e |
---|---|
Picco di calcolo per chip (bf16) | 197 TFLOP |
Capacità e larghezza di banda HBM2 | 16 GB, 819 GBps |
Interconnessione interchip BW | 1600 Gbps |
La tabella seguente mostra le specifiche dei pod e i relativi valori per v5e.
Specifiche principali del pod | Valori v5e |
---|---|
Dimensioni pod di TPU | 256 chip |
Topologia di interconnessione | Toro 2D |
Picco di computing per pod | 100 PetaOps (Int8) |
Larghezza di banda di All-reduce per pod | 51,2 TB/s |
Larghezza di banda bisezionale per pod | 1,6 TB/s |
Larghezza di banda della rete del data center per pod | 6,4 Tbps |
Configurazioni
Cloud TPU v5e è un prodotto combinato di addestramento e inferenza (servizio). Per
distinguere tra un ambiente di addestramento e un ambiente di inferenza, utilizza il
parametro AcceleratorType
con l'API TPU o il flag --machine-type
quando
crei un pool di nodi Google Kubernetes Engine (GKE).
I job di addestramento sono ottimizzati per velocità effettiva e disponibilità, mentre i job di servizio sono ottimizzati per la latenza. Un job di addestramento su TPU di cui è stato eseguito il provisioning per la pubblicazione potrebbe avere una disponibilità inferiore e, analogamente, un job di pubblicazione eseguito su TPU di cui è stato eseguito il provisioning per l'addestramento potrebbe avere una latenza maggiore.
Utilizzi AcceleratorType
per specificare il numero di TensorCore che vuoi utilizzare.
Specifichi AcceleratorType
quando crei una TPU utilizzando gcloud CLI o la consoleGoogle Cloud . Il valore che
specifichi per AcceleratorType
è una stringa con il formato:
v$VERSION_NUMBER-$CHIP_COUNT
.
Per v5e sono supportate le seguenti forme di sezioni 2D:
Topologia | Numero di chip TPU | Numero di host |
---|---|---|
1x1 | 1 | 1/8 |
2x2 | 4 | 1/2 |
2x4 | 8 | 1 |
4x4 | 16 | 2 |
4x8 | 32 | 4 |
8x8 | 64 | 8 |
8x16 | 128 | 16 |
16x16 | 256 | 32 |
Tipi di VM
Ogni VM TPU in una sezione TPU v5e contiene 1, 4 o 8 chip. Nelle sezioni da 4 chip e più piccole, tutti i chip TPU condividono lo stesso nodo NUMA (accesso alla memoria non uniforme).
Per le VM TPU v5e a 8 chip, la comunicazione CPU-TPU sarà più efficiente all'interno delle partizioni NUMA. Ad esempio, nella figura seguente, la comunicazione CPU0-Chip0
sarà
più veloce della comunicazione CPU0-Chip4
.
La tabella seguente mostra un confronto tra i tipi di VM TPU v5e:
Tipo di VM | Tipo di macchina (API GKE) | Numero di vCPU per VM | RAM (GB) per VM | Numero di nodi NUMA per VM |
---|---|---|---|---|
VM a 1 chip | ct5lp-hightpu-1t |
24 | 48 | 1 |
VM a 4 chip | ct5lp-hightpu-4t |
112 | 192 | 1 |
VM a 8 chip | ct5lp-hightpu-8t |
224 | 384 | 2 |
Tipi di Cloud TPU v5e per la pubblicazione
Il servizio su un singolo host è supportato per un massimo di 8 chip v5e. Sono supportate le seguenti configurazioni: sezioni 1x1, 2x2 e 2x4. Ogni fetta ha rispettivamente 1, 4 e 8 chip.
Per eseguire il provisioning delle TPU per un job di servizio, utilizza uno dei seguenti tipi di acceleratore nella richiesta di creazione di TPU tramite CLI o API:
AcceleratorType (API TPU) | Tipo di macchina (API GKE) |
---|---|
v5litepod-1 |
ct5lp-hightpu-1t |
v5litepod-4 |
ct5lp-hightpu-4t |
v5litepod-8 |
ct5lp-hightpu-8t |
Il comando seguente crea uno slice TPU v5e con 8 chip v5e per la pubblicazione:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-central1-a \ --accelerator-type=v5litepod-8 \ --version=v2-alpha-tpuv5-lite
Per saperne di più sulla gestione delle TPU, consulta Gestire le TPU. Per ulteriori informazioni sull'architettura di sistema di Cloud TPU, consulta la sezione Architettura di sistema.
L'hosting su più di 8 chip v5e, chiamato anche multi-host, è supportato utilizzando Sax. Per maggiori informazioni, consulta la sezione Inferenza Cloud TPU.
Tipi di Cloud TPU v5e per l'addestramento
L'addestramento è supportato per un massimo di 256 chip.
Per eseguire il provisioning delle TPU per un job di addestramento v5e, utilizza uno dei seguenti tipi di acceleratore nella richiesta di creazione di TPU della CLI o dell'API:
AcceleratorType (API TPU) | Tipo di macchina (API GKE) | Topologia |
---|---|---|
v5litepod-16 |
ct5lp-hightpu-4t |
4x4 |
v5litepod-32 |
ct5lp-hightpu-4t |
4x8 |
v5litepod-64 |
ct5lp-hightpu-4t |
8x8 |
v5litepod-128 |
ct5lp-hightpu-4t |
8x16 |
v5litepod-256 |
ct5lp-hightpu-4t |
16x16 |
Il seguente comando crea uno slice TPU v5e con 256 chip v5e per l'addestramento:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5litepod-256 \ --version=v2-alpha-tpuv5-lite
Per saperne di più sulla gestione delle TPU, consulta Gestire le TPU. Per ulteriori informazioni sull'architettura di sistema di Cloud TPU, consulta la sezione Architettura di sistema.