TPU v5e
Ce document décrit l'architecture et les configurations compatibles de Cloud TPU v5e.
Le TPU v5e est compatible avec l'entraînement à hôte unique et multi-hôte, ainsi qu'avec l'inférence à hôte unique. L'inférence multi-hôte est compatible avec Sax. Pour en savoir plus, consultez Diffusion de grands modèles de langage.
Architecture du système
Chaque puce v5e contient un TensorCore. Chaque TensorCore possède quatre unités de multiplication de matrice (MXU), une unité vectorielle et une unité scalaire.
Le schéma suivant illustre une puce TPU v5e.
Le tableau suivant présente les principales spécifications de la puce et leurs valeurs pour la version v5e.
Principales caractéristiques des puces | Valeurs v5e |
Calcul de pointe par puce (bf16) | 197 TFLOPS |
Capacité et bande passante de la mémoire HBM2 | 16 Go, 819 Gbit/s |
Bande passante de l'interconnexion entre puces | 1 600 Gbit/s |
Le tableau suivant présente les spécifications des pods et leurs valeurs pour la version v5e.
Principales caractéristiques du pod | Valeurs v5e |
Taille du pod TPU | 256 chips |
Topologie d'interconnexion | Torus 2D |
Calcul maximal par pod | 100 péta-OPS(Int8) |
Bande passante de réduction globale par pod | 51,2 To/s |
Bande passante bissectionnelle par pod | 1,6 To/s |
Bande passante du réseau du centre de données par pod | 6,4 Tbit/s |
Configurations
Cloud TPU v5e est un produit combiné d'entraînement et d'inférence (inférence). Pour distinguer un environnement d'entraînement d'un environnement d'inférence, utilisez le paramètre AcceleratorType
avec l'API TPU ou l'option --machine-type
lorsque vous créez un pool de nœuds GKE.
Les jobs d'entraînement sont optimisés pour le débit et la disponibilité, tandis que les jobs de diffusion sont optimisés pour la latence. Une tâche d'entraînement sur des TPU provisionnés pour la diffusion peut avoir une disponibilité plus faible. De même, une tâche de diffusion exécutée sur des TPU provisionnés pour l'entraînement peut avoir une latence plus élevée.
Vous utilisez AcceleratorType
pour spécifier le nombre de TensorCores que vous souhaitez utiliser.
Vous spécifiez le AcceleratorType
lorsque vous créez un TPU à l'aide de la CLI gcloud ou de la console Google Cloud. La valeur que vous spécifiez pour AcceleratorType
est une chaîne au format v$VERSION_NUMBER-$CHIP_COUNT
.
Les formes de tranche 2D suivantes sont compatibles avec la version 5e:
Topologie | Nombre de puces TPU | Nombre d'hôtes |
1x1 | 1 | 1/8 |
2x2 | 4 | 1/2 |
2x4 | 8 | 1 |
4x4 | 16 | 2 |
4x8 | 32 | 4 |
8x8 | 64 | 8 |
8x16 | 128 | 16 |
16x16 | 256 | 32 |
Chaque VM TPU d'une tranche TPU v5e contient une, quatre ou huit puces. Dans les tranches à quatre puces et plus petites, toutes les puces TPU partagent le même nœud d'accès à la mémoire non uniforme (NUMA).
Pour les VM TPU v5e à 8 puces, la communication CPU-TPU sera plus efficace dans les partitions NUMA. Par exemple, dans la figure suivante, la communication CPU0-Chip0
sera plus rapide que la communication CPU0-Chip4
.
Types de Cloud TPU v5e pour la diffusion
La diffusion sur un seul hôte est prise en charge pour un maximum de huit puces v5e. Les configurations suivantes sont acceptées: 1x1, 2x2 et 2x4. Chaque tranche comporte respectivement une, quatre et huit puces.
Pour provisionner des TPU pour une tâche de diffusion, utilisez l'un des types d'accélérateurs suivants dans votre demande de création de TPU via la CLI ou l'API:
AcceleratorType (API TPU) | Type de machine (API GKE) |
---|---|
v5litepod-1 |
ct5lp-hightpu-1t |
v5litepod-4 |
ct5lp-hightpu-4t |
v5litepod-8 |
ct5lp-hightpu-8t |
La commande suivante crée une tranche de TPU v5e avec huit puces v5e pour le traitement:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-central1-a \ --accelerator-type=v5litepod-8 \ --version=v2-alpha-tpuv5-lite
Pour en savoir plus sur la gestion des TPU, consultez Gérer les TPU. Pour en savoir plus sur l'architecture système de Cloud TPU, consultez la page Architecture du système.
La diffusion sur plus de huit puces v5e, également appelée diffusion multi-hôte, est prise en charge à l'aide de Sax. Pour en savoir plus, consultez la section Service de grands modèles de langage.
Types de Cloud TPU v5e pour l'entraînement
L'entraînement est accepté pour un maximum de 256 puces.
Pour provisionner des TPU pour une tâche d'entraînement v5e, utilisez l'un des types d'accélérateurs suivants dans votre requête de création de TPU via la CLI ou l'API:
AcceleratorType (API TPU) | Type de machine (API GKE) | Topologie |
---|---|---|
v5litepod-16 |
ct5lp-hightpu-4t |
4x4 |
v5litepod-32 |
ct5lp-hightpu-4t |
4x8 |
v5litepod-64 |
ct5lp-hightpu-4t |
8x8 |
v5litepod-128 |
ct5lp-hightpu-4t |
8x16 |
v5litepod-256 |
ct5lp-hightpu-4t |
16x16 |
La commande suivante crée une tranche de TPU v5e avec 256 puces v5e pour l'entraînement:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5litepod-256 \ --version=v2-alpha-tpuv5-lite
Pour en savoir plus sur la gestion des TPU, consultez Gérer les TPU. Pour en savoir plus sur l'architecture système de Cloud TPU, consultez la page Architecture du système.