TPU v5e
Este documento descreve a arquitetura e as configurações compatíveis do Cloud TPU v5e.
A TPU v5e oferece suporte a treinamento e inferência de um host único e de vários hosts. A inferência de vários hosts é aceita usando Sax. Para mais informações, consulte Como disponibilizar modelos de linguagem grandes.
arquitetura do sistema.
Cada chip v5e contém um TensorCore. Cada TensorCore tem quatro unidades de multiplicação de matriz (MXUs), uma unidade vetorial e uma escalar.
O diagrama a seguir ilustra um chip TPU v5e.
A tabela a seguir mostra as principais especificações do chip e os valores dele para a v5e.
Principais especificações do chip | Valores v5e |
Pico de computação por chip (bf16) | 197 TFLOPS |
Capacidade e largura de banda da HBM2 | 16 GB, 819 GBps |
BW de interconexão entre chips | 1.600 Gbps |
A tabela a seguir mostra as especificações do pod e os valores dele para a v5e.
Principais especificações do pod | Valores v5e |
Tamanho do pod da TPU | 256 chips |
Topologia de interconexão | Torus 2D |
Tempo de computação máximo por pod | 100 PetaOps(Int8) |
Largura de banda de redução total por pod | 51,2 TB/s |
Largura de banda de bisection por pod | 1,6 TB/s |
Largura de banda da rede do data center por pod | 6,4 Tbps |
Configurações
A Cloud TPU v5e é um produto combinado de treinamento e inferência (serviço). Para
diferenciar um ambiente de treinamento de um ambiente de inferência, use o
parâmetro AcceleratorType
com a API TPU ou a flag --machine-type
ao criar um pool de nós do GKE.
Os jobs de treinamento são otimizados para capacidade e disponibilidade, enquanto os jobs de veiculação são otimizados para latência. Um job de treinamento em TPUs provisionados para veiculação pode ter uma disponibilidade menor. Da mesma forma, um job de veiculação executado em TPUs provisionados para treinamento pode ter uma latência maior.
Use AcceleratorType
para especificar o número de TensorCores que você quer usar.
Especifique o AcceleratorType
ao criar uma TPU usando a
CLI gcloud ou o console do Google Cloud. O valor especificado para AcceleratorType
é uma string com o formato: v$VERSION_NUMBER-$CHIP_COUNT
.
As seguintes formas de fatia 2D são compatíveis com a v5e:
Topologia | Número de chips do TPU | Número de hosts |
1x1 | 1 | 1/8 |
2x2 | 4 | 1/2 |
2x4 | 8 | 1 |
4x4 | 16 | 2 |
4x8 | 32 | 4 |
8x8 | 64 | 8 |
8x16 | 128 | 16 |
16x16 | 256 | 32 |
Cada VM de TPU em uma fatia de TPU v5e contém 1, 4 ou 8 chips. Em frações de 4 chips e menores, todos os chips de TPU compartilham o mesmo nó de acesso à memória não uniforme (NUMA).
Para VMs TPU v5e de 8 chips, a comunicação CPU-TPU será mais eficiente nas partições
NUMA. Por exemplo, na figura a seguir, a comunicação CPU0-Chip0
será
mais rápida do que a CPU0-Chip4
.
Tipos de Cloud TPU v5e para veiculação
A veiculação em um único host é compatível com até 8 chips v5e. As seguintes configurações são compatíveis: fatias 1x1, 2x2 e 2x4. Cada fatia tem 1, 4 e 8 chips, respectivamente.
Para provisionar TPUs para um job de veiculação, use um dos seguintes tipos de acelerador na solicitação de criação de TPU da CLI ou da API:
AcceleratorType (API TPU) | Tipo de máquina (API GKE) |
---|---|
v5litepod-1 |
ct5lp-hightpu-1t |
v5litepod-4 |
ct5lp-hightpu-4t |
v5litepod-8 |
ct5lp-hightpu-8t |
O comando abaixo cria uma fatia de TPU v5e com 8 chips v5e para veiculação:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-central1-a \ --accelerator-type=v5litepod-8 \ --version=v2-alpha-tpuv5-lite
Para mais informações sobre como gerenciar TPUs, consulte Gerenciar TPUs. Para mais informações sobre a arquitetura do sistema do Cloud TPU, consulte Arquitetura do sistema.
A disponibilidade em mais de 8 chips v5e, também chamada de disponibilidade de vários hosts, é compatível com o Sax. Para mais informações, consulte Exibição de modelos de idioma grandes.
Tipos de Cloud TPU v5e para treinamento
O treinamento é compatível com até 256 chips.
Para provisionar TPUs para um job de treinamento v5e, use um dos seguintes tipos de acelerador na solicitação de criação de TPU da CLI ou da API:
AcceleratorType (API TPU) | Tipo de máquina (API GKE) | Topologia |
---|---|---|
v5litepod-16 |
ct5lp-hightpu-4t |
4x4 |
v5litepod-32 |
ct5lp-hightpu-4t |
4x8 |
v5litepod-64 |
ct5lp-hightpu-4t |
8x8 |
v5litepod-128 |
ct5lp-hightpu-4t |
8x16 |
v5litepod-256 |
ct5lp-hightpu-4t |
16x16 |
O comando a seguir cria uma fatia de TPU v5e com 256 chips v5e para treinamento:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5litepod-256 \ --version=v2-alpha-tpuv5-lite
Para mais informações sobre como gerenciar TPUs, consulte Gerenciar TPUs. Para mais informações sobre a arquitetura do sistema do Cloud TPU, consulte Arquitetura do sistema.