TPU v5e
Este documento descreve a arquitetura e as configurações suportadas do Cloud TPU v5e.
A TPU v5e oferece suporte a treinamento de um ou vários hosts e a inferência de host único. A inferência de vários hosts é compatível com o Sax. Para mais informações, consulte Exibição de modelo de linguagem grande.
arquitetura do sistema.
Cada chip v5e contém um TensorCore. Cada TensorCore tem quatro operações de multiplicação de vetor (MXUs), uma unidade de vetor e uma unidade escalar.
O diagrama a seguir ilustra um chip TPU v5e.
A tabela a seguir mostra as especificações do ícone de chave e os valores delas para a v5e.
Especificações do chip de chave | Valores da v5e |
Pico de computação por chip (bf16) | 197 TFLOPs |
Capacidade e largura de banda do HBM2 | 16 GB, 819 GBps |
BW de interconexão entre chips | 1.600 Gbps |
A tabela a seguir mostra as especificações de pod e os valores delas para a v5e.
Principais especificações do pod | Valores da v5e |
Tamanho do Pod de TPU | 256 ícones |
Topologia de interconexão | Toro 2D |
Tempo de computação máximo por pod | 100 PetaOps(Int8) |
Reduzir totalmente a largura de banda por pod | 51,2 TB/s |
Largura de banda de bissecção por pod | 1,6 TB/s |
Largura de banda da rede de data center por pod | 6,4 Tbps |
Configurações
O Cloud TPU v5e é um produto combinado de treinamento e inferência (disponibilização). Para
para diferenciar um ambiente de treinamento de um ambiente de inferência, use o
Sinalizações AcceleratorType
ou AcceleratorConfig
com a API TPU ou o
Sinalização --machine-type
ao criar um nó do GKE
pool.
Os jobs de treinamento são otimizados para capacidade e disponibilidade, enquanto os jobs de veiculação são otimizados para latência. Um job de treinamento em TPUs provisionados para veiculação poderia ter menor disponibilidade e, da mesma forma, um job de veiculação executado em TPUs provisionados para treinamento podem ter maior latência.
Use AcceleratorType
para especificar o número de TensorCores que você quer usar.
Especifique o AcceleratorType
ao criar uma TPU usando o
CLI gcloud ou o console do Google Cloud. O valor que você
especificar para AcceleratorType
é uma string com o formato:
v$VERSION_NUMBER-$CHIP_COUNT
.
Também é possível usar AcceleratorConfig
para especificar o número de TensorCores
quer usar. No entanto, como não há variantes de topologia 2D personalizadas para TPU
v5e, não há diferença entre o uso de AcceleratorConfig
e
AcceleratorType
.
Para configurar uma TPU v5e usando AcceleratorConfig
, use --version
e o
--topology
. Defina --version
como a versão da TPU que você quer usar e
--topology
como a disposição física dos chips da TPU na fatia. O
valor especificado para AcceleratorConfig
é uma string com o formato AxB
,
em que A
e B
são as contagens de chips em cada direção.
As seguintes formas de fatias 2D são compatíveis com a v5e:
topologia | Número de chips do TPU | Número de hosts |
1x1 | 1 | 1/8 |
2x2 | 4 | 1/2 |
2x4 | 8 | 1 |
4x4 | 16 | 2 |
4x8 | 32 | 4 |
8x8 | 64 | 8 |
8x16 | 128 | 16 |
16x16 | 256 | 32 |
Cada VM de TPU em uma fração de TPU v5e contém 1, 4 ou 8 chips. Em 4 chips e menores frações, todos os chips de TPU compartilham o mesmo nó de acesso à memória não uniforme (NUMA, na sigla em inglês).
Para VMs de TPU v5e de 8 chips, a comunicação entre CPU e TPU será mais eficiente dentro de NUMA.
partições diferentes. Por exemplo, na figura a seguir, a comunicação do CPU0-Chip0
será
ser mais rápida que a comunicação CPU0-Chip4
.
Tipos de Cloud TPU v5e para veiculação
A veiculação de host único é compatível com até oito chips v5e. O seguinte são suportadas: frações 1x1, 2x2 e 2x4. Cada fatia tem 1, 4 e 8 chips, respectivamente.
Para provisionar TPUs para um job de disponibilização, use um dos tipos de acelerador a seguir. na solicitação de criação de TPU da API ou CLI:
AcceleratorType (API TPU) | Tipo de máquina (API GKE) |
---|---|
v5litepod-1 |
ct5lp-hightpu-1t |
v5litepod-4 |
ct5lp-hightpu-4t |
v5litepod-8 |
ct5lp-hightpu-8t |
A veiculação em mais de 8 chips v5e, também chamada de veiculação de vários hosts, tem suporte ao Sax. Para mais informações, consulte Disponibilização de modelos de linguagem grandes.
Tipos de Cloud TPU v5e para treinamento
O treinamento é compatível com até 256 chips.
Para provisionar TPUs para um job de treinamento v5e, use um dos aceleradores abaixo. na solicitação de criação de TPU da API ou CLI:
AcceleratorType (API TPU) | Tipo de máquina (API GKE) | topologia |
---|---|---|
v5litepod-16 |
ct5lp-hightpu-4t |
4x4 |
v5litepod-32 |
ct5lp-hightpu-4t |
4x8 |
v5litepod-64 |
ct5lp-hightpu-4t |
8x8 |
v5litepod-128 |
ct5lp-hightpu-4t |
8x16 |
v5litepod-256 |
ct5lp-hightpu-4t |
16x16 |
Comparação de tipos de VM de TPU v5e:
Tipo de VM | n2d-48-24-v5lite-tpu | n2d-192-112-v5lite-tpu | n2d-384-224-v5lite-tpu |
Número de chips v5e | 1 | 4 | 8 |
No de vCPUs | 24 | 112 | 224 |
RAM (GB) | 48 | 192 | 384 |
Número de nós NUMA | 1 | 1 | 2 |
Aplicável a | v5litepod-1 | v5litepod-4 | v5litepod-8 |
Interrupção | Alta | Média | Baixo |
Para liberar espaço para cargas de trabalho que exigem mais chips, os programadores podem forçar a interrupção das VMs com menos ícones. Portanto, as VMs de 8 chips provavelmente vão preemptar as VMs de 1 e 4 chips.