Esta página foi traduzida pela API Cloud Translation.

TPU v5e

Este documento descreve a arquitetura e as configurações compatíveis da Cloud TPU v5e.

A TPU v5e oferece suporte a treinamento de host único e de vários hosts e inferência de host único. A inferência de vários hosts é compatível com o uso do Sax. Para mais informações, consulte Inferência do Cloud TPU.

arquitetura do sistema.

Cada chip v5e contém um TensorCore. Cada TensorCore tem quatro unidades de multiplicação de matriz (MXUs), uma unidade vetorial e uma unidade escalar.

O diagrama a seguir ilustra um chip TPU v5e.

Diagrama de um chip v5e

A tabela a seguir mostra as principais especificações do chip e os valores para o v5e.

Especificações principais do chip	Valores v5e
Pico de computação por chip (bf16)	197 TFLOPS
Capacidade e largura de banda da HBM2	16 GB, 819 GBps
Interconexão entre chips BW	1.600 Gbps

A tabela a seguir mostra as especificações do pod e os valores delas para v5e.

Principais especificações do pod	Valores v5e
Tamanho do pod de TPU	256 chips
Topologia de interconexão	Toroide 2D
Computação máxima por pod	100 PetaOps (Int8)
Largura de banda de redução total por pod	51,2 TB/s
Largura de banda de bissecção por pod	1,6 TB/s
Largura de banda da rede do data center por pod	6,4 Tbps

Configurações

A Cloud TPU v5e é um produto combinado de treinamento e inferência (veiculação). Para diferenciar um ambiente de treinamento e um de inferência, use o parâmetro AcceleratorType com a API TPU ou a flag --machine-type ao criar um pool de nós do Google Kubernetes Engine (GKE).

Os jobs de treinamento são otimizados para capacidade e disponibilidade, enquanto os jobs de veiculação são otimizados para latência. Um job de treinamento em TPUs provisionadas para disponibilização pode ter disponibilidade menor. Da mesma forma, um job de disponibilização executado em TPUs provisionadas para treinamento pode ter latência maior.

Use AcceleratorType para especificar o número de TensorCores que você quer usar. Você especifica o AcceleratorType ao criar uma TPU usando a CLI gcloud ou o Google Cloud console. O valor especificado para AcceleratorType é uma string com o formato: v$VERSION_NUMBER-$CHIP_COUNT.

As seguintes formas de corte 2D são compatíveis com a v5e:

Topologia	Número de chips do TPU	Número de hosts
1x1	1	1/8
2x2	4	1/2
2x4	8	1
4x4	16	2
4x8	32	4
8x8	64	8
8x16	128	16
16x16	256	32

Tipos de VM

Cada VM de TPU em uma fração de TPU v5e contém 1, 4 ou 8 chips. Em frações de quatro chips ou menos, todos os chips de TPU compartilham o mesmo nó de acesso à memória não uniforme (NUMA).

Para VMs de TPU v5e de 8 chips, a comunicação CPU-TPU será mais eficiente em partições NUMA. Por exemplo, na figura a seguir, a comunicação CPU0-Chip0 será mais rápida do que a CPU0-Chip4.

Comunicação de nó NUMA

A tabela a seguir mostra uma comparação dos tipos de VM da TPU v5e:

Tipo de VM	Tipo de máquina (API GKE)	Número de vCPUs por VM	RAM (GB) por VM	Número de nós NUMA por VM
VM de um chip	`ct5lp-hightpu-1t`	24	48	1
VM de quatro chips	`ct5lp-hightpu-4t`	112	192	1
VM de 8 chips	`ct5lp-hightpu-8t`	224	384	2

Tipos de Cloud TPU v5e para veiculação

O serviço de host único é compatível com até oito chips v5e. As seguintes configurações são compatíveis: 1x1, 2x2 e 2x4. Cada fração tem 1, 4 e 8 chips, respectivamente.

Configurações da TPU v5e compatíveis com a veiculação: 1x1, 2x2 e 2x4.

Para provisionar TPUs para um job de serviço, use um dos seguintes tipos de acelerador na sua CLI ou solicitação de criação de TPU da API:

AcceleratorType (API TPU)	Tipo de máquina (API GKE)
`v5litepod-1`	`ct5lp-hightpu-1t`
`v5litepod-4`	`ct5lp-hightpu-4t`
`v5litepod-8`	`ct5lp-hightpu-8t`

O comando a seguir cria uma fração de TPU v5e com oito chips v5e para veiculação:

$ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-central1-a \
    --accelerator-type=v5litepod-8 \
    --version=v2-alpha-tpuv5-lite

Para mais informações sobre como gerenciar TPUs, consulte Gerenciar TPUs. Para mais informações sobre a arquitetura do sistema do Cloud TPU, consulte Arquitetura do sistema.

A disponibilização em mais de oito chips v5e, também chamada de disponibilização de vários hosts, é compatível com o Sax. Para mais informações, consulte Inferência do Cloud TPU.

Tipos de Cloud TPU v5e para treinamento

O treinamento é compatível com até 256 chips.

Para provisionar TPUs para um job de treinamento v5e, use um dos seguintes tipos de acelerador na sua solicitação de criação de TPU da CLI ou da API:

AcceleratorType (API TPU)	Tipo de máquina (API GKE)	Topologia
`v5litepod-16`	`ct5lp-hightpu-4t`	4x4
`v5litepod-32`	`ct5lp-hightpu-4t`	4x8
`v5litepod-64`	`ct5lp-hightpu-4t`	8x8
`v5litepod-128`	`ct5lp-hightpu-4t`	8x16
`v5litepod-256`	`ct5lp-hightpu-4t`	16x16

O comando a seguir cria uma fração de TPU v5e com 256 chips v5e para treinamento:

$ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5litepod-256 \
    --version=v2-alpha-tpuv5-lite

Para mais informações sobre como gerenciar TPUs, consulte Gerenciar TPUs. Para mais informações sobre a arquitetura do sistema do Cloud TPU, consulte Arquitetura do sistema.