TPU v5p
Este documento descreve a arquitetura e as configurações compatíveis da Cloud TPU v5p.
arquitetura do sistema.
Esta seção descreve a arquitetura do sistema específica da versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matrizes (MXU), uma unidade vetorial e uma unidade escalar.
Há 8.960 chips em uma única fração v5p. O maior job que pode ser programado é um cubo de 96 (6.144 chips).
A tabela a seguir mostra as principais especificações de um v5p.
Principais especificações | Valores v5p |
---|---|
Pico de computação por chip (bf16) | 459 TFLOPS |
Capacidade e largura de banda da HBM2e | 95GB, 2765 GBps |
Tamanho do pod de TPU | 8.960 chips |
Topologia de interconexão | Toroide 3D * |
Interconexão entre chips BW | 4800 Gbps |
Configurações
Um Pod de TPU v5p é composto por 8.960 chips interconectados com links de alta velocidade
reconfiguráveis. A rede flexível da TPU v5p permite conectar os chips em uma fração do mesmo tamanho de várias maneiras. Ao criar uma fração de TPU usando o comando
gcloud compute tpus tpu-vm create
, especifique o tipo e o formato
usando o parâmetro AcceleratorType
.
A tabela a seguir mostra as formas de fatia única mais comuns compatíveis com v5p, além da maioria (mas não todas) das formas de cubo completo maiores que um cubo. O formato máximo do v5p é 16x16x24 (6.144 chips, 96 cubos).
topologia | Núcleos | Ícones | Organizadores | Cubos | Compatível com Twisted? |
2x2x1 | 8 | 4 | 1 | N/A | N/A |
2x2x2 | 16 | 8 | 2 | N/A | N/A |
2x4x4 | 64 | 32 | 8 | N/A | N/A |
4x4x4 | 128 | 64 | 16 | 1 | N/A |
4x4x8 | 256 | 128 | 32 | 2 | Sim |
4x8x8 | 512 | 256 | 64 | 4 | Sim |
8x8x8 | 1024 | 512 | 128 | 8 | N/A |
8x8x16 | 2048 | 1024 | 256 | 16 | Sim |
8x16x16 | 4096 | 2048 | 512 | 32 | Sim |
16x16x16 | 8192 | 4096 | 1024 | 64 | N/A |
16x16x24 | 12.288 | 6144 | 1.536 | 96 | N/A |
O treinamento de fatia única é compatível com até 6.144 chips. É possível escalonar verticalmente até 18.432 chips usando o Multislice. Para mais informações sobre Multislice, consulte Visão geral do Cloud TPU Multislice.
Como usar o parâmetro AcceleratorType
Ao alocar recursos de TPU, use o argumento --accelerator-type
para especificar o número de TensorCores em uma fração. --accelerator-type
é uma string formatada "v$VERSION_NUMBER
p-$CORES_COUNT
".
Por exemplo, v5p-32
especifica uma fração da TPU v5p com 32 TensorCores (16 chips).
Para provisionar TPUs para um job de treinamento v5p, use um dos seguintes tipos de acelerador na sua solicitação de criação de API da CLI ou da TPU:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (um cubo/rack completo)
- v5p-256 (2 cubos)
- v5p-512
- v5p-1024 ... v5p-12288
O comando a seguir cria uma fração de TPU v5p com 256 TensorCores v5p (128 chips) para treinamento:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5p-256 \ --version=v2-alpha-tpuv5
Para mais informações sobre como gerenciar TPUs, consulte Gerenciar TPUs. Para mais informações sobre a arquitetura do sistema do Cloud TPU, consulte Arquitetura do sistema.
Resiliência da ICI da Cloud TPU
A capacidade de recuperação do ICI ajuda a melhorar a tolerância a falhas de links ópticos e chaves de circuito óptico (OCS, na sigla em inglês) que conectam as TPUs entre os cubos. As conexões ICI em um cubo usam links de cobre que não são afetados. A capacidade de recuperação do ICI permite que as conexões do ICI sejam roteadas em torno de falhas do OCS e do ICI óptico. Como resultado, isso melhora a disponibilidade de programação das frações de TPU, com a compensação de uma degradação temporária na performance da ICI.
Assim como na Cloud TPU v4, a capacidade de recuperação do ICI é ativada por padrão para fatias v5p de um cubo ou maiores:
- v5p-128 ao especificar o tipo de acelerador
- 4x4x4 ao especificar a configuração do acelerador
Propriedades de VM, host e fração
Propriedade | Valor em uma TPU |
Número de chips v5p | 4 |
Nº de vCPUs | 208 (apenas metade é utilizável se você usar a vinculação NUMA para evitar penalidades de desempenho entre NUMAs) |
RAM (GB) | 448 (apenas metade é utilizável se você usar a vinculação NUMA para evitar penalidades de desempenho entre NUMAs) |
# de nós NUMA | 2 |
Capacidade da placa de rede (Gbps) | 200 |
Relação entre o número de TensorCores, chips, hosts/VMs e cubos em um pod:
Núcleos | Chips | Hosts/VMs | Cubos | |
---|---|---|---|---|
Host | 8 | 4 | 1 | |
Cubo (também conhecido como rack) | 128 | 64 | 16 | 1 |
Maior fração compatível | 12.288 | 6144 | 1.536 | 96 |
Pod v5p completo | 17920 | 8960 | 2240 | 140 |