Esta página foi traduzida pela API Cloud Translation.

TPU v6e

Este documento descreve a arquitetura e as configurações compatíveis do Cloud TPU v6e (Trillium).

O Trillium é o mais recente acelerador de IA da Cloud TPU. Em todas as plataformas técnicas, como a API e os registros, e ao longo deste documento, o Trillium será chamado de v6e.

Com uma pegada de 256 chips por pod, a v6e compartilha muitas semelhanças com a v5e. Esse sistema é otimizado para ser o produto de maior valor para treinamento, ajuste e serviço de transformadores, conversão de texto em imagem e redes neurais convolucionais (CNNs).

arquitetura do sistema.

Cada chip v6e contém um TensorCore. Cada TensorCore tem duas unidades de multiplicação de matriz (MXU), uma unidade vetorial e uma unidade escalar. A tabela a seguir mostra as principais especificações e os valores da TPU v6e em comparação com a TPU v5e.

Especificação	v5e	v6e
Performance/custo total de propriedade (TCO) (esperado)	0,65x	1
Pico de computação por chip (bf16)	197 TFLOPS	918 TFLOPS
Computação de pico por chip (Int8)	393 TOPS	1836 TOPS
Capacidade de HBM por chip	16 GB	32 GB
Largura de banda de HBM por chip	800 GBps	1.600 GBps
Largura de banda da interconexão entre chips (ICI)	1.600 Gbps	3.200 Gbps
Portas ICI por chip	4	4
DRAM por host	512 GiB	1536 GiB
Chips por host	8	8
Tamanho do pod de TPU	256 chips	256 chips
Topologia de interconexão	Toroide 2D	Toroide 2D
Pico de computação BF16 por pod	50,63 PFLOPs	234,9 PFLOPs
Largura de banda de redução total por pod	51,2 TB/s	102,4 TB/s
Largura de banda de bissecção por pod	1,6 TB/s	3,2 TB/s
Configuração de NIC por host	2 NICs de 100 Gbps	4 NICs de 200 Gbps
Largura de banda da rede do data center por pod	6,4 Tbps	25,6 Tbps
Recursos especiais	-	SparseCore

Configurações aceitas

A tabela a seguir mostra as formas de corte 2D compatíveis com a v6e:

Topologia	Chips de TPU	Hosts	VMs	Tipo de acelerador (API TPU)	Tipo de máquina (API GKE)	Escopo
1x1	1	1/8	1	`v6e-1`	`ct6e-standard-1t`	Subhost
2x2	4	1/2	1	`v6e-4`	`ct6e-standard-4t`	Subhost
2x4	8	1	1	`v6e-8`	`ct6e-standard-8t`	Host único
2x4	8	1	2	-	`ct6e-standard-4t`	Host único
4x4	16	2	4	`v6e-16`	`ct6e-standard-4t`	Vários hosts
4x8	32	4	8	`v6e-32`	`ct6e-standard-4t`	Vários hosts
8x8	64	8	16	`v6e-64`	`ct6e-standard-4t`	Vários hosts
8x16	128	16	32	`v6e-128`	`ct6e-standard-4t`	Vários hosts
16x16	256	32	64	`v6e-256`	`ct6e-standard-4t`	Vários hosts

As fatias com oito chips (v6e-8) anexadas a uma única VM são otimizadas para inferência, permitindo que todos os oito chips sejam usados em uma única carga de trabalho de serviço. É possível realizar inferências de vários hosts usando o Pathways on Cloud. Para mais informações, consulte Realizar inferência multihost usando o Pathways

Para informações sobre o número de VMs em cada topologia, consulte Tipos de VM.

Tipos de VM

Cada VM de TPU v6e pode conter 1, 4 ou 8 chips. As partições de quatro chips ou menos têm o mesmo nó de acesso à memória não uniforme (NUMA). Para mais informações sobre nós NUMA, consulte Acesso à memória não uniforme na Wikipédia.

Diagrama de um host v6e

As frações v6e são criadas usando VMs de meio host, cada uma com quatro chips de TPU. Há duas exceções a essa regra:

v6e-1: uma VM com apenas um chip, destinada principalmente a testes.
v6e-8: uma VM de host completo otimizada para um caso de uso de inferência com todos os oito chips conectados a uma única VM.

A tabela a seguir mostra uma comparação dos tipos de VM da TPU v6e:

Tipo de VM	Número de vCPUs por VM	RAM (GB) por VM	Número de nós NUMA por VM
VM de um chip	44	176	1
VM de quatro chips	180	720	1
VM de 8 chips	180	1440	2

Especificar a configuração do v6e

Ao alocar uma fração de TPU v6e usando a API TPU, especifique o tamanho e a forma usando o parâmetro AcceleratorType.

Se você estiver usando o GKE, use a flag --machine-type para especificar um tipo de máquina compatível com a TPU que você quer usar. Para mais informações, consulte Planejar TPUs no GKE na documentação do GKE.

Usar `AcceleratorType`

Ao alocar recursos de TPU, use AcceleratorType para especificar o número de TensorCores em uma fração. O valor especificado para AcceleratorType é uma string com o formato: v$VERSION-$TENSORCORE_COUNT. Por exemplo, v6e-8 especifica um slice de TPU v6e com 8 TensorCores.

O exemplo a seguir mostra como criar uma fração de TPU v6e com 32 TensorCores usando AcceleratorType:

gcloud

    $ gcloud compute tpus tpu-vm create tpu-name \
        --zone=zone \
        --accelerator-type=v6e-32 \
        --version=v2-alpha-tpuv6e

Console

No console Google Cloud , acesse a página TPUs:

Acessar TPUs
Clique em Criar TPU.
No campo Nome, insira um nome para a TPU.
Na caixa Zona, selecione a zona em que você quer criar a TPU.
Na caixa Tipo de TPU, selecione v6e-32.
Na caixa Versão do software de TPU, selecione v2-alpha-tpuv6e. Ao criar uma VM do Cloud TPU, a versão do software da TPU especifica a versão do ambiente de execução da TPU a ser instalada. Para mais informações, consulte Imagens de VM de TPU.
Clique no botão Ativar enfileiramento.
No campo Nome do recurso na fila, digite um nome para sua solicitação de recurso na fila.
Clique em Criar.

A seguir

Executar treinamento e inferência usando a TPU v6e