Programação de coleta de TPU para cargas de trabalho de inferência

O Trillium (v6e) inclui um recurso chamado "programação de coleta", que permite agrupar um conjunto de frações de TPU, individuais ou de vários hosts, destinadas a veicular réplicas do mesmo modelo. Esse recurso está disponível para as configurações do Cloud TPU e do GKE.

Este documento trata do uso da programação de coleta com a API Cloud TPU. Consulte a documentação do GKE para mais informações sobre como usar a programação de coleta com o GKE.

Ao criar uma coleção para sua carga de trabalho de inferência, Google Cloud limita e simplifica as interrupções nas operações de cargas de trabalho de inferência. Isso é útil para cargas de trabalho de inferência em que a alta disponibilidade é uma preocupação. Google Cloud garante alta disponibilidade para que a coleção gerencie o tráfego de entrada. Uma parte das fatias em uma coleção está sempre disponível para processar o tráfego de entrada.

Cada fração de TPU em uma coleção terá o mesmo tipo de acelerador e topologia.

Criar uma coleção com a API Cloud TPU

Ao solicitar um recurso enfileirado usando a API Cloud TPU, use a flag --workload-type=AVAILABILITY-OPTIMIZED para criar uma coleção. Essa flag indica à infraestrutura do Cloud TPU que ela é destinada a cargas de trabalho com foco na disponibilidade.

O comando a seguir provisiona uma coleção usando a API Cloud TPU:

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
   --project=PROJECT_ID \
   --zone=ZONE \
   --accelerator-type=ACCELERATOR_TYPE \
   --runtime-version=RUNTIME_VERSION \
   --node-count=NODE_COUNT \
   --node-prefix=NODE_PREFIX \
   --workload-type=AVAILABILITY-OPTIMIZED

A flag --node-count especifica o número de fatias que você quer no recurso em fila. Isso cria uma coleção de fatias de TPU.

Opcional: a flag --node-prefix especifica um prefixo para os nomes das fatias.