Programação de coleta de TPU para cargas de trabalho de inferência
O Trillium (v6e) inclui um recurso chamado "programação de coleta", que permite agrupar um conjunto de frações de TPU, individuais ou de vários hosts, destinadas a veicular réplicas do mesmo modelo. Esse recurso está disponível para as configurações do Cloud TPU e do GKE.
Este documento trata do uso da programação de coleta com a API Cloud TPU. Consulte a documentação do GKE para mais informações sobre como usar a programação de coleta com o GKE.
Ao criar uma coleção para sua carga de trabalho de inferência, Google Cloud limita e simplifica as interrupções nas operações de cargas de trabalho de inferência. Isso é útil para cargas de trabalho de inferência em que a alta disponibilidade é uma preocupação. Google Cloud garante alta disponibilidade para que a coleção gerencie o tráfego de entrada. Uma parte das fatias em uma coleção está sempre disponível para processar o tráfego de entrada.
Cada fração de TPU em uma coleção terá o mesmo tipo de acelerador e topologia.
Criar uma coleção com a API Cloud TPU
Ao solicitar um recurso enfileirado usando a API Cloud TPU,
use a flag --workload-type=AVAILABILITY-OPTIMIZED
para criar uma
coleção. Essa flag indica à infraestrutura do Cloud TPU que ela
é destinada a cargas de trabalho com foco na disponibilidade.
O comando a seguir provisiona uma coleção usando a API Cloud TPU:
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --project=PROJECT_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-count=NODE_COUNT \ --node-prefix=NODE_PREFIX \ --workload-type=AVAILABILITY-OPTIMIZED
A flag --node-count
especifica o número de fatias que você quer no recurso
em fila. Isso cria uma coleção de fatias de TPU.
Opcional: a flag --node-prefix
especifica um prefixo para os nomes das fatias.