Inferência do Cloud TPU

Disponibilização refere-se ao processo de implantação de um modelo de machine learning treinado em um ambiente de produção, onde ele pode ser usado para inferência. A inferência é compatível com a TPU v5e e versões mais recentes. Os SLOs de latência são uma prioridade na exibição.

Este documento discute a exibição de um modelo em uma TPU de host único. As frações de TPU com até oito chips têm uma VM ou um host da TPU e são chamadas de TPUs de host único.

Primeiros passos

Você precisará de uma Google Cloud conta e um projeto para usar o Cloud TPU. Para mais informações, consulte Configurar um ambiente do Cloud TPU.

É preciso solicitar a seguinte cota para veiculação em TPUs:

  • Recursos da v5e sob demanda: TPUv5 lite pod cores for serving per project per zone
  • Recursos preemptivos da v5e: Preemptible TPU v5 lite pod cores for serving per project per zone
  • Recursos da v6e sob demanda: TPUv6 cores per project per zone
  • Recursos preemptivos da v6e: Preemptible TPUv6 cores per project per zone

Para mais informações sobre a cota de TPU, consulte Cota de TPU.

Disponibilizar LLMs usando o JetStream

O JetStream é um mecanismo otimizado para capacidade e memória para inferência de modelos de linguagem grandes (LLM) em dispositivos XLA (TPUs). É possível usar o JetStream com modelos JAX e PyTorch/XLA. Para um exemplo de como usar o JetStream para exibir um LLM do JAX, consulte Inferência do JetStream MaxText na TPU v6e.

Disponibilizar modelos LLM com vLLM

O vLLM é uma biblioteca de código aberto projetada para inferência e exibição rápidas de modelos de linguagem grandes (LLMs). É possível usar o vLLM com PyTorch/XLA. Para ver um exemplo de como usar o vLLM para exibir um LLM do PyTorch, consulte Disponibilizar um LLM usando o TPU Trillium no GKE com o vLLM.

Criação de perfil

Depois de configurar a inferência, é possível usar criadores de perfil para analisar o desempenho e a utilização da TPU. Para mais informações sobre a criação de perfil, consulte: