Inferência do Cloud TPU
Disponibilização refere-se ao processo de implantação de um modelo de machine learning treinado em um ambiente de produção, onde ele pode ser usado para inferência. A inferência é compatível com a TPU v5e e versões mais recentes. Os SLOs de latência são uma prioridade na exibição.
Este documento discute a exibição de um modelo em uma TPU de host único. As frações de TPU com até oito chips têm uma VM ou um host da TPU e são chamadas de TPUs de host único.
Primeiros passos
Você precisará de uma Google Cloud conta e um projeto para usar o Cloud TPU. Para mais informações, consulte Configurar um ambiente do Cloud TPU.
É preciso solicitar a seguinte cota para veiculação em TPUs:
- Recursos da v5e sob demanda:
TPUv5 lite pod cores for serving per project per zone
- Recursos preemptivos da v5e:
Preemptible TPU v5 lite pod cores for serving per project per zone
- Recursos da v6e sob demanda:
TPUv6 cores per project per zone
- Recursos preemptivos da v6e:
Preemptible TPUv6 cores per project per zone
Para mais informações sobre a cota de TPU, consulte Cota de TPU.
Disponibilizar LLMs usando o JetStream
O JetStream é um mecanismo otimizado para capacidade e memória para inferência de modelos de linguagem grandes (LLM) em dispositivos XLA (TPUs). É possível usar o JetStream com modelos JAX e PyTorch/XLA. Para um exemplo de como usar o JetStream para exibir um LLM do JAX, consulte Inferência do JetStream MaxText na TPU v6e.
Disponibilizar modelos LLM com vLLM
O vLLM é uma biblioteca de código aberto projetada para inferência e exibição rápidas de modelos de linguagem grandes (LLMs). É possível usar o vLLM com PyTorch/XLA. Para ver um exemplo de como usar o vLLM para exibir um LLM do PyTorch, consulte Disponibilizar um LLM usando o TPU Trillium no GKE com o vLLM.
Criação de perfil
Depois de configurar a inferência, é possível usar criadores de perfil para analisar o desempenho e a utilização da TPU. Para mais informações sobre a criação de perfil, consulte: