Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Inferência do Cloud TPU
Disponibilização refere-se ao processo de implantação de um modelo de machine learning treinado em um ambiente de produção, onde ele pode ser usado para inferência. A inferência é compatível com a TPU v5e e versões mais recentes. Os SLOs de latência são uma prioridade na exibição.
Este documento discute a exibição de um modelo em uma TPU de host único. As frações de TPU com até oito chips têm uma VM ou um host da TPU e são chamadas de TPUs de host único.
Primeiros passos
Você precisará de uma Google Cloud conta e um projeto para usar o Cloud TPU. Para mais
informações, consulte Configurar um ambiente do Cloud TPU.
É preciso solicitar a seguinte cota para veiculação em TPUs:
Recursos da v5e sob demanda: TPUv5 lite pod cores for serving per project per zone
Recursos preemptivos da v5e: Preemptible TPU v5 lite pod cores for serving per project per zone
Recursos da v6e sob demanda: TPUv6 cores per project per zone
Recursos preemptivos da v6e: Preemptible TPUv6 cores per project per zone
Para mais informações sobre a cota de TPU, consulte Cota de TPU.
Disponibilizar LLMs usando o JetStream
O JetStream é um mecanismo otimizado para capacidade e memória para inferência de modelos de linguagem grandes
(LLM) em dispositivos XLA (TPUs). É possível usar o JetStream com modelos
JAX e PyTorch/XLA. Para um exemplo de como usar o JetStream para exibir um LLM do JAX, consulte
Inferência do JetStream MaxText na TPU v6e.
Disponibilizar modelos LLM com vLLM
O vLLM é uma biblioteca de código aberto projetada para inferência e exibição rápidas
de modelos de linguagem grandes (LLMs). É possível usar o vLLM com PyTorch/XLA. Para ver um exemplo de
como usar o vLLM para exibir um LLM do PyTorch, consulte Disponibilizar um LLM usando o TPU Trillium no GKE com o vLLM.
Criação de perfil
Depois de configurar a inferência, é possível usar criadores de perfil para analisar o desempenho e a utilização da TPU. Para mais informações sobre a criação de perfil, consulte:
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-18 UTC."],[],[],null,["# Cloud TPU inference\n===================\n\n| **Note:** If you are new to Cloud TPUs, see [Introduction to Cloud TPU](/tpu/docs/intro-to-tpu).\n\nServing refers to the process of deploying a trained machine learning model to a\nproduction environment, where it can be used for inference. Inference is\nsupported on TPU v5e and newer versions. Latency SLOs are a priority for serving.\n\nThis document discusses serving a model on a *single-host* TPU. TPU slices with\n8 or less chips have one TPU VM or host and are called *single-host* TPUs.\n\nGet started\n-----------\n\nYou will need a Google Cloud account and project to use Cloud TPU. For more\ninformation, see [Set up a Cloud TPU environment](/tpu/docs/setup-gcp-account).\n\nYou need to request the following quota for serving on TPUs:\n\n- On-demand v5e resources: `TPUv5 lite pod cores for serving per project per zone`\n- Preemptible v5e resources: `Preemptible TPU v5 lite pod cores for serving per project per zone`\n- On-demand v6e resources: `TPUv6 cores per project per zone`\n- Preemptible v6e resources: `Preemptible TPUv6 cores per project per zone`\n\n| **Note:** There is no v6e quota specific to serving.\n\nFor more information about TPU quota, see [TPU quota](/tpu/docs/quota).\n\nServe LLMs using JetStream\n--------------------------\n\nJetStream is a throughput and memory optimized engine for large language model\n(LLM) inference on XLA devices (TPUs). You can use JetStream with JAX and\nPyTorch/XLA models. For an example of using JetStream to serve a JAX LLM, see\n[JetStream MaxText inference on v6e TPU](/tpu/docs/tutorials/LLM/jetstream-maxtext-inference-v6e).\n\nServe LLM models with vLLM\n--------------------------\n\nvLLM is an open-source library designed for fast inference and serving of large\nlanguage models (LLMs). You can use vLLM with PyTorch/XLA. For an example of\nusing vLLM to serve a PyTorch LLM, see [Serve an LLM using TPU Trillium on GKE with vLLM](/kubernetes-engine/docs/tutorials/serve-vllm-tpu).\n\nProfiling\n---------\n\nAfter setting up inference, you can use profilers to analyze the performance and\nTPU utilization. For more information about profiling, see:\n\n- [Profiling on Cloud TPU](/tpu/docs/profile-tpu-vm)\n\n- [TensorFlow profiling](https://www.tensorflow.org/guide/profiler)\n\n- [PyTorch profiling](/tpu/docs/pytorch-xla-performance-profiling-tpu-vm)\n\n- [JAX profiling](https://jax.readthedocs.io/en/latest/profiling.html#profiling-jax-programs)"]]