Cloud TPU 推理

服务是指将经过训练的机器学习模型部署到生产环境中的过程，在该环境中，模型可用于推理。TPU v5e 及更高版本支持推理。延迟时间 SLO 是服务优先考虑的因素。

本文档讨论如何在单主机 TPU 上部署模型。具有 8 个或更少芯片的 TPU 切片具有一个 TPU 虚拟机或主机，称为单主机 TPU。

使用入门

您需要拥有 Google Cloud 账号和项目才能使用 Cloud TPU。如需了解详情，请参阅设置 Cloud TPU 环境。

您需要申请以下配额才能在 TPU 上进行服务：

按需使用的 v5e 资源：TPUv5 lite pod cores for serving per project per zone
抢占式 v5e 资源：Preemptible TPU v5 lite pod cores for serving per project per zone
按需使用的 v6e 资源：TPUv6 cores per project per zone
抢占式 v6e 资源：Preemptible TPUv6 cores per project per zone

如需详细了解 TPU 配额，请参阅 TPU 配额。

使用 JetStream 部署 LLM

JetStream 是一种吞吐量和内存优化引擎，用于在 XLA 设备 (TPU) 上进行大语言模型 (LLM) 推理。您可以将 JetStream 与 JAX 和 PyTorch/XLA 模型搭配使用。如需查看使用 JetStream 提供 JAX LLM 的示例，请参阅在 v6e TPU 上进行 JetStream MaxText 推理。

使用 vLLM 提供 LLM 模型

vLLM 是一个开源库，旨在快速推理和部署大语言模型 (LLM)。您可以将 vLLM 与 PyTorch/XLA 搭配使用。如需了解如何使用 vLLM 来提供 PyTorch LLM 的示例，请参阅通过 vLLM，使用 GKE 中的 TPU Trillium 提供 LLM。

分析

设置推理后，您可以使用性能分析器分析性能和 TPU 利用率。如需详细了解性能分析，请参阅：