Inferencia de Cloud TPU

La entrega se refiere al proceso de implementar un modelo de aprendizaje automático entrenado en un entorno de producción, en el que se puede usar para inferencia. La inferencia es compatible con TPU v5e y versiones más recientes. Los SLO de latencia son una prioridad para la entrega.

En este documento, se analiza la entrega de un modelo en una TPU de host único. Las porciones de TPU con 8 chips o menos tienen una VM o host de TPU y se denominan TPU de host único.

Comenzar

Necesitarás una cuenta de Google Cloud y un proyecto para usar Cloud TPU. Para obtener más información, consulta Configura un entorno de Cloud TPU.

Debes solicitar la siguiente cuota para la entrega en TPU:

  • Recursos v5e a pedido: TPUv5 lite pod cores for serving per project per zone
  • Recursos interrumpibles de la v5e: Preemptible TPU v5 lite pod cores for serving per project per zone
  • Recursos v6e a pedido: TPUv6 cores per project per zone
  • Recursos interrumpibles de la versión 6e: Preemptible TPUv6 cores per project per zone

Para obtener más información sobre la cuota de TPU, consulta Cuota de TPU.

Entrega LLM con JetStream

JetStream es un motor de capacidad de procesamiento y memoria optimizado para inferencia de modelos de lenguaje grandes (LLM) en dispositivos XLA (TPU). Puedes usar JetStream con los modelos JAX y PyTorch/XLA. Si deseas ver un ejemplo de cómo usar JetStream para entregar un LLM de JAX, consulta Inferencia de MaxText de JetStream en TPU v6e.

Entrega modelos de LLM con vLLM

vLLM es una biblioteca de código abierto diseñada para la inferencia y la entrega rápidas de modelos grandes de lenguaje (LLM). Puedes usar vLLM con PyTorch/XLA. Si deseas ver un ejemplo de cómo usar vLLM para entregar un LLM de PyTorch, consulta Entrega un LLM mediante TPU Trillium en GKE con vLLM.

Generación de perfiles

Después de configurar la inferencia, puedes usar generadores de perfiles para analizar el rendimiento y el uso de TPU. Para obtener más información sobre la generación de perfiles, consulta lo siguiente: