Inférence Cloud TPU
L'inférence fait référence au processus de déploiement d'un modèle de machine learning entraîné dans un environnement de production, où il peut être utilisé pour l'inférence. L'inférence est compatible avec les TPU v5e et les versions plus récentes. Les SLO de latence constituent une priorité pour la diffusion.
Ce document traite de la diffusion d'un modèle sur un TPU à hôte unique. Les tranches de TPU comportant huit puces ou moins disposent d'une VM ou d'un hôte TPU et sont appelées TPU à hôte unique.
Commencer
Vous devez disposer d'un Google Cloud compte et d'un projet pour utiliser Cloud TPU. Pour en savoir plus, consultez la page Configurer un environnement Cloud TPU.
Vous devez demander le quota suivant pour la diffusion sur des TPU:
- Ressources v5e à la demande:
TPUv5 lite pod cores for serving per project per zone
- Ressources v5e préemptives:
Preemptible TPU v5 lite pod cores for serving per project per zone
- Ressources v6e à la demande:
TPUv6 cores per project per zone
- Ressources v6e préemptives:
Preemptible TPUv6 cores per project per zone
Pour en savoir plus sur les quotas de TPU, consultez la section Quota TPU.
Livrer des LLM à l'aide de JetStream
JetStream est un moteur optimisé en termes de débit et de mémoire pour l'inférence de grands modèles de langage (LLM) sur les appareils XLA (TPU). Vous pouvez utiliser JetStream avec les modèles JAX et PyTorch/XLA. Pour obtenir un exemple d'utilisation de JetStream pour diffuser un LLM JAX, consultez la section Inférence JetStream MaxText sur TPU v6e.
Livrer des modèles LLM avec vLLM
vLLM est une bibliothèque Open Source conçue pour une inférence et une inférence rapides de grands modèles de langage (LLM). Vous pouvez utiliser vLLM avec PyTorch/XLA. Pour obtenir un exemple d'utilisation de vLLM pour diffuser un LLM PyTorch, consultez la section Exécuter un LLM en utilisant TPU Trillium sur GKE avec vLLM.
Profilage
Après avoir configuré l'inférence, vous pouvez utiliser des profileurs pour analyser les performances et l'utilisation du TPU. Pour en savoir plus sur le profilage, consultez les pages suivantes: