Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Cloud TPU-Inferenz
Bereitstellung bezieht sich auf die Bereitstellung eines trainierten Modells für maschinelles Lernen in einer Produktionsumgebung, in der es für Inferenzen verwendet werden kann. Die Inferenz wird auf TPU v5e und neueren Versionen unterstützt. Latenz-SLOs sind eine Priorität für die Bereitstellung.
In diesem Dokument wird die Bereitstellung eines Modells auf einer TPU mit einem einzelnen Host erläutert. TPU-Slices mit 8 oder weniger Chips haben eine TPU-VM oder einen TPU-Host und werden als TPUs mit einem einzelnen Host bezeichnet.
Jetzt starten
Sie benötigen ein Konto und ein Projekt Google Cloud , um Cloud TPU verwenden zu können. Weitere Informationen finden Sie unter Cloud TPU-Umgebung einrichten.
Sie müssen das folgende Kontingent für die Bereitstellung auf TPUs anfordern:
On-Demand-v5e-Ressourcen: TPUv5 lite pod cores for serving per project per zone
v5e-Ressourcen auf Abruf: Preemptible TPU v5 lite pod cores for serving per project per zone
On-Demand-v6e-Ressourcen: TPUv6 cores per project per zone
v6e-Ressourcen auf Abruf: Preemptible TPUv6 cores per project per zone
Weitere Informationen zum TPU-Kontingent finden Sie unter TPU-Kontingent.
LLMs mit JetStream bereitstellen
JetStream ist eine durchsatz- und speicheroptimierte Engine für LLM-Inferenzen (Large Language Models) auf XLA-Geräten (TPUs). Sie können JetStream mit JAX- und PyTorch/XLA-Modellen verwenden. Ein Beispiel für die Verwendung von JetStream zum Bereitstellen eines JAX-LLM finden Sie unter JetStream MaxText-Inferenz auf v6e TPU.
LLM-Modelle mit vLLM bereitstellen
vLLM ist eine Open-Source-Bibliothek für schnelle Inferenz und Bereitstellung von Large Language Models (LLMs). Sie können vLLM mit PyTorch/XLA verwenden. Ein Beispiel für die Verwendung von vLLM zum Bereitstellen eines PyTorch-LLM finden Sie unter LLM mit TPU Trillium in GKE mit vLLM bereitstellen.
Profilerstellung
Nachdem Sie die Inferenz eingerichtet haben, können Sie mit Profilern die Leistung und die TPU-Auslastung analysieren. Weitere Informationen zur Profilerstellung finden Sie unter:
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-08-18 (UTC)."],[],[],null,["# Cloud TPU inference\n===================\n\n| **Note:** If you are new to Cloud TPUs, see [Introduction to Cloud TPU](/tpu/docs/intro-to-tpu).\n\nServing refers to the process of deploying a trained machine learning model to a\nproduction environment, where it can be used for inference. Inference is\nsupported on TPU v5e and newer versions. Latency SLOs are a priority for serving.\n\nThis document discusses serving a model on a *single-host* TPU. TPU slices with\n8 or less chips have one TPU VM or host and are called *single-host* TPUs.\n\nGet started\n-----------\n\nYou will need a Google Cloud account and project to use Cloud TPU. For more\ninformation, see [Set up a Cloud TPU environment](/tpu/docs/setup-gcp-account).\n\nYou need to request the following quota for serving on TPUs:\n\n- On-demand v5e resources: `TPUv5 lite pod cores for serving per project per zone`\n- Preemptible v5e resources: `Preemptible TPU v5 lite pod cores for serving per project per zone`\n- On-demand v6e resources: `TPUv6 cores per project per zone`\n- Preemptible v6e resources: `Preemptible TPUv6 cores per project per zone`\n\n| **Note:** There is no v6e quota specific to serving.\n\nFor more information about TPU quota, see [TPU quota](/tpu/docs/quota).\n\nServe LLMs using JetStream\n--------------------------\n\nJetStream is a throughput and memory optimized engine for large language model\n(LLM) inference on XLA devices (TPUs). You can use JetStream with JAX and\nPyTorch/XLA models. For an example of using JetStream to serve a JAX LLM, see\n[JetStream MaxText inference on v6e TPU](/tpu/docs/tutorials/LLM/jetstream-maxtext-inference-v6e).\n\nServe LLM models with vLLM\n--------------------------\n\nvLLM is an open-source library designed for fast inference and serving of large\nlanguage models (LLMs). You can use vLLM with PyTorch/XLA. For an example of\nusing vLLM to serve a PyTorch LLM, see [Serve an LLM using TPU Trillium on GKE with vLLM](/kubernetes-engine/docs/tutorials/serve-vllm-tpu).\n\nProfiling\n---------\n\nAfter setting up inference, you can use profilers to analyze the performance and\nTPU utilization. For more information about profiling, see:\n\n- [Profiling on Cloud TPU](/tpu/docs/profile-tpu-vm)\n\n- [TensorFlow profiling](https://www.tensorflow.org/guide/profiler)\n\n- [PyTorch profiling](/tpu/docs/pytorch-xla-performance-profiling-tpu-vm)\n\n- [JAX profiling](https://jax.readthedocs.io/en/latest/profiling.html#profiling-jax-programs)"]]