Cloud TPU-Inferenz

Der Begriff der Bereitstellung bezieht sich auf die Bereitstellung eines trainierten Modells für maschinelles Lernen in einer Produktionsumgebung, in der es für die Inferenz verwendet werden kann. Die Inferenz wird auf TPU v5e und neueren Versionen unterstützt. Latenz-SLOs haben für die Bereitstellung Priorität.

In diesem Dokument wird die Bereitstellung eines Modells auf einer TPU mit einem einzelnen Host behandelt. TPU-Slices mit maximal 8 Chips haben eine TPU-VM oder einen ‑Host und werden als TPUs mit einem Host bezeichnet.

Jetzt starten

Sie benötigen ein Konto von Google Cloud und ein Projekt, um Cloud TPU zu verwenden. Weitere Informationen finden Sie unter Cloud TPU-Umgebung einrichten.

Sie müssen die folgenden Kontingente für die Bereitstellung auf TPUs anfordern:

On-Demand-Ressourcen für v5e: TPUv5 lite pod cores for serving per project per zone
Ressourcen auf Abruf vom Typ v5e: Preemptible TPU v5 lite pod cores for serving per project per zone
On-Demand-Ressourcen vom Typ v6e: TPUv6 cores per project per zone
Ressourcen auf Abruf vom Typ v6e: Preemptible TPUv6 cores per project per zone

Weitere Informationen zum TPU-Kontingent finden Sie unter TPU-Kontingent.

LLMs mit JetStream bereitstellen

JetStream ist eine auf Durchsatz und Arbeitsspeicher optimierte Engine für die Inferenz großer Sprachmodelle (LLM) auf XLA-Geräten (TPUs). Sie können JetStream mit JAX- und PyTorch/XLA-Modellen verwenden. Ein Beispiel für die Verwendung von JetStream zum Bereitstellen eines JAX-LLM finden Sie unter JetStream-MaxText-Inferenz auf v6e-TPU-VMs.

LLM-Modelle mit vLLM bereitstellen

vLLM ist eine Open-Source-Bibliothek, die für schnelle Inferenz und Bereitstellung von Large Language Models (LLMs) entwickelt wurde. Sie können vLLM mit PyTorch/XLA verwenden. Ein Beispiel für die Bereitstellung eines PyTorch-LLM mit vLLM finden Sie unter LLM mithilfe von TPU Trillium in GKE mit vLLM bereitstellen.

Profilerstellung

Nachdem Sie die Inferenz eingerichtet haben, können Sie mit Profilern die Leistung und TPU-Auslastung analysieren. Weitere Informationen zur Profilerstellung finden Sie unter: