Cloud TPU-Inferenz

Bereitstellung bezieht sich auf die Bereitstellung eines trainierten Modells für maschinelles Lernen in einer Produktionsumgebung, in der es für Inferenzen verwendet werden kann. Die Inferenz wird auf TPU v5e und neueren Versionen unterstützt. Latenz-SLOs sind eine Priorität für die Bereitstellung.

In diesem Dokument wird die Bereitstellung eines Modells auf einer TPU mit einem einzelnen Host erläutert. TPU-Slices mit 8 oder weniger Chips haben eine TPU-VM oder einen TPU-Host und werden als TPUs mit einem einzelnen Host bezeichnet.

Jetzt starten

Sie benötigen ein Konto und ein Projekt Google Cloud , um Cloud TPU verwenden zu können. Weitere Informationen finden Sie unter Cloud TPU-Umgebung einrichten.

Sie müssen das folgende Kontingent für die Bereitstellung auf TPUs anfordern:

  • On-Demand-v5e-Ressourcen: TPUv5 lite pod cores for serving per project per zone
  • v5e-Ressourcen auf Abruf: Preemptible TPU v5 lite pod cores for serving per project per zone
  • On-Demand-v6e-Ressourcen: TPUv6 cores per project per zone
  • v6e-Ressourcen auf Abruf: Preemptible TPUv6 cores per project per zone

Weitere Informationen zum TPU-Kontingent finden Sie unter TPU-Kontingent.

LLMs mit JetStream bereitstellen

JetStream ist eine durchsatz- und speicheroptimierte Engine für LLM-Inferenzen (Large Language Models) auf XLA-Geräten (TPUs). Sie können JetStream mit JAX- und PyTorch/XLA-Modellen verwenden. Ein Beispiel für die Verwendung von JetStream zum Bereitstellen eines JAX-LLM finden Sie unter JetStream MaxText-Inferenz auf v6e TPU.

LLM-Modelle mit vLLM bereitstellen

vLLM ist eine Open-Source-Bibliothek für schnelle Inferenz und Bereitstellung von Large Language Models (LLMs). Sie können vLLM mit PyTorch/XLA verwenden. Ein Beispiel für die Verwendung von vLLM zum Bereitstellen eines PyTorch-LLM finden Sie unter LLM mit TPU Trillium in GKE mit vLLM bereitstellen.

Profilerstellung

Nachdem Sie die Inferenz eingerichtet haben, können Sie mit Profilern die Leistung und die TPU-Auslastung analysieren. Weitere Informationen zur Profilerstellung finden Sie unter: