Large Language Models
-
JetStream-MaxText-Inferenz auf v6e
Anleitung zum Einrichten und Verwenden von JetStream mit MaxText für die Inferenz auf v6e.
-
JetStream-PyTorch-Inferenz auf v6e
Eine Anleitung zum Einrichten und Verwenden von JetStream mit PyTorch für die Inferenz auf v6e.
-
vLLM-Inferenz auf v6e
Anleitung zum Einrichten und Verwenden von vLLM für die Inferenz auf v6e.
-
LLM mithilfe von TPUs in GKE mit vLLM bereitstellen
Ein Leitfaden zur Verwendung von vLLM zum Bereitstellen von Large Language Models (LLMs) mit Tensor Processing Units (TPUs) in Google Kubernetes Engine (GKE).