LLM-Inferenzen auf Cloud Run-GPUs mit vLLM (Dienste) ausführen

Im folgenden Codelab wird gezeigt, wie Sie einen Backend-Dienst ausführen, in dem vLLM, eine Inferenz-Engine für Produktionssysteme, zusammen mit Gemma 2 von Google ausgeführt wird, einem 2-Milliarden-Parameter-Modell mit Instruction Tuning.

Das vollständige Codelab finden Sie unter LLM-Inferenzen auf Cloud Run-GPUs mit vLLM ausführen.

Sofern nicht anders angegeben, sind die Inhalte dieser Seite unter der Creative Commons Attribution 4.0 License und Codebeispiele unter der Apache 2.0 License lizenziert. Weitere Informationen finden Sie in den Websiterichtlinien von Google Developers. Java ist eine eingetragene Marke von Oracle und/oder seinen Partnern.

Zuletzt aktualisiert: 2025-08-28 (UTC).

LLM-Inferenzen auf Cloud Run-GPUs mit vLLM (Dienste) ausführen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

LLM-Inferenzen auf Cloud Run-GPUs mit vLLM (Dienste) ausführen