LLM-Inferenzen auf Cloud Run-GPUs mit vLLM (Dienste) ausführen
Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Im folgenden Codelab wird gezeigt, wie Sie einen Backend-Dienst ausführen, in dem vLLM, eine Inferenz-Engine für Produktionssysteme, zusammen mit Gemma 2 von Google ausgeführt wird, einem 2-Milliarden-Parameter-Modell mit Instruction Tuning.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-08-28 (UTC)."],[],[],null,["# Run LLM inference on Cloud Run GPUs with vLLM\n\nThe following codelab shows how to run a backend service that runs [vLLM](https://github.com/vllm-project/vllm), which is an\ninference engine for production systems, along with Google's [Gemma 2](https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/), which is\na 2 billion parameters instruction-tuned model.\n\nSee the entire codelab at [Run LLM inference on Cloud Run GPUs with vLLM](https://codelabs.developers.google.com/codelabs/how-to-run-inference-cloud-run-gpu-vllm#0)."]]