Executar inferência LLM em GPUs do Cloud Run com vLLM (serviços)
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O codelab a seguir mostra como executar um serviço de back-end que executa a vLLM, que é um
mecanismo de inferência para sistemas de produção, junto com o Gemma 2 do Google, que é
um modelo ajustado por instruções com 2 bilhões de parâmetros.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-07 UTC."],[],[],null,["# Run LLM inference on Cloud Run GPUs with vLLM\n\nThe following codelab shows how to run a backend service that runs [vLLM](https://github.com/vllm-project/vllm), which is an\ninference engine for production systems, along with Google's [Gemma 2](https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/), which is\na 2 billion parameters instruction-tuned model.\n\nSee the entire codelab at [Run LLM inference on Cloud Run GPUs with vLLM](https://codelabs.developers.google.com/codelabs/how-to-run-inference-cloud-run-gpu-vllm#0)."]]