Ejecutar la inferencia de LLMs en GPUs de Cloud Run con vLLM
En este codelab se muestra cómo ejecutar un servicio backend que ejecuta vLLM, un motor de inferencia para sistemas de producción, junto con Gemma 2 de Google, un modelo ajustado mediante instrucciones con 2000 millones de parámetros.
[[["Es fácil de entender","easyToUnderstand","thumb-up"],["Me ofreció una solución al problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Es difícil de entender","hardToUnderstand","thumb-down"],["La información o el código de muestra no son correctos","incorrectInformationOrSampleCode","thumb-down"],["Me faltan las muestras o la información que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-10-19 (UTC)."],[],[]]