Ejecutar la inferencia de LLMs en GPUs de Cloud Run con vLLM
Organízate con las colecciones
Guarda y clasifica el contenido según tus preferencias.
En este codelab se muestra cómo ejecutar un servicio backend que ejecuta vLLM, un motor de inferencia para sistemas de producción, junto con Gemma 2 de Google, un modelo ajustado mediante instrucciones con 2000 millones de parámetros.
[[["Es fácil de entender","easyToUnderstand","thumb-up"],["Me ofreció una solución al problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Es difícil de entender","hardToUnderstand","thumb-down"],["La información o el código de muestra no son correctos","incorrectInformationOrSampleCode","thumb-down"],["Me faltan las muestras o la información que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-11 (UTC)."],[],[],null,[]]