Ejecutar la inferencia de LLMs en GPUs de Cloud Run con vLLM

En este codelab se muestra cómo ejecutar un servicio backend que ejecuta vLLM, un motor de inferencia para sistemas de producción, junto con Gemma 2 de Google, un modelo ajustado mediante instrucciones con 2000 millones de parámetros.

Consulta el codelab completo en Ejecutar inferencia de LLM en GPUs de Cloud Run con vLLM.

A menos que se indique lo contrario, el contenido de esta página está sujeto a la licencia Reconocimiento 4.0 de Creative Commons y las muestras de código están sujetas a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio web de Google Developers. Java es una marca registrada de Oracle o sus afiliados.

Última actualización: 2025-10-19 (UTC).