Ejecutar la inferencia de LLMs en GPUs de Cloud Run con Hugging Face TGI

En el siguiente ejemplo se muestra cómo ejecutar un servicio backend que ejecuta el kit de herramientas de inferencia de generación de texto de Hugging Face (TGI), que es un kit de herramientas para implementar y ofrecer modelos de lenguaje extenso (LLMs), con Llama 3.

A menos que se indique lo contrario, el contenido de esta página está sujeto a la licencia Reconocimiento 4.0 de Creative Commons y las muestras de código están sujetas a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio web de Google Developers. Java es una marca registrada de Oracle o sus afiliados.

Última actualización: 2025-10-19 (UTC).