Ejecutar la inferencia de LLMs en GPUs de Cloud Run con Hugging Face TGI

En el siguiente ejemplo se muestra cómo ejecutar un servicio backend que ejecuta el kit de herramientas de inferencia de generación de texto de Hugging Face (TGI), que es un kit de herramientas para implementar y ofrecer modelos de lenguaje extenso (LLMs), con Llama 3.

Consulta el ejemplo completo en Desplegar Llama 3.1 8B con TGI DLC en Cloud Run.