Hugging Face proporciona modelos preentrenados, secuencias de comandos de ajuste y APIs de desarrollo que facilitan el proceso de creación y descubrimiento de LLMs. Model Garden puede ofrecer modelos de inserciones de texto, de texto a imagen, de generación de texto y de texto a texto de imagen en Hugging Face.
Opciones de implementación de modelos de Hugging Face
Puedes desplegar modelos de Hugging Face compatibles en Vertex AI o en Google Kubernetes Engine (GKE). La opción de despliegue que elijas puede depender del modelo que utilices y del nivel de control que quieras tener sobre tus cargas de trabajo.
Desplegar en Vertex AI
Vertex AI ofrece una plataforma gestionada para crear y escalar proyectos de aprendizaje automático sin necesidad de tener experiencia en MLOps. Puedes usar Vertex AI como aplicación de nivel inferior que sirve los modelos de Hugging Face. Te recomendamos que uses Vertex AI si quieres disfrutar de funciones de MLOps integrales, funciones de aprendizaje automático de valor añadido y una experiencia sin servidor para optimizar el desarrollo.
Para desplegar un modelo de Hugging Face compatible en Vertex AI, ve a Model Garden.
Ve a la sección Modelos abiertos en Hugging Face y haz clic en Mostrar más.
Busca y selecciona un modelo que desplegar.
Opcional: En Entorno de implementación, selecciona Vertex AI.
Opcional: Especifica los detalles de la implementación.
Haz clic en Desplegar.
Para empezar, consulta los siguientes ejemplos:
- Algunos modelos tienen tarjetas de modelo detalladas y Google verifica los ajustes de implementación, como google/gemma-3-27b-it, meta-llama/Llama-4-Scout-17B-16E-Instruct, Qwen/QwQ-32B, BAAI/bge-m3, intfloat/multilingual-e5-large-instruct, black-forest-labs/FLUX.1-dev y HuggingFaceFW/fineweb-edu-classifier.
- Algunos modelos tienen la configuración de implementación verificada por Google, pero no tienen tarjetas de modelo detalladas, como NousResearch/Genstruct-7B.
- En algunos modelos, los ajustes de implementación se generan automáticamente.
- Algunos modelos tienen ajustes de implementación generados automáticamente que se basan en metadatos del modelo, como algunos de los modelos más recientes en generación de texto, embeddings de texto, generación de texto a imagen y texto de imagen a texto.
Desplegar en GKE
Google Kubernetes Engine (GKE) es la Google Cloud solución de Kubernetes gestionado que proporciona escalabilidad, seguridad, resiliencia y rentabilidad. Recomendamos esta opción si ya has invertido en Kubernetes, tu organización tiene experiencia interna en MLOps o necesitas un control granular sobre cargas de trabajo de IA o aprendizaje automático complejas con requisitos únicos de seguridad, canalización de datos y gestión de recursos.
Para desplegar un modelo de Hugging Face compatible en GKE, ve a Model Garden.
Ve a la sección Modelos abiertos en Hugging Face y haz clic en Mostrar más.
Busca y selecciona un modelo que desplegar.
En Entorno de implementación, selecciona GKE.
Sigue las instrucciones de implementación.
Para empezar, consulta los siguientes ejemplos:
- Algunos modelos tienen tarjetas de modelo detalladas y ajustes de implementación verificados, como google/gemma-3-27b-it, meta-llama/Llama-4-Scout-17B-16E-Instruct y Qwen/QwQ-32B.
- Algunos modelos tienen ajustes de implementación verificados, pero no tarjetas de modelo detalladas, como NousResearch/Genstruct-7B.
¿Qué significa "Con la tecnología de Vertex AI"?
Añadimos automáticamente los modelos de Hugging Face más recientes y populares a Model Garden. Este proceso incluye la generación automática de una configuración de despliegue para cada modelo.
Para abordar las preocupaciones sobre vulnerabilidades y código malicioso, usamos el analizador de malware de Hugging Face para evaluar la seguridad de los archivos de cada repositorio de modelos de Hugging Face a diario. Si se marca un repositorio de modelos como que contiene malware, retiramos inmediatamente el modelo de la página de la galería de Hugging Face.
Aunque el hecho de que un modelo se designe como compatible con Vertex AI significa que se ha sometido a pruebas y se puede implementar en Vertex AI, no garantizamos la ausencia de vulnerabilidades o código malicioso. Te recomendamos que realices tus propias verificaciones de seguridad antes de implementar cualquier modelo en tu entorno de producción.
Ajustar las configuraciones de implementación para casos prácticos específicos
La configuración de implementación predeterminada que se proporciona con la opción de implementación con un clic no puede satisfacer todos los requisitos, dada la diversidad de casos prácticos y las diferentes prioridades en cuanto a latencia, rendimiento, coste y precisión.
Por lo tanto, puedes experimentar inicialmente con la implementación con un solo clic para establecer una base y, a continuación, ajustar las configuraciones de implementación mediante el cuaderno de Colab (vLLM, TGI, TEI, Inferencia de PyTorch de HF) o el SDK de Python. Este enfoque iterativo te permite adaptar la implementación a tus necesidades exactas para obtener el mejor rendimiento posible en tu aplicación específica.
¿Qué debes hacer si el modelo que quieres no aparece en Model Garden?
Si buscas un modelo específico que no aparece en Model Garden, significa que Vertex AI no lo admite. En las siguientes secciones se describe el motivo y lo que puedes hacer.
¿Por qué no aparece el modelo?
A continuación, se explican los motivos por los que un modelo podría no estar en Model Garden:
- No es un modelo que esté entre los más populares: solemos dar prioridad a los modelos que son muy populares y que suscitan un gran interés en la comunidad.
- Aún no es compatible: es posible que el modelo no funcione con un contenedor de servicio compatible. Por ejemplo, el contenedor vLLM
para los modelos
text-generation
yimage-text-to-text
. - Tareas de la canalización no admitidas: el modelo tiene una tarea que aún no admitimos por completo. Admitimos las siguientes tareas:
text-generation
,text2text-generation
,text-to-image
,feature-extraction
,sentence-similarity
yimage-text-to-text
.
¿Qué opciones tienes?
Puedes seguir trabajando con los modelos disponibles en Model Garden:
- Despliega el modelo tú mismo con el cuaderno de Colab: tenemos los siguientes cuadernos de Colab: vLLM, TGI, TEI y HF pytorch inference, que te ofrecen la flexibilidad de desplegar modelos con configuraciones personalizadas. De esta forma, tendrás un control total sobre el proceso.
- Enviar una solicitud de función: colabora con tu ingeniero de asistencia y envía una solicitud de función a través de Model Garden. También puedes consultar la página de asistencia de IA generativa de Vertex para obtener más ayuda.
- Mantente al tanto de las novedades: añadimos nuevos modelos a Model Garden con regularidad. Es posible que el modelo que buscas esté disponible en el futuro, así que vuelve a consultar esta página periódicamente.