Esta página se ha traducido con Cloud Translation API.

Modelos admitidos por Model Garden

Lista de modelos propios de Google

En la siguiente tabla se enumeran los modelos propios de Google que están disponibles en Model Garden:

Nombre del modelo	Modalidad	Descripción	Guías de inicio rápido
Gemini 2.5 Flash (versión preliminar)	Idioma, audio y visión	Modelo de pensamiento diseñado para equilibrar el precio y el rendimiento.	Tarjeta de modelo
Gemini 2.5 Pro (versión preliminar)	Idioma, audio y visión	Modelo de pensamiento con funciones de nueva generación y capacidades mejoradas.	Tarjeta de modelo
Gemini 2.0 Flash	Idioma, audio y visión	Es el modelo de trabajo para todas las tareas diarias y ofrece un rendimiento mejorado, además de ser compatible con la API Live en tiempo real.	Tarjeta de modelo
Gemini 2.0 Flash-Lite	Idioma, audio y visión	El modelo Flash más rápido y rentable. Ofrece una calidad superior a la de 1.5 al mismo precio y velocidad.	Tarjeta de modelo
Imagen para generar imágenes	Vision	Crea imágenes de calidad profesional a gran escala usando peticiones de texto. También puedes usar este modelo para aumentar la resolución de las imágenes.	Tarjeta de modelo
Imagen para editar y personalizar	Vision	Edita o usa el aprendizaje con pocos ejemplos para crear imágenes de calidad profesional a gran escala usando imágenes base y peticiones de texto, o imágenes de referencia y peticiones de texto.	Tarjeta de modelo
Segmentación de imágenes de Vertex (vista previa)	Vision	Usa peticiones de texto o dibuja garabatos para segmentar una imagen. La segmentación de imágenes te permite, por ejemplo, detectar objetos, quitar el fondo de una imagen o segmentar el primer plano de una imagen.	Tarjeta de modelo
Imagen para subtitulado y VQA	Idioma	Genera una descripción pertinente para una imagen determinada.	Tarjeta de modelo
Embeddings de texto	Idioma	Genera vectores basados en texto, que se pueden usar en tareas posteriores, como la búsqueda semántica, la clasificación de texto y el análisis de sentimiento.	Tarjeta de modelo
Incrustaciones multimodales	Vision	Genera vectores basados en imágenes, que se pueden usar para tareas posteriores, como la clasificación y la búsqueda de imágenes.	Tarjeta de modelo
Chirp 2	Voz	Chirp 2 es un modelo de reconocimiento de voz automático (ASR) multilingüe desarrollado por Google que transcribe la voz (voz a texto). En comparación con la primera generación de modelos de Chirp, Chirp 2 ofrece mayor precisión y velocidad, así como nuevas funciones, como marcas de tiempo a nivel de palabra, adaptación de modelos y traducción de voz.	Tarjeta de modelo

Lista de modelos gestionados disponibles en Model Garden

Los modelos se ofrecen como APIs gestionadas en Model Garden de Vertex AI (también conocido como modelo como servicio).

Modelos de partners disponibles en Model Garden

En la siguiente tabla se enumeran los modelos de partners disponibles en Model Garden:

Nombre del modelo	Modalidad	Descripción	Guía de inicio rápido
Claude Sonnet 4.5	Idioma, visión	Modelo de tamaño medio de Anthropic para potenciar agentes del mundo real, con funciones de programación, uso de ordenadores, ciberseguridad y trabajo con archivos de oficina, como hojas de cálculo.	Tarjeta de modelo
Claude Opus 4.1	Idioma, visión	Líder del sector en programación. Ofrece un rendimiento constante en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que amplía significativamente lo que pueden resolver los agentes de IA. Ideal para potenciar los productos y las funciones de los agentes de vanguardia.	Tarjeta de modelo
Claude Haiku 4.5	Idioma, visión	Claude Haiku 4.5 ofrece un rendimiento casi de vanguardia para una amplia gama de casos prácticos y destaca como uno de los mejores modelos de programación del mundo, con la velocidad y el coste adecuados para potenciar productos gratuitos y experiencias de usuario de gran volumen.	Tarjeta de modelo
Claude Opus 4	Idioma, visión	Claude Opus 4 ofrece un rendimiento sostenido en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que amplía significativamente lo que pueden resolver los agentes de IA.	Tarjeta de modelo
Claude Sonnet 4	Idioma, visión	Modelo de tamaño medio de Anthropic con una inteligencia superior para usos de gran volumen, como programación, investigación exhaustiva y agentes.	Tarjeta de modelo
Claude 3.7 Sonnet de Anthropic	Idioma, visión	Modelo líder del sector para programar y potenciar agentes de IA. Es el primer modelo de Claude que ofrece un tiempo de reflexión ampliado.	Tarjeta de modelo
Claude 3.5 Sonnet v2 de Anthropic	Idioma, visión	La versión mejorada de Claude 3.5 Sonnet es un modelo de vanguardia para tareas de ingeniería de software del mundo real y funciones de agentes. Claude 3.5 Sonnet ofrece estos avances al mismo precio y velocidad que su predecesor.	Tarjeta de modelo
Claude 3.5 Haiku de Anthropic	Idioma, visión	Claude 3.5 Haiku, la nueva generación del modelo más rápido y rentable de Anthropic, es ideal para casos prácticos en los que la velocidad y la asequibilidad son importantes.	Tarjeta de modelo
Claude 3 Haiku de Anthropic	Idioma	El modelo de visión y texto más rápido de Anthropic para responder casi instantáneamente a consultas básicas, con el objetivo de ofrecer experiencias de IA fluidas que imiten las interacciones humanas.	Tarjeta de modelo
Claude 3.5 Sonnet de Anthropic	Idioma	Claude 3.5 Sonnet supera a Claude 3 Opus de Anthropic en una amplia gama de evaluaciones de Anthropic y con la velocidad y el coste del modelo de gama media de Anthropic, Claude 3 Sonnet.	Tarjeta de modelo
Jamba 1.5 Large (versión preliminar)	Idioma	Jamba 1.5 Large de AI21 Labs se ha diseñado para ofrecer respuestas de calidad superior, un alto rendimiento y precios competitivos en comparación con otros modelos de su clase.	Tarjeta de modelo
Jamba 1.5 Mini (vista previa)	Idioma	Jamba 1.5 Mini de AI21 Labs ofrece un buen equilibrio entre calidad, rendimiento y bajo coste.	Tarjeta de modelo
Mistral Medium 3	Idioma	Mistral Medium 3 es un modelo versátil diseñado para una amplia gama de tareas, como programación, razonamiento matemático, comprensión de documentos extensos, resúmenes y diálogos.	Tarjeta de modelo
Mistral OCR (25.05)	Idioma, visión	Mistral OCR (25.05) es una API de reconocimiento óptico de caracteres para comprender documentos. El modelo comprende cada elemento de los documentos, como contenido multimedia, texto, tablas y ecuaciones.	Tarjeta de modelo
Mistral Small 3.1 (25.03)	Idioma	Mistral Small 3.1 (25.03) es la versión más reciente del modelo Small de Mistral, que incluye funciones multimodales y una longitud de contexto ampliada.	Tarjeta de modelo
Mistral Large (24.11)	Idioma	Mistral Large (24.11) es la siguiente versión del modelo Mistral Large (24.07), que ahora ofrece mejores funciones de razonamiento y de llamada de funciones.	Tarjeta de modelo
Codestral 2	Idioma, código	Codestral 2 es el modelo especializado en generación de código de Mistral, creado específicamente para completar con alta precisión la parte central de un texto (FIM), lo que ayuda a los desarrolladores a escribir e interactuar con el código a través de un endpoint de API de instrucciones y finalizaciones compartido.	Tarjeta de modelo
Codestral (25.01)	Código	Un modelo de vanguardia diseñado para la generación de código, incluida la función de rellenar huecos y la finalización de código.	Tarjeta de modelo

Modelos abiertos disponibles en Model Garden

En la siguiente tabla se enumeran los modelos abiertos disponibles en Model Garden:

Nombre del modelo	Modalidad	Descripción	Guía de inicio rápido
gpt-oss 120B	Idioma	Un modelo de 120.000 millones de parámetros que ofrece un alto rendimiento en tareas de razonamiento.	Tarjeta de modelo
gpt-oss 20B	Idioma	Un modelo de 20.000 millones de parámetros optimizado para la eficiencia y el despliegue en hardware de consumo y periférico.	Tarjeta de modelo
Qwen3-Next-80B Thinking	Idioma, código	Un modelo de la familia Qwen3-Next, especializado en la resolución de problemas complejos y el razonamiento profundo.	Tarjeta de modelo
Qwen3-Next-80B Instruct	Idioma, código	Un modelo de la familia Qwen3-Next, especializado en seguir comandos específicos.	Tarjeta de modelo
Qwen3 Coder	Idioma, código	Un modelo de peso abierto desarrollado para tareas avanzadas de desarrollo de software.	Tarjeta de modelo
Qwen3 235B	Idioma	Un modelo de peso abierto con una capacidad de "pensamiento híbrido" para alternar entre el razonamiento metódico y la conversación rápida.	Tarjeta de modelo
DeepSeek-V3.1	Idioma	El modelo híbrido de DeepSeek, que admite tanto el modo de reflexión como el modo sin reflexión.	Tarjeta de modelo
DeepSeek R1 (0528)	Idioma	La versión más reciente del modelo DeepSeek R1 de DeepSeek.	Tarjeta de modelo
Llama 4 Maverick 17B-128E	Idioma, visión	El modelo de Llama 4 más grande y potente, que ofrece funciones de programación, razonamiento e imagen. Llama 4 Maverick 17B-128E es un modelo multimodal que usa la arquitectura de Mixture-of-Experts (MoE) y la fusión temprana.	Tarjeta de modelo
Llama 4 Scout 17B-16E	Idioma, visión	Llama 4 Scout 17B-16E ofrece resultados de vanguardia para su clase de tamaño, superando a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Llama 4 Scout 17B-16E es un modelo multimodal que usa la arquitectura de Mixture-of-Experts (MoE) y la fusión temprana.	Tarjeta de modelo
Llama 3.3	Idioma	Llama 3.3 es un modelo de 70.000 millones de parámetros de solo texto ajustado para instrucciones que ofrece un rendimiento mejorado en comparación con Llama 3.1 70B y Llama 3.2 90B cuando se usa en aplicaciones de solo texto. Además, en algunas aplicaciones, Llama 3.3 70B se acerca al rendimiento de Llama 3.1 405B.	Tarjeta de modelo
Llama 3.2 (vista previa)	Idioma, visión	Un modelo multimodal de tamaño medio con 90.000 millones de parámetros que puede interpretar imágenes, como analizar gráficos y generar descripciones de imágenes.	Tarjeta de modelo
Llama 3.1	Idioma	Una colección de LLMs multilingües optimizados para casos prácticos de diálogo multilingüe, que superan a muchos de los modelos de chat de código abierto y cerrados disponibles en las métricas comunes del sector. Llama 3.1 405B está disponible para el público general. Llama 3.1 8B y Llama 3.1 70B están en versión preliminar.	Tarjeta de modelo

Lista de modelos con recetas de ajuste o de servicio de código abierto en Model Garden

En la siguiente tabla se indican los modelos de software libre que admiten recetas de ajuste o de servicio de código abierto en Model Garden:

Nombre del modelo	Modalidad	Descripción	Guía de inicio rápido
Llama 4	Idioma, visión	Una familia de modelos multimodales que usan la arquitectura Mixture-of-Experts (MoE) y la fusión temprana.	Colab Tarjeta de modelo
Llama 3.3	Idioma	El modelo de lenguaje extenso (LLM) multilingüe Llama 3.3 de Meta es un modelo generativo preentrenado y ajustado mediante instrucciones de 70.000 millones de parámetros (texto de entrada y texto de salida).	Tarjeta de modelo
Flux	Vision	Un modelo Transformer de flujo rectificado de 12.000 millones de parámetros que genera imágenes de alta calidad a partir de descripciones de texto.	Tarjeta de modelo
Prompt Guard	Idioma	Protege las entradas de LLM frente a las técnicas de jailbreaking y las inyecciones indirectas.	Tarjeta de modelo
Llama 3.2	Idioma	Una colección de modelos de lenguaje extensos multilingües que son modelos generativos preentrenados y ajustados mediante instrucciones de 1000 y 3000 millones de parámetros.	Tarjeta de modelo
Llama 3.2 Vision	Idioma, visión	Una colección de modelos de lenguaje extensos multimodales que son modelos generativos de razonamiento de imágenes preentrenados y ajustados mediante instrucciones de 11 y 90 mil millones de parámetros. Estos modelos están optimizados para el reconocimiento visual, el razonamiento de imágenes, la generación de subtítulos y la respuesta a preguntas generales sobre una imagen.	Tarjeta de modelo
Llama Guard 3	Idioma	Un modelo preentrenado de Llama-3.1-8B que se ha ajustado para la clasificación de seguridad del contenido.	Tarjeta de modelo
Qwen2	Idioma	Implementa Qwen2, una serie de modelos de lenguaje extensos básicos.	Colab Tarjeta de modelo
Phi-3	Idioma	Implementa Phi-3, una serie de modelos de lenguaje extensos de base.	Colab Tarjeta de modelo
E5	Idioma	Despliega E5, una serie de modelos de inserciones de texto.	Colab Tarjeta de modelo
Instant ID	Idioma, visión	Implementa Instant ID, un modelo de generación de texto a imagen que protege la identidad.	Colab Tarjeta de modelo
Llama 3	Idioma	Descubre y crea con los modelos Llama 3 (8B, 70B y 405B) de Meta en Vertex AI.	Tarjeta de modelo
Gemma 3n	Idioma, visión y audio	Modelos de peso abierto (E2B y E4B) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google.	Tarjeta de modelo
Gemma 3	Idioma, visión	Modelos de peso abierto (1000 millones de parámetros solo de texto, 4000 millones, 12.000 millones y 27.000 millones) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google.	Tarjeta de modelo
Gemma 2	Idioma	Modelos de peso abierto (9B y 27B) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos de Gemini de Google.	Tarjeta de modelo
Gemma	Idioma	Modelos de peso abierto (2B y 7B) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google.	Tarjeta de modelo
CodeGemma	Idioma	Modelos de peso abierto (2B y 7B) diseñados para la generación y la finalización de código, creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos de Gemini de Google.	Tarjeta de modelo
PaliGemma 2	Idioma, visión	Modelos abiertos de 3B, 10B y 28B diseñados para tareas de subtitulado de imágenes y de preguntas y respuestas visuales, creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google.	Tarjeta de modelo
PaliGemma	Idioma, visión	Modelo abierto de 3000 millones de parámetros diseñado para tareas de descripción de imágenes y de preguntas y respuestas visuales. Se ha creado a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google.	Tarjeta de modelo
ShieldGemma 2	Idioma, visión	Modelo de 4000 millones de parámetros con pesos abiertos entrenado con el checkpoint de 4000 millones de parámetros de TI de Gemma 3 para la clasificación de la seguridad de las imágenes en categorías clave. Este modelo recibe imágenes y genera etiquetas de seguridad según la política.	Tarjeta de modelo
TxGemma	Idioma	Modelos de peso abierto (2B, 9B y 27B) diseñados para el desarrollo terapéutico y basados en Gemma 2.	Tarjeta de modelo
MedGemma	Idioma, visión	Modelos de peso abierto (4000 y 27.000 millones de parámetros) diseñados para ofrecer un buen rendimiento en la comprensión de textos e imágenes médicos.	Tarjeta de modelo
MedSigLIP	Idioma, visión	Modelo de peso abierto (codificador de visión con 400 M de parámetros y codificador de texto con 400 M de parámetros) diseñado para codificar imágenes y texto médicos en un espacio de inserción común.	Tarjeta de modelo
T5Gemma	Idioma	Modelos codificador-decodificador de peso abierto (2B-2B, 9B-9B, 9B-2B, S-S, B-B, L-L, M-L y XL-XL) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google.	Tarjeta de modelo
Vicuna v1.5	Idioma	Implementa modelos de la serie Vicuna v1.5, que son modelos fundacionales ajustados a partir de LLama2 para la generación de texto.	Tarjeta de modelo
NLLB	Idioma	Despliega modelos de la serie NLLB para traducir contenido a varios idiomas.	Tarjeta de modelo Colab
Mistral-7B	Idioma	Despliega Mistral-7B, un modelo básico para la generación de texto.	Tarjeta de modelo
BioGPT	Idioma	Implementa BioGPT, un modelo generativo de texto para el ámbito biomédico.	Tarjeta de modelo Colab
BiomedCLIP	Idioma, visión	Despliega BiomedCLIP, un modelo de base multimodal para el ámbito biomédico.	Tarjeta de modelo Colab
ImageBind	Idioma, visión y audio	Despliega ImageBind, un modelo fundacional para la incrustación multimodal.	Tarjeta de modelo Colab
DITO	Idioma, visión	Ajusta y despliega DITO, un modelo básico multimodal para tareas de detección de objetos de vocabulario abierto.	Tarjeta de modelo Colab
OWL-ViT v2	Idioma, visión	Despliega OWL-ViT v2, un modelo de base multimodal para tareas de detección de objetos de vocabulario abierto.	Tarjeta de modelo Colab
FaceStylizer (MediaPipe)	Vision	Un flujo de trabajo generativo para transformar imágenes de rostros humanos en un nuevo estilo.	Tarjeta de modelo Colab
Llama 2	Idioma	Ajusta y despliega los modelos fundacionales Llama 2 de Meta (7B, 13B y 70B) en Vertex AI.	Tarjeta de modelo
Code Llama	Idioma	Despliega los modelos fundacionales Code Llama de Meta (7B, 13B y 34B) en Vertex AI.	Tarjeta de modelo
Falcon-instruct	Idioma	Ajusta y despliega modelos de Falcon-instruct (7B y 40B) mediante PEFT.	Colab Tarjeta de modelo
OpenLLaMA	Idioma	Ajusta y despliega modelos de OpenLLaMA (3B, 7B y 13B) mediante PEFT.	Colab Tarjeta de modelo
T5-FLAN	Idioma	Ajusta y despliega T5-FLAN (base, small y large).	Tarjeta de modelo (se incluye la canalización de ajuste fino)
BERT	Idioma	Ajusta y despliega BERT con PEFT.	Colab Tarjeta de modelo
BART-large-cnn	Idioma	Implementa BART, un modelo de codificador-codificador (seq2seq) de transformador con un codificador bidireccional (similar a BERT) y un decodificador autorregresivo (similar a GPT).	Colab Tarjeta de modelo
RoBERTa-large	Idioma	Ajusta y despliega RoBERTa-large con PEFT.	Colab Tarjeta de modelo
XLM-RoBERTa-large	Idioma	Ajusta y despliega XLM-RoBERTa-large (una versión multilingüe de RoBERTa) mediante PEFT.	Colab Tarjeta de modelo
Stable Diffusion XL v1.0	Idioma, visión	Implementa Stable Diffusion XL v1.0, que admite la generación de imágenes a partir de texto.	Colab Tarjeta de modelo
Stable Diffusion XL Lightning	Idioma, visión	Despliega Stable Diffusion XL Lightning, un modelo de generación de imágenes a partir de texto.	Colab Tarjeta de modelo
Stable Diffusion v2.1	Idioma, visión	Ajusta y despliega Stable Diffusion v2.1 (admite la generación de texto a imagen) con Dreambooth.	Colab Tarjeta de modelo
Stable Diffusion 4x upscaler	Idioma, visión	Implementa el escalador 4x de Stable Diffusion, que admite la superresolución de imágenes condicionada por texto.	Colab Tarjeta de modelo
InstructPix2Pix	Idioma, visión	Implementa InstructPix2Pix, que permite editar imágenes mediante una petición de texto.	Colab Tarjeta de modelo
Pintura en la imagen de Stable Diffusion	Idioma, visión	Ajusta y despliega Stable Diffusion Inpainting, que permite pintar una imagen enmascarada mediante una petición de texto.	Colab Tarjeta de modelo
SAM	Idioma, visión	Implementa Segment Anything, que admite la segmentación de imágenes sin ejemplos.	Colab Tarjeta de modelo
Extracción de imágenes compuestas de Pic2Word	Idioma, visión	Implementa Pic2Word, que admite la recuperación de imágenes compuestas multimodales.	Colab Tarjeta de modelo
BLIP2	Idioma, visión	Implementa BLIP2, que admite la generación de subtítulos de imágenes y la respuesta a preguntas visuales.	Colab Tarjeta de modelo
Open-CLIP	Idioma, visión	Ajusta y despliega Open-CLIP, que admite la clasificación sin ejemplos.	Colab Tarjeta de modelo
F-VLM	Idioma, visión	Implementa F-VLM, que admite la detección de objetos de imagen con vocabulario abierto.	Colab Tarjeta de modelo
tfhub/EfficientNetV2	Vision	Ajusta y despliega la implementación de TensorFlow Vision del modelo de clasificación de imágenes EfficientNetV2.	Colab Tarjeta de modelo
EfficientNetV2 (TIMM)	Vision	Ajusta y despliega la implementación de PyTorch del modelo de clasificación de imágenes EfficientNetV2.	Colab Tarjeta de modelo
Propietario/EfficientNetV2	Vision	Ajusta y despliega el punto de control propietario de Google del modelo de clasificación de imágenes EfficientNetV2.	Colab Tarjeta de modelo
EfficientNetLite (MediaPipe)	Vision	Ajusta un modelo de clasificación de imágenes de EfficientNetLite mediante MediaPipe Model Maker.	Colab Tarjeta de modelo
tfvision/vit	Vision	Ajusta y despliega la implementación de TensorFlow Vision del modelo de clasificación de imágenes ViT.	Colab Tarjeta de modelo
ViT (TIMM)	Vision	Ajusta y despliega la implementación de PyTorch del modelo de clasificación de imágenes ViT.	Colab Tarjeta de modelo
Propiedad/ViT	Vision	Ajusta y despliega el punto de control propietario de Google del modelo de clasificación de imágenes ViT.	Colab Tarjeta de modelo
Propietario/MaxViT	Vision	Ajusta y despliega el punto de control propietario de Google del modelo de clasificación de imágenes híbrido MaxViT (CNN + ViT).	Colab Tarjeta de modelo
ViT (JAX)	Vision	Ajusta y despliega la implementación de JAX del modelo de clasificación de imágenes ViT.	Colab Tarjeta de modelo
tfvision/SpineNet	Vision	Ajusta y despliega la implementación de TensorFlow Vision del modelo de detección de objetos SpineNet.	Colab Tarjeta de modelo
Propietario/Spinenet	Vision	Ajusta y despliega el punto de control propietario de Google del modelo de detección de objetos SpineNet.	Colab Tarjeta de modelo
tfvision/YOLO	Vision	Ajusta y despliega la implementación de TensorFlow Vision del modelo de detección de objetos de una fase YOLO.	Colab Tarjeta de modelo
Información confidencial/YOLO	Vision	Ajusta y despliega el punto de control propietario de Google del modelo de detección de objetos de una fase de YOLO.	Colab Tarjeta de modelo
YOLOv8 (Keras)	Vision	Ajusta y despliega la implementación de Keras del modelo YOLOv8 para la detección de objetos.	Colab Tarjeta de modelo
tfvision/YOLOv7	Vision	Ajusta y despliega el modelo YOLOv7 para la detección de objetos.	Colab Tarjeta de modelo
Seguimiento de objetos de vídeo de ByteTrack	Vision	Ejecuta la predicción por lotes para monitorizar objetos de vídeo mediante el rastreador ByteTrack.	Colab Tarjeta de modelo
ResNeSt (TIMM)	Vision	Ajusta y despliega la implementación de PyTorch del modelo de clasificación de imágenes ResNeSt.	Colab Tarjeta de modelo
ConvNeXt (TIMM)	Vision	Ajusta y despliega ConvNeXt, un modelo convolucional puro para la clasificación de imágenes inspirado en el diseño de Vision Transformers.	Colab Tarjeta de modelo
CspNet (TIMM)	Vision	Ajusta y despliega el modelo de clasificación de imágenes CSPNet (Cross Stage Partial Network).	Colab Tarjeta de modelo
Inception (TIMM)	Vision	Ajusta y despliega el modelo de clasificación de imágenes Inception.	Colab Tarjeta de modelo
DeepLabv3+ (con punto de control)	Vision	Ajusta y despliega el modelo DeepLab-v3 Plus para la segmentación semántica de imágenes.	Colab Tarjeta de modelo
Faster R-CNN (Detectron2)	Vision	Ajusta y despliega la implementación de Detectron2 del modelo Faster R-CNN para la detección de objetos de imagen.	Colab Tarjeta de modelo
RetinaNet (Detectron2)	Vision	Ajusta y despliega la implementación de Detectron2 del modelo RetinaNet para la detección de objetos de imagen.	Colab Tarjeta de modelo
Mask R-CNN (Detectron2)	Vision	Ajusta y despliega la implementación de Detectron2 del modelo Mask R-CNN para la detección y segmentación de objetos de imagen.	Colab Tarjeta de modelo
ControlNet	Vision	Ajusta y despliega el modelo de generación de texto a imagen ControlNet.	Colab Tarjeta de modelo
MobileNet (TIMM)	Vision	Ajusta y despliega la implementación de PyTorch del modelo de clasificación de imágenes MobileNet.	Colab Tarjeta de modelo
Clasificación de imágenes de MobileNetV2 (MediaPipe)	Vision	Ajusta el modelo de clasificación de imágenes MobileNetV2 con MediaPipe Model Maker.	Colab Tarjeta de modelo
Detección de objetos de MobileNetV2 (MediaPipe)	Vision	Ajusta el modelo de detección de objetos MobileNetV2 con Model Maker de MediaPipe.	Colab Tarjeta de modelo
MobileNet-MultiHW-AVG (MediaPipe)	Vision	Ajusta el modelo de detección de objetos MobileNet-MultiHW-AVG con Model Maker de MediaPipe.	Colab Tarjeta de modelo
DeiT	Vision	Ajusta y despliega el modelo DeiT (Data-efficient Image Transformers) para clasificar imágenes.	Colab Tarjeta de modelo
BEiT	Vision	Ajusta y despliega el modelo BEiT (Bidirectional Encoder representation from Image Transformers) para clasificar imágenes.	Colab Tarjeta de modelo
Reconocimiento de gestos con la mano (MediaPipe)	Vision	Ajusta y despliega en el dispositivo los modelos de reconocimiento de gestos con la mano mediante MediaPipe.	Colab Tarjeta de modelo
Clasificador de media de incrustaciones de palabras (MediaPipe)	Vision	Ajusta y despliega en el dispositivo los modelos de clasificador de incrustaciones de palabras medias con MediaPipe.	Colab Tarjeta de modelo
Clasificador MobileBERT (MediaPipe)	Vision	Ajusta y despliega en el dispositivo los modelos de clasificador MobileBERT mediante MediaPipe.	Colab Tarjeta de modelo
Clasificación de clips de vídeo de MoViNet	Vídeo	Ajusta y despliega modelos de clasificación de clips de vídeo de MoViNet.	Colab Tarjeta de modelo
Reconocimiento de acciones en vídeos de MoViNet	Vídeo	Ajusta y despliega modelos de MoViNet para la inferencia de reconocimiento de acciones.	Colab Tarjeta de modelo
Stable Diffusion XL LCM	Vision	Implementa este modelo, que usa el modelo de coherencia latente (LCM), para mejorar la generación de texto a imagen en los modelos de difusión latente. Para ello, permite crear imágenes de alta calidad más rápido y con menos pasos.	Colab Tarjeta de modelo
LLaVA 1.5	Visión e idioma	Despliega modelos de LLaVA 1.5.	Colab Tarjeta de modelo
Pytorch-ZipNeRF	Visión y vídeo	Entrena el modelo Pytorch-ZipNeRF, que es una implementación de última generación del algoritmo ZipNeRF en el framework Pytorch, diseñado para una reconstrucción 3D eficiente y precisa a partir de imágenes 2D.	Colab Tarjeta de modelo
Mixtral	Idioma	Despliega el modelo Mixtral, que es un modelo de lenguaje extenso (LLM) de mezcla de expertos (MoE) desarrollado por Mistral AI.	Tarjeta de modelo
Llama 2 (cuantificado)	Idioma	Ajusta y despliega una versión cuantificada de los modelos Llama 2 de Meta.	Colab Tarjeta de modelo
LaMa (Large Mask Inpainting)	Vision	Implementa LaMa, que usa convoluciones rápidas de Fourier (FFCs), una pérdida perceptual de campo receptivo alto y máscaras de entrenamiento grandes, lo que permite pintar imágenes con una resolución robusta.	Colab Tarjeta de modelo
AutoGluon	Tabular	Con AutoGluon, puedes entrenar y desplegar modelos de aprendizaje automático y aprendizaje profundo de alta precisión para datos tabulares.	Colab Tarjeta de modelo
MaMMUT	Idioma, visión	Una arquitectura de codificador de visión y decodificador de texto para tareas multimodales, como la búsqueda de respuestas visuales, la recuperación de imágenes y texto, la recuperación de texto e imágenes, y la generación de embeddings multimodales.	Colab Tarjeta de modelo
Susurro (grande)	Voz	Implementa Whisper Large, el modelo de vanguardia de OpenAI para el reconocimiento de voz automático (ASR).	Colab Tarjeta de modelo