Lista de modelos originales de Google
En la siguiente tabla, se enumeran los modelos originales de Google que están disponibles en Model Garden:
Nombre del modelo | Modalidad | Descripción | Guías de inicio rápido |
---|---|---|---|
Gemini 2.5 Flash (versión preliminar) | Lenguaje, audio, visión | Modelo de pensamiento diseñado para equilibrar el precio y el rendimiento. | Tarjeta de modelo |
Gemini 2.5 Pro (versión preliminar) | Lenguaje, audio, visión | Modelo de pensamiento con funciones de próxima generación y capacidades mejoradas. | Tarjeta de modelo |
Gemini 2.0 Flash | Lenguaje, audio, visión | Es el modelo principal para todas las tareas diarias y las funciones con rendimiento mejorado, y admite la API de Live en tiempo real. | Tarjeta de modelo |
Gemini 2.0 Flash-Lite | Lenguaje, audio, visión | Es el modelo de Flash más rápido y rentable. Ofrece mejor calidad que la versión 1.5 al mismo precio y velocidad. | Tarjeta de modelo |
Imagen para la generación de imágenes | Vision | Crea imágenes a nivel de estudio a gran escala con mensajes de texto. También puedes usar este modelo para mejorar la resolución de las imágenes. | Tarjeta de modelo |
Imagen para edición y personalización | Vision | Edita o usa el aprendizaje con pocos ejemplos para crear imágenes a nivel de estudio a gran escala con imágenes base y mensajes de texto, o con imágenes de referencia y mensajes de texto. | Tarjeta de modelo |
Segmentación de imágenes de Vertex (vista previa) | Vision | Usa instrucciones de texto o dibuja garabatos para segmentar una imagen. La segmentación de imágenes te permite, por ejemplo, detectar objetos, quitar el fondo de una imagen o segmentar el primer plano de una imagen. | Tarjeta de modelo |
Imagen para subtítulos y VQA | lenguaje | Genera una descripción relevante para una imagen determinada. | Tarjeta de modelo |
Incorporaciones para multimodales | Visión | Genera vectores basados en imágenes, que se pueden usar para tareas descendentes, como la clasificación de imágenes y la búsqueda de imágenes. | Tarjeta de modelo |
Chirp 2 | Voz | Chirp 2 es un modelo de reconocimiento de voz automático (ASR) multilingüe desarrollado por Google que transcribe la voz (voz a texto). En comparación con la primera generación de modelos de Chirp, Chirp 2 ofrece una mayor exactitud y velocidad, y ofrece nuevas funciones, como marcas de tiempo a nivel de palabras, adaptación de modelos y traducción de voz. | Tarjeta de modelo |
Lista de modelos con ajuste de código abierto o recetas de entrega en Model Garden
En la siguiente tabla, se enumeran los modelos de OSS que admiten el ajuste de código abierto o las recetas de entrega en Model Garden:
Nombre del modelo | Modalidad | Descripción | Guía de inicio rápido |
---|---|---|---|
Llama 4 | Lenguaje, Vision | Es una familia de modelos multimodales que usan la arquitectura de combinación de expertos (MoE) y la fusión anticipada. | Colab Tarjeta de modelo |
Llama 3.3 | Idioma | El modelo de lenguaje grande (LLM) multilingüe Llama 3.3 de Meta es un modelo generativo previamente entrenado y ajustado para seguir instrucciones en 70B (texto de entrada y salida). | Tarjeta de modelo |
Flux | Vision | Es un modelo Transformer de flujo rectificado con 12,000 millones de parámetros que genera imágenes de alta calidad a partir de descripciones de texto. | Tarjeta de modelo |
Protector de instrucciones | Idioma | Protege las entradas del LLM con instrucciones de protección contra técnicas de jailbreaking y ataques de inyección indirectos. | Tarjeta de modelo |
Llama 3.2 | Idioma | Es una colección de modelos de lenguaje grandes multilingües que son modelos generativos preentrenados y ajustados con instrucciones en tamaños de 1,000 millones y 3,000 millones de parámetros. | Tarjeta de modelo |
Llama 3.2-Vision | Lenguaje, Vision | Colección de modelos grandes de lenguaje multimodales que son modelos generativos de razonamiento de imágenes preentrenados y ajustados con instrucciones en tamaños de 11B y 90B. Estos modelos están optimizados para el reconocimiento visual, el razonamiento de imágenes, la generación de leyendas y la respuesta a preguntas generales sobre una imagen. | Tarjeta de modelo |
Llama Guard 3 | Idioma | Modelo previamente entrenado de Llama-3.1-8B que se ajustó para la clasificación de seguridad del contenido. | Tarjeta de modelo |
Qwen2 | Idioma | Implementa Qwen2, una serie de modelos de lenguaje grandes de base. | Colab Tarjeta de modelo |
Phi-3 | Idioma | Implementamos Phi-3, una serie de modelos de lenguaje grandes de base. | Colab Tarjeta de modelo |
E5 | Lenguaje | Implementa E5, una serie de modelos de embedding de texto. | Colab Tarjeta de modelo |
ID instantáneo | Lenguaje, Vision | Implementa ID instantáneo, un modelo de generación de texto a imagen que preserva la identidad. | Colab Tarjeta de modelo |
Llama 3 | Idioma | Explora y compila con los modelos Llama 3 de Meta (8B, 70B, 405B) en Vertex AI. | Tarjeta de modelo |
Gemma 3 | Lenguaje, Vision | Modelos de peso abierto (1B solo texto, 4B, 12B, 27B) que se compilan a partir de la misma investigación y tecnología que se usaron para crear los modelos Gemini de Google. | Tarjeta de modelo |
Gemma 2 | Idioma | Modelos de peso abierto (9B, 27B) que se compilan a partir de la misma investigación y tecnología que se usaron para crear los modelos Gemini de Google. | Tarjeta de modelo |
Gemma | lenguaje | Modelos de peso abierto (2B, 7B) que se compilan a partir de la misma investigación y tecnología que se usaron para crear los modelos Gemini de Google. | Tarjeta de modelo |
CodeGemma | lenguaje | Modelos de peso abierto (2B, 7B) diseñados para la generación y la finalización de código que se compilan a partir de la misma investigación y tecnología que se usaron para crear los modelos Gemini de Google. | Tarjeta de modelo |
PaliGemma 2 | Lenguaje, Vision | Modelos de peso abierto 3B, 10B y 28B diseñados para tareas de leyendas de imágenes y tareas visuales de preguntas y respuestas que se compilan a partir de la misma investigación y tecnología que se usan para crear los modelos Gemini de Google. | Tarjeta de modelo |
PaliGemma | Lenguaje, Vision | Modelo de peso abierto 3B diseñado para tareas de leyendas de imágenes y tareas visuales de preguntas y respuestas que se compilan a partir de la misma investigación y tecnología que se usan para crear los modelos Gemini de Google. | Tarjeta de modelo |
ShieldGemma 2 | Lenguaje, Vision | Modelo de peso abierto 4B entrenado en el punto de control de TI 4B de Gemma 3 para la clasificación de seguridad de imágenes en categorías clave que toma imágenes y genera etiquetas de seguridad por política. | Tarjeta de modelo |
TxGemma | Idioma | Modelos de peso abierto (2B, 9B y 27B) diseñados para el desarrollo terapéutico y basados en Gemma 2. | Tarjeta de modelo |
Vicuna v1.5 | lenguaje | Implementa modelos de series de Vicuna v1.5, que son modelos de base más precisos de LLama2 para la generación de texto. | Tarjeta de modelo |
NLLB | lenguaje | Implementa modelos de series de nllb para la traducción a varios idiomas. | Tarjeta de modelo Colab |
Mistral-7B | lenguaje | Implementar Mistral-7B, un modelo de base para la generación de texto. | Tarjeta de modelo |
BioGPT | lenguaje | Implementa BioGPT, un modelo generativo de texto para el dominio biomédico. | Tarjeta de modelo Colab |
BiomedCLIP | Lenguaje, Vision | Implementa BiomedCLIP, un modelo de base multimodal para el dominio biomédico. | Tarjeta de modelo Colab |
ImageBind | Lenguaje, Vision, Audio |
Implementa ImageBind, un modelo de base para la incorporación multimodal. | Tarjeta de modelo Colab |
DITO | Lenguaje, Vision | Ajusta e implementa DITO, un modelo de base multimodal para tareas de detección de objetos de vocabulario abierto. | Tarjeta de modelo Colab |
OWL-ViT v2 | Lenguaje, Vision | Implementa OWL-ViT v2, un modelo de base multimodal para tareas de detección de objetos de vocabulario abierto. | Tarjeta de modelo Colab |
FaceStylizer (Mediapipe) | Visión | Una canalización generativa para transformar imágenes de rostros humanos y darles un estilo nuevo. | Tarjeta de modelo Colab |
Llama 2 | lenguaje | Ajusta e implementa los modelos de base Llama 2 de Meta (7B, 13B, 70B) en Vertex AI. | Tarjeta de modelo |
Code Llama | lenguaje | Implementa modelos de base de Code Llama de Meta (7B, 13B, 34B) en Vertex AI. | Tarjeta de modelo |
Falcon-instruct | lenguaje | Ajusta e implementa modelos de Falcon-Instruct (7B, 40B) mediante PEFT. | Colab Tarjeta de modelo |
OpenLLaMA | lenguaje | Ajusta e implementa modelos de OpenLLaMA (3B, 7B, 13B) con PEFT. | Colab Tarjeta de modelo |
T5-FLAN | lenguaje | Ajusta e implementa T5-FLAN (base, pequeño y grande). | Tarjeta de modelo (se incluye la canalización de ajuste) |
BERT | lenguaje | Ajusta e implementa BERT mediante PEFT. | Colab Tarjeta de modelo |
BART-large-cnn | lenguaje | Implementa BART, un modelo codificador/codificador (seq2seq) de transformador con un codificador bidireccional (similar a BERT) y un decodificador automático (similar a GPT). | Colab Tarjeta de modelo |
RoBERTa-large | lenguaje | Ajusta e implementa RoBERTa-large con PEFT. | Colab Tarjeta de modelo |
XLM-RoBERTa-large | lenguaje | Ajusta e implementa XLM-RoBERTa-large (una versión multilingüe de RoBERTa) mediante PEFT. | Colab Tarjeta de modelo |
Stable Diffusion XL v1.0 | Lenguaje, Vision | Implementa Stable Diffusion XL v1.0, que admite la generación de texto a imagen. | Colab Tarjeta de modelo |
Stable Diffusion XL Lightning | Lenguaje, Vision | Implementa Stable Diffusion XL Lightning, un modelo de generación de texto a imagen. | Colab Tarjeta de modelo |
Stable Diffusion v2.1 | Lenguaje, Vision | Ajusta e implementa Stable Diffusion v2.1 (admite la generación de texto a imagen) mediante Dreambooth. | Colab Tarjeta de modelo |
Stable Diffusion 4x upscaler | Lenguaje, Vision | Implementa Stable Diffusion 4x upscaler, que admite la superresolución de imagen condicionada por texto. | Colab Tarjeta de modelo |
InstructPix2Pix | Lenguaje, Vision | Implementa InstructPix2Pix, que admite la edición de imágenes mediante un mensaje de texto. | Colab Tarjeta de modelo |
Retoque de difusión estable | Lenguaje, Vision | Ajusta e implementa Stable Diffusion Inpainting, que admite completar una imagen enmascarada mediante una instrucción de texto. | Colab Tarjeta de modelo |
SAM | Lenguaje, Vision | Implementa Segment Anything, que admite la segmentación de imágenes sin tomas. | Colab Tarjeta de modelo |
Recuperación de imágenes compuestas de Pic2Word | Lenguaje, Vision | Implementa Pic2Word, que admite la recuperación de imágenes multimodales compuestas. | Colab Tarjeta de modelo |
BLIP2 | Lenguaje, Vision | Implementa BLIP2, que admite los subtítulos de imágenes y la respuesta visual a preguntas. | Colab Tarjeta de modelo |
Open-CLIP | Lenguaje, Vision | Ajusta e implementa Open-CLIP, que admite una clasificación sin tomas. | Colab Tarjeta de modelo |
F-VLM | Lenguaje, Vision | Implementa F-VLM, que admite la detección de objetos de imagen de vocabulario abierto. | Colab Tarjeta de modelo |
tfhub/EfficientNetV2 | Vision | Ajusta y realiza la implementación de TensorFlow Vision del modelo de clasificación de imágenes EfficientNetV2. | Colab Tarjeta de modelo |
EfficientNetV2 (TIMM) | Visión | Ajusta y realiza la implementación de PyTorch del modelo de clasificación de imágenes EfficientNetV2. | Colab Tarjeta de modelo |
Patentado/EfficientNetV2 | Visión | Ajusta y, luego, implementa el punto de control propiedad de Google del modelo de clasificación de imágenes EfficientNetV2. | Colab Tarjeta de modelo |
EfficientNetLite (MediaPipe) | Visión | Ajusta el modelo de clasificación de imágenes EfficientNetLite a través del creador de modelos MediaPipe. | Colab Tarjeta de modelo |
tfvision/vit | Visión | Ajusta y realiza la implementación de TensorFlow Vision del modelo de clasificación de imágenes ViT. | Colab Tarjeta de modelo |
ViT (TIMM) | Visión | Ajusta y realiza la implementación de PyTorch del modelo de clasificación de imágenes ViT. | Colab Tarjeta de modelo |
Patentado/ViT | Visión | Ajusta y, luego, implementa el punto de control propiedad de Google del modelo de clasificación de imágenes ViT. | Colab Tarjeta de modelo |
Patentado/MaxViT | Visión | Ajusta e implementa el punto de control propiedad de Google del modelo de clasificación de imágenes híbrido (CNN + ViT) de MaxViT. | Colab Tarjeta de modelo |
ViT (JAX) | Visión | Ajusta y realiza la implementación de JAX del modelo de clasificación de imágenes ViT. | Colab Tarjeta de modelo |
tfvision/SpineNet | Vision | Ajusta y realiza la implementación de TensorFlow Vision del modelo de detección de objetos SpineNet. | Colab Tarjeta de modelo |
Patentado/Spinenet | Visión | Ajusta e implementa el punto de control propiedad de Google del modelo de detección de objetos SpineNet. | Colab Tarjeta de modelo |
tfvision/YOLO | Visión | Ajusta y realiza la implementación de TensorFlow Vision del modelo de detección de objetos de una etapa de YOLO. | Colab Tarjeta de modelo |
Patentado/YOLO | Visión | Ajusta e implementa el punto de control propiedad de Google del modelo de detección de objetos de una etapa de YOLO. | Colab Tarjeta de modelo |
YOLOv8 (Keras) | Visión | Ajusta y realiza la implementación de Keras del modelo YOLOv8 para la detección de objetos. | Colab Tarjeta de modelo |
tfvision/YOLOv7 | Visión | Ajusta e implementa el modelo YOLOv7 para la detección de objetos. | Colab Tarjeta de modelo |
Seguimiento de objetos de video de ByteTrack | Visión | Ejecuta la predicción por lotes para el seguimiento de objetos de video con el dispositivo de rastreo de ByteTrack. | Colab Tarjeta de modelo |
ResNeSt (TIMM) | Visión | Ajusta y realiza la implementación de PyTorch del modelo de clasificación de imágenes ResNeSt. | Colab Tarjeta de modelo |
ConvNeXt (TIMM) | Visión | Ajusta e implementa ConvNeXt, un modelo convolucional puro para la clasificación de imágenes inspirado en el diseño de transformadores de Vision. | Colab Tarjeta de modelo |
CspNet (TIMM) | Visión | Ajusta e implementa el modelo de clasificación de imágenes CSPNet (Cross Stage Partial Network). | Colab Tarjeta de modelo |
Inception (TIMM) | Visión | Ajusta e implementa el modelo de clasificación de imágenes de Inception. | Colab Tarjeta de modelo |
DeepLabv3+ (con punto de control) | Visión | Ajusta e implementa el modelo DeepLab-v3 Plus para la segmentación semántica de imágenes. | Colab Tarjeta de modelo |
Faster R-CNN (Detectron2) | Visión | Ajusta y realiza la implementación de Detectron2 del modelo R-CNN más rápido para la detección de objetos de imagen. | Colab Tarjeta de modelo |
RetinaNet (Detectron2) | Visión | Ajusta y realiza la implementación de Detectron2 del modelo RetinaNet para la detección de objetos de imagen. | Colab Tarjeta de modelo |
Mask R-CNN (Detectron2) | Visión | Ajusta y realiza la implementación de Detectron2 del modelo Mask R-CNN para la detección y segmentación de objetos de imagen. | Colab Tarjeta de modelo |
ControlNet | Visión | Ajusta e implementa el modelo de generación de texto a imagen de ControlNet. | Colab Tarjeta de modelo |
MobileNet (TIMM) | Visión | Ajusta y realiza la implementación de PyTorch del modelo de clasificación de imágenes de MobileNet. | Colab Tarjeta de modelo |
Clasificación de imágenes de MobileNetV2 (MediaPipe) | Visión | Ajusta el modelo de clasificación de imágenes de MobileNetV2 mediante el creador de modelos MediaPipe. | Colab Tarjeta de modelo |
Detección de objetos de MobileNetV2 (MediaPipe) | Visión | Ajusta el modelo de detección de objetos MobileNetV2 mediante el creador de modelos MediaPipe. | Colab Tarjeta de modelo |
MobileNet-MultiHW-AVG (MediaPipe) | Visión | Ajusta el modelo de detección de objetos MobileNet-MultiHW-AVG con el creador de modelos MediaPipe. | Colab Tarjeta de modelo |
DeiT | Visión | Ajusta e implementa el modelo DeiT (transformadores de imagen eficientes en el uso de datos) para la clasificación de imágenes. | Colab Tarjeta de modelo |
BEiT | Visión | Ajusta e implementa el modelo BEiT (Representación de codificador bidireccional de transformadores de imágenes) para la clasificación de imágenes. | Colab Tarjeta de modelo |
Reconocimiento de gestos manuales (MediaPipe) | Visión | Ajusta e implementa en el dispositivo los modelos de reconocimiento de gestos manuales mediante MediaPipe. | Colab Tarjeta de modelo |
Average Word Embedding Classifier (MediaPipe) | Visión | Ajusta e implementa los modelos de Average Word Embedding Classifier en el dispositivo mediante MediaPipe. | Colab Tarjeta de modelo |
MobileBERT Classifier (MediaPipe) | Visión | Ajusta e implementa los modelos de MobileBERT Classifier en el dispositivo mediante MediaPipe. | Colab Tarjeta de modelo |
Clasificación de clips de video de MoViNet | Video | Ajusta e implementa los modelos de clasificación de clips de video de MoViNet. | Colab Tarjeta de modelo |
Reconocimiento de acciones de video de MoViNet | Video | Ajusta e implementa modelos de MoViNet para la inferencia de reconocimiento de acciones. | Colab Tarjeta de modelo |
LCM de Stable Diffusion XL | Vision | Implementa este modelo que usa el modelo de consistencia latente (LCM) para mejorar la generación de texto a imagen en los modelos de difusión latentes, ya que permite crear imágenes más rápido y de alta calidad con menos pasos. | Colab Tarjeta de modelo |
LLaVA 1.5 | Visión, lenguaje | Implementa modelos de LLaVA 1.5. | Colab Tarjeta de modelo |
Pytorch-ZipNeRF | Visión, video | Entrena el modelo Pytorch-ZipNeRF, que es una implementación de vanguardia del algoritmo ZipNeRF en el framework de Pytorch, diseñado para una reconstrucción 3D eficiente y precisa a partir de imágenes 2D. | Colab Tarjeta de modelo |
Mixtral | Idioma | Implementa el modelo Mixtral, que es un modelo de lenguaje grande (LLM) de mezcla de expertos (MoE) que desarrolla Mistral AI. | Tarjeta de modelo |
Llama 2 (cuantizado) | lenguaje | Ajusta y, luego, implementa una versión cuantizada de los modelos Llama 2 de Meta. | Colab Tarjeta de modelo |
LaMa (retoque de máscara grande) | Vision | Implementa LaMa que usa convoluciones rápidas de Fourier rápidas (FFC), una pérdida perceptiva alta de campo receptivo y máscaras de entrenamiento grandes que permiten retoques de imágenes con resolución sólida. | Colab Tarjeta de modelo |
AutoGluon | Tabulares | Con AutoGluon, puedes entrenar y, luego, implementar modelos de aprendizaje automático y de aprendizaje profundo de alta precisión para datos tabulares. | Colab Tarjeta de modelo |
MaMMUT | Lenguaje, Vision | Una arquitectura de codificador visual y decodificador de texto para tareas multimodales, como respuesta visual de preguntas, recuperación de imágenes y texto, recuperación de texto y generación de incorporaciones multimodales. | Colab Tarjeta de modelo |
Whisper Large | Voz | Implementa Whisper Large, el modelo de vanguardia de OpenAI para el reconocimiento de voz automático (ASR). | Colab Tarjeta de modelo |
Lista de modelos de socios disponibles en Model Garden
Algunos modelos de socios se ofrecen como APIs administradas en Vertex AI Model Garden (también conocido como modelo como servicio). En la siguiente tabla, se enumeran los modelos que están disponibles de los socios de Google en Model Garden:
Nombre del modelo | Modalidad | Descripción | Guía de inicio rápido |
---|---|---|---|
Claude Opus 4 | Lenguaje, Vision | El modelo más potente de Anthropic hasta la fecha y el modelo de programación más avanzado. Claude Opus 4 ofrece un rendimiento sostenido en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que expande significativamente lo que pueden resolver los agentes de IA. | Tarjeta de modelo |
Claude Sonnet 4 | Lenguaje, Vision | Modelo de tamaño mediano de Anthropic con inteligencia superior para usos de gran volumen, como programación, investigación en profundidad y agentes. | Tarjeta de modelo |
Claude 3.7 Sonnet de Anthropic | Lenguaje, Vision | Es un modelo líder en la industria para la codificación y el desarrollo de agentes de IA, y el primer modelo de Claude que ofrece un pensamiento extendido. | Tarjeta de modelo |
Claude 3.5 Sonnet v2 de Anthropic | Lenguaje, Vision | Claude 3.5 Sonnet actualizado es un modelo de última generación para tareas de ingeniería de software del mundo real y capacidades de agentes. Claude 3.5 Sonnet ofrece estos avances al mismo precio y velocidad que su predecesor. | Tarjeta de modelo |
Claude 3.5 Haiku de Anthropic | Lenguaje, Vision | Claude 3.5 Haiku, la próxima generación del modelo más rápido y rentable de Anthropic, es ideal para casos de uso en los que la velocidad y la rentabilidad son importantes. | Tarjeta de modelo |
Claude 3 Opus de Anthropic | Idioma | Un potente modelo de IA con un rendimiento de primer nivel en tareas muy complejas. Puede navegar por instrucciones abiertas y situaciones nunca vistas con una fluidez notable y una comprensión similar a la humana. | Tarjeta de modelo |
Claude 3 Haiku de Anthropic | Idioma | El modelo de visión y texto más rápido de Anthropic para respuestas casi instantáneas a consultas básicas, diseñado para experiencias de IA fluidas que imitan las interacciones humanas. | Tarjeta de modelo |
Claude 3.5 Sonnet de Anthropic | Idioma | Claude 3.5 Sonnet supera el rendimiento de Claude 3 Opus de Anthropic en una amplia variedad de evaluaciones de Anthropic, gracias a la velocidad y el costo del modelo de nivel intermedio de Anthropic, Claude 3 Sonnet. | Tarjeta de modelo |
DeepSeek-R1-0528 (vista previa) | Idioma | Es la versión más reciente del modelo DeepSeek R1 de DeepSeek. | Tarjeta de modelo |
Jamba 1.5 Large (versión preliminar) | Idioma | Jamba 1.5 Large de AI21 Labs está diseñado para ofrecer respuestas de calidad superior, un alto rendimiento y precios competitivos en comparación con otros modelos de su clase de tamaño. | Tarjeta de modelo |
Jamba 1.5 Mini (versión preliminar) | Idioma | Jamba 1.5 Mini de AI21 Labs está bien equilibrado en cuanto a calidad, capacidad de procesamiento y bajo costo. | Tarjeta de modelo |
Llama 4 Maverick 17B-128E (GA) | Lenguaje, Vision | El modelo de Llama 4 más grande y potente, con capacidades de programación, razonamiento y generación de imágenes. Llama 4 Maverick 17B-128E es un modelo multimodal que usa la arquitectura de mezcla de expertos (MoE) y fusión temprana. | Tarjeta de modelo |
Llama 4 Scout 17B-16E (GA) | Lenguaje, Vision | Llama 4 Scout 17B-16E ofrece resultados de vanguardia para su clase de tamaño, superando a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Llama 4 Scout 17B-16E es un modelo multimodal que usa la arquitectura de mezcla de expertos (MoE) y la fusión anticipada. | Tarjeta de modelo |
Llama 3.3 (GA) | Idioma | Llama 3.3 es un modelo ajustado por instrucciones de 70B solo de texto que proporciona un rendimiento mejorado en comparación con Llama 3.1 70B y Llama 3.2 90B cuando se usa para aplicaciones solo de texto. Además, para algunas aplicaciones, Llama 3.3 70B se acerca al rendimiento de Llama 3.1 405B. | Tarjeta de modelo |
Llama 3.2 (versión preliminar) | Lenguaje, Vision | Un modelo multimodal de tamaño medio de 90 B que puede admitir el razonamiento de imágenes, como el análisis de gráficos y diagramas, así como la leyenda de imágenes. | Tarjeta de modelo |
Llama 3.1 (GA y versión preliminar) | Idioma |
Una colección de LLMs multilingües optimizados para casos de uso de diálogos multilingües que superan el rendimiento de muchos de los modelos de chat cerrados y de código abierto disponibles en comparativas comunes de la industria. Llama 3.1 405B está disponible para el público en general (DG) y tiene un precio por cada millón de tokens. Consulta los precios. Llama 3.1 8B y Llama 3.1 70B están en versión preliminar sin costo. |
Tarjeta de modelo |
OCR de Mistral (25/05) | Lenguaje, Vision | Mistral OCR (25.05) es una API de reconocimiento óptico de caracteres para la comprensión de documentos. El modelo comprende cada elemento de los documentos, como contenido multimedia, texto, tablas y ecuaciones. | Tarjeta de modelo |
Mistral Small 3.1 (25/03) | Idioma | Mistral Small 3.1 (25/03) es la versión más reciente del modelo Small de Mistral, que incluye capacidades multimodales y una longitud de contexto extendida. | Tarjeta de modelo |
Mistral Large (24.11) | Idioma | Mistral Large (24.11) es la próxima versión del modelo Mistral Large (24.07), que ahora cuenta con capacidades mejoradas de razonamiento y llamadas a funciones. | Tarjeta de modelo |
Codestral (25.01) | Código | Un modelo de vanguardia diseñado para la generación de código, incluida la función de completar el código en el medio y la finalización de código. | Tarjeta de modelo |