Liste des modèles propriétaires de Google
Le tableau suivant répertorie les modèles propriétaires de Google disponibles dans Model Garden :
Nom du modèle | Modalité | Description | Guides de démarrage rapide |
---|---|---|---|
Gemini 2.5 Flash (bêta) | Langage, audio, vision | Modèle de réflexion conçu pour équilibrer le prix et les performances. | fiche de modèle |
Gemini 2.5 Pro (Bêta) | Langage, audio, vision | Modèle de réflexion doté de fonctionnalités de nouvelle génération et de capacités améliorées. | fiche de modèle |
Gemini 2.0 Flash | Langage, audio, vision | Modèle polyvalent pour toutes les tâches quotidiennes, offrant des performances améliorées et compatible avec l'API Live en temps réel. | fiche de modèle |
Gemini 2.0 Flash-Lite | Langage, audio, vision | Modèle Flash le plus rapide et le plus économique. Elle offre une meilleure qualité que la version 1.5 pour le même prix et la même vitesse. | fiche de modèle |
Imagen pour la génération d'images | Vision | Créez des images de qualité studio à grande échelle à l'aide de requêtes de texte. Vous pouvez également utiliser ce modèle pour améliorer la qualité des images. | fiche de modèle |
Imagen pour la modification et la personnalisation | Vision | Modifiez ou utilisez l'apprentissage few-shot pour créer des images de qualité studio à grande échelle à l'aide d'images de base et de requêtes textuelles, ou à l'aide d'images de référence et de requêtes textuelles. | fiche de modèle |
Segmentation d'image Vertex (Preview) | Vision | Utilisez des requêtes textuelles ou dessinez des gribouillis pour segmenter une image. La segmentation d'image vous permet, par exemple, de détecter des objets, de supprimer l'arrière-plan d'une image ou de segmenter le premier plan d'une image. | fiche de modèle |
Imagen pour le sous-titrage et Visual Question Answering (VQA) | Langue | Génère une description pertinente pour une image donnée. | fiche de modèle |
Embeddings multimodaux | Vision | Génère des vecteurs à partir d'images, qui peuvent être utilisés pour des tâches en aval telles que la classification d'images et la recherche dans des images. | fiche de modèle |
Chirp 2 | Voix | Chirp 2 est un modèle de reconnaissance vocale automatique multilingue développé par Google qui transcrit du contenu vocal (speech-to-text). Par rapport à la première génération de modèles Chirp, Chirp 2 offre une plus grande justesse et une vitesse accrue, ainsi que de nouvelles fonctionnalités comme les codes temporels au niveau du mot, l'adaptation du modèle et la traduction vocale. | fiche de modèle |
Liste de modèles avec réglage Open Source ou mise en service de recettes dans Model Garden
Le tableau suivant liste les modèles OSS qui prennent en charge le réglage Open Source ou la mise en service de recettes dans Model Garden :
Nom du modèle | Modalité | Description | Guide de démarrage rapide |
---|---|---|---|
Llama 4 | Langage, vision | Une famille de modèles multimodaux qui utilisent l'architecture Mixture-of-Experts (MoE) et la fusion précoce. | Colab Fiche de modèle |
Llama 3.3 | Langue | Le grand modèle de langage (LLM) multilingue Meta Llama 3.3 est un modèle génératif pré-entraîné et adapté aux instructions, offrant 70 milliards de paramètres (texte entrant/texte sortant). | fiche de modèle |
Flux | Vision | Modèle Transformer à flux rectifié de 12 milliards de paramètres qui génère des images de haute qualité à partir de descriptions textuelles. | fiche de modèle |
Protection des requêtes | Langue | Protégez les entrées LLM contre les techniques de jailbreaking et les injections indirectes. | fiche de modèle |
Llama 3.2 | Langue | Ensemble de grands modèles de langage multilingues, qui sont des modèles génératifs pré-entraînés et adaptés aux instructions, proposés en 1 milliard et 3 milliards de paramètres. | fiche de modèle |
Llama 3.2-Vision | Langage, vision | Ensemble de grands modèles de langage multimodaux, qui sont des modèles génératifs de raisonnement par image pré-entraînés et adaptés aux instructions, proposés en 11 milliards et 90 milliards de paramètres. Ces modèles sont optimisés pour la reconnaissance visuelle, le raisonnement par image, la création de sous-titres et les réponses à des questions générales sur une image. | fiche de modèle |
Llama Guard 3 | Langue | Modèle pré-entraîné Llama-3.1-8B qui a été affiné pour la classification de la sécurité du contenu. | fiche de modèle |
Qwen2 | Langue | Déployez Qwen2, une série de grands modèles de langage de base. | Colab Fiche de modèle |
Phi-3 | Langue | Deployez Phi-3, une série de grands modèles de langage de base. | Colab Fiche de modèle |
E5 | Langue | Déployez E5, une série de modèles d'embedding textuel. | Colab Fiche de modèle |
Instant ID | Langage, vision | Déployez Instant ID, un modèle de génération de texte vers image préservant l'identité. | Colab Fiche de modèle |
Llama 3 | Langue | Explorez et créez avec les modèles Llama 3 de Meta (8B, 70B, 405B) sur Vertex AI. | fiche de modèle |
Gemma 3n | Langage, vision, audio | Modèles à pondération ouverte (E2B, E4B) basés sur les mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini de Google. | Fiche de modèle |
Gemma 3 | Langage, vision | Modèles à pondération ouverte (1B en mode texte uniquement, 4B, 12B, 27B) basés sur les mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini de Google. | Fiche de modèle |
Gemma 2 | Langue | Open weight models (9B, 27B) that are built from the same research and technology used to create Google's Gemini models. | Fiche de modèle |
Gemma | Langue | Modèles à pondération ouverte (2B, 7B) basés sur les mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini de Google. | Fiche de modèle |
CodeGemma | Langue | Modèles à pondération ouverte (2B, 7B) conçus pour la génération et la complétion de code, et basés sur les mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini de Google. | Fiche de modèle |
PaliGemma 2 | Langage, vision | Modèles 3B, 10B et 28B à pondération ouverte conçus pour les tâches de sous-titrage d'images et les questions/réponses visuelles, et basés sur les mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini de Google. | Fiche de modèle |
PaliGemma | Langage, vision | Modèle 3B à pondération ouverte conçu pour les tâches de sous-titrage d'images et les questions/réponses visuelles, et basé sur les mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini de Google. | Fiche de modèle |
ShieldGemma 2 | Langage, vision | Modèle 4B à pondération ouverte entraîné sur le point de contrôle IT 4B de Gemma 3 pour la classification de la sécurité des images dans les principales catégories. Il prend en entrée des images et génère des libellés de sécurité par règlement. | Fiche de modèle |
TxGemma | Langue | Modèles à pondération ouverte (2B, 9B, 27B) conçus pour le développement thérapeutique et basés sur Gemma 2. | Fiche de modèle |
MedGemma | Langage, vision | Modèles à pondération ouverte (4B, 27B) conçus pour comprendre les textes et les images médicales. | Fiche de modèle |
MedSigLIP | Langage, vision | Modèle à pondération ouverte (encodeur visuel à 400 millions de paramètres et encodeur de texte à 400 millions de paramètres) conçu pour encoder des images et du texte médicaux dans un espace d'embedding commun. | Fiche de modèle |
T5Gemma | Langue | Modèles encodeur-décodeur à pondération ouverte (2B-2B, 9B-9B, 9B-2B, S-S, B-B, L-L, M-L, XL-XL) basés sur les mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini de Google. | Fiche de modèle |
Vicuna v1.5 | Langue | Déployez des modèles de série Vicuna v1.5, qui sont des modèles de fondation réglés dans LLama2 pour la génération de texte. | fiche de modèle |
NLLB | Langue | Déployez des modèles de série NLLB pour la traduction multilingue. | Fiche de modèle Colab |
Mistral-7B | Langue | Déployez Mistral-7B, un modèle de fondation pour la génération de texte. | fiche de modèle |
BioGPT | Langue | Déployez BioGPT, un modèle génératif de texte pour le domaine biomédical. | Fiche de modèle Colab |
BiomedCLIP | Langage, vision | Déployez BiomedCLIP, un modèle de fondation multimodal pour le domaine biomédical. | Fiche de modèle Colab |
ImageBind | Langage, vision, Audio |
Déployez ImageBind, un modèle de fondation pour l'embedding multimodal | Fiche de modèle Colab |
DITO | Langage, vision | Réglez et déployez DITO, un modèle de fondation multimodal pour les tâches de détection d'objets de vocabulaire ouvert. | Fiche de modèle Colab |
OWL-ViT v2 | Langage, vision | Déployez OWL-ViT v2, un modèle de fondation multimodal pour les tâches de détection d'objets de vocabulaire ouvert. | Fiche de modèle Colab |
FaceStylizer (Mediapipe) | Vision | Pipeline génératif permettant de transformer les images de visages humains dans un nouveau style. | Fiche de modèle Colab |
Llama 2 | Langue | Ajustez et déployez les modèles de fondation Llama 2 de Meta (7B, 13B, 70B) sur Vertex AI. | fiche de modèle |
Code Llama | Langue | Déployez les modèles de fondation Code Llama de Meta (7B, 13B, 34B) sur Vertex AI. | fiche de modèle |
Falcon-instruct | Langue | Ajustez et déployez les modèles Falcon-instruct (7B, 40B) à l'aide de PEFT. | Colab Fiche de modèle |
OpenLLaMA | Langue | Ajustez et déployez les modèles OpenLLaMA (3B, 7B, 13B) à l'aide de PEFT. | Colab Fiche de modèle |
T5-FLAN | Langue | Ajustez et déployez T5-FLAN (de base, petit, grand). | Fiche de modèle (pipeline d'ajustement inclus) |
BERT | Langue | Ajustez et déployez BERT à l'aide de PTE. | Colab Fiche de modèle |
BART-large-cnn | Langue | Déployez BART, un modèle Transformer encodeur-encodeur (seq2seq) avec un encodeur bidirectionnel (semblable à BERT) et un décodeur autorégressif (semblable à GPT). | Colab Fiche de modèle |
RoBERTa-large | Langue | Ajustez et déployez RoBERTa-large à l'aide de PEFT. | Colab Fiche de modèle |
XLM-RoBERTa-large | Langue | Ajustez et déployez XLM-RoBERTa-large (version multilingue de RoBERTa) à l'aide de PEFT. | Colab Fiche de modèle |
Stable Diffusion XL v1.0 | Langage, vision | Déployez la version 1.0 de Stable Diffusion XL, qui est compatible avec la génération de texte vers image. | Colab Fiche de modèle |
Stable Diffusion XL Lightning | Langage, vision | Déployez Stable Diffusion XL Lightning, un modèle de génération de texte vers image. | Colab Fiche de modèle |
Stable Diffusion v2.1 | Langage, vision | Ajustez et déployez la version 2.1 de Stable Diffusion (compatible avec la génération de texte vers image) à l'aide de Dreambooth. | Colab Fiche de modèle |
Stable Diffusion 4x upscaler | Langage, vision | Déployez Stable Diffusion 4x upscaler, qui est compatible avec la création d'images en très grande résolution sur la base d'une requête textuelle. | Colab Fiche de modèle |
InstructPix2Pix | Langage, vision | Déployez Instructpx2Pix, qui permet de modifier des images à l'aide d'une requête textuelle. | Colab Fiche de modèle |
Stable Diffusion Inpainting | Langage, vision | Ajustez et déployez Stable Diffusion Inpainting, qui permet d'insérer une image masquée à l'aide d'une requête textuelle. | Colab Fiche de modèle |
SAM | Langage, vision | Déployez Segment Anything, qui est compatible avec la segmentation d'images zero-shot. | Colab Fiche de modèle |
Récupération d'image composée Pic2Word | Langage, vision | Déployez Pic2Word, qui est compatible avec la récupération d'image composée multimodale. | Colab Fiche de modèle |
BLIP2 | Langage, vision | Déployez BLIP2, qui est compatible avec Visual Captioning et Visual Question Answering. | Colab Fiche de modèle |
Open-CLIP | Langage, vision | Ajustez et déployez Open-CLIP, qui est compatible avec la classification zero-shot. | Colab Fiche de modèle |
F-VLM | Langage, vision | Déployez F-VLM, qui est compatible avec la détection d'objets au sein d'images à l'aide d'un vocabulaire ouvert. | Colab Fiche de modèle |
tfhub/EfficientNetV2 | Vision | Ajustez et déployez l'implémentation TensorFlow Vision du modèle de classification d'images EfficientNetV2. | Colab Fiche de modèle |
EfficientNetV2 (TIMM) | Vision | Ajustez et déployez la mise en œuvre PyTorch du modèle de classification d'images EfficientNetV2. | Colab Fiche de modèle |
Proprietary/EfficientNetV2 | Vision | Ajustez et déployez le point de contrôle exclusif Google du modèle de classification d'images EfficientNetV2. | Colab Fiche de modèle |
EfficientNetLite (MediaPipe) | Vision | Ajustez le modèle de classification d'images EfficientNetLite via le générateur de modèles MediaPipe. | Colab Fiche de modèle |
tfvision/vit | Vision | Ajustez et déployez la mise en œuvre Tensorflow Vision du modèle de classification d'images ViT. | Colab Fiche de modèle |
ViT (TIMM) | Vision | Ajustez et déployez la mise en œuvre PyTorch du modèle de classification d'images ViT. | Colab Fiche de modèle |
Proprietary/ViT | Vision | Ajustez et déployez le point de contrôle exclusif Google pour le modèle de classification d'images ViT. | Colab Fiche de modèle |
Proprietary/MaxViT | Vision | Ajustez et déployez le point de contrôle exclusif Google du modèle de classification d'images hybride MaxViT (CNN + ViT). | Colab Fiche de modèle |
ViT (JAX) | Vision | Ajustez et déployez la mise en œuvre JAX du modèle de classification d'images ViT. | Colab Fiche de modèle |
tfvision/SpineNet | Vision | Ajustez et déployez l'implémentation TensorFlow Vision du modèle de détection d'objets SpineNet. | Colab Fiche de modèle |
Proprietary/Spinenet | Vision | Ajustez et déployez le point de contrôle exclusif Google du modèle de détection d'objets SpineNet. | Colab Fiche de modèle |
tfvision/YOLO | Vision | Ajustez et déployez la mise en œuvre Tensorflow Vision du modèle de détection d'objets en une étape YOLO. | Colab Fiche de modèle |
Proprietary/YOLO | Vision | Ajustez et déployez le point de contrôle exclusif Google pour le modèle de détection d'objets en une étape YOLO. | Colab Fiche de modèle |
YOLOv8 (Keras) | Vision | Ajustez et déployez la mise en œuvre Keras du modèle YOLOv8 pour la détection d'objets. | Colab Fiche de modèle |
tfvision/YOLOv7 | Vision | Ajustez et déployez le modèle YOLOv7 pour la détection d'objets. | Colab Fiche de modèle |
Suivi des objets vidéo Bytetrack | Vision | Exécutez des prédictions par lot pour le suivi des objets vidéo avec ByteTrack. | Colab Fiche de modèle |
ResNeSt (TIMM) | Vision | Ajustez et déployez la mise en œuvre PyTorch du modèle de classification d'images ResNeSt. | Colab Fiche de modèle |
ConvNeXt (TIMM) | Vision | Ajustez et déployez ConvNeXt, un pur modèle convolutif de classification d'images basé sur la conception Vision Transformers. | Colab Fiche de modèle |
CspNet (TIMM) | Vision | Ajustez et déployez le modèle de classification d'images CSPNet (Cross Stage Partial Network). | Colab Fiche de modèle |
Inception (TIMM) | Vision | Ajustez et déployez le modèle de classification d'images Inception. | Colab Fiche de modèle |
DeepLabv3+ (avec point de contrôle) | Vision | Ajustez et déployez le modèle DeepLab-v3 Plus pour la segmentation sémantique d'images. | Colab Fiche de modèle |
Faster R-CNN (Detectron2) | Vision | Ajustez et déployez la mise en œuvre Detectron2 du modèle Faster R-CNN pour la détection d'objets au sein d'images. | Colab Fiche de modèle |
RetinaNet (Detectron2) | Vision | Ajustez et déployez la mise en œuvre Detectron2 du modèle RetinaNet pour la détection d'objets au sein d'images. | Colab Fiche de modèle |
Mask R-CNN (Detectron2) | Vision | Ajustez et déployez la mise en œuvre Detectron2 du modèle Mask R-CNN pour la détection et la segmentation d'objets au sein d'images. | Colab Fiche de modèle |
ControlNet | Vision | Ajustez et déployez le modèle de génération de texte vers image ControlNet. | Colab Fiche de modèle |
MobileNet (TIMM) | Vision | Ajustez et déployez la mise en œuvre PyTorch du modèle de classification d'images MobileNet. | Colab Fiche de modèle |
Classification d'images MobileNetV2 (MediaPipe) | Vision | Ajustez le modèle de classification d'images MobileNetV2 à l'aide du générateur de modèles MediaPipe. | Colab Fiche de modèle |
Détection d'objets MobileNetV2 (MediaPipe) | Vision | Ajustez le modèle de détection d'objets MobileNetV2 à l'aide du générateur de modèles MediaPipe. | Colab Fiche de modèle |
MobileNet-MultiHW-AVG (MediaPipe) | Vision | Ajustez le modèle de détection d'objets MobileNet-MultiHW-AVG à l'aide du générateur de modèles MediaPipe. | Colab Fiche de modèle |
DeiT | Vision | Ajustez et déployez le modèle DeiT (Data-Efficient Image Transformers) pour la classification d'images. | Colab Fiche de modèle |
BEiT | Vision | Ajustez et déployez le modèle BEiT (Bidirectional Encoder Representation par Image Transformers) pour la classification d'images. | Colab Fiche de modèle |
Reconnaissance de gestes de la main (MediaPipe) | Vision | Ajustez et déployez les modèles de reconnaissance de gestes de la main à l'aide de MediaPipe. | Colab Fiche de modèle |
Classificateur d'embedding lexical moyen (MediaPipe) | Vision | Ajustez et déployez les modèles de classificateur d'embedding lexical moyen à l'aide de MediaPipe. | Colab Fiche de modèle |
Classificateur MobileBERT (MediaPipe) | Vision | Ajustez et déployez les modèles de classificateur MobileBERT à l'aide de MediaPipe directement sur votre appareil. | Colab Fiche de modèle |
Classification d'extraits vidéo MoViNet | Vidéo | Ajustez et déployez les modèles de classification d'extraits vidéo MoViNet. | Colab Fiche de modèle |
Reconnaissance d'actions dans des vidéos MoViNet | Vidéo | Ajustez et déployez les modèles MoViNet pour l'inférence de reconnaissance d'actions. | Colab Fiche de modèle |
Stable Diffusion XL LCM | Vision | Déployez ce modèle qui utilise le modèle de cohérence latente (LCM) pour améliorer la génération texte-vers-image dans les modèles de diffusion latente, en permettant de créer des images de haute qualité plus rapidement, avec moins d'étapes. | Colab Fiche de modèle |
LLaVA 1.5 | Vision, langue | Déployez des modèles LLaVA 1.5. | Colab Fiche de modèle |
Pytorch-ZipNeRF | Vision, vidéo | Entraînez le modèle Pytorch-ZipNeRF, qui est une implémentation de pointe de l'algorithme ZipNeRF dans le framework Pytorch, conçu pour une reconstruction 3D efficace et précise à partir d'images 2D. | Colab Fiche de modèle |
Mixtral | Langue | Déployez le modèle Mixtral, qui est un grand modèle de langage (LLM) MoE (Mixture of Experts) développé par Mistral AI. | fiche de modèle |
Llama 2 (version quantifiée) | Langue | Ajustez et déployez une version quantifiée des modèles Llama 2 de Meta. | Colab Fiche de modèle |
LaMa (repeinture de grand masque) | Vision | Déployez LaMa, qui utilise des convolutions de Fourier rapides (FFC, fast Fourier convolutions), une perte perceptuelle de champ réceptif élevée et des masques d'entraînement volumineux, pour une peinture d'image robuste à la résolution. | Colab Fiche de modèle |
AutoGluon | Tabulaire | Avec AutoGluon, vous pouvez entraîner et déployer des modèles de machine learning et de deep learning de haute précision pour les données tabulaires. | Colab Fiche de modèle |
MaMMUT | Langage, vision | Une architecture d'encodeur et de décodeur de texte pour les tâches multimodales telles que les systèmes de questions-réponses visuelles, la récupération d'images de texte, la récupération d'images textuelles et la génération d'embeddings multimodaux. | Colab Fiche de modèle |
Whisper Large | Voix | Déployez Whisper Large, le modèle de pointe d'OpenAI pour la reconnaissance vocale automatique. | Colab Fiche de modèle |
Liste des modèles partenaires disponibles dans Model Garden
Certains modèles partenaires sont proposés sous forme d'API gérées dans Vertex AI Model Garden (également appelés modèles en tant que service). Le tableau suivant répertorie les modèles disponibles auprès des partenaires Google dans Model Garden :
Nom du modèle | Modalité | Description | Guide de démarrage rapide |
---|---|---|---|
Claude Opus 4 | Langage, vision | Le modèle le plus puissant d'Anthropic à ce jour et le modèle de codage le plus performant. Claude Opus 4 offre des performances soutenues pour les tâches de longue durée qui nécessitent un effort concentré et des milliers d'étapes, ce qui élargit considérablement les problèmes que les agents d'IA peuvent résoudre. | fiche de modèle |
Claude Sonnet 4 | Langage, vision | Modèle intermédiaire d'Anthropic doté d'une intelligence supérieure pour les utilisations à volume élevé, comme le codage, la recherche approfondie et les agents. | fiche de modèle |
Claude 3.7 Sonnet d'Anthropic | Langage, vision | Modèle de pointe pour le codage et l'alimentation des agents d'IA, et premier modèle Claude à proposer une réflexion étendue. | fiche de modèle |
Claude 3.5 Sonnet v2 d'Anthropic | Langage, vision | La version améliorée de Claude 3.5 Sonnet est un modèle de pointe pour les tâches d'ingénierie logicielle et les capacités agentives en conditions réelles. Claude 3.5 Sonnet offre ces avancées au même prix et à la même vitesse que son prédécesseur. | fiche de modèle |
Claude 3.5 Haiku d'Anthropic | Langage, vision | Claude 3.5 Haiku, la nouvelle génération du modèle le plus rapide et le plus économique d'Anthropic, est idéal pour les cas d'utilisation où la rapidité et le prix sont importants. | fiche de modèle |
Claude 3 Opus d'Anthropic | Langue | Un modèle d'IA puissant qui offre des performances de haut niveau pour des tâches très complexes. Il est capable de gérer des requêtes ouvertes et des scénarios invisibles avec une fluidité remarquable et une compréhension semblable à celle d'un être humain. | fiche de modèle |
Claude 3 Haiku d'Anthropic | Langue | Modèle de vision et de texte le plus rapide d'Anthropic qui permet d'obtenir des réponses quasi instantanées pour des requêtes simples et est conçu pour offrir des expériences d'IA fluides qui imitent les interactions humaines. | fiche de modèle |
Claude 3.5 Sonnet d'Anthropic | Langue | Claude 3.5 Sonnet surpasse Claude 3 Opus d'Anthropic sur un large éventail d'évaluations d'Anthropic, en raison de la rapidité et du coût de son modèle de milieu de gamme, Claude 3 Sonnet. | fiche de modèle |
DeepSeek-R1-0528 (Aperçu) | Langue | Dernière version du modèle DeepSeek R1 de DeepSeek. | fiche de modèle |
Jamba 1.5 Large (preview) | Langue | Le modèle Jamba 1.5 Large d'AI21 Labs est conçu pour offrir des réponses de qualité supérieure, un débit élevé et un prix compétitif par rapport aux autres modèles de sa catégorie. | fiche de modèle |
Jamba 1.5 Mini (preview) | Langue | Le Jamba 1.5 Mini d'AI21 Labs est bien équilibré en termes de qualité, de débit et de coût. | fiche de modèle |
Llama 4 Maverick 17B-128E (GA) | Langage, vision | Modèle Llama 4 le plus vaste et le plus performant, doté de fonctionnalités de codage, de raisonnement et d'image. Llama 4 Maverick 17B-128E est un modèle multimodal qui utilise l'architecture Mixture-of-Experts (MoE) et la fusion précoce. | fiche de modèle |
Llama 4 Scout 17B-16E (GA) | Langage, vision | Llama 4 Scout 17B-16E offre des résultats de pointe pour sa catégorie de taille, surpassant les générations Llama précédentes et d'autres modèles ouverts et propriétaires sur plusieurs benchmarks. Llama 4 Scout 17B-16E est un modèle multimodal qui utilise l'architecture Mixture-of-Experts (MoE) et la fusion précoce. | fiche de modèle |
Llama 3.3 (GA) | Langue | Llama 3.3 est un modèle de 70 milliards de paramètres adapté aux instructions et uniquement textuel. Il offre des performances améliorées par rapport à Llama 3.1 70B et à Llama 3.2 90B lorsqu'il est utilisé pour des applications uniquement textuelles. De plus, pour certaines applications, Llama 3.3 70B approche les performances de Llama 3.1 405B. | fiche de modèle |
Llama 3.2 (preview) | Langage, vision | Modèle multimodal de taille moyenne (90 milliards) qui peut prendre en charge le raisonnement sur les images, comme l'analyse de graphiques et de tableaux, ainsi que le sous-titrage d'images. | fiche de modèle |
Llama 3.1 (GA et preview) | Langue |
Ensemble de LLM multilingues optimisés pour les cas d'utilisation de dialogues multilingues et plus performants que de nombreux modèles de chat Open Source et fermés disponibles sur les benchmarks courants du secteur. Llama 3.1 405B est en disponibilité générale (DG) et son prix est basé sur le nombre de jetons (en dollars par million de jetons). Consultez la section Tarifs. Llama 3.1 8B et Llama 3.1 70B sont disponibles en aperçu sans frais. |
fiche de modèle |
Mistral OCR (25.05) | Langage, vision | Mistral OCR (25.05) est une API de reconnaissance optique des caractères pour la compréhension des documents. Le modèle comprend chaque élément des documents, comme les contenus multimédias, le texte, les tableaux et les équations. | fiche de modèle |
Mistral Small 3.1 (25.03) | Langue | Mistral Small 3.1 (25.03) est la dernière version du modèle Small de Mistral. Elle offre des fonctionnalités multimodales et une longueur de contexte étendue. | fiche de modèle |
Mistral Large (24.11) | Langue | Mistral Large (24.11) est la prochaine version du modèle Mistral Large (24.07). Il offre désormais des capacités de raisonnement et d'appel de fonction améliorées. | fiche de modèle |
Codestral (25.01) | Code | Modèle de pointe conçu pour la génération de code, y compris la méthode fill-in-the-middle et la complétion de code. | fiche de modèle |