Modèles Google

Vertex AI propose une liste croissante de modèles de fondation que vous pouvez tester, déployer et personnaliser pour les utiliser dans vos applications basées sur l'IA. Les modèles de fondation sont adaptés à des cas d'utilisation spécifiques et proposés à des prix différents. Cette page récapitule les modèles disponibles dans les différentes API et vous guide sur le choix des modèles par cas d'utilisation.

Pour en savoir plus sur tous les modèles d'IA et les API sur Vertex AI, consultez la section Explorer les modèles d'IA dans Model Garden.

Modèles Gemini

Le tableau suivant récapitule les modèles disponibles dans l'API Gemini : Pour en savoir plus sur l'API, consultez la documentation de référence de l'API Gemini.

Pour explorer un modèle dans la console Google Cloud, sélectionnez sa fiche de modèle dans Model Garden.

Modèle Entrées Résultats Cas d'utilisation Essayer le modèle
Gemini 1.5 Flash
Texte, code, images, audio, vidéo, vidéo avec audio, PDF Texte Offre rapidité et efficacité pour les applications à fort volume, de qualité et économiques. Essayer le modèle Gemini 1.5 Flash
Gemini 1.5 Pro
Texte, code, images, audio, vidéo, vidéo avec audio, PDF Texte Accepte des requêtes textuelles ou de chat pour une réponse textuelle ou de code.
Capable de comprendre un contexte de grande taille jusqu'à la limite maximale de jetons d'entrée.
Essayer le modèle Gemini 1.5 Pro
Gemini 1.0 Pro
Texte Texte Modèle le plus performant pour un large éventail de tâches de texte uniquement. Accéder à la fiche du modèle Gemini 1.0 Pro
Gemini 1.0 Pro Vision
Texte, images, audio, vidéo, vidéo avec audio, PDF Texte Modèle de compréhension d'images et de vidéos le plus performant pour gérer un large éventail d'applications. Essayer le modèle Gemini 1.0 Pro Vision

Les informations suivantes fournissent des détails sur chaque modèle Gemini.

Gemini 1.5 Flash

Description

Modèle multimodal conçu pour les applications à fort volume et économiques, qui offre rapidité et efficacité pour créer des applications rapides et à moindre coût sans compromettre la qualité.

Capacités

Capacité Disponibilité
Surface de référence Oui (saisie de texte uniquement)
Réglage Non
Instruction système Oui. Consultez la section Utiliser les instructions système.
Prise en charge JSON   Oui
Débit provisionné Oui. Consultez la section Modèles compatibles.

Spécifications

Spécification
Nombre maximal de jetons d'entrée : 1 048 576
Nombre maximal de jetons de sortie : 8 192
Taille maximale de l'image brute : 20 Mo
Taille maximale de l'image encodée en base64 : 7 Mo
Nombre maximal d'images par requête : 3 000
Durée maximale de la vidéo : 1 heure
Nombre maximal de vidéos par requête : 10
Durée audio maximale : environ 8,4 heures
Contenu audio maximal par requête : 1
Taille maximale du fichier PDF : 30 Mo
Données d'entraînement : jusqu'en mai 2024

Versions de modèle

Pour en savoir plus sur les versions de modèle, consultez la section Versions de modèle.

Versions stables

Modèle Gemini 1.5 Flash Date de disponibilité Date d'arrêt Points clés de la version du modèle
gemini-1.5-flash-002 24 septembre 2024 24 septembre 2025 Amélioration de la qualité générale des modèles avec des gains importants dans les catégories suivantes :
  • Factualité et réduction des hallucinations du modèle.
  • Questions/Réponses Openbook pour les cas d'utilisation de la RAG.
  • Suivi des instructions.
  • Compréhension multilingue dans 102 langues, en particulier en coréen, français, allemand, espagnol, japonais, russe et chinois.
  • Génération SQL
  • Compréhension audio.
  • Compréhension des documents.
  • Contexte long.
  • Mathématiques et raisonnement.

Gemini 1.5 Flash 002 utilise un quota partagé dynamique.

Parfois, gemini-1.5-flash-002 peut répondre dans votre langue locale, même si la requête est écrite dans une autre langue. Ce problème ne concerne que les requêtes non en anglais. Pour atténuer ce problème, nous vous recommandons d'ajouter les éléments suivants à vos instructions système afin de vous assurer que le modèle répond dans la même langue que la requête :

All questions should be answered comprehensively with details, unless the user requests a concise response specifically. Respond in the same language as the query.

gemini-1.5-flash-001 24 mai 2024 24 mai 2025 Version initiale de Gemini 1.5 Flash.

Versions d'aperçu

Nom du modèle Nom de l'aperçu Date d'arrêt
Gemini 1.5 Flash (preview) gemini-1.5-flash-preview-0514 24 juin 2024

Gemini 1.5 Pro

Description

Modèle multimodal qui permet d'ajouter des fichiers image, audio, vidéo et PDF dans des requêtes de texte ou de chat pour une réponse textuelle ou de code. Ce modèle est capable de comprendre un contexte de grande taille jusqu'à la limite maximale de jetons d'entrée.

Capacités

Capacité Disponibilité
Surface de référence Oui (saisie de texte uniquement)
Réglage Non
Instruction système Oui. Consultez la section Utiliser les instructions système.
Prise en charge JSON   Oui
Débit provisionné Oui. Consultez la section Modèles compatibles.

Spécifications

Spécification
Nombre maximal de jetons d'entrée : 2 097 152
Nombre maximal de jetons de sortie : 8 192
Nombre maximal d'images par requête : 3 000
Durée maximale de la vidéo (images uniquement) : environ une heure
Durée maximale de la vidéo (images et audio) : environ 45 minutes
Nombre maximal de vidéos par requête : 10
Durée audio maximale : environ 8,4 heures
Contenu audio maximal par requête : 1
Taille maximale du fichier PDF : 30 Mo
Données d'entraînement : jusqu'en mai 2024

Versions de modèle

Pour en savoir plus sur les versions de modèle, consultez la section Versions de modèle.

Versions stables

Modèle Gemini 1.5 Pro Date de disponibilité Date d'arrêt Points clés de la version du modèle
gemini-1.5-pro-002 24 septembre 2024 24 septembre 2025 Amélioration de la qualité générale des modèles avec des gains importants dans les catégories suivantes :
  • Factualité et réduction des hallucinations du modèle.
  • Questions/Réponses Openbook pour les cas d'utilisation de la RAG.
  • Suivi des instructions.
  • Compréhension multilingue dans 102 langues, en particulier en coréen, français, allemand, espagnol, japonais, russe et chinois.
  • Génération SQL
  • Compréhension audio.
  • Compréhension des documents.
  • Contexte long.
  • Mathématiques et raisonnement.

Gemini 1.5 Pro 002 utilise un quota partagé dynamique.

Parfois, gemini-1.5-pro-002 peut répondre dans votre langue locale, même si la requête est écrite dans une autre langue. Ce problème ne concerne que les requêtes non en anglais. Pour atténuer ce problème, nous vous recommandons d'ajouter les éléments suivants à vos instructions système afin de vous assurer que le modèle répond dans la même langue que la requête :

All questions should be answered comprehensively with details, unless the user requests a concise response specifically. Respond in the same language as the query.

gemini-1.5-pro-001 24 mai 2024 24 mai 2025 Version initiale de Gemini 1.5 Pro.

Versions d'aperçu

Nom du modèle ID du modèle Date d'arrêt
Gemini 1.5 Pro (preview) gemini-1.5-pro-preview-0514 24 juin 2024
Gemini 1.5 Pro (preview) gemini-1.5-pro-preview-0409 (pointe vers et utilise gemini-1.5-pro-preview-0514) 14 juin 2024

Gemini 1.0 Pro

Description

Modèle le plus performant, avec des fonctionnalités pour une large gamme de tâches de texte uniquement. Ce modèle n'accepte que le texte en entrée.

Capacités

Capacité Disponibilité
Surface de référence Oui (saisie de texte uniquement)
Réglage Oui. Le réglage supervisé est compatible avec gemini-1.0-pro-002.
Instruction système Oui. Compatible avec gemini-1.0-pro-002. Consultez la section Utiliser les instructions système.
Prise en charge JSON   Oui
Débit provisionné Oui. Consultez la section Modèles compatibles.

Spécifications

Spécification
Nombre maximal de jetons d'entrée : 32 760
Nombre maximal de jetons de sortie : 8 192
Données d'entraînement : jusqu'en février 2023

Versions de modèle

Pour en savoir plus sur les versions de modèle, consultez la section Versions de modèle.

Versions stables

Modèle Gemini 1.0 Pro Date de disponibilité Date d'arrêt
gemini-1.0-pro-001 15 février 2024 15 février 2024
gemini-1.0-pro-002 09 avril 2024 9 avril 2025

Versions mises à jour automatiquement

Nom du modèle Nom mis à jour automatiquement Version stable référencée
Gemini 1.0 Pro gemini-1.0-pro gemini-1.0-pro-002

Gemini 1.0 Pro Vision

Description

Modèle de compréhension d'images et de vidéos le plus performant pour gérer un large éventail d'applications. Gemini 1.0 Pro Vision accepte le texte, les images et les vidéos en entrée.

Capacités

Capacité Disponibilité
Surface de référence Non
Réglage Non
Instruction système Non
Prise en charge JSON   Non
Débit provisionné Oui. Consultez la section Modèles compatibles.

Spécifications

Spécification
Nombre maximal de jetons d'entrée : 16 384
Nombre maximal de jetons de sortie : 2 048
Nombre maximal d'images par requête : 16
Durée maximale de la vidéo : 2 minutes
Nombre maximal de vidéos par requête : 1
Données d'entraînement : jusqu'en février 2023

Versions de modèle

Pour en savoir plus sur les versions de modèle, consultez la section Versions de modèle.

Versions stables

Modèle Gemini 1.0 Pro Vision Date de disponibilité Date d'arrêt
gemini-1.0-pro-vision-001 15 février 2024 15 février 2024

Alias mis à jour automatiquement

Nom du modèle Nom mis à jour automatiquement Version stable référencée
Gemini 1.0 Pro Vision gemini-1.0-pro-vision gemini-1.0-pro-vision-001

Gemini 1.0 Ultra

Description

Modèle de texte le plus performant de Google, optimisé pour les tâches complexes telles que les instructions, le code et le raisonnement. Gemini 1.0 Ultra n'accepte que le texte en entrée.

Capacités

Capacité Disponibilité
Surface de référence Non
Réglage Non
Instruction système Non
Prise en charge JSON   Non
Débit provisionné Oui. Consultez la section Modèles compatibles.

Spécifications

Spécification
Nombre maximal de jetons d'entrée : 8 192
Nombre maximal de jetons de sortie : 2 048

Versions de modèle

Pour en savoir plus sur les versions de modèle, consultez la section Versions de modèle.

Gemini 1.0 Ultra Vision

Description

Modèle de vision multimodal le plus performant de Google, optimisé pour prendre en charge les entrées de type texte, images et vidéos.

Capacités

Capacité Disponibilité
Surface de référence Non
Réglage Non
Instruction système Non
Prise en charge JSON   Non
Débit provisionné Oui. Consultez la section Modèles compatibles.

Spécifications

Spécification
Nombre maximal de jetons d'entrée : 8 192
Nombre maximal de jetons de sortie : 2 048

Versions de modèle

Pour en savoir plus sur les versions de modèle, consultez la section Versions de modèle.

Langues compatibles avec Gemini

  • Tous les modèles Gemini peuvent comprendre et répondre dans les langues suivantes :

    Arabe (ar), bengali (bn), bulgare (bg), chinois simplifié et traditionnel (zh), croate (hr), tchèque (cs), danois (da), néerlandais (nl), anglais (en), estonien (et), finnois (fi), français (fr), allemand (de), grec (el), hébreu (iw), hindi (hi), hongrois (hu), indonésien (id), italien (it), japonais (ja), coréen (ko), letton (lv), lituanien (lt), norvégien (no), polonais (pl), portugais (pt), roumain (ro), russe (ru), serbe (sr), slovaque (sk), slovène (sl), espagnol (es), swahili (sw), suédois (sv), thaï (th), turc (tr), ukrainien (uk), vietnamien (vi)

  • Les modèles Gemini 1.5 Pro et Gemini 1.5 Flash peuvent comprendre et répondre dans les langues supplémentaires suivantes :

    Afrikaans (af), amharique (am), assamais (as), azéri (az), biélorusse (be), bosniaque (bs), catalan (ca), cebuano (ceb), corse (co), gallois (cy), divehi (dv), espéranto (eo), basque (eu), farsi (fa), philippin (tagalog) (fil), frison (fy), irlandais (ga), gaélique écossais (gd), galicien (gl), gujarati (gu), haoussa (ha), hawaïen (haw), hmong (hmn), créole haïtien (ht), arménien (hy), igbo (ig), islandais (is), javanais (jv), géorgien (ka), kazakh (kk), khmer (km), kannara (kn), krio (kri), kurde (ku), kirghize (ky), latin (la), luxembourgeois (lb), lao (lo), malgache (mg), maori (mi), macédonien (mk), malayalam (ml), mongol (mn), meiteilon (Manipuri) (mni-Mtei), marathi (mr), malais (ms), maltais (mt), myanmar (birman) (my), népalais (ne), nyanja (chichewa) (ny), odia (oriya) (or), pendjabi (pa), pachto (ps), sindhî (sd), singhalais (sinhalé) (si), samoan (sm), shona (sn), somali (so), albanais (sq), sesotho (st), Soundanais (su), tamoul (ta), télougou (te), tadjik (tg), ouïghour (ug), ourdou (ur), ouzbek (uz), xhosa (xh), yiddish (yi), yoruba (yo), zoulou (zu)

Modèles Gemma

Le tableau suivant récapitule les modèles Gemma.

Modèle Entrées Résultats Cas d'utilisation Essayer le modèle
Gemma
Détails du modèle
Texte Texte Modèle de texte ouvert léger et de petite taille compatible avec la génération, la synthèse et l'extraction de texte. Déployable dans des environnements dont les ressources sont limitées. Essayer Gemma
CodeGemma
Détails du modèle
Texte, code, PDF Texte Ensemble de modèles de code ouvert légers basés sur Gemma. Idéal pour la génération et la complétion de code. Essayer CodeGemma
PaliGemma
Détails du modèle
Texte, images Texte Un modèle de vision-langage léger (VLM). Idéal pour les tâches de légendes d'images et de questions-réponses visuelles. Essayer PaliGemma

Langues acceptées avec Gemma

Gemma n'est disponible qu'en anglais.

Modèles d'embeddings

Le tableau suivant récapitule les modèles disponibles dans l'API Embeddings :

Nom du modèle Description Spécifications Essayer le modèle
Embeddings pour le texte
(textembedding-gecko@001,
textembedding-gecko@002,
textembedding-gecko@003,
text-embedding-004
)
Détails du modèle
Renvoie des embeddings pour les entrées de texte en anglais.

Compatible avec le réglage supervisé des modèles d'Embeddings pour le texte, en anglais uniquement.
Nombre maximal de jetons d'entrée : 3 072 (textembedding-gecko@001).
Autres : 2 048.

Dimensions d'embedding : text-embedding-004 : <=768.
Autres : 768.
Essayer les embeddings pour le texte
Embeddings pour le texte multilingue
(textembedding-gecko-multilingual@001,
text-multilingual-embedding-002)
Détails du modèle
Renvoie des embeddings pour des entrées de texte dans plus de 100 langues

Compatible avec le réglage supervisé du modèle text-multilingual-embedding-002.
Plus de 100 langues acceptées
Nombre maximal de jetons d'entrée : 2 048

Dimension d'embedding : text-multilingual-embedding-002 : <=768
Autres : 768
Essayer les embeddings pour le texte multilingue
Embeddings multimodaux
(multimodalembedding)
Détails du modèle
Renvoie des embeddings pour les entrées de texte, d'image et de vidéo, afin de comparer les contenus entre différents modèles.

Convertit le texte, les images et les vidéos dans le même espace vectoriel. La vidéo n'accepte que 1 408 dimensions.
Anglais uniquement
Nombre maximal de jetons d'entrée : 32.
Taille maximale de l'image : 20 Mo.
Durée maximale de la vidéo : deux minutes.

Dimensions d'embedding : 128, 256, 512, ou 1 408 pour l'entrée texte+image, 1 408 pour l'entrée vidéo.
Essayer les embeddings multimodaux

Langues compatibles avec les embeddings

Les modèles d'embeddings multilingues de texte sont compatibles avec les langues suivantes :
afrikaans, albanais, amharique, arabe, arménien, azéri, basque, biélorusse, bengali, bulgare, birman, catalan, cebuano, chewa, chinois, corse, tchèque danois, néerlandais, anglais, esperanto, estonien, philippin, finlandais, français, galicien, géorgien, allemand, grec, gujarati, créole haïtien, haoussa, hawaïen, hébreu, hindi, hmong, hongrois, islandais, igbo, indonésien, irlandais, italien, japonais, javanais, kannada, kazakh, khmer, coréen, kurde, kirghize, lao, latin, letton, lituanien, luxembourgeois, macédonien, malgache, malais, malayalam, malte, maori, marathi, mongolien, népalais, norvégien, pachto, perse, polonais, portugais, pendjabi, roumain, russe, samoan, gaélique écossais, serbe, shona, sindhi, singhalais, slovaque, slovénien, somalien, sotho, espagnol, soudanais, swahili, suédois, tadjik, tamoul, telougou, thaï, turc, ukrainien, ourdou, ouzbek, vietnamien, gallois, frison occidental, xhosa, yiddish, yoruba, zoulou.

Modèle Imagen

Le tableau suivant récapitule les modèles disponibles dans l'API Imagen :

Modèle Entrées Résultats Cas d'utilisation Essayer le modèle
Imagen
(imagen-3.0-generate-001, imagen-3.0-fast-generate-001, imagegeneration@006, imagegeneration@005, imagegeneration@002)
Détails du modèle
Texte (génération), Images (retouche) Images Ce modèle est compatible avec la génération et la modification d'images pour créer des images de haute qualité en quelques secondes.

La fonctionnalité de retouche permet de supprimer et d'insérer des objets, de réaliser des outpaintings et de modifier des produits.
Essayer Imagen

Langues acceptées avec Imagen 3

Imagen 3 est compatible avec les langues suivantes :
anglais, chinois, hindi, japonais, coréen, portugais et espagnol.

Modèle de complétion de code

Le tableau suivant récapitule les modèles disponibles dans les API Codey :

Modèle Entrées Résultats Cas d'utilisation Essayer le modèle
Codey pour la complétion de code
(code-gecko)
Détails du modèle
Code dans les langages acceptés Code dans les langages acceptés Un modèle affiné pour suggérer la complétion de code en fonction du contexte du code écrit. Essayer Codey pour la complétion de code

Langues acceptées avec le modèle de complétion de code

Le modèle de complétion de code est compatible avec l'anglais.

Modèles MedLM

Le tableau suivant récapitule les modèles disponibles dans l'API MedLM :

Nom du modèle Description Spécifications Essayer le modèle
MedLM-medium (medlm-medium)
Détails du modèle
Suite conforme à la loi HIPAA, qui repose sur des API et des modèles médicaux optimisés mis en œuvre par Google Research.

Ce modèle aide les professionnels de la santé à répondre à des questions médicales et à résumer des documents médicaux et de santé. Offre un meilleur débit et inclut des données plus récentes que le modèle medlm-large.
Nombre maximal de jetons (entrée + sortie) : 32 768
Nombre maximal de jetons de sortie : 8 192
Essayer MedLM-medium
MedLM-large (medlm-large)
Détails du modèle
Suite conforme à la loi HIPAA, qui repose sur des API et des modèles médicaux optimisés mis en œuvre par Google Research.

Ce modèle aide les professionnels de la santé à répondre à des questions médicales et à résumer des documents médicaux et de santé.
Nombre maximal de jetons d'entrée : 8 192
Nombre maximal de jetons de sortie : 1 024
Essayer MedLM-large

Compatibilité avec le débit provisionné MedLM

MedLM-medium et MedLM-large sont compatibles avec le débit provisionné. Consultez la section Modèles compatibles.

Langues compatibles avec MedLM

Le modèle MedLM est compatible avec l'anglais.

Emplacements

Pour obtenir la liste des emplacements où ces modèles sont disponibles, consultez la section IA générative sur les emplacements Vertex AI.

Versions de modèle

Pour en savoir plus sur les versions de modèles, consultez la section Versions de modèles.

Explorer tous les modèles dans Model Garden

Model Garden est une plate-forme qui vous permet de découvrir, de tester, de personnaliser et de déployer des modèles de Google, puis de sélectionner des modèles et des éléments OSS. Pour explorer les modèles d'IA générative et les API disponibles sur Vertex AI, accédez à Model Garden dans la console Google Cloud.

Accéder à la page "Jardin de modèles"

Pour en savoir plus sur Model Garden, y compris sur les modèles et fonctionnalités disponibles, consultez la page Explorer les modèles d'IA dans Model Garden.

Étapes suivantes