Vertex AI propose une liste croissante de modèles de fondation que vous pouvez tester, déployer et personnaliser pour les utiliser dans vos applications basées sur l'IA. Les modèles de fondation sont adaptés à des cas d'utilisation spécifiques et proposés à des prix différents. Cette page récapitule les modèles disponibles dans les différentes API et vous guide sur le choix des modèles par cas d'utilisation.
Pour en savoir plus sur tous les modèles d'IA et les API sur Vertex AI, consultez la section Explorer les modèles d'IA dans Model Garden.
Modèles Gemini
Le tableau suivant récapitule les modèles disponibles dans l'API Gemini : Pour en savoir plus sur l'API, consultez la documentation de référence de l'API Gemini.
Pour explorer un modèle dans la console Google Cloud, sélectionnez sa fiche de modèle dans Model Garden.
Modèle | Entrées | Résultats | Cas d'utilisation | Essayer le modèle |
---|---|---|---|---|
Gemini 1.5 Flash |
Texte, code, images, audio, vidéo, vidéo avec audio, PDF | Texte | Offre rapidité et efficacité pour les applications à fort volume, de qualité et économiques. | Essayer le modèle Gemini 1.5 Flash |
Gemini 1.5 Pro |
Texte, code, images, audio, vidéo, vidéo avec audio, PDF | Texte | Accepte des requêtes textuelles ou de chat pour une réponse textuelle ou de code. Capable de comprendre un contexte de grande taille jusqu'à la limite maximale de jetons d'entrée. |
Essayer le modèle Gemini 1.5 Pro |
Gemini 1.0 Pro |
Texte | Texte | Modèle le plus performant pour un large éventail de tâches de texte uniquement. | Accéder à la fiche du modèle Gemini 1.0 Pro |
Gemini 1.0 Pro Vision |
Texte, images, audio, vidéo, vidéo avec audio, PDF | Texte | Modèle de compréhension d'images et de vidéos le plus performant pour gérer un large éventail d'applications. | Essayer le modèle Gemini 1.0 Pro Vision |
Les informations suivantes fournissent des détails sur chaque modèle Gemini.
Gemini 1.5 Flash
Description
Modèle multimodal conçu pour les applications à fort volume et économiques, qui offre rapidité et efficacité pour créer des applications rapides et à moindre coût sans compromettre la qualité.
Capacités
Capacité | Disponibilité |
---|---|
Surface de référence | Oui (saisie de texte uniquement) |
Réglage | Non |
Instruction système | Oui. Consultez la section Utiliser les instructions système. |
Prise en charge JSON | Oui |
Débit provisionné | Oui. Consultez la section Modèles compatibles. |
Spécifications
Spécification |
---|
Nombre maximal de jetons d'entrée : 1 048 576 |
Nombre maximal de jetons de sortie : 8 192 |
Taille maximale de l'image brute : 20 Mo |
Taille maximale de l'image encodée en base64 : 7 Mo |
Nombre maximal d'images par requête : 3 000 |
Durée maximale de la vidéo : 1 heure |
Nombre maximal de vidéos par requête : 10 |
Durée audio maximale : environ 8,4 heures |
Contenu audio maximal par requête : 1 |
Taille maximale du fichier PDF : 30 Mo |
Données d'entraînement : jusqu'en mai 2024 |
Versions de modèle
Pour en savoir plus sur les versions de modèle, consultez la section Versions de modèle.
Versions stables
Modèle Gemini 1.5 Flash | Date de disponibilité | Date d'arrêt | Points clés de la version du modèle |
---|---|---|---|
gemini-1.5-flash-002 | 24 septembre 2024 | 24 septembre 2025 | Amélioration de la qualité générale des modèles avec des gains importants dans les catégories suivantes :
Gemini 1.5 Flash 002 utilise un quota partagé dynamique. Parfois, gemini-1.5-flash-002 peut répondre dans votre langue locale, même si la requête est écrite dans une autre langue. Ce problème ne concerne que les requêtes non en anglais. Pour atténuer ce problème, nous vous recommandons d'ajouter les éléments suivants à vos instructions système afin de vous assurer que le modèle répond dans la même langue que la requête :
|
gemini-1.5-flash-001 | 24 mai 2024 | 24 mai 2025 | Version initiale de Gemini 1.5 Flash. |
Versions d'aperçu
Nom du modèle | Nom de l'aperçu | Date d'arrêt |
---|---|---|
Gemini 1.5 Flash (preview) | gemini-1.5-flash-preview-0514 |
24 juin 2024 |
Gemini 1.5 Pro
Description
Modèle multimodal qui permet d'ajouter des fichiers image, audio, vidéo et PDF dans des requêtes de texte ou de chat pour une réponse textuelle ou de code. Ce modèle est capable de comprendre un contexte de grande taille jusqu'à la limite maximale de jetons d'entrée.
Capacités
Capacité | Disponibilité |
---|---|
Surface de référence | Oui (saisie de texte uniquement) |
Réglage | Non |
Instruction système | Oui. Consultez la section Utiliser les instructions système. |
Prise en charge JSON | Oui |
Débit provisionné | Oui. Consultez la section Modèles compatibles. |
Spécifications
Spécification |
---|
Nombre maximal de jetons d'entrée : 2 097 152 |
Nombre maximal de jetons de sortie : 8 192 |
Nombre maximal d'images par requête : 3 000 |
Durée maximale de la vidéo (images uniquement) : environ une heure |
Durée maximale de la vidéo (images et audio) : environ 45 minutes |
Nombre maximal de vidéos par requête : 10 |
Durée audio maximale : environ 8,4 heures |
Contenu audio maximal par requête : 1 |
Taille maximale du fichier PDF : 30 Mo |
Données d'entraînement : jusqu'en mai 2024 |
Versions de modèle
Pour en savoir plus sur les versions de modèle, consultez la section Versions de modèle.
Versions stables
Modèle Gemini 1.5 Pro | Date de disponibilité | Date d'arrêt | Points clés de la version du modèle |
---|---|---|---|
gemini-1.5-pro-002 | 24 septembre 2024 | 24 septembre 2025 | Amélioration de la qualité générale des modèles avec des gains importants dans les catégories suivantes :
Gemini 1.5 Pro 002 utilise un quota partagé dynamique. Parfois, gemini-1.5-pro-002 peut répondre dans votre langue locale, même si la requête est écrite dans une autre langue. Ce problème ne concerne que les requêtes non en anglais. Pour atténuer ce problème, nous vous recommandons d'ajouter les éléments suivants à vos instructions système afin de vous assurer que le modèle répond dans la même langue que la requête :
|
gemini-1.5-pro-001 | 24 mai 2024 | 24 mai 2025 | Version initiale de Gemini 1.5 Pro. |
Versions d'aperçu
Nom du modèle | ID du modèle | Date d'arrêt |
---|---|---|
Gemini 1.5 Pro (preview) | gemini-1.5-pro-preview-0514 |
24 juin 2024 |
Gemini 1.5 Pro (preview) | gemini-1.5-pro-preview-0409 (pointe vers et utilise gemini-1.5-pro-preview-0514 ) |
14 juin 2024 |
Gemini 1.0 Pro
Description
Modèle le plus performant, avec des fonctionnalités pour une large gamme de tâches de texte uniquement. Ce modèle n'accepte que le texte en entrée.
Capacités
Capacité | Disponibilité |
---|---|
Surface de référence | Oui (saisie de texte uniquement) |
Réglage | Oui. Le réglage supervisé est compatible avec gemini-1.0-pro-002. |
Instruction système | Oui. Compatible avec gemini-1.0-pro-002. Consultez la section Utiliser les instructions système. |
Prise en charge JSON | Oui |
Débit provisionné | Oui. Consultez la section Modèles compatibles. |
Spécifications
Spécification |
---|
Nombre maximal de jetons d'entrée : 32 760 |
Nombre maximal de jetons de sortie : 8 192 |
Données d'entraînement : jusqu'en février 2023 |
Versions de modèle
Pour en savoir plus sur les versions de modèle, consultez la section Versions de modèle.
Versions stables
Modèle Gemini 1.0 Pro | Date de disponibilité | Date d'arrêt |
---|---|---|
gemini-1.0-pro-001 | 15 février 2024 | 15 février 2024 |
gemini-1.0-pro-002 | 09 avril 2024 | 9 avril 2025 |
Versions mises à jour automatiquement
Nom du modèle | Nom mis à jour automatiquement | Version stable référencée |
---|---|---|
Gemini 1.0 Pro | gemini-1.0-pro |
gemini-1.0-pro-002 |
Gemini 1.0 Pro Vision
Description
Modèle de compréhension d'images et de vidéos le plus performant pour gérer un large éventail d'applications. Gemini 1.0 Pro Vision accepte le texte, les images et les vidéos en entrée.
Capacités
Capacité | Disponibilité |
---|---|
Surface de référence | Non |
Réglage | Non |
Instruction système | Non |
Prise en charge JSON | Non |
Débit provisionné | Oui. Consultez la section Modèles compatibles. |
Spécifications
Spécification |
---|
Nombre maximal de jetons d'entrée : 16 384 |
Nombre maximal de jetons de sortie : 2 048 |
Nombre maximal d'images par requête : 16 |
Durée maximale de la vidéo : 2 minutes |
Nombre maximal de vidéos par requête : 1 |
Données d'entraînement : jusqu'en février 2023 |
Versions de modèle
Pour en savoir plus sur les versions de modèle, consultez la section Versions de modèle.
Versions stables
Modèle Gemini 1.0 Pro Vision | Date de disponibilité | Date d'arrêt |
---|---|---|
gemini-1.0-pro-vision-001 | 15 février 2024 | 15 février 2024 |
Alias mis à jour automatiquement
Nom du modèle | Nom mis à jour automatiquement | Version stable référencée |
---|---|---|
Gemini 1.0 Pro Vision | gemini-1.0-pro-vision |
gemini-1.0-pro-vision-001 |
Gemini 1.0 Ultra
Description
Modèle de texte le plus performant de Google, optimisé pour les tâches complexes telles que les instructions, le code et le raisonnement. Gemini 1.0 Ultra n'accepte que le texte en entrée.
Capacités
Capacité | Disponibilité |
---|---|
Surface de référence | Non |
Réglage | Non |
Instruction système | Non |
Prise en charge JSON | Non |
Débit provisionné | Oui. Consultez la section Modèles compatibles. |
Spécifications
Spécification |
---|
Nombre maximal de jetons d'entrée : 8 192 |
Nombre maximal de jetons de sortie : 2 048 |
Versions de modèle
Pour en savoir plus sur les versions de modèle, consultez la section Versions de modèle.
Gemini 1.0 Ultra Vision
Description
Modèle de vision multimodal le plus performant de Google, optimisé pour prendre en charge les entrées de type texte, images et vidéos.
Capacités
Capacité | Disponibilité |
---|---|
Surface de référence | Non |
Réglage | Non |
Instruction système | Non |
Prise en charge JSON | Non |
Débit provisionné | Oui. Consultez la section Modèles compatibles. |
Spécifications
Spécification |
---|
Nombre maximal de jetons d'entrée : 8 192 |
Nombre maximal de jetons de sortie : 2 048 |
Versions de modèle
Pour en savoir plus sur les versions de modèle, consultez la section Versions de modèle.
Langues compatibles avec Gemini
Tous les modèles Gemini peuvent comprendre et répondre dans les langues suivantes :
Arabe (ar), bengali (bn), bulgare (bg), chinois simplifié et traditionnel (zh), croate (hr), tchèque (cs), danois (da), néerlandais (nl), anglais (en), estonien (et), finnois (fi), français (fr), allemand (de), grec (el), hébreu (iw), hindi (hi), hongrois (hu), indonésien (id), italien (it), japonais (ja), coréen (ko), letton (lv), lituanien (lt), norvégien (no), polonais (pl), portugais (pt), roumain (ro), russe (ru), serbe (sr), slovaque (sk), slovène (sl), espagnol (es), swahili (sw), suédois (sv), thaï (th), turc (tr), ukrainien (uk), vietnamien (vi)
Les modèles Gemini 1.5 Pro et Gemini 1.5 Flash peuvent comprendre et répondre dans les langues supplémentaires suivantes :
Afrikaans (af), amharique (am), assamais (as), azéri (az), biélorusse (be), bosniaque (bs), catalan (ca), cebuano (ceb), corse (co), gallois (cy), divehi (dv), espéranto (eo), basque (eu), farsi (fa), philippin (tagalog) (fil), frison (fy), irlandais (ga), gaélique écossais (gd), galicien (gl), gujarati (gu), haoussa (ha), hawaïen (haw), hmong (hmn), créole haïtien (ht), arménien (hy), igbo (ig), islandais (is), javanais (jv), géorgien (ka), kazakh (kk), khmer (km), kannara (kn), krio (kri), kurde (ku), kirghize (ky), latin (la), luxembourgeois (lb), lao (lo), malgache (mg), maori (mi), macédonien (mk), malayalam (ml), mongol (mn), meiteilon (Manipuri) (mni-Mtei), marathi (mr), malais (ms), maltais (mt), myanmar (birman) (my), népalais (ne), nyanja (chichewa) (ny), odia (oriya) (or), pendjabi (pa), pachto (ps), sindhî (sd), singhalais (sinhalé) (si), samoan (sm), shona (sn), somali (so), albanais (sq), sesotho (st), Soundanais (su), tamoul (ta), télougou (te), tadjik (tg), ouïghour (ug), ourdou (ur), ouzbek (uz), xhosa (xh), yiddish (yi), yoruba (yo), zoulou (zu)
Modèles Gemma
Le tableau suivant récapitule les modèles Gemma.
Modèle | Entrées | Résultats | Cas d'utilisation | Essayer le modèle |
---|---|---|---|---|
Gemma Détails du modèle |
Texte | Texte | Modèle de texte ouvert léger et de petite taille compatible avec la génération, la synthèse et l'extraction de texte. Déployable dans des environnements dont les ressources sont limitées. | Essayer Gemma |
CodeGemma Détails du modèle |
Texte, code, PDF | Texte | Ensemble de modèles de code ouvert légers basés sur Gemma. Idéal pour la génération et la complétion de code. | Essayer CodeGemma |
PaliGemma Détails du modèle |
Texte, images | Texte | Un modèle de vision-langage léger (VLM). Idéal pour les tâches de légendes d'images et de questions-réponses visuelles. | Essayer PaliGemma |
Langues acceptées avec Gemma
Gemma n'est disponible qu'en anglais.
Modèles d'embeddings
Le tableau suivant récapitule les modèles disponibles dans l'API Embeddings :
Nom du modèle | Description | Spécifications | Essayer le modèle |
---|---|---|---|
Embeddings pour le texte ( textembedding-gecko@001, )Détails du modèle |
Renvoie des embeddings pour les entrées de texte en anglais.
Compatible avec le réglage supervisé des modèles d'Embeddings pour le texte, en anglais uniquement. |
Nombre maximal de jetons d'entrée : 3 072 (textembedding-gecko@001 ).Autres : 2 048. Dimensions d'embedding : text-embedding-004 : <=768. Autres : 768. |
Essayer les embeddings pour le texte |
Embeddings pour le texte multilingue ( textembedding-gecko-multilingual@001 ,
text-multilingual-embedding-002 )Détails du modèle |
Renvoie des embeddings pour des entrées de texte dans plus de 100 langues Compatible avec le réglage supervisé du modèle text-multilingual-embedding-002 . Plus de 100 langues acceptées |
Nombre maximal de jetons d'entrée : 2 048 Dimension d'embedding : text-multilingual-embedding-002 : <=768 Autres : 768 |
Essayer les embeddings pour le texte multilingue |
Embeddings multimodaux(multimodalembedding) Détails du modèle |
Renvoie des embeddings pour les entrées de texte, d'image et de vidéo, afin de comparer les contenus entre différents modèles. Convertit le texte, les images et les vidéos dans le même espace vectoriel. La vidéo n'accepte que 1 408 dimensions. Anglais uniquement |
Nombre maximal de jetons d'entrée : 32. Taille maximale de l'image : 20 Mo. Durée maximale de la vidéo : deux minutes. Dimensions d'embedding : 128, 256, 512, ou 1 408 pour l'entrée texte+image, 1 408 pour l'entrée vidéo. |
Essayer les embeddings multimodaux |
Langues compatibles avec les embeddings
Les modèles d'embeddings multilingues de texte sont compatibles avec les langues suivantes :
afrikaans, albanais, amharique, arabe, arménien, azéri, basque, biélorusse, bengali, bulgare, birman, catalan, cebuano, chewa, chinois, corse, tchèque danois, néerlandais, anglais, esperanto, estonien, philippin, finlandais, français, galicien, géorgien, allemand, grec, gujarati, créole haïtien, haoussa, hawaïen, hébreu, hindi, hmong, hongrois, islandais, igbo, indonésien, irlandais, italien, japonais, javanais, kannada, kazakh, khmer, coréen, kurde, kirghize, lao, latin, letton, lituanien, luxembourgeois, macédonien, malgache, malais, malayalam, malte, maori, marathi, mongolien, népalais, norvégien, pachto, perse, polonais, portugais, pendjabi, roumain, russe, samoan, gaélique écossais, serbe, shona, sindhi, singhalais, slovaque, slovénien, somalien, sotho, espagnol, soudanais, swahili, suédois, tadjik, tamoul, telougou, thaï, turc, ukrainien, ourdou, ouzbek, vietnamien, gallois, frison occidental, xhosa, yiddish, yoruba, zoulou.
Modèle Imagen
Le tableau suivant récapitule les modèles disponibles dans l'API Imagen :
Modèle | Entrées | Résultats | Cas d'utilisation | Essayer le modèle |
---|---|---|---|---|
Imagen ( imagen-3.0-generate-001 , imagen-3.0-fast-generate-001 , imagegeneration@006 , imagegeneration@005 , imagegeneration@002 )Détails du modèle |
Texte (génération), Images (retouche) | Images | Ce modèle est compatible avec la génération et la modification d'images pour créer des images de haute qualité en quelques secondes.
La fonctionnalité de retouche permet de supprimer et d'insérer des objets, de réaliser des outpaintings et de modifier des produits. |
Essayer Imagen |
Langues acceptées avec Imagen 3
Imagen 3 est compatible avec les langues suivantes :
anglais, chinois, hindi, japonais, coréen, portugais et espagnol.
Modèle de complétion de code
Le tableau suivant récapitule les modèles disponibles dans les API Codey :
Modèle | Entrées | Résultats | Cas d'utilisation | Essayer le modèle |
---|---|---|---|---|
Codey pour la complétion de code ( code-gecko ) Détails du modèle |
Code dans les langages acceptés | Code dans les langages acceptés | Un modèle affiné pour suggérer la complétion de code en fonction du contexte du code écrit. | Essayer Codey pour la complétion de code |
Langues acceptées avec le modèle de complétion de code
Le modèle de complétion de code est compatible avec l'anglais.
Modèles MedLM
Le tableau suivant récapitule les modèles disponibles dans l'API MedLM :
Nom du modèle | Description | Spécifications | Essayer le modèle |
---|---|---|---|
MedLM-medium (medlm-medium )Détails du modèle |
Suite conforme à la loi HIPAA, qui repose sur des API et des modèles médicaux optimisés mis en œuvre par Google Research. Ce modèle aide les professionnels de la santé à répondre à des questions médicales et à résumer des documents médicaux et de santé. Offre un meilleur débit et inclut des données plus récentes que le modèle medlm-large . |
Nombre maximal de jetons (entrée + sortie) : 32 768 Nombre maximal de jetons de sortie : 8 192 |
Essayer MedLM-medium |
MedLM-large (medlm-large )Détails du modèle |
Suite conforme à la loi HIPAA, qui repose sur des API et des modèles médicaux optimisés mis en œuvre par Google Research. Ce modèle aide les professionnels de la santé à répondre à des questions médicales et à résumer des documents médicaux et de santé. |
Nombre maximal de jetons d'entrée : 8 192 Nombre maximal de jetons de sortie : 1 024 |
Essayer MedLM-large |
Compatibilité avec le débit provisionné MedLM
MedLM-medium et MedLM-large sont compatibles avec le débit provisionné. Consultez la section Modèles compatibles.
Langues compatibles avec MedLM
Le modèle MedLM est compatible avec l'anglais.
Emplacements
Pour obtenir la liste des emplacements où ces modèles sont disponibles, consultez la section IA générative sur les emplacements Vertex AI.
Versions de modèle
Pour en savoir plus sur les versions de modèles, consultez la section Versions de modèles.
Explorer tous les modèles dans Model Garden
Model Garden est une plate-forme qui vous permet de découvrir, de tester, de personnaliser et de déployer des modèles de Google, puis de sélectionner des modèles et des éléments OSS. Pour explorer les modèles d'IA générative et les API disponibles sur Vertex AI, accédez à Model Garden dans la console Google Cloud.
Accéder à la page "Jardin de modèles"
Pour en savoir plus sur Model Garden, y compris sur les modèles et fonctionnalités disponibles, consultez la page Explorer les modèles d'IA dans Model Garden.
Étapes suivantes
- Suivez un tutoriel de démarrage rapide sur Vertex AI Studio ou sur l'API Vertex AI.
- Découvrez comment tester les requêtes de texte.
- Découvrez comment tester les requêtes de chat.
- Découvrez les modèles pré-entraînés dans Model Garden.
- Découvrez comment ajuster un modèle de fondation.
- Découvrez les bonnes pratiques d'IA responsable et les filtres de sécurité de Vertex AI.
- Découvrez comment contrôler l'accès à des modèles spécifiques dans Model Garden à l'aide d'une règle d'administration Model Garden.