Cette page a été traduite par l'API Cloud Translation.

Migrer vers les derniers modèles Gemini

Ce guide explique comment mettre à jour votre application vers la dernière version de Gemini. Ce guide suppose que votre application utilise déjà une ancienne version de Gemini. Pour découvrir comment commencer à utiliser Gemini dans Vertex AI, consultez le guide de démarrage rapide de l'API Gemini dans Vertex AI.

Ce guide n'explique pas comment faire passer votre application du SDK Vertex AI au SDK Google Gen AI actuel. Pour en savoir plus, consultez notre guide de migration du SDK Vertex AI.

À quoi dois-je m'attendre ?

La mise à jour de la plupart des applications d'IA générative vers la dernière version de Gemini ne nécessite que peu de modifications de code ou de requêtes. Toutefois, certaines applications peuvent nécessiter des ajustements de l'invite. Il est difficile de prévoir ces changements sans d'abord tester vos requêtes avec la nouvelle version. Nous vous recommandons de tester minutieusement la migration avant de la finaliser. Pour obtenir des conseils sur la création de requêtes efficaces, consultez nos conseils sur les stratégies de requêtes. Utilisez notre checklist sur l'intégrité des requêtes pour identifier et résoudre les problèmes liés aux requêtes.

Vous n'avez besoin d'apporter des modifications de code importantes que pour certaines modifications destructives ou pour utiliser les nouvelles fonctionnalités de Gemini.

Vers quel modèle Gemini migrer ?

Le modèle Gemini que vous utilisez dépend des besoins de votre application. Le tableau suivant compare les anciens modèles Gemini 1.5 aux derniers modèles Gemini :

Fonctionnalité	1.5 Pro	1.5 Flash	2.0 Flash	2.0 Flash-Lite	2.5 Pro	2.5 Flash	2.5 Flash-Lite
Étape de lancement	Retrait	Retrait	Disponibilité générale	Disponibilité générale	Disponibilité générale	Disponibilité générale	Disponibilité générale
Modes d'entrée	Texte, Code, Images, Audio, Vidéo	Texte, Code, Images, Audio, Vidéo	Texte, Code, Images, Audio, Vidéo	Texte, Code, Images, Audio, Vidéo	Texte, Code, Images, Audio, Vidéo	Texte, Code, Images, Audio, Vidéo	Texte, Code, Images, Audio, Vidéo
Modes de sortie	Texte	Texte	Texte	Texte	Texte	Texte	Texte
Fenêtre de contexte, limite totale de jetons	2 097 152	1 048 576	1 048 576	1 048 576	1 048 576	1 048 576	1 048 576
Longueur du contexte de sortie	8 192 (par défaut)	8 192 (par défaut)	8 192 (par défaut)	8 192 (par défaut)	65 535 (par défaut)	65 535 (par défaut)	65 536 (par défaut)
Ancrage avec la recherche Google
Appel de fonction
Exécution de code
Mise en cache du contexte
Prédiction par lot
API Live^*
Réglage fin
Latence
SDK recommandé	SDK Vertex AI	SDK Vertex AI	SDK Gen AI	SDK Gen AI	SDK Gen AI	SDK Gen AI	SDK Gen AI
Unités de tarification	Caractère	Caractère	Jeton	Jeton	Jeton	Jeton	Jeton
Date d'arrêt	24 septembre 2025	24 septembre 2025	5 février 2026	25 février 2026	17 juin 2026	17 juin 2026	22 juillet 2026

^* L'API Live est disponible en version Preview dans gemini-live-2.5-flash et gemini-live-2.5-flash-preview-native-audio.

Avant de commencer la migration

Avant de commencer le processus de migration, tenez compte des points suivants :

Approbations InfoSec, de gouvernance et réglementaires
Disponibilité de la localisation
Différences de prix basées sur les modes et la tokenisation
Acheter ou modifier des commandes de débit provisionné
Affinage supervisé
Tests de régression

Approbations InfoSec, de gouvernance et réglementaires

Obtenez rapidement les approbations de vos équipes chargées de la sécurité des informations, des risques et de la conformité. Couvrez toutes les règles spécifiques liées aux risques et à la conformité, en particulier dans les secteurs réglementés comme la santé et la finance.

Disponibilité selon l'emplacement

Les modèles Google et partenaires, ainsi que les fonctionnalités d'IA générative sur Vertex AI, sont disponibles via des points de terminaison régionaux spécifiques et un point de terminaison global. Les points de terminaison globaux couvrent le monde entier et offrent une disponibilité et une fiabilité améliorées par rapport aux régions uniques.

La disponibilité des points de terminaison régionaux varie selon le modèle. Pour en savoir plus sur chaque modèle, consultez notre guide sur les emplacements.

Différences de prix basées sur les modes et la tokenisation

Les tarifs varient selon les modèles Gemini. Notre page des tarifs indique les coûts pour tous les modes (texte, code, images, parole, etc.) par modèle.

Acheter ou modifier des commandes de débit provisionné

Si nécessaire, achetez du débit provisionné supplémentaire ou modifiez vos commandes de débit provisionné existantes.

Réglage supervisé

Les derniers modèles Gemini offrent une meilleure qualité de sortie. Cela peut signifier que votre application n'a plus besoin d'un modèle affiné. Si votre application utilise le réglage supervisé avec un ancien modèle Gemini, commencez par tester votre application avec le dernier modèle sans réglage et évaluez les résultats.

Si vous choisissez d'utiliser l'affinage supervisé, vous ne pourrez pas déplacer votre modèle affiné existant depuis d'anciennes versions de Gemini. Vous devez exécuter un nouveau job d'ajustement pour la nouvelle version de Gemini.

Lorsque vous réglez un nouveau modèle Gemini, commencez par les paramètres de réglage par défaut. Ne réutilisez pas les valeurs d'hyperparamètres des versions précédentes de Gemini, car le service de réglage est optimisé pour les dernières versions. La réutilisation d'anciens paramètres ne permet probablement pas d'obtenir des résultats optimaux.

Test de régression

Lorsque vous passez à la dernière version de Gemini, vous avez besoin de trois principaux types de tests de régression :

Tests de régression du code : tests de régression pour l'ingénierie logicielle et les opérations de développement (DevOps). Ce type de test de régression est toujours obligatoire.
Tests de régression des performances du modèle : tests de régression pour la data science ou le machine learning. Ces tests consistent à vérifier que la nouvelle version du modèle Gemini génère des sorties d'au moins aussi bonne qualité que celles de la version précédente.

Les tests de régression des performances du modèle sont des évaluations de modèle effectuées lorsqu'un système ou son modèle sous-jacent change. des biais injustes :
- Tests des performances hors connexion : tests qui évaluent la qualité des sorties du modèle dans un environnement de test dédié, en fonction de différentes métriques de qualité.
- Tests des performances du modèle en ligne : tests qui évaluent la qualité des sorties du modèle dans un déploiement en ligne, en fonction des commentaires implicites ou explicites des utilisateurs.
Tests de charge : ces tests vérifient la façon dont l'application gère de nombreuses requêtes à la fois. Les tests de charge sont obligatoires pour les applications qui utilisent le débit provisionné.

Migrer vers la dernière version

Les sections suivantes décrivent la procédure de migration vers la dernière version de Gemini. Pour des résultats optimaux, suivez ces étapes dans l'ordre.

1. Exigences concernant l'évaluation et les tests du modèle

Préparez-vous à répéter toutes les évaluations pertinentes que vous avez effectuées lors de la création de votre application et toutes celles que vous avez effectuées depuis.
Si vos évaluations actuelles ne couvrent pas ou ne mesurent pas entièrement toutes les tâches effectuées par votre application, concevez et préparez d'autres évaluations. Pour vous aider à vous lancer, vous pouvez utiliser notre playbook d'évaluation et nos recettes d'évaluation.
Si votre application implique le RAG, l'utilisation d'outils, des workflows d'agent complexes ou des chaînes de requêtes, vérifiez que vos données d'évaluation existantes permettent d'évaluer chaque composant indépendamment. Si ce n'est pas le cas, rassemblez des exemples d'entrées-sorties pour chaque composant.
Si votre application est essentielle ou fait partie d'un système en temps réel plus vaste accessible aux utilisateurs, incluez une évaluation en ligne.

2. Mettre à niveau le code et exécuter des tests

Pour mettre à niveau votre code, vous devez apporter trois modifications principales :

Passer au SDK Google Gen AI
Modifier vos appels Gemini
Corriger les modifications de code destructives

Les sections suivantes décrivent ces modifications plus en détail.

Passer au SDK Google Gen AI

Si votre application Gemini 1.x utilise le SDK Vertex AI, passez au SDK Gen AI. Pour en savoir plus, y compris des exemples de code permettant d'effectuer des appels similaires avec le SDK Gen AI, consultez notre guide de migration du SDK Vertex AI. Les versions du SDK Vertex AI publiées après juin 2026 ne seront pas compatibles avec Gemini, et les nouvelles fonctionnalités Gemini ne seront disponibles que dans le SDK Gen AI.

Si vous ne connaissez pas le SDK Gen AI, consultez le notebook Premiers pas avec l'IA générative de Google à l'aide du SDK Gen AI.

Modifier vos appels Gemini

Modifiez votre code de prédiction pour utiliser l'un des derniers modèles Gemini. Au minimum, vous devez remplacer le nom du point de terminaison du modèle.

Les modifications exactes du code varient en fonction de la façon dont vous avez créé votre application, en particulier si vous avez utilisé le SDK Gen AI ou le SDK Vertex AI.

Une fois les modifications apportées, exécutez des tests de régression et d'autres tests logiciels pour vous assurer que votre code fonctionne comme prévu. Cette étape permet de vérifier si le code fonctionne, mais pas la qualité des réponses du modèle.

Corriger les modifications de code destructives

Récupération dynamique : utilisez l'ancrage avec la recherche Google. Cette fonctionnalité nécessite le SDK Gen AI et n'est pas compatible avec le SDK Vertex AI.
Filtres de contenu : notez les paramètres de filtrage de contenu par défaut. Modifiez votre code s'il utilise un paramètre par défaut qui a changé.
Paramètre d'échantillonnage de jetons Top-K : les modèles postérieurs à gemini-1.0-pro-vision ne permettent pas de modifier le paramètre Top-K.

À ce stade, ne modifiez que votre code. Vous devrez peut-être apporter d'autres modifications ultérieurement, mais attendez de commencer votre évaluation. Après vos évaluations, envisagez les ajustements suivants en fonction des résultats :

Si vous utilisiez la récupération dynamique, vous devrez peut-être ajuster vos instructions système pour contrôler quand la recherche Google est utilisée (par exemple, "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."). Toutefois, attendez d'avoir procédé à l'évaluation avant de modifier les requêtes.
Si vous avez utilisé le paramètre Top-K, ajustez les autres paramètres d'échantillonnage de jetons, tels que Top-P, pour obtenir des résultats similaires.

3. Exécuter des évaluations hors connexion

Répétez les évaluations que vous avez effectuées lors du développement et du lancement de votre application, ainsi que toutes les évaluations hors connexion que vous avez effectuées depuis et toutes les évaluations supplémentaires que vous avez identifiées à l'étape 1. Si vous estimez que votre évaluation ne couvre pas pleinement le champ d'application de votre application, effectuez d'autres évaluations.

Si vous ne disposez pas d'une solution automatique pour exécuter des évaluations hors connexion, envisagez d'utiliser Gen AI Evaluation Service.

Si votre application utilise le réglage, effectuez une évaluation hors connexion avant de reconfigurer votre modèle avec la dernière version de Gemini. Les derniers modèles offrent une qualité de sortie améliorée, ce qui peut signifier que votre application n'a plus besoin d'un modèle affiné.

4. Évaluer les résultats de l'évaluation et régler vos requêtes et vos hyperparamètres

Si votre évaluation hors connexion révèle que votre application est moins efficace, améliorez-la jusqu'à ce que ses performances correspondent à celles de l'ancien modèle. Pour ce faire :

Affinez vos requêtes de manière itérative pour améliorer les performances (méthode "hill-climbing"). Si vous débutez avec cette méthode, consultez la formation en ligne sur la méthode hill-climbing avec Gemini Vertex. L'optimiseur de requêtes Vertex AI (exemple de notebook) peut également vous aider.
Si votre application est affectée par des modifications destructives apportées à la récupération dynamique et aux valeurs top-K, essayez de modifier les paramètres d'échantillonnage des requêtes et des jetons.

5. Exécuter des tests de charge

Si votre application nécessite un débit minimal, effectuez un test de charge pour vous assurer que sa dernière version répond à vos exigences de débit.

Les tests de charge doivent être effectués avant l'évaluation en ligne, car cette dernière nécessite d'exposer le modèle au trafic réel. Pour cette étape, utilisez vos outils et votre instrumentation de test de charge existants.

Si votre application répond déjà aux besoins de débit, envisagez d'utiliser le débit provisionné. Vous aurez besoin d'un débit provisionné supplémentaire à court terme pour couvrir les tests de charge. Votre commande de débit provisionné existante sera utilisée pour diffuser le trafic de production.

6. (Facultatif) Exécuter des évaluations en ligne

N'effectuez l'évaluation en ligne que si votre évaluation hors connexion indique une bonne qualité de sortie de Gemini et qu'elle est requise par votre application.

L'évaluation en ligne est un type spécifique de test en ligne. Essayez d'utiliser les outils et les méthodes existants de votre organisation pour l'effectuer. Exemple :

Si votre organisation effectue régulièrement des tests A/B, effectuez-en un pour comparer la version actuelle de votre application avec la dernière version de Gemini.
Si votre organisation utilise régulièrement des déploiements Canary, utilisez-les avec les derniers modèles et mesurez les changements de comportement des utilisateurs.

Vous pouvez également effectuer une évaluation en ligne en ajoutant de nouvelles fonctionnalités de commentaires et de mesure à votre application. Différentes applications nécessitent différentes méthodes de commentaires. Exemple :

Ajoutez des boutons "J'aime" et "Je n'aime pas" à côté des sorties du modèle, et comparez les taux entre un ancien modèle et les derniers modèles Gemini.
Présentez aux utilisateurs les sorties de l'ancien modèle et des derniers modèles côte à côte, et demandez-leur de choisir celles qu'ils préfèrent.
Mesurez la fréquence à laquelle les utilisateurs remplacent ou ajustent manuellement les sorties de votre ancien modèle par rapport à celles des derniers modèles.

Ces méthodes de commentaires nécessitent souvent d'exécuter la dernière version de Gemini en parallèle de votre version existante. Ce déploiement parallèle est parfois appelé "mode shadow" ou "déploiement bleu-vert".

Si les résultats de l'évaluation en ligne sont très différents de ceux de l'évaluation hors connexion, cela signifie que votre évaluation hors connexion ne couvre pas les aspects clés de l'environnement en direct ou de l'expérience utilisateur. Appliquez les résultats de l'évaluation en ligne pour créer une nouvelle évaluation hors connexion qui s'en rapprochera, puis revenez à l'étape 3.

Si vous utilisez le débit provisionné, vous devrez peut-être acheter temporairement du débit provisionné supplémentaire pour continuer à répondre aux besoins en débit des utilisateurs effectuant l'évaluation en ligne.

7. Déployer en production

Une fois que votre évaluation montre que le dernier modèle Gemini est aussi performant, voire plus, qu'un ancien modèle, remplacez la version existante de l'application par la nouvelle version. Suivez les procédures standards de votre organisation pour le déploiement en production.

Si vous utilisez le débit provisionné, modifiez votre commande de débit provisionné pour le modèle Gemini de votre choix. Si vous déployez votre application progressivement, utilisez le débit provisionné à court terme pour répondre aux besoins de débit de deux modèles Gemini différents.

Améliorer les performances du modèle

Lorsque vous migrez, appliquez ces conseils pour obtenir des performances optimales du modèle Gemini choisi :

Vérifiez vos instructions système, vos requêtes et vos exemples d'apprentissage few-shot pour détecter les incohérences, les contradictions, ou les instructions et exemples non pertinents.
Testez un modèle plus puissant. Par exemple, si vous avez évalué Gemini 2.0 Flash-Lite, essayez Gemini 2.0 Flash.
Examinez les résultats de l'évaluation automatisée pour vous assurer qu'ils correspondent à ceux du jugement humain, en particulier les résultats qui utilisent un modèle d'évaluation. Assurez-vous que les instructions de votre modèle d'évaluation sont claires, cohérentes et univoques.
Pour améliorer les instructions du modèle d'évaluation, testez-les avec plusieurs personnes travaillant de manière isolée. Si les humains interprètent les instructions différemment et fournissent des jugements différents, les instructions de votre modèle d'évaluation ne sont pas claires.
Ajustez le modèle.
Examinez les résultats de l'évaluation pour rechercher des tendances de types d'échecs spécifiques. En regroupant les échecs par modèle, type ou catégorie, vous pouvez obtenir des données d'évaluation plus ciblées et ainsi ajuster plus facilement les requêtes pour corriger ces erreurs.
Assurez-vous d'évaluer indépendamment les différents composants d'IA générative.
Essayez d'ajuster les paramètres d'échantillonnage des jetons.

Obtenir de l'aide

Si vous avez besoin d'aide, Google Cloud propose des forfaits d'assistance répondant à différents besoins, tels que la couverture 24h/24, 7j/7, l'assistance téléphonique et l'accès à un responsable de l'assistance technique. Pour plus d'informations, consultez la page sur l'assistanceGoogle Cloud .

Étapes suivantes

Consultez la liste des questions fréquentes.
Migrez de l'API PaLM vers l'API Gemini dans Vertex AI.