Cette page a été traduite par l'API Cloud Translation.

Migrer votre application vers Gemini 2 avec l'API Gemini dans Vertex AI

Ce guide explique comment migrer des applications d'IA générative depuis les modèles Gemini 1.x et PaLM vers les modèles Gemini 2.

Pourquoi migrer vers Gemini 2 ?

Gemini 2 offre de bien meilleures performances que les modèles Gemini 1.x et PaLM, et comporte de nouvelles fonctionnalités. De plus, chaque version de modèle dispose de son propre calendrier de compatibilité et de disponibilité.

La mise à niveau de la plupart des applications d'IA générative vers Gemini 2 ne devrait pas nécessiter de refonte importante des requêtes et du code. Toutefois, les requêtes de certaines applications doivent être modifiées. Ces modifications sont difficiles à prévoir sans exécuter d'abord les requêtes dans Gemini 2. Par conséquent, nous vous recommandons de tester Gemini 2 avant la migration.

Des modifications de code importantes ne sont nécessaires que pour certaines modifications destructives ou pour utiliser les nouvelles fonctionnalités de Gemini 2.

Vers quel modèle Gemini 2 migrer ?

Lorsque vous choisissez le modèle Gemini 2 vers lequel migrer, vous devez tenir compte des fonctionnalités requises par votre application, ainsi que de leur coût.

Pour en savoir plus sur les fonctionnalités du modèle Gemini 2, consultez Gemini 2. Pour en savoir plus sur tous les modèles Google, consultez Modèles Google.

Pour comparer les modèles Gemini disponibles, consultez le tableau suivant.

Fonctionnalité	Gemini 1.5 Pro	Gemini 1.5 Flash	Gemini 2.0 Flash	Gemini 2.0 Flash-Lite	Gemini 2.5 Pro	Gemini 2.5 Flash
Modes d'entrée	Texte, document, image, vidéo, audio	Texte, document, image, vidéo, audio	Texte, document, image, vidéo, audio	Texte, document, image, vidéo, audio	Texte, document, image, vidéo, audio	Texte, document, image, vidéo, audio
Modes de sortie	Texte	Texte	Texte	Texte	Texte	Texte
Fenêtre de contexte, limite totale de jetons	2 097 152	1 048 576	1 048 576	1 048 576	1 048 576	1 048 576
Longueur du contexte de sortie	8 192	8 192	8 192	8 192	64 192	64 192
Ancrage avec la recherche	Oui	Oui	Oui	Non	Oui	Oui
Appel de fonction	Oui	Oui	Oui	Oui	Oui	Oui
Exécution de code	Non	Non	Oui	Non	Oui	Oui
Mise en cache du contexte	Oui	Oui	Oui	Non	Oui	Oui
Prédiction par lot	Oui	Oui	Oui	Oui	Oui	Oui
API Live	Non	Non	Non	Non	Non	Non
Latence	Le plus performant de la famille 1.5	Le plus rapide de la famille 1.5	Rapide et économique	Rapide et le plus économique	Plus lent que Flash, mais bonne efficacité en termes de coûts	Rapide et le plus économique
Réglage	Oui	Oui	Oui	Oui	Oui	Oui
SDK recommandé	SDK Vertex AI	SDK Vertex AI	SDK Gen AI	SDK Gen AI	SDK Gen AI	SDK Gen AI
Unités de tarification	Caractère	Caractère	Jeton	Jeton	Jeton	Jeton

Présentation du processus de migration

Ce document décrit un processus en huit étapes pour migrer votre application vers Gemini 2. Utilisez le diagramme suivant pour accéder à chaque étape.

Processus

Avant de commencer

Étape 1: Répondez aux conditions préalables

Pour réussir votre migration vers Gemini 2, nous vous recommandons de tenir compte des points suivants avant de commencer.

Prise de conscience de l'abandon des modèles: notez les calendriers de disponibilité et de compatibilité des versions des anciens modèles Gemini, et assurez-vous que votre migration est terminée avant que le modèle que vous utilisez ne soit abandonné.
Approbations InfoSec, de gouvernance et réglementaires: demandez de manière proactive les approbations dont vous avez besoin pour Gemini 2 auprès des personnes concernées par la sécurité des informations, les risques et la conformité. Assurez-vous de respecter les contraintes liées aux risques et à la conformité propres à votre domaine, en particulier si vous opérez dans un secteur très réglementé tel que les services financiers et la santé. Notez que les contrôles de sécurité de Gemini varient selon les modèles Gemini 2.
Disponibilité par zone géographique: consultez la documentation sur la disponibilité des modèles d'IA générative sur Google Cloud et des modèles partenaires, et vérifiez que le modèle Gemini 2 que vous avez choisi est disponible dans les régions où vous en avez besoin. Vous pouvez également envisager de passer au point de terminaison global.
Différences de prix basées sur les modes et la tokenisation: consultez les tarifs de Gemini 2 pour l'ensemble des modes (texte, code, images, parole) de votre application. Pour en savoir plus, consultez la page des tarifs de l'IA générative. Notez que les entrées et les sorties textuelles dans Gemini 2 sont facturées en fonction du nombre de jetons, tandis qu'elles sont facturées en fonction du nombre de caractères dans Gemini 1.
Débit provisionné: si nécessaire, achetez du débit provisionné supplémentaire pour Gemini 2 ou modifiez vos commandes de débit provisionné existantes.
Réglage supervisé: si votre application Gemini utilise le réglage supervisé, envoyez un nouveau job de réglage avec Gemini 2. Nous vous recommandons de commencer avec les hyperparamètres de réglage par défaut au lieu de réutiliser ceux que vous avez définis dans les versions précédentes de Gemini. Le service de réglage a été optimisé pour Gemini 2. Par conséquent, la réutilisation de vos anciens hyperparamètres peut ne pas générer des résultats optimaux.
Tests de régression: il existe trois principaux types de tests de régression lors de la mise à niveau vers les modèles Gemini 2:
- Tests de régression du code: tests de régression pour l'ingénierie logicielle et le DevOps. Ce type de test est toujours obligatoire.
- Tests de régression des performances du modèle: tests de régression pour la data science ou le machine learning. Ces tests consistent à vérifier que le nouveau modèle Gemini 2 génère des sorties d'aussi bonne qualité que celles du modèle de production actuel. Ils ne sont que des évaluations du modèle effectuées lors de la modification d'un système ou du modèle sous-jacent. Ils se décomposent comme suit:
  - Tests des performances du modèle hors connexion: évaluation de la qualité des sorties du modèle dans un environnement de test dédié, en fonction de différentes métriques de qualité.
  - Tests des performances du modèle en ligne: évaluation de la qualité des sorties du modèle dans un déploiement en ligne, en fonction des commentaires implicites ou explicites des utilisateurs.
- Tests de charge: évaluation de la façon dont l'application gère de grands volumes de requêtes d'inférence. Ce type de test de régression est obligatoire pour les applications qui nécessitent un débit provisionné.

Exigences concernant l'évaluation et les tests du modèle

Étape 2: Documentez les exigences concernant l'évaluation et les tests

Préparez-vous à répéter toutes les évaluations pertinentes que vous avez effectuées lors de la création de votre application et toutes celles que vous avez effectuées depuis.
Si vous pensez que vos évaluations existantes ne couvrent pas ou ne mesurent pas correctement l'étendue des tâches effectuées par votre application, vous devez concevoir et préparer d'autres évaluations.
Si votre application implique le RAG, l'utilisation d'outils, des workflows d'agent complexes ou des chaînes de requêtes, vérifiez que vos données d'évaluation existantes permettent d'évaluer chaque composant indépendamment. Si ce n'est pas le cas, rassemblez des exemples d'entrées-sorties pour chaque composant.
Si votre application a un impact particulièrement important ou si elle fait partie d'un système en temps réel plus vaste accessible aux utilisateurs, vous devez inclure une évaluation en ligne.

Mises à niveau et tests du code

Étape 3: Mettre à niveau et tester le code

Si votre application Gemini 1.x utilise le SDK Vertex AI, envisagez de passer au SDK Gen AI. Les nouvelles fonctionnalités Gemini 2 ne sont disponibles que dans le SDK Gen AI. Toutefois, il n'est pas nécessaire de passer au SDK Gen AI si votre application ne nécessite que des fonctionnalités disponibles dans le SDK Vertex AI.

Caractéristique / Aspect	SDK Gen AI	SDK Vertex AI
Axe principal	Optimisé pour les modèles Gemini et les nouvelles fonctionnalités d'IA générative.	Plate-forme Vertex AI plus large, y compris les workflows de ML classiques
Compatibilité des fonctionnalités de Gemini 2	Compatibilité totale avec toutes les nouvelles fonctionnalités de Gemini 2.	Assistance limitée ; aucune nouvelle fonctionnalité n'est ajoutée.
Recommandation	Recommandé pour les nouvelles applications ou lorsque vous utilisez les fonctionnalités avancées de Gemini 2.	Convient si votre application n'utilise que les fonctionnalités communes aux deux SDK et qu'elle est déjà intégrée.

Si vous ne connaissez pas le SDK Gen AI, consultez le notebook Premiers pas avec l'IA générative de Google à l'aide du SDK Gen AI.

SDK Gen AI

Nous vous recommandons de migrer vers le SDK Gen AI lorsque vous passez à Gemini 2.0. Son processus de configuration est différent de celui du SDK Vertex AI. Pour en savoir plus, consultez SDK Google Gen AI.

Installer

pip install --upgrade google-genai

Pour en savoir plus, consultez la documentation de référence du SDK.

Définir des variables d'environnement

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
model="gemini-2.5-flash",
contents="How does AI work?",
)
print(response.text)

# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
# Here's a simplified overview:
# ...

Remplacez GOOGLE_CLOUD_PROJECT par votre ID de projet Google Cloud et remplacez GOOGLE_CLOUD_LOCATION par l'emplacement de votre projet Google Cloud (par exemple, us-central1).

SDK Vertex AI

Si vous réutilisez le SDK Vertex AI, le processus de configuration est le même pour les modèles 1.0, 1.5 et 2.0. Pour en savoir plus, consultez la section Présentation du SDK Vertex AI pour Python.

Installer le SDK

 pip install --upgrade --quiet google-cloud-aiplatform

Voici un court exemple de code qui utilise le SDK Vertex AI pour Python:

 
import vertexai
from vertexai.generative_models import GenerativeModel

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
vertexai.init(project=PROJECT_ID, location="us-central1")

model = GenerativeModel("gemini-2.0-flash-001")

response = model.generate_content(
    "What's a good name for a flower shop that specializes in selling bouquets of dried flowers?"
)

print(response.text)
# Example response:
# **Emphasizing the Dried Aspect:**
# * Everlasting Blooms
# * Dried & Delightful
# * The Petal Preserve
# ...

Remplacez PROJECT_ID par l'ID de votre projet Google Cloud et LOCATION par l'emplacement de votre projet Google Cloud (par exemple, us-central1). Remplacez ensuite l'ID du modèle gemini-1.5-flash-002 par gemini-2.0-flash.

Modifier vos appels Gemini

Modifiez votre code de prédiction pour utiliser Gemini 2. Au minimum, vous devez remplacer le nom du point de terminaison du modèle spécifique par un modèle Gemini 2 où vous chargez votre modèle.

La modification exacte du code varie en fonction de la façon dont vous avez initialement implémenté votre application, et en particulier si vous avez utilisé le SDK Gen AI ou le SDK Vertex AI.

Une fois les modifications apportées, effectuez des tests de régression et d'autres tests logiciels sur votre code pour vous assurer qu'il s'exécute. Ce test ne sert qu'à vérifier que le code fonctionne correctement. Il n'est pas destiné à évaluer la qualité des réponses du modèle.

Corriger les modifications de code destructives

Récupération dynamique: utilisez l'ancrage avec la recherche Google. Cette fonctionnalité nécessite le SDK Gen AI. Elle n'est pas compatible avec le SDK Vertex AI.
Filtres de contenu: notez les paramètres de filtrage de contenu par défaut et modifiez votre code s'il utilise un paramètre par défaut qui a changé.
Paramètre d'échantillonnage de jetons Top-K: les modèles postérieurs à gemini-1.0-pro-vision ne permettent pas de modifier le paramètre Top-K.

À ce stade, ne modifiez que votre code. Vous devrez peut-être apporter d'autres modifications. Attendez cependant les résultats de l'évaluation avant d'envisager les ajustements suivants:

Si vous passez de la récupération dynamique, vous devrez peut-être tester les instructions système pour contrôler quand la recherche Google est utilisée (par exemple, "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."). Toutefois, attendez d'avoir procédé à l'évaluation avant d'apporter des modifications aux requêtes.
Si vous avez utilisé le paramètre Top-K, ajustez les autres paramètres d'échantillonnage de jetons, tels que Top-P, pour obtenir des résultats similaires.

Évaluation hors connexion

Étape 4: Effectuer une évaluation hors connexion

Répétez l'évaluation que vous avez effectuée lors du développement et du lancement de votre application, ainsi que toute évaluation hors connexion que vous avez effectuée après et toute évaluation supplémentaire que vous avez identifiée à l'étape 1. Si vous estimez que votre évaluation ne reflète pas pleinement votre application, effectuez une évaluation plus approfondie.

Si vous ne disposez pas d'une solution automatique pour exécuter vos évaluations hors connexion, envisagez d'utiliser Gen AI Evaluation Service.

Si votre application utilise le réglage, effectuez une évaluation hors connexion avant de reconfigurer votre modèle avec Gemini 2. Grâce à la qualité améliorée des sorties de Gemini 2, votre application n'aura peut-être plus besoin d'un modèle réglé.

Évaluer les résultats de l'évaluation et régler les requêtes et les hyperparamètres de Gemini 2

Étape 5: Évaluez les résultats et ajustez les requêtes

Si votre évaluation hors connexion révèle une baisse des performances avec Gemini 2, itérez sur votre application comme indiqué ci-dessous jusqu'à ce que les performances de Gemini correspondent à celles de l'ancien modèle:

Concevez vos requêtes de manière itérative pour améliorer les performances (méthode "hill-climbing"). Si vous débutez avec cette méthode, consultez la formation en ligne sur la méthode hill-climbing avec Gemini Vertex. L'optimiseur de requêtes Vertex AI (exemple de notebook) peut également vous aider.
Si votre application repose déjà sur le réglage, essayez de régler Gemini 2.
Si votre application est affectée par des modifications destructives apportées à la récupération dynamique et aux valeurs top-K, essayez de modifier les paramètres d'échantillonnage des requêtes et des jetons.

Tests de charge

Étape 6: Effectuer des tests de charge

Si votre application nécessite un débit minimal, effectuez un test de charge pour vous assurer que sa version avec Gemini 2 répond à vos exigences de débit.

Les tests de charge doivent être effectués avant l'évaluation en ligne, car cette dernière nécessite d'exposer Gemini 2 au trafic de production. Pour effectuer cette étape, utilisez votre instrumentation de test de charge existante.

Si votre application répond déjà aux exigences de débit, envisagez d'utiliser le débit provisionné. Vous aurez besoin d'un débit provisionné supplémentaire à court terme pour couvrir les tests de charge. Votre commande de débit provisionné existante sera utilisée pour diffuser le trafic de production.

Évaluation en ligne

Étape 7: Effectuer une évaluation en ligne

N'effectuez l'évaluation en ligne que si votre évaluation hors connexion indique une bonne qualité de sortie de Gemini et qu'elle est requise par votre application.

L'évaluation en ligne est un cas particulier des tests en ligne. Essayez d'utiliser les outils et les procédures existants de votre organisation pour l'effectuer. Exemple :

Si votre organisation effectue régulièrement des tests A/B, effectuez-en un qui évalue l'implémentation actuelle de votre application par rapport à la version Gemini 2.
Si votre organisation effectue régulièrement des déploiements Canary, veillez à le faire avec Gemini 2 et à mesurer les différences de comportement des utilisateurs.

Vous pouvez également effectuer une évaluation en ligne en créant de nouvelles fonctionnalités de commentaires et de mesure dans votre application. Ces fonctionnalités peuvent varier selon les applications. Exemple :

Ajoutez des boutons "J'aime" et "Je n'aime pas" à côté des sorties du modèle, et comparez le nombre de "J'aime" et de "Je n'aime pas" entre votre ancien modèle et Gemini 2.
Présentez aux utilisateurs les sorties de l'ancien modèle et de Gemini 2 côte à côte, et demandez-leur de choisir celles qu'ils préfèrent.
Mesurez la fréquence à laquelle les utilisateurs remplacent ou ajustent manuellement les sorties de votre ancien modèle par rapport à celles de Gemini 2.

Ces fonctionnalités de commentaires nécessitent souvent d'exécuter une version de votre application avec Gemini 2 en parallèle de votre version existante. Ce déploiement parallèle est parfois appelé "mode shadow" ou "déploiement bleu-vert".

Si les résultats de l'évaluation en ligne sont très différents de ceux de l'évaluation hors connexion, cela signifie que votre évaluation hors connexion ne couvre pas les aspects clés de l'environnement en direct ou de l'expérience utilisateur. Utilisez les résultats de l'évaluation en ligne pour concevoir une nouvelle évaluation hors connexion qui s'en rapprochera, puis revenez à l'étape 3.

Si vous utilisez le débit provisionné, vous devrez peut-être acheter temporairement du débit provisionné supplémentaire pour continuer à répondre aux besoins en débit des utilisateurs effectuant l'évaluation en ligne.

Déploiement en production

Étape 8: Déployer en production

Une fois que votre évaluation montre que Gemini 2 atteint ou dépasse les performances de votre ancien modèle, désactivez la version existante de votre application pour passer à celle utilisant Gemini 2. Suivez les procédures existantes de votre organisation pour le déploiement en production.

Si vous utilisez le débit provisionné, modifiez votre commande de débit provisionné pour le modèle Gemini 2 de votre choix. Si vous déployez votre application progressivement, utilisez le débit provisionné à court terme pour répondre aux exigences de débit des deux modèles Gemini.

Améliorer les performances du modèle

Une fois votre migration terminée, suivez les conseils ci-dessous pour optimiser les performances du modèle Gemini 2:

Examinez vos instructions système, vos requêtes et vos exemples d'apprentissage few-shot pour détecter les incohérences, les contradictions, ou les instructions et exemples non pertinents.
Testez un modèle plus puissant. Par exemple, si vous avez évalué Gemini 2.0 Flash-Lite, essayez Gemini 2.0 Flash.
Examinez les résultats de l'évaluation automatisée pour vous assurer qu'ils correspondent à ceux du jugement humain, en particulier les résultats qui utilisent un modèle d'évaluation. Assurez-vous que les instructions de votre modèle d'évaluation ne contiennent pas d'incohérences ni d'ambiguïtés.
Pour améliorer les instructions du modèle d'évaluation, vous pouvez les tester avec plusieurs personnes de manière isolée et vérifier si leurs jugements sont cohérents. Si ces personnes interprètent les instructions différemment et ont des jugements différents, les instructions de votre modèle d'évaluation sont ambiguës.
Réglez le modèle Gemini 2.
Examinez les résultats de l'évaluation pour rechercher des tendances de types d'échecs spécifiques. En regroupant les échecs dans différents modèles, types ou catégories, vous pouvez obtenir des données d'évaluation plus ciblées et ainsi ajuster plus facilement les requêtes pour corriger ces erreurs.
Assurez-vous d'évaluer indépendamment les différents composants d'IA générative.
Essayez d'ajuster les paramètres d'échantillonnage des jetons.

Obtenir de l'aide

Si vous avez besoin d'aide, Google Cloud propose des formules d'assistance répondant à différents besoins, telles que la couverture 24h/24, 7j/7, l'assistance téléphonique et l'accès à un responsable de l'assistance technique. Pour en savoir plus, consultez l'assistance Google Cloud.

Étapes suivantes

Consultez les questions fréquentes.
Migrez de l'API PaLM vers l'API Gemini dans Vertex AI.