A partire dal 29 aprile 2025, i modelli Gemini 1.5 Pro e Gemini 1.5 Flash non sono disponibili nei progetti che non li hanno mai utilizzati, inclusi i nuovi progetti. Per maggiori dettagli, vedi Versioni e ciclo di vita dei modelli.

Questa pagina è stata tradotta dall'API Cloud Translation.

Esegui la migrazione dell'applicazione a Gemini 2 con l'API Gemini in Vertex AI

Questa guida mostra come eseguire la migrazione delle applicazioni di IA generativa dai modelli Gemini 1.x e PaLM ai modelli Gemini 2.

Perché eseguire la migrazione a Gemini 2?

Gemini 2 offre miglioramenti significativi delle prestazioni rispetto ai modelli Gemini 1.x e PaLM, oltre a nuove funzionalità. Inoltre, ogni versione del modello ha il proprio periodo di supporto e disponibilità.

L'upgrade della maggior parte delle applicazioni di AI generativa a Gemini 2 non dovrebbe richiedere una riprogettazione significativa dei prompt o del codice. Tuttavia, alcune applicazioni richiedono modifiche rapide e queste modifiche sono difficili da prevedere senza prima eseguire un prompt tramite Gemini 2. Pertanto, ti consigliamo di eseguire i test di Gemini 2 prima della migrazione.

Sono necessarie modifiche significative al codice solo per alcune modifiche non compatibili o per utilizzare le nuove funzionalità di Gemini 2.

A quale modello Gemini 2 devo eseguire la migrazione?

Quando scegli un modello Gemini 2 a cui eseguire la migrazione, devi prendere in considerazione le funzionalità richieste dalla tua applicazione, nonché il costo di queste funzionalità.

Per una panoramica delle funzionalità del modello Gemini 2, consulta Gemini 2. Per una panoramica di tutti i modelli Google, consulta Modelli Google.

Per un confronto dei modelli Gemini disponibili, consulta la tabella seguente.

Funzionalità	Gemini 1.5 Pro	Gemini 1.5 Flash	Gemini 2.0 Flash	Gemini 2.0 Flash-Lite	Gemini 2.5 Pro	Gemini 2.5 Flash
Modalità di input	testo, documenti, immagine, video, audio	testo, documenti, immagine, video, audio	testo, documenti, immagine, video, audio	testo, documenti, immagine, video, audio	testo, documenti, immagine, video, audio	testo, documenti, immagine, video, audio
Modalità di output	testo	testo	testo	testo	testo	testo
Finestra contestuale, limite di token totale	2.097.152	1.048.576	1.048.576	1.048.576	1.048.576	1.048.576
Lunghezza del contesto di output	8.192	8.192	8.192	8.192	64.192	64.192
Grounding con la Ricerca	Sì	Sì	Sì	No	Sì	Sì
Chiamata di funzione	Sì	Sì	Sì	Sì	Sì	Sì
Esecuzione del codice	No	No	Sì	No	Sì	Sì
Memorizzazione nella cache del contesto	Sì	Sì	Sì	No	Sì	Sì
Previsione batch	Sì	Sì	Sì	Sì	Sì	Sì
API Live	No	No	No	No	No	No
Latenza	Il più capace nel gruppo Famiglia 1.5	Più veloce nella famiglia 1.5	Velocità + buona efficienza in termini di costi	Veloce e più conveniente	Più lento di Flash, ma con un buon rapporto costi/benefici	Veloce e più conveniente
Perfezionamento	Sì	Sì	Sì	Sì	Sì	Sì
SDK consigliato	SDK Vertex AI	SDK Vertex AI	SDK Gen AI	SDK Gen AI	SDK Gen AI	SDK Gen AI
Unità di prezzo	Basato su caratteri	Basato su caratteri	Token	Token	Token	Token

Panoramica del processo di migrazione

Questo documento illustra una procedura in otto passaggi per la migrazione dell'applicazione a Gemini 2. Utilizza il seguente diagramma per passare a ogni passaggio.

Processo

Prima di iniziare

Passaggio 1: completa i prerequisiti

Per una migrazione a Gemini 2 senza problemi, ti consigliamo di risolvere i seguenti problemi prima di iniziare la procedura di migrazione.

Informazioni sul ritiro dei modelli: prendi nota delle tempistiche di disponibilità e supporto delle versioni dei modelli per i modelli Gemini precedenti e assicurati che la migrazione sia completata prima del ritiro del modello in uso.
Approvazioni per sicurezza delle informazioni, governance e normative: richiedi in modo proattivo le approvazioni necessarie per Gemini 2 agli stakeholder per la sicurezza delle informazioni (InfoSec), i rischi e la conformità. Assicurati di coprire i vincoli di conformità e rischio specifici del dominio, in particolare in settori fortemente regolamentati come la sanità e i servizi finanziari. Tieni presente che i controlli di sicurezza di Gemini variano in base ai modelli di Gemini 2.
Disponibilità in base alla località: consulta la documentazione relativa alla disponibilità dei modelli di IA generativa su Google Cloud e dei modelli dei partner e assicurati che il modello Gemini 2 scelto sia disponibile nelle regioni in cui ti serve oppure valuta la possibilità di passare all'endpoint globale.
Differenze di prezzo in base alla modalità e alla tokenizzazione: controlla i prezzi di Gemini 2 per tutte le modalità (testo, codice, immagini, voce) nella tua applicazione. Per ulteriori informazioni, consulta la pagina dei prezzi dell&#AI generativa. Tieni presente che l'input e l'output di testo di Gemini 2 hanno un prezzo per token, mentre l'input e l'output di testo di Gemini 1 hanno un prezzo per carattere.
Throughput riservato: se necessario, acquista altro throughput riservato per Gemini 2 o modifica gli ordini di throughput riservato esistenti.
Ottimizzazione finemente supervisionata: se la tua applicazione Gemini utilizza l'ottimizzazione finemente supervisionata, invia un nuovo job di ottimizzazione con Gemini 2. Ti consigliamo di iniziare con gli iperparametri di ottimizzazione predefiniti anziché riutilizzare i valori degli iperparametri utilizzati con le versioni precedenti di Gemini. Il servizio di ottimizzazione è stato ottimizzato per Gemini 2. Pertanto, il riutilizzo dei valori degli iperparametri precedenti potrebbe non produrre i risultati migliori.
Test di regressione: esistono tre tipi principali di test di regressione durante l'upgrade ai modelli Gemini 2:
- Test di regressione del codice: test di regressione dal punto di vista della progettazione del software e di DevOps. Questo tipo di test di regressione è sempre obbligatorio.
- Test di regressione del rendimento del modello: test di regressione dal punto di vista della data science o del machine learning. Ciò significa assicurarsi che il nuovo modello Gemini 2 fornisca output di qualità almeno pari a quelli dell'attuale modello di produzione. I test di regressione del rendimento del modello sono solo valutazioni del modello eseguite nell'ambito di una modifica a un sistema o al modello sottostante. I test di regressione delle prestazioni del modello si suddividono ulteriormente in:
  - Test delle prestazioni del modello offline: valutazione della qualità degli output del modello in un ambiente di sperimentazione dedicato in base a varie metriche relative alla qualità degli output del modello.
  - Test delle prestazioni del modello online: valutazione della qualità degli output del modello in un deployment online in tempo reale in base al feedback implicito o esplicito degli utenti.
- Test di carico: valuta come l'applicazione gestisce elevati volumi di richieste di inferenza. Questo tipo di test di regressione è obbligatorio per le applicazioni che richiedono il throughput pianificato.

Documentare i requisiti di test e valutazione del modello

Passaggio 2: documenta i requisiti di valutazione e test

Preparati a ripetere eventuali valutazioni pertinenti effettuate al momento della creazione originale dell'applicazione, oltre a quelle che hai eseguito da allora.
Se ritieni che le valutazioni esistenti non coprano o misurino in modo appropriato l'ampiezza delle attività eseguite dalla tua applicazione, devi progettare e preparare valutazioni aggiuntive.
Se la tua applicazione prevede l'utilizzo di RAG, strumenti, flussi di lavoro complessi o catene di prompt, assicurati che i dati di valutazione esistenti consentano di valutare ogni componente in modo indipendente. In caso contrario, raccogli esempi di input-output per ogni componente.
Se la tua applicazione ha un impatto particolarmente elevato o se fa parte di un sistema più grande in tempo reale rivolto agli utenti, devi includere la valutazione online.

Upgrade e test del codice

Passaggio 3: esegui l'upgrade e testa il codice

Se la tua applicazione Gemini 1.x utilizza l'SDK Vertex AI, valuta la possibilità di eseguire l'upgrade all'SDK Gen AI. Le nuove funzionalità di Gemini 2 sono disponibili solo nell'SDK Gen AI. Tuttavia, non è necessario passare all'SDK Gen AI se la tua applicazione richiede solo funzionalità disponibili nell'SDK Vertex AI.

Elemento / aspetto	SDK IA gen.	SDK Vertex AI
Messa a fuoco principale	Ottimizzato per i modelli Gemini e le nuove funzionalità di AI generativa.	Piattaforma Vertex AI più ampia, inclusi i flussi di lavoro ML convenzionali.
Supporto delle funzionalità di Gemini 2	Supporto completo di tutte le nuove funzionalità di Gemini 2.	Assistenza limitata; non vengono aggiunte nuove funzionalità.
Consiglio	Consigliato per le nuove applicazioni o quando si utilizzano le funzionalità avanzate di Gemini 2.	È adatta se la tua applicazione utilizza solo le funzionalità comuni a entrambi gli SDK ed è già integrata.

Se non hai mai utilizzato l'SDK Gen AI, consulta il notebook Introduzione all'IA generativa di Google con l'SDK Gen AI.

SDK IA gen.

Ti consigliamo di eseguire la migrazione all'SDK Gen AI quando esegui l'upgrade a Gemini 2.0. Se scegli di utilizzare l'SDK Gen AI, la procedura di configurazione è diversa da quella dell'SDK Vertex AI. Per ulteriori informazioni, visita la pagina Google Gen AI SDK.

Installa

pip install --upgrade google-genai

Per scoprire di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
model="gemini-2.5-flash",
contents="How does AI work?",
)
print(response.text)

# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
# Here's a simplified overview:
# ...

Sostituisci GOOGLE_CLOUD_PROJECT con l'ID del tuo progetto Google Cloud e GOOGLE_CLOUD_LOCATION con la posizione del progetto Google Cloud (ad esempio us-central1).

SDK Vertex AI

Se riutilizzi l'SDK Vertex AI, la procedura di configurazione è la stessa per i modelli 1.0, 1.5 e 2.0. Per ulteriori informazioni, consulta Introduzione all'SDK Vertex AI per Python.

Installa l'SDK

 pip install --upgrade --quiet google-cloud-aiplatform

Di seguito è riportato un breve esempio di codice che utilizza l'SDK Vertex AI per Python:

 
import vertexai
from vertexai.generative_models import GenerativeModel

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
vertexai.init(project=PROJECT_ID, location="us-central1")

model = GenerativeModel("gemini-2.0-flash-001")

response = model.generate_content(
    "What's a good name for a flower shop that specializes in selling bouquets of dried flowers?"
)

print(response.text)
# Example response:
# **Emphasizing the Dried Aspect:**
# * Everlasting Blooms
# * Dried & Delightful
# * The Petal Preserve
# ...

Sostituisci PROJECT_ID con l'ID del tuo progetto Google Cloud e LOCATION con la posizione del progetto Google Cloud (ad esempio us-central1). Quindi, cambia l'ID modello da gemini-1.5-flash-002 a gemini-2.0-flash.

Modificare le chiamate di Gemini

Modifica il codice di previsione per utilizzare Gemini 2. Come minimo, questo significa cambiare il nome dell'endpoint del modello specifico in un modello Gemini 2 in cui carichi il modello.

La modifica esatta del codice varia a seconda di come hai implementato inizialmente l'applicazione e, in particolare, se hai utilizzato l'SDK di AI generativa o l'SDK di Vertex AI.

Dopo aver apportato le modifiche al codice, esegui test di regressione del codice e altri test software per assicurarti che venga eseguito. Questo test ha lo scopo di valutare solo se il codice funziona correttamente. Non ha lo scopo di valutare la qualità delle risposte del modello.

Risolvere i problemi causati dalle modifiche al codice

Recupero dinamico: passa all'utilizzo di Grounding con la Ricerca Google. Questa funzionalità richiede l'utilizzo dell'SDK Gen AI; non è supportata dall'SDK Vertex AI.
Filtri dei contenuti: prendi nota delle impostazioni predefinite dei filtri dei contenuti e modifica il codice se si basa su un'impostazione predefinita modificata.
Parametro di campionamento dei token Top-K: i modelli successivi a gemini-1.0-pro-vision non supportano la modifica del parametro Top-K.

In questo passaggio, concentrati solo sulle modifiche al codice. Potresti dover apportare altre modifiche, ma attendi di iniziare la valutazione e poi prendi in considerazione il seguente aggiustamento in base ai risultati della valutazione:

Se passi dal recupero dinamico, potresti dover fare esperimenti con le istruzioni di sistema per controllare quando viene utilizzata la Ricerca Google (ad esempio "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."), ma attendi di eseguire la valutazione prima di apportare modifiche immediate.
Se hai utilizzato il parametro Top-K, modifica altri parametri di campionamento dei token, ad esempio Top-P, per ottenere risultati simili.

Valutazione offline

Passaggio 4: esegui la valutazione offline

Ripeti la valutazione che hai eseguito quando hai sviluppato e lanciato inizialmente l'applicazione, eventuali altre valutazioni offline eseguite dopo il lancio e qualsiasi altra valutazione identificata nel passaggio 1. Se ritieni che la valutazione non descriva completamente l'ampiezza e la profondità della tua applicazione, esegui ulteriori valutazioni.

Se non hai un modo automatico per eseguire le valutazioni offline, ti consigliamo di utilizzare il servizio di valutazione dell'IA generativa.

Se la tua applicazione utilizza la messa a punto fine, esegui la valutazione offline prima di ottimizzare nuovamente il modello con Gemini 2. La qualità di output migliorata di Gemini 2 potrebbe significare che la tua applicazione non richiede più un modello ottimizzato.

Valutare i risultati della valutazione e ottimizzare i prompt e gli iperparametri di Gemini 2

Passaggio 5: valuta i risultati e perfeziona i prompt

Se la valutazione offline mostra un calo del rendimento con Gemini 2, esegui l'iterazione dell'applicazione come segue finché il rendimento di Gemini non corrisponde a quello del modello precedente:

Progetta in modo iterativo i prompt per migliorare il rendimento ("Hill Climbing"). Se non hai mai utilizzato la tecnica di hill climbing, consulta la formazione online su hill climbing di Vertex Gemini. Anche l'ottimizzatore di prompt di Vertex AI (notebook di esempio) può essere utile.
Se la tua applicazione si basa già sulla messa a punto, prova a eseguire la messa a punto di Gemini 2.
Se la tua applicazione è interessata dalle modifiche che interessano il recupero dinamico e i risultati Top-K, prova a modificare i parametri di campionamento dei prompt e dei token.

Test di carico

Passaggio 6: esegui test di carico

Se la tua applicazione richiede una determinata velocità effettiva minima, esegui test di carico per assicurarti che la versione Gemini 2 dell'applicazione soddisfi i tuoi requisiti di velocità effettiva.

I test di carico devono essere eseguiti prima della valutazione online, perché questa richiede l'esposizione di Gemini 2 al traffico di produzione. Per eseguire questo passaggio, utilizza la tua strumentazione di test di carico esistente.

Se la tua applicazione soddisfa già i requisiti di throughput, ti consigliamo di utilizzare la portata pianificata. Avrai bisogno di un'ulteriore velocità effettiva sottoposta a provisioning a breve termine per coprire i test di carico mentre l'ordine di velocità effettiva sottoposta a provisioning esistente continua a gestire il traffico di produzione.

Valutazione online

Passaggio 7: esegui la valutazione online

Procedi alla valutazione online solo se la valutazione offline mostra una qualità dell'output di Gemini adeguata e la tua applicazione richiede la valutazione online.

La valutazione online è un caso speciale di test online. Prova a utilizzare gli strumenti e le procedure esistenti della tua organizzazione per la valutazione online. Ad esempio:

Se la tua organizzazione esegue regolarmente test A/B, esegui un test A/B che valuti l'implementazione attuale della tua applicazione rispetto alla versione Gemini 2.
Se la tua organizzazione esegue regolarmente deployment Canary, assicurati di farlo con Gemini 2 e di misurare le differenze nel comportamento degli utenti.

La valutazione online può essere eseguita anche integrando nuove funzionalità di feedback e misurazione nella tua applicazione. Funzionalità di feedback e misurazione diverse sono appropriate per applicazioni diverse. Ad esempio:

Aggiunta di pulsanti Mi piace e Non mi piace accanto agli output del modello e confronto delle percentuali di Mi piace e Non mi piace tra un modello precedente e Gemini 2.
Presentare agli utenti le uscite del modello precedente e di Gemini 2 una accanto all'altra e chiedere loro di scegliere la preferita.
Monitoraggio della frequenza con cui gli utenti sostituiscono o regolano manualmente le uscite del modello precedente rispetto a quelle di Gemini 2.

Questi tipi di meccanismi di feedback spesso richiedono l'esecuzione di una versione Gemini 2 dell'applicazione in parallelo alla versione esistente. Questo deployment parallelo è a volte chiamato "modalità shadow" o "deployment blu/verde".

Se i risultati della valutazione online differiscono notevolmente da quelli della valutazione offline, la valutazione offline non acquisisce aspetti chiave dell'ambiente di produzione o dell'esperienza utente. Utilizza i risultati della valutazione online per ideare una nuova valutazione offline che copra la lacuna rilevata dalla valutazione online, quindi torna al passaggio 3.

Se utilizzi la funzionalità Throughput Provisioning, potresti dover acquistare ulteriore Throughput Provisioning a breve termine per continuare a soddisfare i requisiti di throughput per gli utenti soggetti a valutazione online.

Deployment in produzione

Passaggio 8: esegui il deployment in produzione

Una volta che la valutazione mostra che Gemini 2 soddisfa o supera le prestazioni di un modello precedente, disattiva la versione esistente della tua applicazione in favore della versione Gemini 2. Segui le procedure esistenti della tua organizzazione per l'implementazione in produzione.

Se utilizzi il throughput riservato, modifica l'ordine di throughput riservato in base al modello Gemini 2 scelto. Se implementi l'applicazione in modo incrementale, utilizza la funzionalità Throughput Provisioning a breve termine per soddisfare i requisiti di throughput per due diversi modelli Gemini.

Migliorare le prestazioni del modello

Al termine della migrazione, segui questi suggerimenti per massimizzare il rendimento del modello Gemini 2:

Controlla le istruzioni di sistema, i prompt e gli esempi di apprendimento con pochi esempi per verificare la presenza di incoerenze, contraddizioni o istruzioni ed esempi non pertinenti.
Prova un modello più potente. Ad esempio, se hai valutato Gemini 2.0 Flash-Lite, prova Gemini 2.0 Flash.
Esamina i risultati della valutazione automatica per assicurarti che corrispondano al giudizio umano, in particolare i risultati che utilizzano un modello di giudice. Assicurati che le istruzioni del modello di valutazione non contengano incoerenze o ambiguità.
Un modo per migliorare le istruzioni del modello di valutazione è testarle in modo isolato con più persone e verificare se i loro giudizi sono coerenti. Se gli esseri umani interpretano le istruzioni in modo diverso e formulano giudizi diversi, le istruzioni del modello di giudice sono ambigue.
Ottimizza il modello Gemini 2.
Esamina gli output della valutazione per cercare schemi che mostrano tipi specifici di errori. Raggruppare gli errori in modelli, tipi o categorie diversi ti consente di ottenere dati di valutazione più mirati, il che semplifica la modifica dei prompt per risolvere questi errori.
Assicurati di valutare in modo indipendente i diversi componenti dell'AI generativa.
Prova a modificare i parametri di campionamento dei token.

Assistenza

Se hai bisogno di aiuto, Google Cloud offre pacchetti di assistenza per soddisfare le tue esigenze, come copertura 24 ore su 24, 7 giorni su 7, assistenza telefonica e accesso a un responsabile dell'assistenza tecnica. Per ulteriori informazioni, consulta l'assistenza Google Cloud.

Passaggi successivi

Leggi l'elenco delle domande frequenti.
Esegui la migrazione dall'API PaLM all'API Gemini in Vertex AI.