Informazioni sull'ottimizzazione fine supervisionata per i modelli Gemini

L'ottimizzazione supervisionata è una validissima opzione se hai un'attività ben definita con dati etichettati disponibili. È particolarmente efficace per applicazioni specifiche del dominio in cui la lingua o i contenuti sono molto diversi dai dati su cui è stato originariamente addestrato il modello di grandi dimensioni. Puoi ottimizzare i tipi di dati testo, immagine, audio e documento.

L'ottimizzazione supervisionata adatta il comportamento del modello a un set di dati etichettato. Questo processo aggiusta i pesi del modello per ridurre al minimo la differenza tra le sue previsioni e le etichette effettive. Ad esempio, può migliorare le prestazioni del modello per i seguenti tipi di attività:

  • Classificazione
  • Riassunto
  • Ricerca di risposte estrattive alle domande
  • Chat

Per una discussione sui principali casi d'uso di ottimizzazione, consulta il post del blog Centinaia di organizzazioni stanno ottimizzando i modelli Gemini. Ecco i loro casi d'uso preferiti.

Per scoprire di più, consulta Quando utilizzare la messa a punto supervisionata per Gemini.

Modelli supportati

I seguenti modelli Gemini supportano l'ottimizzazione supervisionata:

  • Gemini 2.0 Flash
  • Gemini 1.5 Flash
  • Gemini 1.5 Pro

Limitazioni

Gemini 2.0 Flash

Specifica Valore
Token di addestramento di input e output massimi 131.072
Token di pubblicazione di input e output massimi 131.072
Dimensioni massime del set di dati di convalida 5000 esempi
Dimensioni massime del file del set di dati di addestramento 1 GB per JSONL
Dimensione massima del set di dati di addestramento 1 milione di esempi di solo testo o 300.000 esempi multimodali
Dimensioni adattatore I valori supportati sono 1, 2, 4 e 8.

Gemini 1.5 Flash

Specifica Valore
Token di addestramento di input e output massimi 131.072
Token di pubblicazione di input e output massimi 131.072
Dimensioni massime del set di dati di convalida 5000 esempi
Dimensioni massime del file del set di dati di addestramento 1 GB per JSONL
Dimensione massima del set di dati di addestramento 1 milione di esempi di solo testo o 300.000 esempi multimodali
Dimensioni adattatore I valori supportati sono 1, 4 e 8 (il valore predefinito è 8).

Gemini 1.5 Pro

Specifica Valore
Token di addestramento di input e output massimi 32.768
Token di pubblicazione di input e output massimi 32.768
Dimensioni massime del set di dati di convalida 5000 esempi
Dimensioni massime del file del set di dati di addestramento 1 GB per JSONL
Dimensione massima del set di dati di addestramento 1 milione di esempi di solo testo o 300.000 esempi multimodali
Dimensioni adattatore I valori supportati sono 1 e 4 (il valore predefinito è 4). L'utilizzo di valori più elevati (ad esempio 8 o 16) comporta un errore.

Problemi noti

  • Un modello Gemini ottimizzato non può essere eliminato dal registro dei modelli di Vertex AI. Tuttavia, finché è inattivo, non verranno addebitati costi di inferenza.
  • L'applicazione della generazione controllata al momento dell'invio di richieste di inferenza ai modelli Gemini ottimizzati può comportare una diminuzione della qualità del modello a causa del disallineamento dei dati durante l'ottimizzazione e l'inferenza. Durante la regolazione, la generazione controllata non viene applicata, pertanto il modello ottimizzato non è in grado di gestire bene la generazione controllata al momento dell'inferenza. L'ottimizzazione supervisionata personalizza in modo efficace il modello per generare output strutturato. Pertanto, non è necessario applicare la generazione controllata quando si effettuano richieste di inferenza su modelli ottimizzati.

Casi d'uso per l'utilizzo della messa a punto supervisionata

I modelli di base funzionano bene quando l'output o l'attività previsti possono essere definiti in modo chiaro e conciso in un prompt e il prompt produce in modo coerente l'output previsto. Se vuoi che un modello apprenda qualcosa di poco noto o specifico che si discosta dai modelli generali, ti consigliamo di ottimizzarlo. Ad esempio, puoi utilizzare la regolazione del modello per insegnare al modello quanto segue:

  • Strutture o formati specifici per la generazione di output.
  • Comportamenti specifici, ad esempio quando fornire un output conciso o dettagliato.
  • Output personalizzati specifici per tipi specifici di input.

I seguenti esempi sono casi d'uso difficili da acquisire solo con le istruzioni prompt:

  • Classificazione: la risposta prevista è una parola o una frase specifica.

    La regolazione del modello può contribuire a evitare che generi risposte verbose.

  • Riassunto: il riassunto segue un formato specifico. Ad esempio, potresti dover rimuovere informazioni che consentono l'identificazione personale (PII) nel riepilogo di una chat.

    Questa formattazione che sostituisce i nomi degli altoparlanti con #Person1 e #Person2 è difficile da descrivere e il modello di base potrebbe non produrre una risposta naturale di questo tipo.

  • Question answering estrattivo: la domanda riguarda un contesto e la risposta è una sottostringa del contesto.

    La risposta "Last Glacial Maximum" è una frase specifica del contesto.

  • Chat: devi personalizzare la risposta del modello in base a una persona, un ruolo o un personaggio.

Puoi ottimizzare un modello anche nelle seguenti situazioni:

  • I prompt non producono i risultati previsti in modo sufficientemente coerente.
  • L'attività è troppo complicata per essere definita in un prompt. Ad esempio, vuoi che il modello esegua la clonazione del comportamento per un comportamento difficile da esprimere in un prompt.
  • Hai intuizioni complesse su un'attività che sono difficili da formalizzare in un prompt.
  • Vuoi ridurre la lunghezza del contesto rimuovendo gli esempi con pochi esempi.

Configurare una regione per il job di ottimizzazione

I dati utente, come il set di dati trasformato e il modello ottimizzato, vengono archiviati nella regione del job di ottimizzazione. Durante la messa a punto, il calcolo potrebbe essere trasferito ad altre regioni US o EU per gli acceleratori disponibili. Lo scambio è trasparente per gli utenti.

  • Se utilizzi l'SDK Vertex AI, puoi specificare la regione all'inizializzazione. Ad esempio:

    import vertexai
    vertexai.init(project='myproject', location='us-central1')
    
  • Se crei un job di ottimizzazione fine supervisionata inviando una richiesta POST utilizzando il metodo tuningJobs.create, utilizza l'URL per specificare la regione in cui viene eseguito il job di ottimizzazione. Ad esempio, nell'URL seguente, specifichi una regione sostituendo entrambe le istanze di TUNING_JOB_REGION con la regione in cui viene eseguito il job.

     https://TUNING_JOB_REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/TUNING_JOB_REGION/tuningJobs
    
  • Se utilizzi la console Google Cloud, puoi selezionare il nome della regione nel campo a discesa Regione nella pagina Dettagli del modello. Si tratta della stessa pagina in cui selezioni il modello di base e un nome per il modello ottimizzato.

Quota

La quota viene applicata al numero di job di ottimizzazione simultanei. Ogni progetto viene fornito con una quota predefinita per l'esecuzione di almeno un job di ottimizzazione. Si tratta di una quota globale, condivisa tra tutte le regioni disponibili e i modelli supportati. Se vuoi eseguire più job contemporaneamente, devi richiedere una quota aggiuntiva per Global concurrent tuning jobs.

Prezzi

I prezzi per l'ottimizzazione dei modelli Gemini sono disponibili qui: Prezzi di Vertex AI.

I token di addestramento vengono calcolati moltiplicando il numero totale di token nel set di dati di addestramento per il numero di epoche. Per tutti i modelli, dopo l'ottimizzazione, si applicano comunque i costi di inferenza per il modello ottimizzato. I prezzi di inferenza sono gli stessi per ogni versione stabile di Gemini. Per ulteriori informazioni, consulta Prezzi di Vertex AI e Versioni stabili dei modelli Gemini disponibili.

Passaggi successivi