Questa pagina è stata tradotta dall'API Cloud Translation.

Previsione batch con Gemini

Ottieni previsioni asincrone, ad alta velocità effettiva ed economiche per le tue esigenze di elaborazione dei dati su larga scala con le funzionalità di previsione batch di Gemini. Questa guida illustra il valore della previsione batch, il suo funzionamento, i suoi limiti e le best practice per ottenere risultati ottimali.

Perché utilizzare la previsione batch?

In molti scenari reali, non è necessaria una risposta immediata da un modello linguistico. Potresti invece avere un ampio set di dati di prompt che devi elaborare in modo efficiente ed economico. È qui che le previsioni batch danno il meglio di sé.

I vantaggi principali includono:

Convenienza:l'elaborazione batch viene offerta a una tariffa scontata del 50% rispetto alla previsione in tempo reale, il che la rende ideale per attività su larga scala e non urgenti. La memorizzazione nella cache implicita è attivata per impostazione predefinita per Gemini 2.5 Pro, Gemini 2.5 Flash e Gemini 2.5 Flash-Lite. La memorizzazione nella cache implicita offre uno sconto del 75% sui token memorizzati nella cache rispetto ai token di input standard. Tuttavia, gli sconti per la cache e il batch non sono cumulabili. Lo sconto del 75% per successo della cache ha la precedenza sullo sconto batch.
Limiti di frequenza elevati:elabora centinaia di migliaia di richieste in un singolo batch con un limite di frequenza più elevato rispetto all'API Gemini in tempo reale.
Flusso di lavoro semplificato:anziché gestire una pipeline complessa di singole richieste in tempo reale, puoi inviare un singolo job batch e recuperare i risultati al termine dell'elaborazione. Il servizio gestirà la convalida del formato, parallelizzerà le richieste per l'elaborazione simultanea e riproverà automaticamente a ottenere un tasso di completamento elevato con un tempo di risposta di 24 ore.

La previsione batch è ottimizzata per attività di elaborazione su larga scala come:

Generazione di contenuti: genera descrizioni di prodotti, post sui social media o altri testi creativi in blocco.
Annotazione e classificazione dei dati: classifica le recensioni degli utenti, categorizza i documenti o esegui l'analisi del sentiment su un ampio corpus di testo.
Analisi offline: riassumi articoli, estrai informazioni chiave da report o traduci documenti su larga scala.

Modelli Gemini che supportano le previsioni batch

I seguenti modelli Gemini di base e ottimizzati supportano le previsioni batch:

Supporto del modello di endpoint globale

La previsione batch supporta l'utilizzo dell'endpoint globale per i modelli Gemini di base. Non supporta l'endpoint globale per i modelli Gemini ottimizzati.

L'anteprima pubblica del supporto della previsione batch per gli endpoint globali non supporta le tabelle BigQuery come input o output.

L'endpoint globale contribuisce a migliorare la disponibilità complessiva gestendo le richieste da qualsiasi regione supportata dal modello che stai utilizzando. Tieni presente che non supporta i requisiti di residenza dei dati. Se hai requisiti di residenza dei dati, utilizza gli endpoint regionali.

Quote e limiti

Sebbene la previsione batch sia potente, è importante tenere presenti le seguenti limitazioni.

Quota: non esistono limiti di quota predefiniti per il tuo utilizzo. Il servizio batch fornisce invece l'accesso a un ampio pool condiviso di risorse, allocate dinamicamente in base alla disponibilità delle risorse e alla domanda in tempo reale di tutti i clienti di quel modello. Quando più clienti sono attivi e la nostra capacità è satura, le richieste batch potrebbero essere messe in coda per capacità.
Tempo di attesa: quando il nostro servizio registra un traffico elevato, il tuo job batch viene messo in coda per capacità. Il job rimarrà in coda fino a 72 ore prima di scadere.
Limiti delle richieste: un singolo job batch può includere fino a 200.000 richieste. Se utilizzi Cloud Storage come input, è previsto anche un limite di dimensione dei file pari a 1 GB.
Tempo di elaborazione: i job batch vengono elaborati in modo asincrono e non sono progettati per applicazioni in tempo reale. La maggior parte dei job viene completata entro 24 ore dall'inizio dell'esecuzione (senza contare il tempo di attesa in coda). Dopo 24 ore, i lavori incompleti verranno annullati e ti verrà addebitato solo l'importo delle richieste completate.
Funzionalità non supportate: la previsione batch non supporta la memorizzazione nella cache esplicita o RAG. La memorizzazione nella cache implicita delle previsioni batch non è supportata in Gemini 2.0 Flash o Gemini 2.0 Flash-Lite.

Best practice

Per ottenere il massimo dalla previsione batch con Gemini, ti consigliamo di adottare le seguenti best practice:

Combina i job:per massimizzare la velocità effettiva, combina i job più piccoli in un unico job di grandi dimensioni, entro i limiti del sistema. Ad esempio, l'invio di un job batch con 200.000 richieste offre un throughput migliore rispetto a 1000 job con 200 richieste ciascuno.
Monitora lo stato del job:puoi monitorare l'avanzamento del job utilizzando l'API, l'SDK o la UI. Per saperne di più, vedi Monitorare lo stato del job. Se un job non viene completato, controlla i messaggi di errore per diagnosticare e risolvere il problema.
Ottimizza per il costo:approfitta del risparmio sui costi offerto dall'elaborazione batch per le attività che non richiedono una risposta immediata.

Passaggi successivi

Crea un job batch con Cloud Storage
Crea un job batch con BigQuery
Scopri come ottimizzare un modello Gemini in Panoramica dell'ottimizzazione dei modelli per Gemini
Scopri di più sull' API Batch Prediction.