La memorizzazione nella cache del contesto ha lo scopo di ridurre il costo e la latenza delle richieste a Gemini che contengono contenuti ripetuti.
Per impostazione predefinita, Google memorizza automaticamente nella cache gli input per tutti i modelli Gemini per ridurre la latenza e accelerare le risposte ai prompt successivi.
Per i modelli Gemini 2.5 Flash (conteggio minimo dei token di input pari a 1024) e Gemini 2.5 Pro (conteggio minimo dei token di input pari a 2048), i token di input memorizzati nella cache vengono addebitati con uno sconto del 75% rispetto ai token di input standard quando si verifica un successo della cache.
Visualizza le informazioni sul token di successo della cache nel campo dei metadati delle risposte. Per disattivare questa funzionalità, consulta AI generativa e governance dei dati.
Tramite l'API Vertex AI, puoi creare cache contestuali ed esercitare un maggiore controllo su di esse:
- Utilizzo di una cache contestuale facendo riferimento ai suoi contenuti in una richiesta di prompt con il nome della risorsa.
- Aggiornamento del tempo di scadenza (TTL) di una cache di contesto oltre i 60 minuti predefiniti.
- Eliminare una cache del contesto quando non ti serve più.
Puoi anche utilizzare l'API Vertex AI per ottenere informazioni su una cache del contesto.
Tieni presente che le richieste di memorizzazione nella cache che utilizzano l'API Vertex AI addebitano i token di input con lo stesso sconto del 75% rispetto ai token di input standard e garantiscono un risparmio sui costi. È previsto anche un addebito per l'archiviazione in base al periodo di tempo in cui i dati vengono archiviati.
Quando utilizzare la memorizzazione nella cache del contesto
La memorizzazione nella cache del contesto è particolarmente adatta agli scenari in cui un contesto iniziale sostanziale viene referenziato ripetutamente da richieste successive.
Gli elementi di contesto memorizzati nella cache, come una grande quantità di testo, un file audio o un file video, possono essere utilizzati nelle richieste di prompt all'API Gemini per generare output. Le richieste che utilizzano la stessa cache nel prompt includono anche testo univoco per ogni prompt. Ad esempio, ogni richiesta di prompt che compone una conversazione di chat potrebbe includere la stessa cache di contesto che fa riferimento a un video insieme a un testo univoco che comprende ogni turno della chat.
Valuta la possibilità di utilizzare la memorizzazione nella cache del contesto per casi d'uso come:
- Chatbot con istruzioni di sistema dettagliate
- Analisi ripetitiva di file video di grandi dimensioni
- Query ricorrenti su grandi set di documenti
- Analisi frequente del repository di codici o correzione di bug
Efficienza in termini di costi tramite la memorizzazione nella cache
La memorizzazione nella cache del contesto è una funzionalità a pagamento progettata per ridurre i costi operativi complessivi. La fatturazione si basa sui seguenti fattori:
- Conteggio token cache:il numero di token di input memorizzati nella cache, fatturati a una tariffa ridotta se inclusi nei prompt successivi.
- Durata dell'archiviazione: il periodo di tempo in cui i token memorizzati nella cache vengono archiviati, fatturati ogni ora. I token memorizzati nella cache vengono eliminati alla scadenza di una cache di contesto.
- Altri fattori: si applicano altri addebiti, ad esempio per i token di input non memorizzati nella cache e per i token di output.
Il numero di token nella parte memorizzata nella cache dell'input è indicato nel campo
dei metadati della risposta, nel campo cachedContentTokenCount
.
Il supporto della memorizzazione nella cache contestuale per il throughput riservato è in anteprima per la memorizzazione nella cache predefinita. La memorizzazione nella cache del contesto tramite l'API Vertex AI non è supportata per il throughput di cui è stato eseguito il provisioning. Per saperne di più, consulta la guida al throughput di cui è stato eseguito il provisioning.
Modelli supportati
I seguenti modelli Gemini supportano la memorizzazione nella cache del contesto:
- Gemini 2.5 Flash-Lite
Anteprima - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Per saperne di più, consulta Versioni del modello stabile di Gemini disponibili. Tieni presente che la memorizzazione nella cache del contesto supporta tutti i tipi MIME per i modelli supportati.
Disponibilità
La memorizzazione nella cache del contesto è disponibile nelle regioni in cui è disponibile l'AI generativa su Vertex AI. Per ulteriori informazioni, consulta la pagina Località dell'AI generativa su Vertex AI.
Supporto dei Controlli di servizio VPC
La memorizzazione nella cache del contesto supporta i Controlli di servizio VPC, il che significa che la cache non può essere esfiltrata oltre il perimetro di servizio. Se utilizzi Cloud Storage per creare la cache, includi anche il bucket nel perimetro di servizio per proteggere i contenuti della cache.
Per ulteriori informazioni, consulta Controlli di servizio VPC con Vertex AI nella documentazione di Vertex AI.
Passaggi successivi
- Scopri di più sull'API Gemini.
- Scopri come utilizzare i prompt multimodali.