Panoramica della memorizzazione nella cache del contesto

Utilizza la cache del contesto per ridurre il costo delle richieste che contengono contenuti ripetuti con un numero elevato di token di input. Gli elementi di contesto memorizzati nella cache, ad esempio una grande quantità di testo, un file audio o un file video, possono essere utilizzati nelle richieste di prompt all'API Gemini per generare output. Le richieste che utilizzano la stessa cache nel prompt includono anche un testo univoco per ogni prompt. Ad esempio, ogni richiesta di prompt che compone una conversazione di chat potrebbe includere la stessa cache di contesto che fa riferimento a un video, insieme a un testo univoco che compone ogni turno nella chat. La dimensione minima di una cache di contesto è 32.768 token.

Disambiguazione della memorizzazione nella cache

Per impostazione predefinita, Google memorizza nella cache gli input e gli output per i modelli Gemini per ridurre la latenza e accelerare le risposte ai prompt successivi. Per maggiori dettagli su questo tipo di memorizzazione nella cache e su come disattivarla, consulta IA generativa e governance dei dati.

La memorizzazione nella cache del contesto descritta in questa pagina si riferisce alla memorizzazione nella cache di contenuti specifici del prompt controllati dall'utente utilizzando l'API Vertex AI.

Modelli supportati

I seguenti modelli supportano la memorizzazione nella cache del contesto:

  • Versioni stabili di Gemini 1.5 Flash
  • Versioni stabili di Gemini 1.5 Pro

Per saperne di più, consulta Le versioni dei modelli stabili di Gemini disponibili.

La memorizzazione nella cache del contesto è disponibile nelle regioni in cui è disponibile l'IA generativa su Vertex AI. Per ulteriori informazioni, consulta Località dell'IA generativa su Vertex AI.

Tipi MIME supportati

La memorizzazione nella cache del contesto supporta i seguenti tipi MIME:

  • application/pdf
  • audio/mp3
  • audio/mpeg
  • audio/wav
  • image/jpeg
  • image/png
  • text/plain
  • video/avi
  • video/flv
  • video/mov
  • video/mp4
  • video/mpeg
  • video/mpegps
  • video/mpg
  • video/wmv

Quando utilizzare la memorizzazione nella cache del contesto

La memorizzazione nella cache del contesto è particolarmente adatta a scenari in cui un contesto iniziale sostanziale viene fatto riferimento ripetutamente da richieste più brevi. Valuta la possibilità di utilizzare la memorizzazione nella cache del contesto per casi d'uso come:

  • Chatbot con istruzioni di sistema dettagliate
  • Analisi ripetitiva di file video di grandi dimensioni
  • Query ricorrenti su insiemi di documenti di grandi dimensioni
  • Analisi frequenti del repository di codice o correzione di bug

Efficienza in termini di costi tramite la memorizzazione nella cache

La memorizzazione nella cache del contesto è una funzionalità a pagamento progettata per ridurre i costi operativi complessivi. La fatturazione si basa sui seguenti fattori:

  • Numero di token della cache:il numero di token di input memorizzati nella cache, fatturati a un tariffa ridotta se inclusi nei prompt successivi.
  • Durata di archiviazione:il periodo di tempo per cui vengono archiviati i token memorizzati nella cache, fatturato su base oraria. I token memorizzati nella cache vengono eliminati alla scadenza di una cache di contesto.
  • Altri fattori: si applicano altri addebiti, ad esempio per i token di input e di output non memorizzati nella cache.
per informazioni su Gemini e sulla memorizzazione nella cache del contesto.

La memorizzazione nella cache del contesto non supporta il throughput pianificato. Le richieste di throughput pianificato che utilizzano la memorizzazione nella cache del contesto vengono trattate come a consumo.

Come utilizzare una cache di contesto

Per utilizzare la memorizzazione nella cache del contesto, devi prima creare la cache del contesto. Per fare riferimento ai contenuti della cache di contesto in una richiesta di prompt, utilizza il nome della risorsa. Puoi trovare il nome della risorsa di una cache di contesto nella risposta del comando utilizzato per crearla.

Ogni cache di contesto ha una scadenza predefinita di 60 minuti dopo la relativa ora di creazione. Se necessario, puoi specificare una data di scadenza diversa quando crei la cache di contesto o aggiornare la data di scadenza di una cache di contesto non scaduta.

I seguenti argomenti includono dettagli ed esempi che ti aiutano a creare, utilizzare, aggiornare, ottenere informazioni ed eliminare una cache di contesto:

Supporto dei Controlli di servizio VPC

La memorizzazione nella cache del contesto supporta i Controlli di servizio VPC, il che significa che la cache non può essere esfiltrata oltre il perimetro del servizio. Se utilizzi Cloud Storage per costruire la cache, includi il bucket anche nel perimetro di servizio per difendere i contenuti della cache.

Per ulteriori informazioni, consulta Controlli di servizio VPC con Vertex AI nella documentazione di Vertex AI.

Passaggi successivi