A partire dal 29 aprile 2025, i modelli Gemini 1.5 Pro e Gemini 1.5 Flash non sono disponibili nei progetti che non li hanno mai utilizzati, inclusi i nuovi progetti. Per maggiori dettagli, vedi Versioni e ciclo di vita dei modelli.

Questa pagina è stata tradotta dall'API Cloud Translation.

Memorizzazione nella cache dei prompt

I modelli Anthropic Claude offrono la memorizzazione nella cache dei prompt per ridurre la latenza e i costi quando si riutilizzano gli stessi contenuti in più richieste. Quando invii una query, puoi memorizzare nella cache tutte le parti o parti specifiche dell'input in modo che le query successive possano utilizzare i risultati memorizzati nella cache della richiesta precedente. In questo modo si evitano costi aggiuntivi di calcolo e di rete. Le cache sono univoche per il tuo progetto Google Cloud e non possono essere utilizzate da altri progetti.

Per informazioni dettagliate su come strutturare i prompt, consulta la documentazione relativa alla memorizzazione nella cache dei prompt di Anthropic.

Modelli Anthropic Claude supportati

Vertex AI supporta la memorizzazione nella cache dei prompt per i seguenti modelli Anthropic Claude:

Trattamento dati

La memorizzazione nella cache dei prompt espliciti di Anthropic è una funzionalità dei modelli Anthropic Claude. L'offerta Vertex AI di questi modelli Anthropic si comporta come descritto nella documentazione di Anthropic.

La memorizzazione nella cache dei prompt è una funzionalità facoltativa. Claude calcola gli hash (impronte) delle richieste per le chiavi di memorizzazione nella cache. Questi hash vengono calcolati solo per le richieste per cui è abilitata la memorizzazione nella cache.

Sebbene la memorizzazione nella cache dei prompt sia una funzionalità implementata dai modelli Claude, dal punto di vista della gestione dei dati, Google considera questi hash un tipo di "metadati utente". Sono trattati come "Dati di servizio" dei clienti ai sensi dell'Google Cloud Informativa sulla privacy e non come "Dati dei clienti" ai sensi dell'Addendum per il trattamento dei dati Cloud (clienti). In particolare, le protezioni aggiuntive per i "Dati dei clienti" non si applicano a questi hash. Google non utilizza questi hash per altri scopi.

Se vuoi disattivare completamente questa funzionalità di memorizzazione nella cache dei prompt e renderla non disponibile in progetti Google Cloud specifici, puoi richiederlo contattando l'assistenza clienti e fornendo i numeri di progetto pertinenti. Dopo aver disattivato la memorizzazione nella cache esplicita per un progetto, le richieste del progetto con la memorizzazione nella cache dei prompt abilitata vengono rifiutate.

Utilizzare la memorizzazione nella cache dei prompt

Puoi utilizzare l'SDK Anthropic Claude o l'API REST Vertex AI per inviare richieste all'endpoint Vertex AI.

Per ulteriori informazioni, consulta Come funziona la memorizzazione nella cache dei prompt.

Per altri esempi, consulta gli Esempi di memorizzazione nella cache dei prompt nella documentazione di Anthropic.

La memorizzazione nella cache avviene automaticamente quando le richieste successive contengono lo stesso testo, le stesse immagini e lo stesso parametro cache_control della prima richiesta. Tutte le richieste devono includere anche il parametro cache_control negli stessi blocchi.

La cache ha una durata di cinque minuti. Viene aggiornato ogni volta che si accede ai contenuti memorizzati nella cache.

Prezzi

La memorizzazione nella cache dei prompt può influire sui costi di fatturazione. Ricorda:

I token di scrittura della cache costano il 25% in più rispetto ai token di input di base
I token di lettura della cache costano il 90% in meno rispetto ai token di input di base
I token di input e output regolari hanno tariffe standard

Per ulteriori informazioni, consulta la pagina dei prezzi.

Memorizzazione nella cache dei prompt Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Modelli Anthropic Claude supportati

Trattamento dati

Utilizzare la memorizzazione nella cache dei prompt

Prezzi

Memorizzazione nella cache dei prompt