I modelli Anthropic Claude offrono la memorizzazione nella cache dei prompt per ridurre la latenza e i costi quando si riutilizzano gli stessi contenuti in più richieste. Quando invii una query, puoi memorizzare nella cache tutte le parti o parti specifiche dell'input in modo che le query successive possano utilizzare i risultati memorizzati nella cache della richiesta precedente. In questo modo si evitano costi aggiuntivi di calcolo e di rete. Le cache sono univoche per il tuo progetto Google Cloud e non possono essere utilizzate da altri progetti.
Per informazioni dettagliate su come strutturare i prompt, consulta la documentazione sulla memorizzazione nella cache dei prompt di Anthropic.
Modelli Anthropic Claude supportati
Vertex AI supporta la memorizzazione nella cache dei prompt per i seguenti modelli Anthropic Claude:
- Claude Opus 4
- Claude Sonnet 4
- Claude 3.7 Sonnet
- Claude 3.5 Sonnet v2
- Claude 3.5 Haiku
- Claude 3.5 Sonnet
- Claude 3 Opus
- Claude 3 Haiku
Trattamento dati
La memorizzazione nella cache dei prompt espliciti di Anthropic è una funzionalità dei modelli Anthropic Claude. L'offerta Vertex AI di questi modelli Anthropic si comporta come descritto nella documentazione di Anthropic.
La memorizzazione nella cache dei prompt è una funzionalità facoltativa. Claude calcola gli hash (impronte) delle richieste per le chiavi di memorizzazione nella cache. Questi hash vengono calcolati solo per le richieste per cui è abilitata la memorizzazione nella cache.
Sebbene la memorizzazione nella cache dei prompt sia una funzionalità implementata dai modelli Claude, dal punto di vista della gestione dei dati, Google considera questi hash un tipo di "metadati utente". Sono trattati come "Dati di servizio" dei clienti ai sensi dell'Google Cloud Informativa sulla privacy e non come "Dati dei clienti" ai sensi dell'Addendum per il trattamento dei dati Cloud (clienti). In particolare, le protezioni aggiuntive per i "Dati dei clienti" non si applicano a questi hash. Google non utilizza questi hash per altri scopi.
Se vuoi disattivare completamente questa funzionalità di memorizzazione nella cache dei prompt e renderla non disponibile in progetti Google Cloud specifici, puoi richiederlo contattando l'assistenza clienti e fornendo i numeri di progetto pertinenti. Dopo aver disattivato la memorizzazione nella cache esplicita per un progetto, le richieste del progetto con la memorizzazione nella cache dei prompt abilitata vengono rifiutate.
Utilizzare la memorizzazione nella cache dei prompt
Puoi utilizzare l'SDK Anthropic Claude o l'API REST Vertex AI per inviare richieste all'endpoint Vertex AI.
Per ulteriori informazioni, consulta Come funziona la memorizzazione nella cache dei prompt.
Per altri esempi, consulta gli esempi di memorizzazione nella cache dei prompt nella documentazione di Anthropic.
La memorizzazione nella cache avviene automaticamente quando le richieste successive contengono lo stesso testo, le stesse immagini e lo stesso parametro cache_control
della prima richiesta. Tutte le richieste
devono includere anche il parametro cache_control
negli stessi blocchi.
La cache ha una durata di cinque minuti. Viene aggiornato ogni volta che si accede ai contenuti memorizzati nella cache.
Prezzi
La memorizzazione nella cache dei prompt può influire sui costi di fatturazione. Ricorda:
- I token di scrittura della cache costano il 25% in più rispetto ai token di input di base
- I token di lettura della cache costano il 90% in meno rispetto ai token di input di base
- I token di input e output regolari hanno tariffe standard
Per ulteriori informazioni, consulta la pagina dei prezzi.