Mise en cache des requêtes

Les modèles Anthropic Claude proposent la mise en cache des requêtes pour réduire la latence et les coûts lorsque le même contenu est réutilisé dans plusieurs requêtes. Lorsque vous envoyez une requête, vous pouvez mettre en cache tout ou partie de votre saisie afin que les requêtes suivantes puissent utiliser les résultats mis en cache de la requête précédente. Cela évite des coûts de calcul et de réseau supplémentaires. Les caches sont propres à votre projet Google Cloud et ne peuvent pas être utilisés par d'autres projets.

Pour savoir comment structurer vos requêtes, consultez la documentation Anthropic sur la mise en cache des requêtes.

Modèles Anthropic Claude compatibles

Vertex AI est compatible avec la mise en cache des requêtes pour les modèles Anthropic Claude suivants :

Traitement des données

La mise en cache explicite des requêtes Anthropic est une fonctionnalité des modèles Anthropic Claude. L'offre Vertex AI de ces modèles Anthropic se comporte comme décrit dans la documentation Anthropic.

La mise en cache des requêtes est une fonctionnalité facultative. Claude calcule les hachages (empreintes digitales) des requêtes pour les clés de mise en cache. Ces hachages ne sont calculés que pour les requêtes pour lesquelles la mise en cache est activée.

Bien que la mise en cache des requêtes soit une fonctionnalité implémentée par les modèles Claude, du point de vue du traitement des données, Google considère ces hachages comme un type de "métadonnées utilisateur". Elles sont traitées comme des "Données de service" client en vertu de l'Google CloudAvis de confidentialité et non comme des "Données client" en vertu de l'Avenant relatif au traitement des données dans le cloud (clients). En particulier, les protections supplémentaires pour les "Données client" ne s'appliquent pas à ces hachages. Google n'utilise pas ces hachages à d'autres fins.

Si vous souhaitez désactiver complètement cette fonctionnalité de mise en cache des invites et la rendre indisponible dans certains projets Google Cloud , vous pouvez en faire la demande en contactant le service client et en fournissant les numéros de projet concernés. Une fois la mise en cache explicite désactivée pour un projet, les requêtes provenant du projet avec la mise en cache d'invite activée sont refusées.

Utiliser la mise en cache des requêtes

Vous pouvez utiliser le SDK Anthropic Claude ou l'API REST Vertex AI pour envoyer des requêtes au point de terminaison Vertex AI.

Pour en savoir plus, consultez Fonctionnement de la mise en cache des requêtes.

Pour obtenir d'autres exemples, consultez la section Exemples de mise en cache des requêtes dans la documentation Anthropic.

La mise en cache se produit automatiquement lorsque les requêtes ultérieures contiennent le même texte, les mêmes images et le même paramètre cache_control que la première requête. Toutes les requêtes doivent également inclure le paramètre cache_control dans les mêmes blocs.

La durée de vie du cache est de cinq minutes. Il est actualisé chaque fois que le contenu mis en cache est consulté.

Tarifs

La mise en cache des requêtes peut avoir une incidence sur les coûts de facturation. Remarques :

  • Les jetons d'écriture du cache sont 25 % plus chers que les jetons d'entrée de base.
  • Les jetons de lecture du cache sont 90 % moins chers que les jetons d'entrée de base.
  • Les jetons d'entrée et de sortie standards sont facturés aux tarifs standards.

Pour en savoir plus, consultez la page des tarifs.