此页面由 Cloud Translation API 翻译。

提示缓存

Anthropic Claude 模型提供提示缓存，以便在多个请求中重复使用同一内容时缩短延迟时间并降低费用。发送查询时，您可以缓存输入的所有内容或特定部分，以便后续查询可以使用之前请求的缓存结果。这样可以避免额外的计算和网络费用。缓存是 Google Cloud 项目独有的，不能供其他项目使用。

如需详细了解如何设计提示结构，请参阅 Anthropic 提示缓存文档。

受支持的 Anthropic Claude 模型

Vertex AI 支持针对以下 Anthropic Claude 模型使用提示缓存：

数据处理

Anthropic 显式提示缓存是 Anthropic Claude 模型的一项功能。这些 Anthropic 模型的 Vertex AI 产品/服务的行为方式如 Anthropic 文档中所述。

提示缓存是一项可选功能。Claude 会计算请求的哈希值（指纹）以用于缓存键。系统仅针对已启用缓存的请求计算这些哈希值。

虽然提示缓存是 Claude 模型实现的一项功能，但从数据处理角度来看，Google 将这些哈希值视为一种“用户元数据”。这些数据会根据Google Cloud隐私权声明被视为客户“服务数据”，而不是根据云端数据处理附录（客户）被视为“客户数据”。特别是，针对“客户数据”的额外保护措施不适用于这些哈希值。Google 不会将这些哈希值用于任何其他用途。

如果您想完全停用此提示缓存功能，并使其在特定 Google Cloud 项目中不可用，可以通过联系客户服务并提供相关项目编号来提出此请求。为项目停用显式缓存后，系统会拒绝来自启用提示缓存的项目的请求。

使用提示缓存

您可以使用 Anthropic Claude SDK 或 Vertex AI REST API 向 Vertex AI 端点发送请求。

如需了解详情，请参阅提示缓存的工作原理。

如需查看其他示例，请参阅 Anthropic 文档中的提示缓存示例。

当后续请求包含与第一个请求相同的文本、图片和 cache_control 参数时，系统会自动进行缓存。所有请求还必须在同一代码块中包含 cache_control 参数。

缓存的有效期为五分钟。每次访问缓存的内容时，系统都会刷新此值。

价格

提示缓存可能会影响结算费用。请注意：

缓存写入 token 的费用比基础输入 token 高 25%
缓存读取 token 的费用比基础输入 token 低 90%
常规输入和输出 token 按标准费率计费

如需了解详情，请参阅价格页面。

提示缓存 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

受支持的 Anthropic Claude 模型

数据处理

使用提示缓存

价格

提示缓存