提示缓存

Anthropic Claude 模型提供提示缓存,以便在多个请求中重复使用同一内容时缩短延迟时间并降低费用。发送查询时,您可以缓存输入的所有内容或特定部分,以便后续查询可以使用之前请求的缓存结果。这样可以避免额外的计算和网络费用。缓存是 Google Cloud 项目独有的,不能供其他项目使用。

如需详细了解如何设计提示结构,请参阅 Anthropic 提示缓存文档。

受支持的 Anthropic Claude 模型

Vertex AI 支持针对以下 Anthropic Claude 模型使用提示缓存:

数据处理

Anthropic 显式提示缓存是 Anthropic Claude 模型的一项功能。这些 Anthropic 模型的 Vertex AI 产品/服务的行为方式如 Anthropic 文档中所述。

提示缓存是一项可选功能。Claude 会计算请求的哈希值(指纹)以用于缓存键。系统仅针对已启用缓存的请求计算这些哈希值。

虽然提示缓存是 Claude 模型实现的一项功能,但从数据处理角度来看,Google 将这些哈希值视为一种“用户元数据”。这些数据会根据Google Cloud隐私权声明被视为客户“服务数据”,而不是根据云端数据处理附录(客户)被视为“客户数据”。特别是,针对“客户数据”的额外保护措施不适用于这些哈希值。Google 不会将这些哈希值用于任何其他用途。

如果您想完全停用此提示缓存功能,并使其在特定 Google Cloud 项目中不可用,可以通过联系客户服务并提供相关项目编号来提出此请求。为项目停用显式缓存后,系统会拒绝来自启用提示缓存的项目的请求。

使用提示缓存

您可以使用 Anthropic Claude SDK 或 Vertex AI REST API 向 Vertex AI 端点发送请求。

如需了解详情,请参阅提示缓存的工作原理

如需查看其他示例,请参阅 Anthropic 文档中的提示缓存示例

当后续请求包含与第一个请求相同的文本、图片和 cache_control 参数时,系统会自动进行缓存。所有请求还必须在同一代码块中包含 cache_control 参数。

缓存的有效期为五分钟。每次访问缓存的内容时,系统都会刷新此值。

价格

提示缓存可能会影响结算费用。请注意:

  • 缓存写入 token 的费用比基础输入 token 高 25%
  • 缓存读取 token 的费用比基础输入 token 低 90%
  • 常规输入和输出 token 按标准费率计费

如需了解详情,请参阅价格页面