프롬프트 캐싱

Anthropic Claude 모델은 여러 요청에서 동일한 콘텐츠를 재사용할 때 지연 시간과 비용을 줄이기 위해 프롬프트 캐싱을 제공합니다. 쿼리를 보낼 때 입력의 전체 또는 특정 부분을 캐시하여 후속 쿼리에서 이전 요청의 캐시된 결과를 사용할 수 있습니다. 이렇게 하면 추가 컴퓨팅 및 네트워크 비용이 발생하지 않습니다. 캐시는 Google Cloud 프로젝트에만 고유하며 다른 프로젝트에서는 사용할 수 없습니다.

프롬프트의 구조를 지정하는 방법에 관한 자세한 내용은 Anthropic 프롬프트 캐싱 문서를 참조하세요.

지원되는 Anthropic Claude 모델

Vertex AI는 다음 Anthropic Claude 모델의 프롬프트 캐싱을 지원합니다.

데이터 처리

Anthropic 명시적 프롬프트 캐싱은 Anthropic Claude 모델의 기능입니다. 이러한 Anthropic 모델의 Vertex AI 제품은 Anthropic 문서에 설명된 대로 작동합니다.

프롬프트 캐싱은 선택적 기능입니다. 클라우드는 키 캐싱 요청의 해시(디지털 지문)를 계산합니다. 이러한 해시는 캐싱이 사용 설정된 요청에 대해서만 계산됩니다.

프롬프트 캐싱은 Claude 모델에서 구현한 기능이지만 데이터 처리 관점에서 Google은 이러한 해시를 '사용자 메타데이터'의 한 유형으로 간주합니다. 이러한 데이터는 Google Cloud개인정보처리방침에 따라 고객 '서비스 데이터'로 취급되며 Cloud 데이터 처리 추가 조항(고객)에 따라 '고객 데이터'로 취급되지 않습니다. 특히 '고객 데이터'에 대한 추가 보호 조치는 이러한 해시에 적용되지 않습니다. Google은 이러한 해시를 다른 용도로 사용하지 않습니다.

이 프롬프트 캐싱 기능을 완전히 사용 중지하고 특정 Google Cloud 프로젝트에서 사용할 수 없도록 하려면 고객 지원팀에 문의하여 관련 프로젝트 번호를 제공하면 됩니다. 프로젝트에 대해 명시적 캐싱이 사용 중지되면 프롬프트 캐싱이 사용 설정된 프로젝트의 요청이 거부됩니다.

프롬프트 캐싱 사용

Anthropic Claude SDK 또는 Vertex AI REST API를 사용하여 Vertex AI 엔드포인트에 요청을 보낼 수 있습니다.

자세한 내용은 프롬프트 캐싱 작동 방식을 참조하세요.

추가 예시는 Anthropic 문서의 프롬프트 캐싱 예를 참조하세요.

후속 요청에 첫 번째 요청과 동일한 텍스트, 이미지, cache_control 파라미터가 포함된 경우 자동으로 캐싱됩니다. 또한 모든 요청은 동일한 블록에 cache_control 파라미터를 포함해야 합니다.

캐시의 수명은 5분입니다. 캐시된 콘텐츠에 액세스할 때마다 새로고침됩니다.

가격 책정

프롬프트 캐싱은 청구 비용에 영향을 줄 수 있습니다. 다음 사항을 참고하세요.

  • 캐시 쓰기 토큰은 기본 입력 토큰보다 25% 더 비쌉니다.
  • 캐시 읽기 토큰은 기본 입력 토큰보다 90% 저렴합니다.
  • 일반 입력 및 출력 토큰은 표준 요금으로 가격이 책정됩니다.

자세한 내용은 가격 책정 페이지를 참조하세요.