컨텍스트 캐싱은 반복 콘텐츠가 포함된 Gemini 요청의 비용과 지연 시간을 줄이는 것을 목표로 합니다.
기본적으로 Google은 지연 시간을 줄이고 후속 프롬프트에 대한 응답을 가속화하기 위해 모든 Gemini 모델의 입력을 자동으로 캐시합니다.
Gemini 2.5 Flash(최소 입력 토큰 수 1,024개) 및 Gemini 2.5 Pro(최소 입력 토큰 수 2,048개) 모델의 경우 캐시 적중 시에 캐시된 입력 토큰에는 표준 입력 토큰에서 75% 할인된 요금이 청구됩니다.
응답 메타데이터 필드에서 캐시 적중 토큰 정보를 확인합니다. 이를 사용 중지하려면 생성형 AI 및 데이터 거버넌스를 참고하세요.
Vertex AI API를 통해 다음과 같은 작업을 수행하여 컨텍스트 캐시를 만들고 이를 더 세부적으로 제어할 수 있습니다.
- 프롬프트 요청에서 리소스 이름으로 콘텐츠를 참조하여 컨텍스트 캐시 사용
- 기본 60분을 초과하여 컨텍스트 캐시의 만료 시간(TTL) 업데이트
- 더 이상 필요하지 않은 경우 컨텍스트 캐시 삭제
Vertex AI API를 사용하여 컨텍스트 캐시 정보를 가져올 수도 있습니다.
Vertex AI API를 사용하여 요청을 캐시하면 표준 입력 토큰에 비해 동일한 75% 할인된 가격으로 입력 토큰이 청구되며 확실한 비용 절감이 보장됩니다. 데이터가 저장된 시간에 따라 스토리지 요금도 청구됩니다.
컨텍스트 캐싱을 사용하는 경우
컨텍스트 캐싱은 후속 요청에서 상당한 양의 초기 컨텍스트를 반복적으로 참조하는 시나리오에 특히 적합합니다.
대량의 텍스트, 오디오 파일 또는 동영상 파일과 같은 캐시된 컨텍스트 항목은 Gemini API에 대한 프롬프트 요청에서 출력을 생성하는 데 사용될 수 있습니다. 프롬프트에서 같은 캐시를 사용하는 요청에는 각 프롬프트에 고유한 텍스트도 포함됩니다. 예를 들어 채팅 대화를 구성하는 각 프롬프트 요청에는 채팅의 각 차례를 구성하는 고유한 텍스트와 함께 동영상을 참조하는 동일한 컨텍스트 캐시가 포함될 수 있습니다.
다음과 같은 사용 사례에 컨텍스트 캐싱을 사용하는 것이 좋습니다.
- 다양한 시스템 안내를 제공하는 챗봇
- 긴 동영상 파일 반복 분석
- 대규모 문서 세트에 대해 반복 쿼리
- 빈번한 코드 저장소 분석 또는 버그 수정
캐싱을 통한 경제성
컨텍스트 캐싱은 전반적인 운영 비용을 줄이기 위해 설계된 유료 기능입니다. 다음 요소를 기준으로 결제가 청구됩니다.
- 캐시 토큰 수: 캐시된 입력 토큰 수로, 후속 프롬프트에 포함될 경우 할인된 요율로 청구됩니다.
- 스토리지 기간: 캐시된 토큰이 저장되는 시간으로, 시간별로 청구됩니다. 캐시된 토큰은 컨텍스트 캐시가 만료되면 삭제됩니다.
- 기타 요인: 캐시되지 않은 입력 토큰 및 출력 토큰과 같은 기타 요인에 다른 요금이 청구됩니다.
입력의 캐시된 부분에 있는 토큰 수는 응답의 메타데이터 필드(cachedContentTokenCount
필드 아래)에서 확인할 수 있습니다.
프로비저닝된 처리량의 컨텍스트 캐싱 지원은 기본 캐싱의 프리뷰 버전에서 제공됩니다. 프로비저닝된 처리량에는 Vertex AI API를 사용한 컨텍스트 캐싱이 지원되지 않습니다. 자세한 내용은 프로비저닝된 처리량 가이드를 참고하세요.
지원되는 모델
다음 Gemini 모델은 컨텍스트 캐싱을 지원합니다.
자세한 내용은 사용 가능한 Gemini 안정화 모델 버전을 참조하세요. 컨텍스트 캐싱은 지원되는 모델의 모든 MIME 유형을 지원합니다.
가용성
컨텍스트 캐싱은 Vertex AI의 생성형 AI를 사용할 수 있는 리전에서 사용 가능합니다. 자세한 내용은 Vertex AI의 생성형 AI 위치를 참조하세요.
VPC 서비스 제어 지원
컨텍스트 캐싱은 VPC 서비스 제어를 지원하므로 캐시가 서비스 경계를 넘어 유출될 수 없습니다. Cloud Storage를 사용하여 캐시를 빌드하는 경우 서비스 경계에도 버킷을 포함하여 캐시 콘텐츠를 보호하세요.
자세한 내용은 Vertex AI 문서의 Vertex AI를 사용한 VPC 서비스 제어를 참고하세요.
다음 단계
- Gemini API 알아보기
- 멀티모달 프롬프트 사용 방법 알아보기