동적 공유 할당량

이 페이지에서는 동적 공유 할당량 (DSQ)과 DSQ가 프로비저닝된 처리량과 다른 점은 무엇인지 설명합니다. DSQ의 작동 방식을 설명하는 예도 제공됩니다.

DSQ는 특정 모델에 대해 Google Cloud 서비스에서 처리 중인 모든 쿼리 간에 사용 가능한 주문형 용량을 배포합니다. 이 기능을 사용하면 할당량 한도를 설정할 필요가 없으며 할당량 상향 요청 (QIR)을 제출할 필요가 없습니다.

DSQ는 리전 그룹의 프로젝트에서 제출한 요청을 처리합니다. 할당량이 삭제되고 사용 가능한 용량이 각 프로젝트에 배포됩니다. DSQ는 크고 작은 프로젝트 모두에 연속적인 서비스를 제공하는 데 도움이 됩니다.

기존 Cloud Quotas 시스템에서는 1분마다 재할당이 이루어집니다. 즉, 처음 10초 내에 해당 분의 할당량이 소진될 수 있으며, 할당량이 다시 사용 설정될 때까지 남은 50초 동안 프로젝트에서 아무것도 할 수 없습니다. DSQ를 사용하면 용량 분포가 매초마다 재평가됩니다. 사용 가능한 용량이 있으면 프로젝트에서 더 많은 트래픽 (쿼리)을 처리할 수 있습니다. Cloud 할당량 시스템을 사용하면 트래픽이 설정된 할당량을 초과하면 초과 금액이 제한 (거부)됩니다.

프로비저닝된 처리량은 애플리케이션의 고가용성을 보장하고 프로덕션 워크로드의 예측 가능한 서비스 수준을 얻는 유일한 방법입니다. 프로비저닝된 처리량에 관한 자세한 내용은 프로비저닝된 처리량을 참고하세요.

지원되는 모델

이 섹션에는 이러한 모델에서 기본적으로 사용 설정되는 동적 공유 할당량 (DSQ)을 지원하는 모델이 나와 있습니다.

DSQ는 일회성 요금제로 처리됩니다. 할당된 용량을 초과하면 429 오류가 발생합니다. 이 오류를 해결하는 방법에 관한 자세한 내용은 오류 코드 429를 참고하세요.

Google 모델

다음 표에는 DSQ를 지원하는 Google 모델 (및 버전)이 나와 있습니다.

모델 DSQ 출시일 상태
Gemini 1.5 Flash(gemini-1.5-flash-002) 2024년 9월 24일 실시간
Gemini 1.5 Pro(gemini-1.5-pro-002) 2024년 9월 24일 실시간

파트너 모델

다음 표에는 DSQ를 지원하는 Claude 모델이 나와 있습니다. Claude 모델에 관한 자세한 내용은 Anthropic의 Claude 모델 사용을 참고하세요.

동적 공유 할당량 작동 방식

이 섹션에서는 동적 공유 할당량 (DSQ)의 작동 방식을 이해하는 데 핵심적인 기본 용어를 설명한 후 비유와 예시를 제공합니다.

한도, 할당량, 용량

한도, 할당량, 용량은 서로 다릅니다. 예를 들어 할당량은 용량과 다릅니다.

한도는 프로젝트에서 모델에 요청할 수 있는 요청 수를 제한하기 위해 설정된 최대 수입니다. 이 값은 변경할 수 없습니다. Google은 제한을 사용하여 시스템을 보호합니다.

할당량은 Google에서 프로젝트가 특정 모델에 요청하는 횟수를 제한하기 위해 부과하는 한도이지만 할당량은 변경할 수 있습니다. 할당량은 모델에 요청할 수 있는 요청 수를 지정하지만 할당량으로 인해 해당 프로젝트에 용량이 할당되는 것은 아닙니다. 할당량은 Google Cloud 서비스의 과부하 및 오용으로부터 시스템을 보호하기 위해 만들어졌습니다.

용량은 프로젝트에서 요청을 처리하는 데 사용할 수 있는 리소스 수입니다. 용량은 할당량으로 제한되지만 할당량으로 인해 용량을 사용할 수 있는 것은 아닙니다.

DSQ의 용량 할당은 프로젝트 수준에서 이루어집니다.

DSQ에서 할당량 및 용량이 작동하는 방식

강과 컵의 비유는 DSQ에서 할당량과 용량이 작동하는 방식을 명확하게 설명합니다.

마을이 강가에 있고 마을 주민에게 강에서 물을 길러 올 수 있는 350ml 크기의 물컵이 주어졌다고 가정해 보겠습니다. 강에는 물이 가득 차 있지만 각 사람의 컵에는 350ml의 물만 담을 수 있습니다.

강에 물이 충분한 한 각 사람은 필요에 따라 최대 12온스 한도까지 컵을 채울 수 있습니다. 하지만 강물이 말라가기 시작하면 각 사람이 덜 받게 됩니다(예: 물 2~4온스).

강이 보유한 양이 용량입니다. 컵에 담을 수 있는 양이 할당량입니다.

각 사람은 강이 아닌 자신의 컵에 담긴 내용물만 볼 수 있습니다. Google Cloud 콘솔의 할당량 및 시스템 한도 페이지를 사용하여 할당량 (쿼리 한도라고도 함)을 확인할 수 있습니다.

DSQ를 사용하면 할당량이 더 이상 없으므로 물이 무제한으로 담기는 마법 컵을 들고 있는 것과 같습니다. DSQ는 컵의 용량에 의존하지 않고 컵의 수와 이 용량을 공유해야 하는 각 컵에 필요한 용량에 따라 강물의 분포에 중점을 둡니다.

DSQ 작동 방식의 예

이 예시에서는 총 용량이 100QPS인 4개의 프로젝트를 보여줍니다. 표의 열에는 다음이 포함됩니다.

  • 현재 수요: 각 프로젝트에서 사용하려는 양입니다. 현재 수요가 총 용량을 초과합니다. 이 예에서는 100QPS (모든 프로젝트의 총 용량)가 아닌 317QPS (현재 수요)가 됩니다.

  • 현재 할당량 비례 할당: 용량을 요청 수로 나눈 값입니다. 프로젝트 A가 가장 많은 할당량을 받습니다. 이 프로젝트가 가장 많이 요청했기 때문입니다. 그 결과 다른 프로젝트는 충분한 할당량을 받지 못합니다.

  • DSQ 할당: 프로젝트 전반에 할당된 용량입니다.

프로젝트 A 프로젝트 B 프로젝트 C 프로젝트 D
현재 수요 250 32 25 10
현재 비례 할당 79 10 8 3
DSQ 할당 33 32 25 10

다음 단계에서는 DSQ 할당을 계산하는 방법을 보여줍니다.

  1. 각 프로젝트는 할당량의 일부를 받습니다. 이 경우 25QPS입니다.

  2. 프로젝트 D는 25QPS 중 10QPS만 사용합니다. 따라서 15QPS의 추가 용량이 재분배됩니다.

  3. 프로젝트 C는 25QPS를 계속 수신하기에 충분한 할당량을 받습니다.

  4. 프로젝트 A와 B에는 여전히 할당량이 더 필요합니다. 따라서 프로젝트 D의 추가 할당량 (15QPS)은 프로젝트 A와 B에 균등하게 분할되어 배포됩니다 (각각 7.5QPS).

  5. 프로젝트 B는 프로젝트 D로부터 7.5QPS를 수신하여 32.5QPS에 도달하고 프로젝트 A는 32.5QPS로 제한됩니다. 프로젝트 A는 할당된 용량을 초과하는 요청에 대해 429 오류를 수신합니다.

특정 지역의 용량 예시

Google Cloud는 북미와 같은 특정 리전에서 사용 가능한 용량을 확인한 후 요청을 보내는 프로젝트 수를 확인합니다.

분당 쿼리 수 (QPM) 25개를 전송하는 프로젝트 A와 QPM 25개를 전송하는 프로젝트 B를 가정해 보겠습니다. 이 서비스는 100QPM을 지원할 수 있습니다. 프로젝트 A가 쿼리 비율을 75QPM으로 늘리면 DSQ가 증가를 지원합니다. 프로젝트 A가 쿼리 비율을 100QPM으로 늘리면 DSQ는 프로젝트 B에 25QPM을 계속 제공하기 위해 프로젝트 A를 75QPM으로 줄입니다.

고려사항

DSQ를 지원하는 모델을 구매하기로 결정하기 전에 다음 고려사항을 검토하세요.

고려사항 해결책
비용을 관리하고 예산 초과를 방지합니다. 소비자 할당량 재정의라는 자체 적용 할당량을 구성합니다. 자세한 내용은 소비자 할당량 재정의 만들기를 참고하세요.
트래픽 우선순위 지정 프로비저닝된 처리량을 사용합니다.
사용량을 모니터링합니다. 다음 측정항목을 확인합니다.
  • publisher/online_serving/token_count
  • publisher/online_serving/tokens
자세한 내용은 Cloud Monitoring 문서의 aiplatform 섹션을 참고하세요.

QPS 사용량 모니터링

Gemini QPS 사용량을 모니터링하려면 할당량 및 시스템 한도 페이지를 참고하세요.

DSQ 오류 문제 해결하기

지역별 공유 용량이 소진되면 쿼리에 429 오류가 발생할 수 있습니다. 발생할 수 있는 오류를 해결하려면 오류 코드 429를 참고하세요.

다음 단계