프로비저닝된 처리량 계산 요구사항

이 섹션에서는 생성형 AI 확장 단위(GSU) 및 소진율의 개념을 설명합니다. 프로비저닝된 처리량은 생성형 AI 확장 단위(GSU) 및 소진율을 사용하여 계산되고 가격이 책정됩니다.

GSU 및 소진율

생성형 AI 확장 단위 (GSU)는 프롬프트 및 응답에 대한 처리량의 측정 단위입니다. 이 금액은 모델에 프로비저닝할 처리량을 지정합니다.

소진율은 입력 및 출력 단위 (예: 토큰, 문자, 이미지)를 초당 입력 토큰, 초당 입력 문자 또는 초당 입력 이미지로 각각 변환하는 비율입니다. 이 비율은 처리량을 나타내며 모델 전반에서 표준 단위를 생성하는 데 사용됩니다.

모델마다 사용하는 처리량이 다릅니다. 각 모델의 최소 GSU 구매 금액 및 증액에 대한 자세한 내용은 이 문서의 지원되는 모델 및 소진율을 참고하세요.

다음 방정식은 처리량이 계산되는 방식을 보여줍니다.

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

초당 계산된 처리량에 따라 사용 사례에 필요한 GSU 수가 결정됩니다.

중요 고려사항

프로비저닝된 처리량 요구사항을 계획하는 데 도움이 되도록 다음의 중요 사항을 고려하세요.

  • 요청에 우선순위가 지정됩니다.

    프로비저닝된 처리량 고객은 주문형 요청보다 먼저 우선순위가 지정되고 서비스됩니다.

  • 처리량은 누적되지 않습니다.

    사용하지 않은 처리량은 누적되지 않으며 다음 달로 이월되지 않습니다.

  • 프로비저닝된 처리량은 초당 토큰 수, 초당 문자 수 또는 초당 이미지 수로 측정됩니다.

    프로비저닝된 처리량은 분당 쿼리 수(QPM)만을 기준으로 측정되지 않습니다. 사용 사례의 쿼리 크기, 응답 크기, QPM을 기준으로 측정됩니다.

  • 프로비저닝된 처리량은 프로젝트, 리전, 모델, 버전에 따라 다릅니다.

    프로비저닝된 처리량은 특정 프로젝트-리전-모델-버전 조합에 할당됩니다. 다른 리전에서 호출된 동일한 모델은 프로비저닝된 처리량 할당량에 포함되지 않으며 온디맨드 요청보다 우선순위가 높지 않습니다.

컨텍스트 캐싱이

프로비저닝된 처리량은 기본 컨텍스트 캐싱을 지원합니다. 하지만 프로비저닝된 처리량은 컨텍스트 캐시에 관한 정보 검색을 포함하는 Vertex AI API를 사용한 요청 캐싱을 지원하지 않습니다.

기본적으로 Google은 비용과 지연 시간을 줄이기 위해 입력을 자동으로 캐시합니다. Gemini 2.5 Flash 및 Gemini 2.5 Pro 모델의 경우 캐시 적중 시에 캐시된 토큰에는 표준 입력 토큰에서 75% 할인된 요금이 청구됩니다. 프로비저닝된 처리량의 경우 소진율 감소를 통해 할인이 적용됩니다.

예를 들어 Gemini 2.5 Pro의 입력 텍스트 토큰 및 캐시된 토큰의 소진율은 다음과 같습니다.

  • 입력 텍스트 토큰 1개 = 토큰 1개

  • 1개의 입력 캐시 텍스트 토큰 = 0.25개의 토큰

이 모델에 입력 토큰 1,000개를 보내면 프로비저닝된 처리량이 초당 입력 토큰 1,000개만큼 소진됩니다. 하지만 캐시된 토큰 1,000개를 Gemini 2.5 Pro에 전송하면 프로비저닝된 처리량이 초당 250개의 토큰만큼 소진됩니다.

이렇게 하면 토큰이 캐시되지 않고 캐시 할인이 적용되지 않는 유사한 쿼리의 처리량이 높아질 수 있습니다.

프로비저닝된 처리량에서 지원되는 모델의 소진율을 확인하려면 지원되는 모델 및 소진율을 참고하세요.

Live API의 번다운 이해

프로비저닝된 처리량은 Live API를 통해 Gemini 2.5 Flash를 지원합니다. 라이브 API를 사용하는 동안 소진량을 계산하는 방법을 알아보려면 라이브 API의 처리량 계산을 참고하세요.

Live API와 함께 Gemini 2.5 Flash에 프로비저닝된 처리량을 사용하는 방법에 대한 자세한 내용은 Live API용 프로비저닝된 처리량을 참고하세요.

프로비저닝된 처리량 요구사항 예측 예시

프로비저닝된 처리량 요구사항을 추정하려면 Google Cloud 콘솔의 추정 도구를 사용하세요. 다음 예시는 모델의 프로비저닝된 처리량을 추정하는 프로세스를 보여줍니다. 지역은 추정치 계산에 고려되지 않습니다.

이 표에는 예시를 따르는 데 사용할 수 있는 gemini-2.0-flash의 소진율이 나와 있습니다.

모델 GSU당 처리량 단위 최소 GSU 구매 증분 소진율
Gemini 2.0 Flash 3,360 토큰 1 입력 텍스트 토큰 1개 = 토큰 1개
입력 이미지 토큰 1개 = 토큰 1개
입력 동영상 토큰 1개 = 토큰 1개
입력 오디오 토큰 1개 = 토큰 7개
출력 텍스트 토큰 1개 = 토큰 4개
  1. 요구사항을 수집합니다.

    1. 이 예시에서 요구사항은 gemini-2.0-flash를 사용하여 텍스트 토큰 1,000개와 오디오 토큰 500개가 입력된 쿼리의 초당 쿼리 수 (QPS) 10개를 지원하여 텍스트 토큰 300개의 출력을 수신할 수 있는지 확인하는 것입니다.

      이 단계에서는 모델, QPS, 입력 및 출력 크기를 파악했으므로 사용 사례를 이해했다는 의미입니다.

    2. 처리량을 계산하려면 선택한 모델의 소진율을 참고하세요.

  2. 처리량을 계산합니다.

    1. 입력값을 소진율로 곱하여 총 입력 토큰을 구합니다.

      1,000*(입력 텍스트 토큰당 1개 토큰) + 500*(입력 오디오 토큰당 7개 토큰) = 쿼리당 4,500개의 소진 조정 입력 토큰

    2. 출력에 소진율을 곱하여 총 출력 토큰을 계산합니다.

      300 * (출력 텍스트 토큰당 4개 토큰) = 쿼리당 소진 조정 출력 토큰 1,200개

    3. 합계를 모두 더합니다.

      번다운 조정 입력 토큰 4,500개 + 번다운 조정 출력 토큰 1,200개 = 쿼리당 총 토큰 5,700개

    4. 총 토큰 수에 QPS를 곱하여 초당 총 처리량을 구합니다.

      쿼리당 총 토큰 5,700개 * 10 QPS = 초당 총 토큰 57,000개

  3. GSU를 계산합니다.

    1. GSU는 초당 총 토큰을 소진율 표의 GSU당 초당 처리량으로 나눈 값입니다.

      초당 총 토큰 57,000개 ÷ GSU당 초당 처리량 3,360개 = GSU 16.96개

    2. gemini-2.0-flash의 최소 GSU 구매 증분은 1이므로 워크로드를 보장하려면 GSU 17개가 필요합니다.

다음 단계