GSU 및 소진율
생성형 AI 확장 단위(GSU)는 프롬프트 및 응답에 대한 처리량의 측정 단위입니다. 이 양은 모델에 프로비저닝할 처리량을 지정합니다.
소진율은 입력 및 출력 단위 (예: 토큰, 문자, 이미지)를 각각 초당 입력 토큰, 초당 입력 문자 또는 초당 입력 이미지로 변환하는 비율입니다. 이 비율은 처리량을 나타내며 모델 전반에서 표준 단위를 생성하는 데 사용됩니다.
모델마다 처리량이 다릅니다. 각 모델의 최소 GSU 구매 금액 및 증분에 관한 자세한 내용은 이 문서의 지원되는 모델 및 소진율을 참고하세요.
다음 식이 처리량이 계산되는 방식을 보여줍니다.
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
계산된 초당 처리량에 따라 사용 사례에 필요한 GSU 수가 결정됩니다.
중요 고려사항
프로비저닝된 처리량 요구사항을 계획하는 데 도움이 되도록 다음의 중요 사항을 고려하세요.
요청은 우선순위에 따라 처리됩니다.
프로비저닝된 처리량 고객은 주문형 요청보다 우선순위가 높으며 먼저 서비스가 제공됩니다.
처리량이 누적되지 않습니다.
사용하지 않은 처리량은 누적되지 않으며 다음 달로 이월되지 않습니다.
프로비저닝된 처리량은 초당 토큰 수, 초당 문자 수 또는 초당 이미지 수를 기준으로 측정됩니다.
프로비저닝된 처리량은 분당 쿼리 수(QPM)만을 기준으로 측정되지 않습니다. 사용 사례의 쿼리 크기, 응답 크기, QPM을 기준으로 측정됩니다.
프로비저닝된 처리량은 프로젝트, 리전, 모델, 버전에 따라 다릅니다.
프로비저닝된 처리량은 특정 프로젝트-지역-모델-버전 조합에 할당됩니다. 다른 리전에서 호출된 동일한 모델은 프로비저닝된 처리량 할당량에 포함되지 않으며 온디맨드 요청보다 우선순위가 높지 않습니다.
프로비저닝된 처리량 요구사항 예측 예시
프로비저닝된 처리량 요구사항을 추정하려면 콘솔의 추정 도구를 사용하세요. Google Cloud 다음 예시는 모델의 프로비저닝된 처리량을 추정하는 프로세스를 보여줍니다. 이 지역은 추정치 계산에 고려되지 않습니다.
이 표에는 예시를 따르는 데 사용할 수 있는 gemini-2.0-flash
의 소진율이 나와 있습니다.
모델 | GSU당 처리량 | 단위 | 최소 GSU 구매 증분 | 소진율 |
---|---|---|---|---|
Gemini 2.0 Flash | 3,360 | 토큰 | 1 |
입력 텍스트 토큰 1개 = 토큰 1개 입력 이미지 토큰 1개 = 토큰 1개 입력 동영상 토큰 1개 = 토큰 1개 입력 오디오 토큰 1개 = 토큰 7개 출력 텍스트 토큰 1개 = 토큰 4개 |
요구사항을 수집합니다.
이 예시에서 요구사항은
gemini-2.0-flash
를 사용하여 1,000개의 텍스트 토큰과 500개의 오디오 토큰을 입력하여 초당 10개의 쿼리 (QPS)를 지원하고 300개의 텍스트 토큰 출력을 수신할 수 있도록 하는 것입니다.이 단계에서는 모델, QPS, 입력 및 출력 크기를 파악했으므로 사용 사례를 이해했다는 의미입니다.
처리량을 계산하려면 선택한 모델의 버너다운 비율을 참고하세요.
처리량을 계산합니다.
입력 값에 소진율을 곱하여 총 입력 토큰을 구합니다.
1,000*(입력 텍스트 토큰당 1개 토큰) + 500*(입력 오디오 토큰당 7개 토큰) = 쿼리당 4,500개 버너다운 조정 입력 토큰
출력량에 소진율을 곱하여 총 출력 토큰을 구합니다.
300*(출력 텍스트 토큰당 4개 토큰) = 쿼리당 1,200번의 번들 다운 조정된 출력 토큰
합계를 모두 더합니다.
소진 조정 입력 토큰 4,500개 + 소진 조정 출력 토큰 1,200개 = 쿼리당 총 토큰 5,700개
총 토큰 수를 QPS로 곱하여 초당 총 처리량을 구합니다.
쿼리당 총 토큰 5,700개 * 10 QPS = 초당 총 토큰 57,000개
GSU를 계산합니다.
GSU는 초당 총 토큰 수를 소진율 표의 GSU당 초당 처리량으로 나눈 값입니다.
초당 총 토큰 57,000개 ÷ GSU당 초당 처리량 3,360개 = GSU 16.96개
gemini-2.0-flash
의 최소 GSU 구매 증분은 1이므로 워크로드를 보장하려면 GSU 17개가 필요합니다.