이 섹션에서는 토큰 수와 할당량 적용을 위해 Live API에서 프로비저닝된 처리량이 작동하는 방식을 설명합니다.
Live API는 세션을 통해 지연 시간이 짧은 멀티모달 상호작용을 지원합니다. 세션 메모리를 사용하여 세션 내 상호작용의 정보를 유지하고 호출합니다. 이를 통해 모델은 이전에 제공되거나 논의된 정보를 기억할 수 있습니다. 프로비저닝된 처리량은 Live API 모델이 적용된 Gemini 2.5 Flash를 지원합니다. 세션 한도 및 기능을 비롯한 Live API에 관한 자세한 내용은 Live API 참조를 참고하세요.
Live API의 처리량 계산
Live API를 사용하는 동안 세션 메모리에 저장된 토큰은 모델에 대한 후속 요청에서 사용할 수 있습니다. 따라서 프로비저닝된 처리량은 동일한 요청에서 수신 토큰과 세션 메모리 토큰을 모두 고려합니다. 이로 인해 요청당 처리되는 토큰 수가 진행 중인 요청에서 사용자가 보낸 토큰 수보다 많아질 수 있습니다.
Live API에는 세션 메모리에 저장할 수 있는 총 토큰 수에 제한이 있으며 총 토큰 수가 포함된 메타데이터 필드도 있습니다. 요청을 처리하는 데 필요한 처리량을 계산할 때는 세션 메모리의 토큰을 고려해야 합니다. 사용량에 따라 지불 (PayGo)로 Live API를 사용한 경우 이러한 트래픽 패턴과 세션 토큰을 사용하여 프로비저닝된 처리량 요구사항을 추정할 수 있습니다.
Live API의 프로비저닝된 처리량 요구사항을 추정하는 방법의 예
세션 중에 모든 트래픽은 프로비저닝된 처리량 또는 종량제로 처리됩니다. 세션 중에 프로비저닝된 처리량 할당량에 도달하면 나중에 다시 시도하라는 오류 메시지가 표시됩니다. 할당량 내에 있으면 요청 전송을 재개할 수 있습니다. 세션 메모리를 비롯한 세션 상태는 세션이 라이브 상태인 동안 사용할 수 있습니다.
이 예시에서는 세션 메모리의 토큰을 포함하여 연속된 두 요청이 처리되는 방식을 보여줍니다.
요청#1 세부정보
길이: 10초
전송된 토큰 (오디오): 10초 x 25토큰/초 = 250토큰
전송된 토큰 (동영상): 10초 x 258토큰/프레임/초 = 2,580토큰
요청 1에 대해 처리된 총 토큰 수:
- 전송된 토큰: 전송된 오디오 및 동영상 토큰의 합계 = 2,580 + 250 = 2,830개 토큰
- 수신된 토큰: 100 (오디오)
요청 2 세부정보
시간: 40초
전송된 토큰 (오디오): 40초 x 1,000개 토큰
요청 2에 대해 처리된 총 토큰 수:
- 전송된 토큰: 요청 2에서 전송된 토큰 + 요청 1의 세션 메모리 토큰 = 2,830개 토큰 + 1,000개 토큰 = 3,830개 토큰
- 수신된 토큰: 200 (오디오)
요청에서 처리된 토큰 수 계산
이러한 요청 중에 처리된 토큰 수는 다음과 같이 계산됩니다.
세션 메모리에 추가 토큰이 없으므로 요청 1은 진행 중인 요청의 입력 및 출력 토큰만 처리합니다.
요청 2는 진행 중인 요청의 입력 및 출력 토큰을 처리하지만 세션 메모리의 입력 토큰도 포함합니다. 세션 메모리의 입력 토큰은 이전 요청(요청 1)의 입력 토큰으로 구성됩니다. 세션 메모리의 토큰 소진율은 표준 입력 토큰의 소진율과 동일합니다(1개의 입력 세션 메모리 토큰 = 1개의 입력 토큰).
요청 2를 보낸 후 처리하는 데 정확히 1초가 걸린 경우 토큰이 다음과 같이 처리되어 프로비저닝된 처리량 할당량에 적용됩니다.
입력에 소진율을 곱하여 총 입력 토큰을 구합니다.
2,830 x (세션 메모리 토큰당 1개 토큰) + 1,000 x (입력 텍스트 토큰당 1개 토큰) = 쿼리당 3,830개의 소진 조정 입력 토큰
출력에 소진율을 곱하여 총 출력 토큰을 구합니다.
200 x (오디오 출력 토큰당 6개 토큰) = 1,200개 토큰
다음 두 합계를 더하여 처리된 총 토큰 수를 구합니다.
3,830개 토큰 + 1,200개 토큰 = 5,030개 토큰
프로비저닝된 처리량 할당량이 초당 5,030개 토큰보다 크면 이 요청이 즉시 처리될 수 있습니다. 이보다 적으면 할당량에 설정된 비율로 시간이 지남에 따라 토큰이 처리됩니다.