En esta sección, se explica cómo funciona la capacidad de procesamiento aprovisionada con la API de Live para el recuento de tokens y la aplicación de cuotas.
La API de Live admite interacciones multimodales de baja latencia a través de sesiones. Utiliza una memoria de sesión para retener y recordar información de las interacciones dentro de una sesión. Esto permite que el modelo recuerde la información que se proporcionó o se analizó anteriormente. El rendimiento aprovisionado admite el modelo de Gemini 2.5 Flash con la API de Live. Para obtener más información sobre la API de Live, incluidos los límites y las capacidades de las sesiones, consulta la referencia de la API de Live.
Calcula la capacidad de procesamiento de la API de Live
Cuando se usa la API de Live, los tokens almacenados en la memoria de la sesión se pueden usar en solicitudes posteriores al modelo. Como resultado, el rendimiento aprovisionado tiene en cuenta los tokens entrantes y los tokens de memoria de sesión en la misma solicitud. Esto puede hacer que la cantidad de tokens que se procesan por solicitud sea mayor que la cantidad de tokens que envía el usuario en la solicitud en curso.
La API de Live tiene un límite en la cantidad total de tokens que se pueden almacenar en la memoria de la sesión y también tiene un campo de metadatos que contiene la cantidad total de tokens. Cuando calcules la cantidad de capacidad de procesamiento necesaria para atender tus solicitudes, debes tener en cuenta los tokens en la memoria de la sesión. Si usaste la API de Live con la opción de pago por uso (PayGo), puedes usar estos patrones de tráfico y tokens de sesión para estimar tus necesidades de capacidad de procesamiento aprovisionada.
Ejemplo de cómo estimar los requisitos de capacidad de procesamiento aprovisionada para la API de Live
Durante una sesión, todo el tráfico se procesa como capacidad de procesamiento aprovisionada o pago por uso. Si alcanzas tu cuota de capacidad de procesamiento aprovisionada durante una sesión, recibirás un mensaje de error en el que se te solicitará que vuelvas a intentarlo más tarde. Una vez que vuelvas a estar dentro de la cuota, podrás reanudar el envío de solicitudes. El estado de la sesión, incluida la memoria de la sesión, está disponible mientras la sesión esté activa.
En este ejemplo, se ilustra cómo se procesan dos solicitudes consecutivas incluyendo los tokens de la memoria de la sesión.
Detalles de la solicitud núm. 1
Duración: 10 segundos
Tokens enviados (audio): 10 segundos x 25 tokens/segundo = 250 tokens
Tokens enviados (video): 10 segundos x 258 tokens/cuadro por segundo = 2,580 tokens
Tokens totales procesados para la solicitud núm. 1:
- Tokens enviados: Suma de tokens de audio y video enviados = 2,580 + 250 = 2,830 tokens
- Tokens recibidos: 100 (audio)
Detalles de la solicitud núm. 2
Duración: 40 segundos
Tokens enviados (audio): 40 segundos x 1,000 tokens
Tokens totales procesados para la solicitud 2:
- Tokens enviados: Tokens enviados en la solicitud núm. 2 + tokens de memoria de sesión de la solicitud núm. 1 = 2,830 tokens + 1,000 tokens = 3,830 tokens
- Tokens recibidos: 200 (audio)
Calcula la cantidad de tokens procesados en las solicitudes
La cantidad de tokens procesados durante estas solicitudes se calcula de la siguiente manera:
La solicitud núm. 1 procesa solo los tokens de entrada y salida de la solicitud en curso, ya que no hay tokens adicionales en la memoria de la sesión.
La solicitud 2 procesa los tokens de entrada y salida de la solicitud en curso, pero también incluye los tokens de entrada de la memoria de la sesión, que consisten en los tokens de entrada de la solicitud anterior (solicitud 1) de la memoria de la sesión. La tasa de reducción de los tokens en la memoria de la sesión es la misma que la de los tokens de entrada estándar (1 token de memoria de la sesión de entrada = 1 token de entrada).
Si la solicitud núm. 2 tardó exactamente 1 segundo en procesarse después de que la enviaste, tus tokens se procesarán y se aplicarán a tu cuota de capacidad de procesamiento aprovisionada de la siguiente manera:
Multiplica tus entradas por las tasas de consumo para obtener el total de tokens de entrada:
2,830 x (1 token por token de memoria de sesión) + 1,000 x (1 token por token de texto de entrada) = 3,830 tokens de entrada ajustados de reducción por consulta
Multiplica tus resultados por las tasas de reducción para obtener los tokens de salida totales:
200 x (6 tokens por token de salida de audio) = 1,200 tokens
Suma estos dos totales para obtener la cantidad total de tokens procesados:
3,830 tokens + 1,200 tokens = 5,030 tokens
Si tu cuota de capacidad de procesamiento aprovisionada es superior a 5,030 tokens por segundo, esta solicitud se puede procesar de inmediato. Si es menor, los tokens se procesan con el tiempo a la velocidad que estableciste para tu cuota.