Capacidade de processamento provisionada para a API Live

Esta seção explica como a capacidade de processamento provisionada funciona com a API Live para contagem de tokens e aplicação de cotas.

A API Live oferece suporte a interações multimodais de baixa latência por sessões. Ele usa uma memória de sessão para reter e recordar informações de interações em uma sessão. Isso permite que o modelo se lembre de informações fornecidas ou discutidas anteriormente. A taxa de transferência provisionada é compatível com o modelo Gemini 2.5 Flash com API Live. Para mais informações sobre a API Live, incluindo limites e recursos de sessão, consulte a referência da API Live.

Calcular a capacidade de processamento da API Live

Ao usar a API Live, os tokens armazenados na memória da sessão podem ser usados em solicitações subsequentes ao modelo. Como resultado, a taxa de transferência provisionada considera os tokens recebidos e os tokens de memória da sessão na mesma solicitação. Isso pode fazer com que o número de tokens processados por solicitação seja maior do que os tokens enviados pelo usuário na solicitação em andamento.

A API Live tem um limite para o total de tokens que podem ser armazenados na memória da sessão e também tem um campo de metadados que contém o número total de tokens. Ao calcular a capacidade necessária para atender às suas solicitações, considere os tokens na memória da sessão. Se você usou a API Live com pagamento por utilização (PayGo), é possível usar esses padrões de tráfego e tokens de sessão para estimar suas necessidades de capacidade de transferência provisionada.

Exemplo de como estimar os requisitos de capacidade de processamento provisionada para a API Live

Durante uma sessão, todo o tráfego é processado como capacidade provisionada ou pagamento conforme o uso. Se você atingir sua cota de capacidade provisionada durante uma sessão, vai receber uma mensagem de erro pedindo para tentar de novo mais tarde. Quando você estiver dentro da cota, poderá retomar o envio de solicitações. O estado da sessão, incluindo a memória dela, fica disponível enquanto ela estiver ativa.

Este exemplo ilustra como duas solicitações consecutivas são processadas incluindo os tokens da memória da sessão.

Detalhes da solicitação nº 1

Duração: 10 segundos

Tokens enviados (áudio): 10 segundos x 25 tokens/segundo = 250 tokens

Tokens enviados (vídeo): 10 segundos x 258 tokens/quadro por segundo = 2.580 tokens

Total de tokens processados para a solicitação nº 1:

  • Tokens enviados: soma dos tokens de áudio e vídeo enviados = 2.580 + 250 = 2.830 tokens
  • Tokens recebidos: 100 (áudio)

Detalhes da solicitação nº 2

Duração: 40 segundos

Tokens enviados (áudio): 40 segundos x 25 tokens/segundo = 1.000 tokens

Total de tokens processados para a solicitação nº 2:

  • Tokens enviados: tokens enviados na solicitação nº 2 + tokens de memória de sessão da solicitação nº 1 = 2.830 tokens + 1.000 tokens = 3.830 tokens
  • Tokens recebidos: 200 (áudio)

Calcular o número de tokens processados nas solicitações

O número de tokens processados durante essas solicitações é calculado da seguinte forma:

  • A solicitação 1 processa apenas os tokens de entrada e saída da solicitação em andamento, já que não há outros tokens na memória da sessão.

  • A solicitação nº 2 processa os tokens de entrada e saída da solicitação em andamento, mas também inclui os tokens de entrada da memória da sessão, que consistem nos tokens de entrada da solicitação anterior (solicitação nº 1) da memória da sessão. A taxa de redução de tokens na memória da sessão é a mesma dos tokens de entrada padrão (1 token de memória da sessão de entrada = 1 token de entrada).

    Se a solicitação nº 2 levou exatamente um segundo para ser processada depois que você a enviou, seus tokens serão processados e aplicados à sua cota de capacidade de processamento provisionada da seguinte forma:

    • Multiplique as entradas pelas taxas de burndown para receber o total de tokens de entrada:

      2830 x (1 token por token de memória de sessão) + 1000 x (1 token por token de texto de entrada) = 3830 tokens de entrada ajustados de burndown por consulta

    • Multiplique as saídas pelas taxas de redução para obter o total de tokens de saída:

      200 x (6 tokens por token de saída de áudio) = 1.200 tokens

    • Adicione esses dois totais para saber o número total de tokens processados:

      3.830 tokens + 1.200 tokens = 5.030 tokens

Se a cota de capacidade de processamento provisionada for maior que 5.030 tokens por segundo, a solicitação poderá ser processada imediatamente. Se for menor, os tokens serão processados ao longo do tempo na taxa definida para sua cota.

A seguir