Calcular os requisitos de capacidade de processamento provisionada

Nesta seção, explicamos os conceitos de unidade de escala da IA generativa (GSU) e taxas de burndown. A capacidade de processamento provisionada é calculada e precificada usando unidades de escala de IA generativa (GSUs) e taxas de burndown.

GSU e taxa de esgotamento

Uma unidade de escala de IA generativa (GSU, na sigla em inglês) é uma medida de capacidade de processamento para comandos e respostas. Esse valor especifica a capacidade de provisionamento de um modelo.

Uma taxa de burndown é uma proporção que converte os caracteres de entrada e saída em caracteres de entrada por segundo (capacidade de processamento). Essa proporção é usada para produzir uma unidade padrão em todos os modelos.

Modelos diferentes usam quantidades diferentes de capacidade de processamento. Para informações sobre o valor mínimo de compra e os incrementos de GSU para cada modelo, consulte Modelos e taxas de burndown compatíveis neste documento.

Esta equação demonstra como a capacidade de processamento é calculada:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

A capacidade de processamento calculada por segundo determina quantas GSUs você precisa para seu caso de uso.

Considerações importantes

Para ajudar a planejar suas necessidades de capacidade de processamento provisionada, analise as considerações importantes a seguir:

  • As solicitações são priorizadas.

    Os clientes da capacidade de processamento provisionada são priorizados e atendidos antes das solicitações sob demanda.

  • A capacidade de processamento não se acumula.

    A capacidade de processamento não utilizada não se acumula nem é transferida para o próximo mês.

  • A capacidade de processamento provisionada é medida em caracteres ou tokens por segundo.

    A capacidade de processamento provisionada é medida em caracteres ou tokens por segundo, não em consultas por minuto (QPM). Como resultado, a medição da capacidade de processamento provisionada depende do tamanho da consulta, da resposta e do QPM do seu caso de uso.

  • A capacidade de processamento provisionada é específica para um projeto, região, modelo e versão.

    A capacidade de processamento provisionada é atribuída a uma combinação específica de projeto, região, modelo e versão. O mesmo modelo chamado de uma região diferente não será contabilizado na cota de throughput provisionado e não será priorizado em relação às solicitações sob demanda.

Exemplo de estimativa das suas necessidades de capacidade de processamento provisionada

Para estimar suas necessidades de capacidade de processamento provisionada, use a ferramenta de estimativa no console do Google Cloud. O exemplo a seguir ilustra o processo de estimativa da quantidade de capacidade de processamento provisionada para o modelo. A região não é considerada nos cálculos de estimativa.

Esta tabela mostra as taxas de burndown de gemini-2.0-flash que podem ser usadas para seguir o exemplo.

Modelo Capacidade de processamento por GSU (caracteres/s) Incremento mínimo de compra de GSU Taxas de burndown
Gemini 2.0 Flash Janela de contexto menor ou igual a 128.000 tokens:
54.000

Janela de contexto maior que 128.000 tokens:
27.000
1 Janela de contexto menor ou igual a 128.000 tokens:
1 caractere de entrada = 1 caractere
1 caractere de saída = 4 caracteres
1 imagem = 1.067 caracteres
1 vídeo por segundo = 1.067 caracteres
1 áudio por segundo = 107 caracteres

Janela de contexto maior que 128.000 tokens:
1 caractere de entrada = 2 caracteres
1 caractere de saída = 8 caracteres
1 imagem = 2.134 caracteres
1 vídeo por segundo = 2.134 caracteres
1 áudio por segundo = 214 caracteres
  1. Reúna os requisitos.

    1. Neste exemplo, seu requisito é garantir que você possa enviar 2.000 caracteres com 2 imagens e receber 300 caracteres de saída para 10 consultas por segundo usando gemini-2.0-flash.

      Esta etapa significa que você entende seu caso de uso, porque você identificou o tamanho das entradas e saídas, o número de consultas por segundo (QPS) e seu modelo.

    2. Para estimar sua capacidade de processamento, especifique o modelo. Neste exemplo, o modelo é gemini-2.0-flash.

    3. Especifique o tipo de entrada e identifique a taxa de burndown. Use a taxa de burndown para identificar a taxa de burndown com base no tipo de entrada.

      A taxa de burndown de uma imagem para o modelo gemini-2.0-flash é de 1.067 caracteres.

  2. Calcule sua capacidade de processamento.

    1. Multiplique o número de imagens pela taxa de burndown do tipo de entrada para seu modelo específico.

      2 imagens * 1.067 caracteres de entrada por imagem = 2.134 caracteres de entrada

    2. O total de caracteres de saída é 300. Volte para a tabela de taxas de burndown e procure a taxa de burndown para os caracteres de saída (quatro caracteres por caractere de saída) para seu modelo específico (gemini-2.0-flash).

      300 caracteres de saída * 4 caracteres por caractere de saída = 1.200 caracteres de entrada convertidos

    3. Adicione todos os totais.

      2.000 caracteres de entrada + 2.134 caracteres de entrada convertidos para as imagens + 1.200 caracteres de entrada convertidos para a saída = 5.334 caracteres de entrada convertidos por consulta

    4. Multiplique os caracteres por consulta pelas consultas esperadas por segundo para obter a capacidade de processamento total por segundo.

      5.334 caracteres de entrada convertidos por consulta * 10 QPS = 53.340 caracteres de entrada convertidos no total por segundo.

  3. Calcule suas GSUs.

    1. As GSUs são a capacidade de processamento total por segundo dividida pela capacidade de processamento por GSU da tabela de burndown.

      53.340 caracteres de entrada convertidos no total por segundo ÷ 54.000 de capacidade de processamento por GSU = 0,988 GSUs

    2. O incremento mínimo de compra de GSU para gemini-2.0-flash é 1, que atende aos seus requisitos.

A seguir