Nesta seção, explicamos os conceitos de unidade de escala da IA generativa (GSU) e taxas de burndown. A capacidade de processamento provisionada é calculada e precificada usando unidades de escalonamento de IA generativa (GSUs) e taxas de burndown.
GSU e taxa de redução
Uma unidade de escalonamento de IA generativa (GSU, na sigla em inglês) é uma medida de capacidade de processamento para comandos e respostas. Esse valor especifica a capacidade de provisionamento de um modelo.
Uma taxa de burndown é uma proporção que converte as unidades de entrada e saída (como tokens, caracteres ou imagens) em tokens de entrada por segundo, caracteres de entrada por segundo ou imagens de entrada por segundo, respectivamente. Essa proporção representa a taxa de transferência e é usada para produzir uma unidade padrão em todos os modelos.
Modelos diferentes usam quantidades diferentes de capacidade de processamento. Para informações sobre o valor mínimo de compra e os incrementos de GSU para cada modelo, consulte Modelos e taxas de burndown compatíveis neste documento.
Esta equação demonstra como a capacidade de processamento é calculada:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
A capacidade de processamento calculada por segundo determina quantas GSUs você precisa para seu caso de uso.
Considerações importantes
Para ajudar você a planejar suas necessidades de capacidade de processamento provisionada, confira as seguintes considerações importantes:
As solicitações são priorizadas.
Os clientes da capacidade de processamento provisionada são priorizados e atendidos antes das solicitações sob demanda.
A capacidade de processamento não se acumula.
A capacidade de processamento não utilizada não se acumula nem é transferida para o mês seguinte.
A capacidade de processamento provisionada é medida em tokens por segundo, caracteres por segundo ou imagens por segundo.
A capacidade de processamento provisionada não é medida apenas com base em consultas por minuto (QPM). Ela é medida com base no tamanho da consulta do seu caso de uso, no tamanho da resposta e no QPM.
A capacidade de processamento provisionada é específica para um projeto, uma região, um modelo e uma versão.
A capacidade de processamento provisionada é atribuída a uma combinação específica de projeto-região-modelo-versão. O mesmo modelo chamado de uma região diferente não será contabilizado na sua cota de capacidade de transmissão provisionada e não terá prioridade em relação às solicitações sob demanda.
O armazenamento em cache de contexto
A Capacidade de Processamento Provisionada é compatível com o armazenamento em cache de contexto padrão. No entanto, a capacidade de transmissão provisionada não é compatível com solicitações de cache usando a API Vertex AI que inclui a recuperação de informações sobre um cache de contexto.
Por padrão, o Google armazena em cache automaticamente as entradas para reduzir o custo e a latência. Para os modelos Gemini 2.5 Flash e Gemini 2.5 Pro, os tokens em cache são cobrados com um desconto de 75% em relação aos tokens de entrada padrão quando ocorre uma ocorrência em cache. Para a capacidade de processamento provisionada, o desconto é aplicado com uma taxa de burndown reduzida.
Por exemplo, o Gemini 2.5 Pro tem as seguintes taxas de redução para tokens de texto de entrada e tokens em cache:
1 token de texto de entrada = 1 token
1 token de texto em cache de entrada = 0,25 token
Enviar 1.000 tokens de entrada para esse modelo resulta em uma redução da sua capacidade de processamento provisionada em 1.000 tokens de entrada por segundo. No entanto, se você enviar 1.000 tokens armazenados em cache para o Gemini 2.5 Pro, isso vai resultar em uma redução da capacidade provisionada de 250 tokens por segundo.
Isso pode levar a um maior throughput para consultas semelhantes em que os tokens não são armazenados em cache e o desconto de cache não é aplicado.
Para conferir as taxas de burndown dos modelos compatíveis com a capacidade de processamento provisionada, consulte Modelos compatíveis e taxas de burndown.
Exemplo de estimativa das suas necessidades de capacidade de processamento provisionada
Para estimar suas necessidades de capacidade de processamento provisionada, use a ferramenta de estimativa no console do Google Cloud . O exemplo a seguir ilustra o processo de estimativa da quantidade de capacidade de processamento provisionada para o modelo. A região não é considerada nos cálculos de estimativa.
Esta tabela mostra as taxas de burndown para gemini-2.0-flash
que você pode usar para seguir o exemplo.
Modelo | Capacidade de processamento por GSU | Unidades | Incremento mínimo de compra de GSU | Taxas de burndown |
---|---|---|---|---|
Gemini 2.0 Flash | 3.360 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 7 tokens 1 token de texto de saída = 4 tokens |
Reúna os requisitos.
Neste exemplo, seu requisito é verificar se você pode oferecer suporte a 10 consultas por segundo (QPS) de uma consulta com uma entrada de 1.000 tokens de texto e 500 tokens de áudio, para receber uma saída de 300 tokens de texto usando
gemini-2.0-flash
.Esta etapa significa que você entende seu caso de uso, porque identificou seu modelo, o QPS e o tamanho das entradas e saídas.
Para calcular sua capacidade de processamento, consulte as taxas de redução do modelo selecionado.
Calcule sua capacidade de processamento.
Multiplique as entradas pelas taxas de burndown para chegar ao total de tokens de entrada:
1.000*(1 token por token de texto de entrada) + 500*(7 tokens por token de áudio de entrada) = 4.500 tokens de entrada ajustados de burndown por consulta.
Multiplique as saídas pelas taxas de redução para chegar ao total de tokens de saída:
300*(4 tokens por token de texto de saída) = 1.200 tokens de saída ajustados de burndown por consulta
Adicione todos os totais:
4.500 tokens de entrada ajustados de burndown + 1.200 tokens de saída ajustados de burndown = 5.700 tokens totais por consulta
Multiplique o número total de tokens pelo QPS para chegar à capacidade de processamento total por segundo:
5.700 tokens totais por consulta * 10 QPS = 57.000 tokens totais por segundo
Calcule suas GSUs.
As GSUs são o total de tokens por segundo dividido pela capacidade de processamento por segundo por GSU da tabela de burndown.
57.000 tokens totais por segundo ÷ 3.360 de capacidade de processamento por segundo por GSU = 16,96 GSUs
O incremento mínimo de compra de GSU para
gemini-2.0-flash
é 1, então você vai precisar de 17 GSUs para garantir sua carga de trabalho.