GSU e taxa de esgotamento
Uma unidade de escala de IA generativa (GSU, na sigla em inglês) é uma medida de capacidade de processamento para comandos e respostas. Esse valor especifica a capacidade de provisionamento de um modelo.
Uma taxa de burndown é uma proporção que converte as unidades de entrada e saída (como tokens, caracteres ou imagens) em tokens de entrada por segundo, caracteres de entrada ou segundo ou imagens de entrada por segundo, respectivamente. Essa proporção representa a taxa de transferência e é usada para produzir uma unidade padrão em todos os modelos.
Modelos diferentes usam quantidades diferentes de capacidade de processamento. Para informações sobre o valor mínimo de compra e os incrementos de GSU para cada modelo, consulte Modelos e taxas de burndown compatíveis neste documento.
Esta equação demonstra como a capacidade de processamento é calculada:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
A capacidade de processamento calculada por segundo determina quantas GSUs você precisa para seu caso de uso.
Considerações importantes
Para ajudar a planejar suas necessidades de capacidade de processamento provisionada, analise as considerações importantes a seguir:
As solicitações são priorizadas.
Os clientes da capacidade de processamento provisionada são priorizados e atendidos antes das solicitações sob demanda.
A capacidade de processamento não se acumula.
A capacidade de processamento não utilizada não se acumula nem é transferida para o próximo mês.
A capacidade de processamento provisionada é medida em tokens por segundo, caracteres por segundo ou imagens por segundo.
A capacidade de processamento provisionada não é medida apenas com base nas consultas por minuto (QPM). Ele é medido com base no tamanho da consulta do seu caso de uso, no tamanho da resposta e no QPM.
A capacidade de processamento provisionada é específica para um projeto, região, modelo e versão.
A capacidade de processamento provisionada é atribuída a uma combinação específica de projeto, região, modelo e versão. O mesmo modelo chamado de uma região diferente não será contabilizado na cota de throughput provisionado e não será priorizado em relação às solicitações sob demanda.
Exemplo de estimativa das suas necessidades de capacidade de processamento provisionada
Para estimar suas necessidades de capacidade de processamento provisionada, use a ferramenta de estimativa no console do Google Cloud. O exemplo a seguir ilustra o processo de estimativa da quantidade de capacidade de processamento provisionada para o modelo. A região não é considerada nos cálculos de estimativa.
Esta tabela mostra as taxas de burndown de gemini-2.0-flash
que podem ser
usadas para seguir o exemplo.
Modelo | Capacidade de processamento por GSU | Unidades | Incremento mínimo de compra de GSU | Taxas de burndown |
---|---|---|---|---|
Gemini 2.0 Flash | 3.360 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 7 tokens 1 token de texto de saída = 4 tokens |
Reúna os requisitos.
Neste exemplo, seu requisito é garantir que você possa oferecer suporte a 10 consultas por segundo (QPS) de uma consulta com uma entrada de 1.000 tokens de texto e 500 tokens de áudio para receber uma saída de 300 tokens de texto usando
gemini-2.0-flash
.Esta etapa significa que você entende seu caso de uso, porque você identificou seu modelo, o QPS e o tamanho das entradas e saídas.
Para calcular a capacidade de processamento, consulte as taxas de redução do modelo selecionado.
Calcule sua capacidade de processamento.
Multiplique suas entradas pelas taxas de burndown para chegar ao total de tokens de entrada:
1.000*(1 token por token de texto de entrada) + 500*(7 tokens por token de áudio de entrada) = 4.500 tokens de entrada ajustados de burndown por consulta.
Multiplique suas saídas pelas taxas de burndown para chegar ao total de tokens de saída:
300*(4 tokens por token de texto de saída) = 1.200 tokens de saída ajustados de burndown por consulta
Adicione os totais:
4.500 tokens de entrada ajustados de burndown + 1.200 tokens de saída ajustados de burndown = 5.700 tokens no total por consulta
Multiplique o número total de tokens pelo QPS para chegar ao total de throughput por segundo:
5.700 tokens no total por consulta * 10 QPS = 57.000 tokens no total por segundo
Calcule suas GSUs.
As GSUs são o total de tokens por segundo dividido pela capacidade de processamento por GSU da tabela de burndown.
57.000 tokens no total por segundo ÷ 3.360 de capacidade de processamento por segundo por GSU = 16,96 GSUs
O incremento mínimo de compra de GSU para
gemini-2.0-flash
é 1. Portanto, você vai precisar de 17 GSUs para garantir sua carga de trabalho.