GSU e taxa de esgotamento
Uma unidade de escala de IA generativa (GSU, na sigla em inglês) é uma medida de capacidade de processamento para comandos e respostas. Esse valor especifica a capacidade de provisionamento de um modelo.
Uma taxa de burndown é uma proporção que converte os caracteres de entrada e saída em caracteres de entrada por segundo (capacidade de processamento). Essa proporção é usada para produzir uma unidade padrão em todos os modelos.
Modelos diferentes usam quantidades diferentes de capacidade de processamento. Para informações sobre o valor mínimo de compra e os incrementos de GSU para cada modelo, consulte Modelos e taxas de burndown compatíveis neste documento.
Esta equação demonstra como a capacidade de processamento é calculada:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
A capacidade de processamento calculada por segundo determina quantas GSUs você precisa para seu caso de uso.
Considerações importantes
Para ajudar a planejar suas necessidades de capacidade de processamento provisionada, analise as considerações importantes a seguir:
As solicitações são priorizadas.
Os clientes da capacidade de processamento provisionada são priorizados e atendidos antes das solicitações sob demanda.
A capacidade de processamento não se acumula.
A capacidade de processamento não utilizada não se acumula nem é transferida para o próximo mês.
A capacidade de processamento provisionada é medida em caracteres ou tokens por segundo.
A capacidade de processamento provisionada é medida em caracteres ou tokens por segundo, não em consultas por minuto (QPM). Como resultado, a medição da capacidade de processamento provisionada depende do tamanho da consulta, da resposta e do QPM do seu caso de uso.
A capacidade de processamento provisionada é específica para um projeto, região, modelo e versão.
A capacidade de processamento provisionada é atribuída a uma combinação específica de projeto, região, modelo e versão. O mesmo modelo chamado de uma região diferente não será contabilizado na cota de throughput provisionado e não será priorizado em relação às solicitações sob demanda.
Exemplo de estimativa das suas necessidades de capacidade de processamento provisionada
Para estimar suas necessidades de capacidade de processamento provisionada, use a ferramenta de estimativa no console do Google Cloud. O exemplo a seguir ilustra o processo de estimativa da quantidade de capacidade de processamento provisionada para o modelo. A região não é considerada nos cálculos de estimativa.
Esta tabela mostra as taxas de burndown de gemini-2.0-flash
que podem ser
usadas para seguir o exemplo.
Modelo | Capacidade de processamento por GSU (caracteres/s) | Incremento mínimo de compra de GSU | Taxas de burndown |
---|---|---|---|
Gemini 2.0 Flash | Janela de contexto menor ou igual a 128.000 tokens: 54.000 Janela de contexto maior que 128.000 tokens: 27.000 |
1 | Janela de contexto menor ou igual a 128.000 tokens: 1 caractere de entrada = 1 caractere 1 caractere de saída = 4 caracteres 1 imagem = 1.067 caracteres 1 vídeo por segundo = 1.067 caracteres 1 áudio por segundo = 107 caracteres Janela de contexto maior que 128.000 tokens: 1 caractere de entrada = 2 caracteres 1 caractere de saída = 8 caracteres 1 imagem = 2.134 caracteres 1 vídeo por segundo = 2.134 caracteres 1 áudio por segundo = 214 caracteres |
Reúna os requisitos.
Neste exemplo, seu requisito é garantir que você possa enviar 2.000 caracteres com 2 imagens e receber 300 caracteres de saída para 10 consultas por segundo usando
gemini-2.0-flash
.Esta etapa significa que você entende seu caso de uso, porque você identificou o tamanho das entradas e saídas, o número de consultas por segundo (QPS) e seu modelo.
Para estimar sua capacidade de processamento, especifique o modelo. Neste exemplo, o modelo é
gemini-2.0-flash
.Especifique o tipo de entrada e identifique a taxa de burndown. Use a taxa de burndown para identificar a taxa de burndown com base no tipo de entrada.
A taxa de burndown de uma imagem para o modelo
gemini-2.0-flash
é de 1.067 caracteres.
Calcule sua capacidade de processamento.
Multiplique o número de imagens pela taxa de burndown do tipo de entrada para seu modelo específico.
2 imagens * 1.067 caracteres de entrada por imagem = 2.134 caracteres de entrada
O total de caracteres de saída é 300. Volte para a tabela de taxas de burndown e procure a taxa de burndown para os caracteres de saída (quatro caracteres por caractere de saída) para seu modelo específico (
gemini-2.0-flash
).300 caracteres de saída * 4 caracteres por caractere de saída = 1.200 caracteres de entrada convertidos
Adicione todos os totais.
2.000 caracteres de entrada + 2.134 caracteres de entrada convertidos para as imagens + 1.200 caracteres de entrada convertidos para a saída = 5.334 caracteres de entrada convertidos por consulta
Multiplique os caracteres por consulta pelas consultas esperadas por segundo para obter a capacidade de processamento total por segundo.
5.334 caracteres de entrada convertidos por consulta * 10 QPS = 53.340 caracteres de entrada convertidos no total por segundo.
Calcule suas GSUs.
As GSUs são a capacidade de processamento total por segundo dividida pela capacidade de processamento por GSU da tabela de burndown.
53.340 caracteres de entrada convertidos no total por segundo ÷ 54.000 de capacidade de processamento por GSU = 0,988 GSUs
O incremento mínimo de compra de GSU para
gemini-2.0-flash
é 1, que atende aos seus requisitos.