Como funciona a capacidade de processamento provisionada
Esta seção explica como a capacidade de processamento provisionada funciona usando a verificação de cota durante o período de aplicação da cota.
Verificação da cota da capacidade de processamento provisionada
Sua cota máxima de capacidade de processamento provisionada é um múltiplo do número de unidades de escala de IA generativa (GSUs, na sigla em inglês) compradas e da capacidade de processamento por GSU. Ela é verificada sempre que você faz uma solicitação no seu período de aplicação de cota, que é a frequência com que a cota máxima de throughput provisionado é aplicada.
No momento em que uma solicitação é recebida, o tamanho real da resposta é desconhecido. Como priorizamos a velocidade de resposta para aplicativos em tempo real, a capacidade provisionada estima o tamanho do token de saída. Se a estimativa inicial exceder a cota máxima de capacidade de processamento provisionada disponível, a solicitação será processada como pagamento por uso. Caso contrário, ela será processada como capacidade de processamento provisionada. Isso é feito comparando a estimativa inicial com a cota máxima de capacidade de processamento provisionada.
Quando a resposta é gerada e o tamanho real do token de saída é conhecido, o uso e a cota reais são reconciliados adicionando a diferença entre a estimativa e o uso real ao valor da cota de capacidade de processamento provisionada disponível.
Período de aplicação da cota da Capacidade de processamento provisionada
Para modelos gemini-2.0-flash-lite
e gemini-2.0-flash
, o
período de aplicação da cota pode levar até 30 segundos e está sujeito a mudanças.
Isso significa que você pode ter um tráfego priorizado temporário que
excede o valor da cota por segundo em alguns casos, mas não pode
ultrapassar a cota em 30 segundos. O período de aplicação de cota para outros
modelos pode levar até um minuto. Esses períodos são baseados no
relógio interno da Vertex AI e são independentes do momento em que as solicitações são
feitas.
Por exemplo, se você comprar uma GSU de gemini-2.0-flash-001
, espere 800 caracteres por segundo de capacidade de processamento sempre ativa. Em média, não
é possível exceder 24.000 caracteres em 30 segundos, o que é calculado usando
esta fórmula:
800 characters per second * 30 seconds = 24,000 characters
Se você enviou uma única solicitação durante todo o dia que consumiu 1.600 caracteres em um segundo, ela ainda pode ser processada como uma solicitação de capacidade de processamento provisionada porque ainda está abaixo do limite de 24.000 caracteres por 30 segundos, mesmo que você tenha excedido o limite de 800 caracteres por segundo no momento da solicitação.
Controlar excedentes ou ignorar a capacidade de processamento provisionada
Use a API para controlar excedentes quando você exceder a capacidade de processamento comprada ou para ignorar a capacidade de processamento provisionada por solicitação.
Leia cada opção para determinar o que você precisa fazer para atender ao seu caso de uso.
Comportamento padrão
Se você exceder a capacidade de processamento comprada, os excedentes vão ser cobrados sob demanda e faturados de acordo com a taxa de pagamento por uso. Depois que o pedido de capacidade de processamento provisionada estiver ativo, o comportamento padrão vai ocorrer automaticamente. Não é preciso alterar o código para começar a consumir seu pedido.
Usar apenas a capacidade de processamento provisionada
Se você estiver gerenciando custos evitando cobranças sob demanda, use apenas a capacidade de processamento provisionada. As solicitações que excedem o
valor do pedido de capacidade de processamento provisionada retornam um erro 429
.
Ao enviar solicitações para a API, defina o cabeçalho HTTP X-Vertex-AI-LLM-Request-Type
como dedicated
.
Usar apenas o pagamento por uso
Isso também é chamado de uso sob demanda. As solicitações ignoram a capacidade de processamento provisionada e são enviadas diretamente para o pagamento por uso. Isso pode ser útil para experimentos ou aplicativos que estão em desenvolvimento.
Ao enviar solicitações para a API, defina o cabeçalho HTTP X-Vertex-AI-LLM-Request-Type
como shared
.
Exemplo
Gen AI SDK for Python
Instalar
pip install --upgrade google-genai
Defina variáveis de ambiente para usar o SDK da IA generativa com a Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=us-central1 export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Monitorar a capacidade de processamento provisionada
É possível monitorar o uso da capacidade de processamento provisionada usando um conjunto
de métricas que são medidas no tipo de recurso aiplatform.googleapis.com/PublisherModel
.
O monitoramento de tráfego de capacidade de processamento provisionada é um recurso de pré-lançamento público.
Dimensões
É possível filtrar as métricas usando as seguintes dimensões:
Dimensão | Valores |
---|---|
type |
input output |
request_type |
|
Prefixo do caminho
O prefixo do caminho de uma métrica é
aiplatform.googleapis.com/publisher/online_serving
.
Por exemplo, o caminho completo da métrica /consumed_throughput
é
aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
.
Métricas
As seguintes métricas do Cloud Monitoring estão disponíveis no recurso aiplatform.googleapis.com/PublisherModel
para os modelos Gemini. Use os tipos de solicitação dedicated
para filtrar o uso da capacidade de processamento provisionada.
Métrica | Nome de exibição | Descrição |
---|---|---|
/dedicated_gsu_limit |
Limite (GSU) | Limite dedicado em GSUs. Use essa métrica para entender a cota máxima de throughput provisionado em GSUs. |
/tokens |
Tokens | Distribuição da contagem de tokens de entrada e saída. |
/token_count |
Contagem de tokens | Contagem acumulada de tokens de entrada e saída. |
/consumed_token_throughput |
Capacidade de processamento de token | Uso de capacidade de processamento, que considera a taxa de burndown em tokens e incorpora a reconciliação de cotas. Consulte Como verificar a cota de capacidade de processamento provisionada. Use essa métrica para entender como sua cota de capacidade de processamento provisionada foi usada. |
/dedicated_token_limit |
Limite (tokens por segundo) | Limite dedicado em tokens por segundo. Use essa métrica para entender a cota máxima de Throughput provisionado para modelos baseados em token. |
/characters |
Caracteres | Distribuição de contagem de caracteres de entrada e saída. |
/character_count |
Contagem de caracteres | Contagem de caracteres de entrada e saída acumulados. |
/consumed_throughput |
Capacidade de processamento de caracteres | Uso de throughput, que considera a taxa de burndown em caracteres e incorpora a reconciliação de cota Verificação de cota de throughput provisionado. Use essa métrica para entender como a cota de capacidade de processamento provisionada foi usada. Para modelos baseados em tokens, essa métrica é equivalente à taxa de transferência consumida em tokens multiplicada por 4. |
/dedicated_character_limit |
Limite (caracteres por segundo) | Limite dedicado em caracteres por segundo. Use essa métrica para entender a cota máxima de throughput provisionado para modelos baseados em caracteres. |
/model_invocation_count |
Contagem de invocações de modelo | Número de invocações de modelo (solicitações de previsão). |
/model_invocation_latencies |
Latências de invocação de modelo | Latências de invocação de modelo (latências de previsão). |
/first_token_latencies |
Latências do primeiro token | Duração da solicitação recebida até o primeiro token retornado. |
Os modelos Anthropic também têm um filtro para a capacidade de processamento provisionada, mas
apenas para tokens/token_count
.
Painéis
Os painéis de monitoramento padrão para a capacidade de processamento provisionada fornecem métricas que permitem entender melhor o uso e a utilização da capacidade de processamento provisionada. Para acessar os painéis, faça o seguinte:
No console do Google Cloud, acesse a página Capacidade de processamento provisionada.
Para conferir a utilização da capacidade de processamento provisionada de cada modelo nos seus pedidos, selecione a guia Resumo de utilização.
Selecione um modelo na tabela Utilização de throughput provisionado por modelo para conferir mais métricas específicas do modelo selecionado.
Limitações do painel
O painel pode mostrar resultados inesperados, principalmente se o tráfego for irregular. Os seguintes motivos podem contribuir para esses resultados:
- Intervalos de tempo maiores que 12 horas podem levar a uma representação menos precisa do período de aplicação da cota. As métricas de throughput e os derivados delas, como a utilização, mostram médias em períodos de alinhamento com base no período selecionado. Quando o período aumenta, cada período de alinhamento também aumenta. O período de alinhamento se expande no cálculo do uso médio. Como a aplicação de cota é calculada em um nível inferior a um minuto, definir o período de tempo como um período de 12 horas ou menos resulta em dados no nível do minuto que são mais comparáveis ao período real de aplicação de cota. Para mais informações sobre períodos de alinhamento, consulte Alinhamento: regularização em série. Para mais informações sobre intervalos de tempo, consulte Regularizar intervalos de tempo.
- Se várias solicitações forem enviadas ao mesmo tempo, o monitoramento de agregações pode afetar sua capacidade de filtrar solicitações específicas.
- A capacidade de processamento provisionada limita o tráfego quando uma solicitação é feita, mas informa as métricas de uso depois que a cota é reconciliada.
- Os períodos de aplicação da cota de throughput provisionado são independentes e podem não estar alinhados com os períodos de agregação de monitoramento ou de solicitação ou resposta.
- Se não houver erros, uma mensagem de erro vai aparecer no gráfico de taxa de erros. Por exemplo, Ocorreu um erro ao solicitar dados. Um ou mais recursos não foram encontrados.
Alertas
Depois de ativar os alertas, defina alertas padrão para ajudar a gerenciar o uso do tráfego.
Ativar alertas
Para ativar os alertas no painel, faça o seguinte:
No console do Google Cloud, acesse a página Capacidade de processamento provisionada.
Para conferir a utilização da capacidade de processamento provisionada de cada modelo nos seus pedidos, selecione a guia Resumo de utilização.
Selecione Alertas recomendados e os alertas a seguir serão exibidos:
Provisioned Throughput Usage Reached Limit
Provisioned Throughput Utilization Exceeded 80%
Provisioned Throughput Utilization Exceeded 90%
Verifique os alertas que ajudam a gerenciar seu tráfego.
Conferir mais detalhes do alerta
Para conferir mais informações sobre alertas, faça o seguinte:
Acesse a página Integrações.
Digite vértice no campo Filtro e pressione Enter. A Vertex AI do Google vai aparecer.
Para mais informações, clique em Ver detalhes. O painel Detalhes da Vertex AI do Google é exibido.
Selecione a guia Alertas e escolha um modelo de Política de alertas.
A seguir
- Resolva problemas com o código de erro
429
.