Usar a capacidade de processamento provisionada

Esta página explica como a capacidade de processamento provisionada funciona, como controlar excessos ou ignorar a capacidade de processamento provisionada e como monitorar o uso.

Como funciona a capacidade de processamento provisionada

Esta seção explica como a capacidade de processamento provisionada funciona usando a verificação de cota durante o período de aplicação da cota.

Verificação da cota da capacidade de processamento provisionada

Sua cota máxima de capacidade de processamento provisionada é um múltiplo do número de unidades de escala de IA generativa (GSUs, na sigla em inglês) compradas e da capacidade de processamento por GSU. Ela é verificada sempre que você faz uma solicitação no seu período de aplicação de cota, que é a frequência com que a cota máxima de throughput provisionado é aplicada.

No momento em que uma solicitação é recebida, o tamanho real da resposta é desconhecido. Como priorizamos a velocidade de resposta para aplicativos em tempo real, a capacidade provisionada estima o tamanho do token de saída. Se a estimativa inicial exceder a cota máxima de capacidade de processamento provisionada disponível, a solicitação será processada como pagamento por uso. Caso contrário, ela será processada como capacidade de processamento provisionada. Isso é feito comparando a estimativa inicial com a cota máxima de capacidade de processamento provisionada.

Quando a resposta é gerada e o tamanho real do token de saída é conhecido, o uso e a cota reais são reconciliados adicionando a diferença entre a estimativa e o uso real ao valor da cota de capacidade de processamento provisionada disponível.

Período de aplicação da cota da Capacidade de processamento provisionada

Para modelos gemini-2.0-flash-lite e gemini-2.0-flash, o período de aplicação da cota pode levar até 30 segundos e está sujeito a mudanças. Isso significa que você pode ter um tráfego priorizado temporário que excede o valor da cota por segundo em alguns casos, mas não pode ultrapassar a cota em 30 segundos. O período de aplicação de cota para outros modelos pode levar até um minuto. Esses períodos são baseados no relógio interno da Vertex AI e são independentes do momento em que as solicitações são feitas.

Por exemplo, se você comprar uma GSU de gemini-2.0-flash-001, espere 800 caracteres por segundo de capacidade de processamento sempre ativa. Em média, não é possível exceder 24.000 caracteres em 30 segundos, o que é calculado usando esta fórmula:

800 characters per second * 30 seconds = 24,000 characters

Se você enviou uma única solicitação durante todo o dia que consumiu 1.600 caracteres em um segundo, ela ainda pode ser processada como uma solicitação de capacidade de processamento provisionada porque ainda está abaixo do limite de 24.000 caracteres por 30 segundos, mesmo que você tenha excedido o limite de 800 caracteres por segundo no momento da solicitação.

Controlar excedentes ou ignorar a capacidade de processamento provisionada

Use a API para controlar excedentes quando você exceder a capacidade de processamento comprada ou para ignorar a capacidade de processamento provisionada por solicitação.

Leia cada opção para determinar o que você precisa fazer para atender ao seu caso de uso.

Comportamento padrão

Se você exceder a capacidade de processamento comprada, os excedentes vão ser cobrados sob demanda e faturados de acordo com a taxa de pagamento por uso. Depois que o pedido de capacidade de processamento provisionada estiver ativo, o comportamento padrão vai ocorrer automaticamente. Não é preciso alterar o código para começar a consumir seu pedido.

Usar apenas a capacidade de processamento provisionada

Se você estiver gerenciando custos evitando cobranças sob demanda, use apenas a capacidade de processamento provisionada. As solicitações que excedem o valor do pedido de capacidade de processamento provisionada retornam um erro 429.

Ao enviar solicitações para a API, defina o cabeçalho HTTP X-Vertex-AI-LLM-Request-Type como dedicated.

Usar apenas o pagamento por uso

Isso também é chamado de uso sob demanda. As solicitações ignoram a capacidade de processamento provisionada e são enviadas diretamente para o pagamento por uso. Isso pode ser útil para experimentos ou aplicativos que estão em desenvolvimento.

Ao enviar solicitações para a API, defina o cabeçalho HTTP X-Vertex-AI-LLM-Request-Type como shared.

Exemplo

Gen AI SDK for Python

Instalar

pip install --upgrade google-genai
Para saber mais, consulte a documentação de referência do SDK.

Defina variáveis de ambiente para usar o SDK da IA generativa com a Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.0-flash-001",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

REST

Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Monitorar a capacidade de processamento provisionada

É possível monitorar o uso da capacidade de processamento provisionada usando um conjunto de métricas que são medidas no tipo de recurso aiplatform.googleapis.com/PublisherModel.

O monitoramento de tráfego de capacidade de processamento provisionada é um recurso de pré-lançamento público.

Dimensões

É possível filtrar as métricas usando as seguintes dimensões:

Dimensão Valores
type input
output
request_type

dedicated: o tráfego é processado usando a capacidade de processamento provisionada.

shared: se o throughput provisionado estiver ativo, o tráfego será processado usando o modelo de pagamento conforme o uso por padrão se você exceder a cota máxima de throughput provisionado ou se tiver usado o cabeçalho HTTP shared.

Prefixo do caminho

O prefixo do caminho de uma métrica é aiplatform.googleapis.com/publisher/online_serving.

Por exemplo, o caminho completo da métrica /consumed_throughput é aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Métricas

As seguintes métricas do Cloud Monitoring estão disponíveis no recurso aiplatform.googleapis.com/PublisherModel para os modelos Gemini. Use os tipos de solicitação dedicated para filtrar o uso da capacidade de processamento provisionada.

Métrica Nome de exibição Descrição
/dedicated_gsu_limit Limite (GSU) Limite dedicado em GSUs. Use essa métrica para entender a cota máxima de throughput provisionado em GSUs.
/tokens Tokens Distribuição da contagem de tokens de entrada e saída.
/token_count Contagem de tokens Contagem acumulada de tokens de entrada e saída.
/consumed_token_throughput Capacidade de processamento de token Uso de capacidade de processamento, que considera a taxa de burndown em tokens e incorpora a reconciliação de cotas. Consulte Como verificar a cota de capacidade de processamento provisionada.

Use essa métrica para entender como sua cota de capacidade de processamento provisionada foi usada.
/dedicated_token_limit Limite (tokens por segundo) Limite dedicado em tokens por segundo. Use essa métrica para entender a cota máxima de Throughput provisionado para modelos baseados em token.
/characters Caracteres Distribuição de contagem de caracteres de entrada e saída.
/character_count Contagem de caracteres Contagem de caracteres de entrada e saída acumulados.
/consumed_throughput Capacidade de processamento de caracteres Uso de throughput, que considera a taxa de burndown em caracteres e incorpora a reconciliação de cota Verificação de cota de throughput provisionado.

Use essa métrica para entender como a cota de capacidade de processamento provisionada foi usada.

Para modelos baseados em tokens, essa métrica é equivalente à taxa de transferência consumida em tokens multiplicada por 4.
/dedicated_character_limit Limite (caracteres por segundo) Limite dedicado em caracteres por segundo. Use essa métrica para entender a cota máxima de throughput provisionado para modelos baseados em caracteres.
/model_invocation_count Contagem de invocações de modelo Número de invocações de modelo (solicitações de previsão).
/model_invocation_latencies Latências de invocação de modelo Latências de invocação de modelo (latências de previsão).
/first_token_latencies Latências do primeiro token Duração da solicitação recebida até o primeiro token retornado.

Os modelos Anthropic também têm um filtro para a capacidade de processamento provisionada, mas apenas para tokens/token_count.

Painéis

Os painéis de monitoramento padrão para a capacidade de processamento provisionada fornecem métricas que permitem entender melhor o uso e a utilização da capacidade de processamento provisionada. Para acessar os painéis, faça o seguinte:

  1. No console do Google Cloud, acesse a página Capacidade de processamento provisionada.

    Acessar a capacidade de processamento provisionada

  2. Para conferir a utilização da capacidade de processamento provisionada de cada modelo nos seus pedidos, selecione a guia Resumo de utilização.

  3. Selecione um modelo na tabela Utilização de throughput provisionado por modelo para conferir mais métricas específicas do modelo selecionado.

Limitações do painel

O painel pode mostrar resultados inesperados, principalmente se o tráfego for irregular. Os seguintes motivos podem contribuir para esses resultados:

  • Intervalos de tempo maiores que 12 horas podem levar a uma representação menos precisa do período de aplicação da cota. As métricas de throughput e os derivados delas, como a utilização, mostram médias em períodos de alinhamento com base no período selecionado. Quando o período aumenta, cada período de alinhamento também aumenta. O período de alinhamento se expande no cálculo do uso médio. Como a aplicação de cota é calculada em um nível inferior a um minuto, definir o período de tempo como um período de 12 horas ou menos resulta em dados no nível do minuto que são mais comparáveis ao período real de aplicação de cota. Para mais informações sobre períodos de alinhamento, consulte Alinhamento: regularização em série. Para mais informações sobre intervalos de tempo, consulte Regularizar intervalos de tempo.
  • Se várias solicitações forem enviadas ao mesmo tempo, o monitoramento de agregações pode afetar sua capacidade de filtrar solicitações específicas.
  • A capacidade de processamento provisionada limita o tráfego quando uma solicitação é feita, mas informa as métricas de uso depois que a cota é reconciliada.
  • Os períodos de aplicação da cota de throughput provisionado são independentes e podem não estar alinhados com os períodos de agregação de monitoramento ou de solicitação ou resposta.
  • Se não houver erros, uma mensagem de erro vai aparecer no gráfico de taxa de erros. Por exemplo, Ocorreu um erro ao solicitar dados. Um ou mais recursos não foram encontrados.

Alertas

Depois de ativar os alertas, defina alertas padrão para ajudar a gerenciar o uso do tráfego.

Ativar alertas

Para ativar os alertas no painel, faça o seguinte:

  1. No console do Google Cloud, acesse a página Capacidade de processamento provisionada.

    Acessar a capacidade de processamento provisionada

  2. Para conferir a utilização da capacidade de processamento provisionada de cada modelo nos seus pedidos, selecione a guia Resumo de utilização.

  3. Selecione Alertas recomendados e os alertas a seguir serão exibidos:

    • Provisioned Throughput Usage Reached Limit
    • Provisioned Throughput Utilization Exceeded 80%
    • Provisioned Throughput Utilization Exceeded 90%
  4. Verifique os alertas que ajudam a gerenciar seu tráfego.

Conferir mais detalhes do alerta

Para conferir mais informações sobre alertas, faça o seguinte:

  1. Acesse a página Integrações.

    Acessar "Integrações"

  2. Digite vértice no campo Filtro e pressione Enter. A Vertex AI do Google vai aparecer.

  3. Para mais informações, clique em Ver detalhes. O painel Detalhes da Vertex AI do Google é exibido.

  4. Selecione a guia Alertas e escolha um modelo de Política de alertas.

A seguir