Comprar capacidade de processamento provisionada

Esta página mostra detalhes a serem considerados antes de assinar a capacidade de processamento provisionada, as permissões necessárias para fazer ou visualizar um pedido de capacidade de processamento provisionada e as instruções para fazer e visualizar os pedidos.

O que considerar antes de comprar

Para ajudar você a decidir se quer comprar a capacidade de processamento provisionada, considere o seguinte:

  • Não é possível cancelar o pedido no meio do período.

    Sua compra da capacidade de processamento provisionada é um compromisso, ou seja, não é possível cancelar o pedido no meio do período. No entanto, é possível aumentar o número de GSUs comprados. Se você comprou um compromisso acidentalmente ou se houver um problema com a configuração, entre em contato com o representante da sua conta doGoogle Cloud para receber ajuda.

  • É possível renovar sua assinatura automaticamente.

    Ao enviar seu pedido, é possível optar, ao final da vigência, pela renovação automática da assinatura ou deixar que ela expire. É possível cancelar o processo de renovação automática. Para cancelar sua assinatura antes da renovação automática, cancele a renovação automática 30 dias antes do início do próximo período.

    É possível configurar as assinaturas mensais para renovação automática. Os termos semanais não são compatíveis com a renovação automática.

    Para mais informações, consulte Mudar a ordem da capacidade de processamento provisionada. Você também pode entrar em contato com o representante da Google Cloud conta para receber ajuda.

  • Você pode mudar o comportamento de renovação automática, o modelo, a versão do modelo ou a região com aviso prévio.

    Depois que você escolher o projeto, a região, o modelo, a versão do modelo e o comportamento de renovação automática e o pedido for aprovado e ativado, a capacidade de processamento provisionada será ativada, sujeita à capacidade disponível. É possível mudar o comportamento, o modelo ou a versão do modelo de renovação automática usando o console do Google Cloud, que também pode ser usado para modificar o pedido atual. Para mais informações, consulte Alterar a ordem da capacidade de processamento provisionada.

    Para mudar a região, entre em contato com o representante da conta Google Cloud para receber ajuda. Talvez seja necessário fazer um novo pedido com uma nova data de término da assinatura.

    Todas as mudanças são processadas da melhor forma possível e geralmente são atendidas em até 10 dias úteis após a solicitação inicial.

    As mudanças de modelo são limitadas a um editor específico. Por exemplo, é possível alternar a atribuição de modelo de Throughput provisionado do Google Gemini 2.0 Pro para o Google Gemini 2.0 Flash, mas não é possível mudar do Google Gemini 2.0 Flash para o Claude 3.5 Sonnet v2 da Anthropic.

  • Por padrão, o excedente é faturado como pagamento por uso.

    Se a capacidade de processamento exceder o valor do pedido de capacidade de processamento provisionada, os excedentes serão processados e faturados como pagamento por uso padrão. É possível controlar os excedentes por solicitação. Para mais informações, consulte Usar a capacidade de processamento provisionada.

Comprar capacidade de processamento provisionada por uma semana

Em vez de uma assinatura mensal, você pode comprar o throughput provisionado por um período de uma semana com a opção de fornecer uma data de início dentro de duas semanas no futuro para fazer o pedido após o envio do formulário de controle de acesso ao throughput provisionado.

Para informações sobre preços, consulte Throughput provisionado.

Papéis e permissões

O papel a seguir concede acesso total para gerenciar a capacidade de processamento provisionada da Vertex AI:

  • roles/aiplatform.provisionedThroughputAdmin: é possível acessar recursos de capacidade de processamento provisionada da Vertex AI.

Esse papel inclui as seguintes permissões:

Permissões Descrição
aiplatform.googleapis.com/provisionedThroughputs.create Envie um novo pedido de capacidade de processamento provisionada.
aiplatform.googleapis.com/provisionedThroughputs.get Acessar um pedido específico de capacidade de processamento provisionada.
aiplatform.googleapis.com/provisionedThroughputs.list Acesse todos os pedidos de capacidade de processamento provisionada.
aiplatform.googleapis.com/provisionedThroughputs.update Modificar um pedido de capacidade de processamento provisionada.
aiplatform.googleapis.com/provisionedThroughputs.cancel Cancelar um pedido ou uma atualização pendente.

Fazer um pedido de capacidade de processamento provisionada

Alguns recursos do Imagen podem não estar disponíveis publicamente. Para saber mais, consulte Recursos restritos de pré-lançamento e disponibilidade geral.

Antes de fazer um pedido para usar o MedLM-large-1.5, entre em contato com o representante da Google Cloud conta para solicitar acesso. Se você espera que o QPM seja superior a 30.000, para maximizar sua ordem de capacidade de processamento provisionada, solicite um aumento na cota padrão do sistema da Vertex AI usando as seguintes informações:

  • Serviço: a API Vertex AI.
  • Nome: Online prediction requests per minute per region
  • Tipo de serviço: uma cota.
  • Dimensões: a região em que você solicitou a capacidade de processamento provisionada.
  • Valor: é o limite de tráfego de previsão on-line escolhido.

Os pedidos de capacidade de processamento provisionada são processados com base no tamanho do pedido e na capacidade disponível. Dependendo do número de GSUs solicitadas e da capacidade disponível, pode levar alguns minutos ou algumas semanas para processar o pedido.

Siga estas etapas para comprar a capacidade de processamento provisionada:

Console

  1. No console do Google Cloud, acesse a página "Capacidade de processamento provisionada".

    Acessar a capacidade de processamento provisionada

  2. Para iniciar um novo pedido, clique em Novo pedido.
  3. Insira um Nome para o pedido.
  4. Selecione o Modelo.
  5. Selecione a Região.
  6. Insira o Número de unidades de escalonamento de IA generativa (GSUs, na sigla em inglês) que você precisa comprar.

    Opcional: você pode usar a ferramenta de estimativa de unidades de escalonamento de IA generativa para estimar o número de GSUs que você vai precisar. Para usar essa ferramenta, faça o seguinte:

    1. Clique em Ferramenta de estimativa.
    2. Selecione o Modelo.
    3. Com base no modelo selecionado, insira os detalhes para estimar o número de GSUs necessárias.

      • Para modelos Gemini 2.0, insira o seguinte:

        • Estimativa de consultas por segundo que exigem garantia
        • Tokens de entrada por consulta
        • Tokens de imagem de entrada por consulta
        • Tokens de vídeo de entrada por consulta
        • Tokens de áudio de entrada por consulta
        • Tokens de texto de saída por consulta
      • Para modelos Imagen, insira o seguinte:

        • Consultas por segundo
        • Imagens de saída por consulta
    4. Se você quiser usar os valores que inseriu na ferramenta de estimativa, clique em Uso calculado.

  7. Selecione o Prazo. As seguintes opções estão disponíveis:

    • 1 semana (disponível na visualização particular)
    • 1 mês
    • 3 meses
    • 1 ano
  8. Opcional: selecione a data e a hora de início do seu período (pré-lançamento).

    Você pode informar uma data e hora de início dentro de duas semanas a partir do momento em que fez o pedido. Se você não especificar uma data e hora de início, o pedido será processado assim que a capacidade estiver disponível. As datas e os horários de início solicitados são processados da melhor maneira possível, e não há garantia de que os pedidos serão atendidos nessas datas até que o status deles seja definido como Aprovado.

    Se a data de início solicitada for muito próxima da data atual, o pedido poderá ser aprovado e ativado após a data de início solicitada. Nesse caso, a data de término é ajustada com base na duração do período selecionado, a partir da data de ativação. Para informações sobre como cancelar um pedido pendente, consulte Alterar o pedido de capacidade de processamento provisionada.

  9. Na lista Renovação, especifique se você quer renovar automaticamente o pedido no final do período. Só é possível especificar a opção de renovação se você selecionar 1 mês, 3 meses ou 1 ano como período.

  10. Clique em Continuar.

  11. Na seção Resumo, revise as estimativas de preço e de capacidade de processamento do seu pedido. Leia os termos listados e disponíveis no formulário.

  12. Para finalizar o pedido, clique em Confirmar.

    O processamento de um pedido pode levar de alguns minutos a algumas semanas, dependendo do tamanho do pedido e da capacidade disponível. Depois que o pedido é processado, o status dele no console do Google Cloud muda para Ativo. Você só vai receber cobranças pelo pedido depois que ele for ativado.

Mudar o pedido de capacidade de processamento provisionada

Esta tabela descreve como modificar os pedidos de Throughput provisionado no console do Google Cloud com base no status do pedido e nas condições atuais. Modificar pedidos é um recurso em pré-lançamento e está disponível apenas para pedidos on-line feitos pelo console. Para mudanças em pedidos off-line, entre em contato com o Google Cloud representante da conta para receber ajuda.

Além disso, as mudanças feitas no modelo ou na versão do modelo ao usar o console do Google Cloud modificam a ordem atual, mantendo a mesma data de término da assinatura.

Status do pedido Ação Observação Etapas no console do Google Cloud
Análise pendente Você pode cancelar o pedido.

Se você quiser fazer outras mudanças, cancele o pedido pendente e faça um novo.

Se você tiver vários modelos, cada um deles poderá ter apenas uma revisão ou um pedido pendente por vez.

Para cancelar o pedido pendente no console do Google Cloud, faça o seguinte:
  1. Acesse a página Capacidade de processamento provisionada.
  2. Selecione a região em que o pedido pendente está localizado.
  3. Para acessar a página Detalhes do pedido, clique no ID do pedido do pedido que você quer cancelar.
  4. Clique em Cancelar.
  5. Na caixa de diálogo Você tem certeza de que quer cancelar o pedido?, clique em Cancelar pedido.
Ativo

É possível aumentar as GSUs em pedidos atuais.

É possível ativar ou desativar as renovações automáticas.

Você pode mudar o modelo ou a versão do modelo.

Se essas duas condições forem atendidas, não será possível mudar o pedido:
  • A data de expiração do pedido está a menos de 5 dias.
  • O pedido não está configurado para renovação automática.
Para mudar o pedido ativo no console do Google Cloud, use um dos seguintes métodos:
  • Na página Throughput provisionado, clique no símbolo na coluna Ações e em Editar.
  • Na página Detalhes do pedido, clique no botão Editar.

Verificar status do pedido

Após o envio do pedido de capacidade de processamento provisionada, o status do pedido pode aparecer da seguinte forma:

  • Revisão pendente: você fez o pedido. Como a aprovação depende da capacidade disponível para provisionar seu pedido, seu pedido está aguardando análise e aprovação. Para mais informações sobre o status do pedido pendente, entre em contato com o representante da Google Cloud conta.
  • Aprovado: o Google aprovou seu pedido.
  • Ativo: o Google ativou seu pedido, e o faturamento começou.
  • Expirado: seu pedido expirou.

Ver pedidos de capacidade de processamento provisionada

Siga estas etapas para conferir seus pedidos de capacidade de processamento provisionada:

Console

  1. No console do Google Cloud, acesse a página "Capacidade de processamento provisionada".

    Acessar a capacidade de processamento provisionada

  2. Selecione a Região. Sua lista de pedidos vai aparecer.

A seguir