O que considerar antes de comprar
Para ajudar você a decidir se quer comprar a capacidade de processamento provisionada, considere o seguinte:
Não é possível cancelar o pedido no meio do período.
Sua compra da capacidade de processamento provisionada é um compromisso, ou seja, não é possível cancelar o pedido no meio do período. No entanto, é possível aumentar o número de GSUs compradas. Se você comprou um compromisso acidentalmente ou se houver um problema com a configuração, entre em contato com o Google Cloud representante da conta para receber ajuda.
É possível renovar sua assinatura automaticamente.
Ao enviar seu pedido, é possível optar, ao final da vigência, pela renovação automática da assinatura ou deixar que ela expire. É possível cancelar o processo de renovação automática. Para cancelar sua assinatura antes da renovação automática, cancele a renovação automática 30 dias antes do início do próximo período.
Você pode configurar as assinaturas mensais para serem renovadas automaticamente a cada mês. Os termos semanais não são compatíveis com a renovação automática.
Para mais informações, consulte Mudar a ordem de capacidade de processamento provisionada. Você também pode entrar em contato com o Google Cloud representante da conta para receber ajuda.
Você pode mudar o comportamento da renovação automática, o modelo, a versão do modelo ou a região com aviso prévio.
Depois que você escolher o projeto, a região, o modelo, a versão do modelo e o comportamento de renovação automática, e seu pedido for aprovado e ativado, a capacidade de processamento provisionada será ativada, sujeita à capacidade disponível. É possível mudar o comportamento de renovação automática, o modelo, a versão do modelo ou a região modificando seu pedido de capacidade de processamento provisionada usando o console Google Cloud .
Todas as mudanças são processadas da melhor maneira possível e geralmente são concluídas em até 10 dias úteis após a solicitação inicial.
As mudanças no modelo são limitadas a um publisher específico. Por exemplo, é possível mudar a atribuição de modelo da capacidade de transmissão provisionada do Google Gemini 2.0 Pro para o Google Gemini 2.0 Flash, mas não é possível mudar do Google Gemini 2.0 Flash para o Claude 3.5 Sonnet v2 da Anthropic.
Por padrão, o excedente é faturado como pagamento por uso.
Se a capacidade de processamento exceder o valor do pedido de capacidade de processamento provisionada, os excedentes serão processados e faturados como pagamento por uso padrão. É possível controlar os excedentes por solicitação. Para mais informações, consulte Usar capacidade de processamento provisionada.
Para informações sobre preços, consulte Taxa de transferência provisionada.
Comprar capacidade de processamento provisionada para modelos de prévia
Você pode comprar a taxa de transferência provisionada para modelos do Google em prévia, desde que uma versão disponível ao público do modelo não tenha sido lançada.
Se você tiver um pedido de capacidade de processamento provisionada ativo para um modelo em pré-lançamento e uma versão com disponibilidade geral for lançada, faça uma destas ações:
Mova o pedido para a versão de disponibilidade geral do modelo. Depois de mover seu pedido para o modelo disponível ao público geral, não será possível voltar para o modelo de prévia. Para mais informações sobre como mudar um pedido, consulte Mudar o pedido de capacidade de processamento provisionada.
Como alternativa, continue usando a capacidade de processamento provisionada para a versão de prévia de um modelo enquanto ela estiver estável. Para mais informações sobre modelos estáveis e desativados, consulte Versões e ciclo de vida do modelo.
Papéis e permissões
A função a seguir concede acesso total para gerenciar a capacidade de processamento provisionada da Vertex AI:
roles/aiplatform.provisionedThroughputAdmin
: você pode acessar recursos de capacidade de processamento provisionada da Vertex AI.
Esse papel inclui as seguintes permissões:
Permissões | Descrição |
---|---|
aiplatform.googleapis.com/provisionedThroughputs.create |
Envie um novo pedido de capacidade de processamento provisionada. |
aiplatform.googleapis.com/provisionedThroughputs.get |
Veja um pedido específico de capacidade de processamento provisionada. |
aiplatform.googleapis.com/provisionedThroughputs.list |
Veja todos os pedidos de capacidade de processamento provisionada. |
aiplatform.googleapis.com/provisionedThroughputs.update |
Modificar um pedido de capacidade de processamento provisionada. |
aiplatform.googleapis.com/provisionedThroughputs.cancel |
Cancele um pedido ou uma atualização pendente. |
Fazer um pedido de capacidade de processamento provisionada
Alguns recursos do Imagen podem não estar disponíveis publicamente. Para saber mais, consulte Recursos restritos de pré-lançamento e disponibilidade geral.
Antes de fazer um pedido para usar o MedLM-large-1.5, entre em contato com seu Google Cloud representante de conta para solicitar acesso.
Se você espera que o QPM seja superior a 30.000, para maximizar seu pedido de capacidade de processamento provisionada, solicite um ajuste de cota para a cota padrão do sistema da Vertex AI usando as seguintes informações:
- Serviço: a API Vertex AI.
- Nome:
Online prediction requests per minute per region
- Tipo de serviço: uma cota.
- Dimensões: a região em que você pediu a capacidade de processamento provisionada.
- Valor: é o limite de tráfego de previsão on-line escolhido.
Os pedidos de capacidade de processamento provisionada são processados com base no tamanho do pedido e na capacidade disponível. Dependendo do número de GSUs solicitadas e da capacidade disponível, o processamento do pedido pode levar de alguns minutos a algumas semanas.
Siga estas etapas para comprar capacidade de processamento provisionada:
Console
- No console Google Cloud , acesse a página "Capacidade de processamento provisionada".
- Para iniciar um novo pedido, clique em Novo pedido.
- Insira um Nome para o pedido.
- Selecione o Modelo.
- Selecione a Região.
Insira o Número de unidades de escalonamento de IA generativa (GSUs, na sigla em inglês) que você precisa comprar.
Opcional: use a ferramenta de estimativa de unidades de escalonamento de IA generativa para calcular o número de GSUs necessárias. Para usar essa ferramenta, faça o seguinte:
- Clique em Ferramenta de estimativa.
- Selecione o Modelo.
Com base no modelo selecionado, insira os detalhes para estimar o número de GSUs necessárias.
Para os modelos do Gemini 2.5, insira o seguinte:
- Estimativa de consultas por segundo que exigem garantia
- Tokens de texto de entrada por consulta
- Tokens de imagem de entrada por consulta
- Tokens de vídeo de entrada por consulta
- Tokens de áudio de entrada por consulta
- Tokens de texto de resposta de saída por consulta
- Tokens de texto do raciocínio de saída por consulta
Para o modelo Gemini 2.5 Flash-Lite (pré-lançamento), insira o seguinte:
- Estimativa de consultas por segundo que exigem garantia
- Tokens de texto de entrada por consulta
- Tokens de imagem de entrada por consulta
- Tokens de vídeo de entrada por consulta
- Tokens de áudio de entrada por consulta
- Tokens de texto de saída por consulta
Para modelos do Gemini 2.0, insira o seguinte:
- Estimativa de consultas por segundo que exigem garantia
- Tokens de entrada por consulta
- Tokens de imagem de entrada por consulta
- Tokens de vídeo de entrada por consulta
- Tokens de áudio de entrada por consulta
- Tokens de texto de saída por consulta
Para modelos do Imagen, insira o seguinte:
- Consultas por segundo
- Imagens de saída por consulta
Se você quiser usar os valores que inseriu na ferramenta de estimativa, clique em Uso calculado.
Selecione o Prazo. As taxas de prazo não são canceláveis durante a vigência e serão aplicadas independentemente do uso real ou da desativação do modelo. O Google recomenda mudar o modelo atribuído antes da data de desativação. O Google não vai cancelar proativamente a renovação automática de modelos desativados.
As seguintes opções estão disponíveis:
- 1 semana
- 1 mês
- 3 meses
- 1 ano
Opcional: selecione a Data e hora de início do seu período (prévia).
Você pode informar uma data e hora de início em até duas semanas a partir do momento em que fizer o pedido. Se você não especificar uma data e hora de início, o pedido será processado assim que a capacidade estiver disponível. As datas e horários de início solicitados são processados da melhor maneira possível, e não há garantia de que os pedidos serão atendidos nessas datas até que o status deles seja definido como Aprovado.
Se a data de início solicitada estiver muito próxima da data atual, seu pedido poderá ser aprovado e ativado depois da data de início solicitada. Nesse caso, a data de término é ajustada com base na duração do prazo selecionado, começando na data de ativação. Para informações sobre como cancelar um pedido pendente, consulte Mudar o pedido de capacidade de processamento provisionada.
Na lista Renovação, especifique se você quer renovar automaticamente o pedido ao final do período. Você só pode especificar a opção de renovação se selecionar 1 mês, 3 meses ou 1 ano como o prazo.
Clique em Continuar.
Na seção Resumo, revise as estimativas de preço e de capacidade de processamento do seu pedido. Leia os termos listados e disponíveis no formulário.
Para finalizar o pedido, clique em Confirmar.
Pode levar de alguns minutos a algumas semanas para processar um pedido, dependendo do tamanho e da capacidade disponível. Depois que o pedido for processado, o status dele no console Google Cloud mudará para Ativo. Você só vai receber cobranças pelo pedido depois que ele for ativado.
Mudar o pedido de capacidade de processamento provisionada
Esta tabela descreve como modificar seus pedidos de capacidade de transmissão provisionada no consoleGoogle Cloud com base no status do pedido e em condições atuais. A modificação de pedidos é um recurso em pré-lançamento e está disponível apenas para pedidos on-line feitos pelo console. Para fazer mudanças em pedidos off-line, entre em contato com seu Google Cloud representante da conta.
Além disso, as mudanças feitas ao usar o console Google Cloud no seu modelo ou versão do modelo modificam a ordem atual, mas mantêm a mesma data de término da assinatura.
Status do pedido | Ação | Observação | Etapas no Google Cloud console |
---|---|---|---|
Análise pendente | Você pode cancelar o pedido. |
Se você tiver outras mudanças a fazer, cancele o pedido pendente e faça um novo. Se você tiver vários modelos, cada um poderá ter apenas uma revisão ou pedido pendente por vez. |
Para cancelar seu pedido pendente no console do Google Cloud , faça o seguinte:
|
Aprovado | Não é possível modificar o pedido. | O pedido está aguardando ativação. Não é possível fazer mudanças no seu pedido no momento. | Não relevante |
Ativo |
Só é possível fazer as seguintes mudanças se o pedido não expirar nos próximos cinco dias ou se for renovado automaticamente:
|
Não é possível mudar um pedido ativo se ele expirar em menos de cinco dias e não estiver configurado para renovação automática. | Para mudar o pedido ativo no console Google Cloud , use um dos seguintes métodos:
|
Verificar status do pedido
Após o envio do pedido de capacidade de processamento provisionada, o status do pedido pode aparecer da seguinte forma:
- Revisão pendente: você fez o pedido. Como a aprovação depende da capacidade disponível para provisionar seu pedido, seu pedido está aguardando análise e aprovação. Para mais informações sobre o status do pedido pendente, entre em contato com o representante da sua conta do Google Cloud .
- Aprovado: o Google aprovou seu pedido, que está aguardando ativação. Não é possível fazer mudanças depois que o pedido é aprovado.
- Ativo: o Google ativou seu pedido, e o faturamento começou.
- Expirado: seu pedido expirou.
Ver pedidos de capacidade de processamento provisionada
Siga estas etapas para conferir seus pedidos de capacidade de processamento provisionada:
Console
- No console Google Cloud , acesse a página "Capacidade de processamento provisionada".
- Selecione a Região. Sua lista de pedidos vai aparecer.