Se você quiser comprar o provisionamento de capacidade de transferência de dados de zona única, entre em contato com seu representante da conta do Google Cloud para receber ajuda. Para mais informações sobre a capacidade provisionada de zona única, consulte Capacidade provisionada de zona única.
O que considerar antes de comprar
Para ajudar você a decidir se quer comprar a capacidade de processamento provisionada, considere o seguinte:
Não é possível cancelar o pedido no meio do período.
Sua compra da capacidade de processamento provisionada é um compromisso, ou seja, não é possível cancelar o pedido no meio do período. No entanto, é possível aumentar o número de GSUs compradas. Se você comprou um compromisso acidentalmente ou se houver um problema com a configuração, entre em contato com o Google Cloud representante da conta para receber ajuda.
É possível renovar sua assinatura automaticamente.
Ao enviar seu pedido, é possível optar, ao final da vigência, pela renovação automática da assinatura ou deixar que ela expire. É possível cancelar o processo de renovação automática. Para cancelar sua assinatura antes da renovação automática, cancele a renovação automática 30 dias antes do início do próximo período.
Você pode configurar as assinaturas mensais para serem renovadas automaticamente a cada mês. Os termos semanais não são compatíveis com a renovação automática.
Para mais informações, consulte Mudar a ordem de capacidade de processamento provisionada. Você também pode entrar em contato com o Google Cloud representante da conta para receber ajuda.
Você pode mudar o comportamento da renovação automática, o modelo, a versão do modelo ou a região com aviso prévio.
Depois que você escolher o projeto, a região, o modelo, a versão do modelo e o comportamento de renovação automática, e seu pedido for aprovado e ativado, a capacidade de processamento provisionada será ativada, sujeita à capacidade disponível. É possível mudar o comportamento de renovação automática, o modelo, a versão do modelo ou a região modificando seu pedido de capacidade de processamento provisionada usando o console Google Cloud .
Todas as mudanças são processadas da melhor maneira possível e geralmente são concluídas em até 10 dias úteis após o pedido inicial.
As mudanças no modelo são limitadas a um publisher específico. Por exemplo, é possível mudar a atribuição de modelo da capacidade de processamento provisionada do Google Gemini 2.0 Pro para o Google Gemini 2.0 Flash, mas não é possível mudar do Google Gemini 2.0 Flash para o Claude 3.5 Sonnet v2 da Anthropic.
Por padrão, o excedente é faturado como pagamento por uso.
Se a capacidade de processamento exceder o valor do pedido de capacidade de processamento provisionada, os excedentes serão processados e faturados como pagamento por uso padrão. É possível controlar os excedentes por solicitação. Para mais informações, consulte Usar capacidade de processamento provisionada.
Para informações sobre preços, consulte Taxa de transferência provisionada.
Comprar capacidade de processamento provisionada para modelos de prévia
Você pode comprar o Provisioned Throughput para modelos do Google em prévia, desde que uma versão disponível ao público do modelo não tenha sido lançada.
Se você tiver um pedido de capacidade de processamento provisionada ativo para um modelo em pré-lançamento e uma versão com disponibilidade geral for lançada, faça uma destas ações:
Mova o pedido para a versão de disponibilidade geral do modelo. Depois de mover seu pedido para o modelo disponível ao público geral, não é possível voltar para o modelo de prévia. Para mais informações sobre como mudar um pedido, consulte Mudar o pedido de capacidade de processamento provisionada.
Como alternativa, continue usando a capacidade de processamento provisionada para a versão de prévia de um modelo enquanto ela estiver estável. Para mais informações sobre modelos estáveis e desativados, consulte Versões e ciclo de vida do modelo.
Papéis e permissões
A função a seguir concede acesso total para gerenciar a capacidade de processamento provisionada da Vertex AI:
roles/aiplatform.provisionedThroughputAdmin
: você pode acessar recursos de capacidade de processamento provisionada da Vertex AI.
Esse papel inclui as seguintes permissões:
Permissões | Descrição |
---|---|
aiplatform.googleapis.com/provisionedThroughputs.create |
Envie um novo pedido de capacidade de processamento provisionada. |
aiplatform.googleapis.com/provisionedThroughputs.get |
Veja um pedido específico de capacidade de processamento provisionada. |
aiplatform.googleapis.com/provisionedThroughputs.list |
Veja todos os pedidos de capacidade de processamento provisionada. |
aiplatform.googleapis.com/provisionedThroughputs.update |
Modificar um pedido de capacidade de processamento provisionada. |
aiplatform.googleapis.com/provisionedThroughputs.cancel |
Cancele um pedido ou uma atualização pendente. |
Fazer um pedido padrão de capacidade de processamento provisionada
Alguns recursos da Imagen podem não estar disponíveis publicamente. Para saber mais, consulte Recursos restritos de pré-lançamento e disponibilidade geral.
Antes de fazer um pedido para usar o MedLM-large-1.5, entre em contato com seu Google Cloud representante de conta para solicitar acesso.
Se você espera que o QPM seja superior a 30.000, para maximizar seu pedido de capacidade de processamento provisionada, solicite um ajuste de cota para a cota padrão do sistema da Vertex AI usando as seguintes informações:
- Serviço: a API Vertex AI.
- Nome:
Online prediction requests per minute per region
- Tipo de serviço: uma cota.
- Dimensões: a região em que você solicitou a capacidade de processamento provisionada.
- Valor: é o limite de tráfego de previsão on-line escolhido.
Os pedidos de capacidade de processamento provisionada são processados com base no tamanho do pedido e na capacidade disponível. Dependendo do número de GSUs solicitadas e da capacidade disponível, o processamento do pedido pode levar de alguns minutos a algumas semanas. Ao fazer um pedido de capacidade de processamento provisionada, use a ferramenta de estimativa de unidade de escala de IA generativa para calcular o número de GSUs que você precisa comprar. Depois de analisar a estimativa, você pode continuar com ela ou modificar o número de GSUs a serem compradas.
Siga estas etapas para comprar a capacidade de processamento provisionada padrão. Para receber ajuda com a compra de taxa de transferência provisionada de zona única, entre em contato com o representante da sua conta do Google Cloud .
Console
- No console Google Cloud , acesse a página Capacidade de processamento provisionada.
- Para iniciar um novo pedido, clique em Novo pedido.
- Insira um Nome para o pedido.
- Selecione o Modelo.
- Selecione a Região.
- Clique em Ferramenta de estimativa.
No painel Ferramenta de estimativa de unidades de escalonamento de IA generativa, siga estas etapas para estimar o número de GSUs necessárias.
- Selecione o Modelo.
Com base no modelo selecionado, insira os detalhes para estimar o número de GSUs necessárias. Para informações sobre o mínimo de GSU e os incrementos de compra para cada modelo, consulte Modelos compatíveis. Para informações sobre as capacidades de um modelo e os limites de entrada ou saída, consulte a documentação do modelo.
Para os modelos Gemini 2.5 Pro e Gemini 2.5 Flash insira o seguinte:
- Estimativa de consultas por segundo que exigem garantia
- Tokens de texto de entrada por consulta
- Tokens de imagem de entrada por consulta
- Tokens de vídeo de entrada por consulta
- Tokens de áudio de entrada por consulta
- Tokens de texto de resposta de saída por consulta
- Tokens de texto do raciocínio de saída por consulta
- Imagens de saída por consulta (aplicável apenas à prévia de imagens do Gemini 2.5 Flash)
Para o modelo Gemini 2.5 Flash com API Live, insira o seguinte:
- Estimativa de consultas por segundo que exigem garantia
- Tokens de entrada por consulta
- Tokens de áudio de entrada por consulta
- Tokens de vídeo de entrada por consulta
- Tokens de memória de sessão de entrada por consulta
- Tokens de texto de saída por consulta
- Tokens de áudio de saída por consulta
Para o modelo Gemini 2.5 Flash-Lite, insira o seguinte:
- Estimativa de consultas por segundo que exigem garantia
- Tokens de texto de entrada por consulta
- Tokens de imagem de entrada por consulta
- Tokens de vídeo de entrada por consulta
- Tokens de áudio de entrada por consulta
- Tokens de texto de resposta de saída por consulta
- Tokens de texto do raciocínio de saída por consulta
Para os modelos Gemini 2.0 Flash e Gemini 2.0 Flash-Lite, insira o seguinte:
- Estimativa de consultas por segundo que exigem garantia
- Tokens de entrada por consulta
- Tokens de imagem de entrada por consulta
- Tokens de vídeo de entrada por consulta
- Tokens de áudio de entrada por consulta
- Tokens de texto de saída por consulta
Para os modelos Veo 3 e Veo 3 Fast, insira o seguinte:
- Estimativa de consultas por segundo que exigem garantia
- Segundos de vídeo de saída por consulta
- Segundos de áudio e vídeo de saída por consulta
Para modelos do Imagen, insira o seguinte:
- Consultas por segundo
- Imagens de saída por consulta
Na seção Estimativa de GSUs e preços mensais, revise o número estimado de GSUs necessárias e os preços.
Clique em Usar calculado.
Opcional: modifique o Número de unidades de escalonamento de IA generativa (GSUs) por mês.
Selecione o Prazo. As taxas de prazo não são canceláveis durante a vigência e serão aplicadas independentemente do uso real ou da desativação do modelo. O Google recomenda mudar o modelo atribuído antes da data de desativação. O Google não vai cancelar proativamente a renovação automática de modelos desativados.
As seguintes opções estão disponíveis:
- 1 semana
- 1 mês
- 3 meses
- 1 ano
Opcional: selecione a Data e hora de início do seu período (prévia).
Você pode informar uma data e hora de início em até duas semanas a partir do momento em que fizer o pedido. Se você não especificar uma data e hora de início, o pedido será processado assim que a capacidade estiver disponível. As datas e horários de início solicitados são processados da melhor maneira possível, e não há garantia de que os pedidos serão atendidos nessas datas até que o status deles seja definido como Aprovado.
Se a data de início solicitada estiver muito próxima da data atual, seu pedido poderá ser aprovado e ativado depois da data de início solicitada. Nesse caso, a data de término é ajustada com base na duração do prazo selecionado, começando na data de ativação. Para informações sobre como cancelar um pedido pendente, consulte Mudar o pedido de capacidade de processamento provisionada.
Na lista Renovação, especifique se você quer renovar automaticamente o pedido ao final do período. Você só pode especificar a opção de renovação se selecionar 1 mês, 3 meses ou 1 ano como o prazo.
Clique em Continuar.
Na seção Confirmar e enviar, revise as estimativas de preço e de capacidade de processamento do seu pedido. Leia os termos listados e disponíveis no formulário.
Para finalizar e enviar seu pedido, insira
CONFIRM
no campo Confirmação da compra e clique em Enviar pedido.Pode levar de alguns minutos a algumas semanas para processar um pedido, dependendo do tamanho e da capacidade disponível. Depois que o pedido for processado, o status dele no console Google Cloud mudará para Ativo. Você só vai receber cobranças pelo pedido depois que ele for ativado.
Mudar um pedido padrão de capacidade de processamento provisionada
Esta tabela descreve como modificar seus pedidos de capacidade de transmissão provisionada no consoleGoogle Cloud com base no status do pedido e em condições atuais. A modificação de pedidos é um recurso em pré-lançamento e está disponível apenas para pedidos on-line feitos pelo console. Para fazer mudanças em pedidos off-line, entre em contato com seu Google Cloud representante da conta.
Além disso, as mudanças feitas no modelo ou na versão dele usando o console do Google Cloud modificam a ordem atual, mas mantêm a mesma data de término da assinatura.
Status do pedido | Ação | Observação | Etapas no Google Cloud console |
---|---|---|---|
Análise pendente | Você pode cancelar o pedido. |
Se você tiver outras mudanças a fazer, cancele o pedido pendente e faça um novo. Se você tiver vários modelos, cada um poderá ter apenas uma revisão ou pedido pendente por vez. |
Para cancelar seu pedido pendente no console do Google Cloud , faça o seguinte:
|
Aprovado | Não é possível modificar o pedido. | O pedido está aguardando ativação. Não é possível fazer mudanças no seu pedido no momento. | Não relevante |
Ativo |
Só é possível fazer as seguintes mudanças se o pedido não expirar nos próximos cinco dias ou se for renovado automaticamente:
|
Não é possível mudar um pedido ativo se ele expirar em menos de cinco dias e não estiver configurado para renovação automática. | Para mudar o pedido ativo no console Google Cloud , use um dos seguintes métodos:
|
Verificar status do pedido
Após o envio do pedido de capacidade de processamento provisionada, o status do pedido pode aparecer da seguinte forma:
- Revisão pendente: você fez o pedido. Como a aprovação depende da capacidade disponível para provisionar seu pedido, seu pedido está aguardando análise e aprovação. Para mais informações sobre o status do pedido pendente, entre em contato com o representante da sua conta do Google Cloud .
- Aprovado: o Google aprovou seu pedido, que está aguardando ativação. Não é possível fazer mudanças depois que o pedido é aprovado.
- Ativo: o Google ativou seu pedido, e o faturamento começou.
- Expirado: seu pedido expirou.
Ver pedidos padrão de capacidade de processamento provisionada
Siga estas etapas para conferir seus pedidos de capacidade de processamento provisionada:
Console
- No console Google Cloud , acesse a página "Capacidade de processamento provisionada".
- Selecione a Região. Sua lista de pedidos vai aparecer.