O que considerar antes de comprar
Para ajudar você a decidir se quer comprar a capacidade de processamento provisionada, considere o seguinte:
Não é possível cancelar o pedido no meio do período.
Sua compra da capacidade de processamento provisionada é um compromisso, ou seja, não é possível cancelar o pedido no meio do período. No entanto, é possível aumentar o número de GSUs comprados. Se você comprou um compromisso acidentalmente ou se houver um problema com a configuração, entre em contato com o representante da sua conta doGoogle Cloud para receber ajuda.
É possível renovar sua assinatura automaticamente.
Ao enviar seu pedido, é possível optar, ao final da vigência, pela renovação automática da assinatura ou deixar que ela expire. É possível cancelar o processo de renovação automática. Para cancelar sua assinatura antes da renovação automática, cancele a renovação automática 30 dias antes do início do próximo período.
É possível configurar as assinaturas mensais para renovação automática. Os termos semanais não são compatíveis com a renovação automática.
Para mais informações, consulte Mudar a ordem da capacidade de processamento provisionada. Você também pode entrar em contato com o representante da Google Cloud conta para receber ajuda.
Você pode mudar o comportamento de renovação automática, o modelo, a versão do modelo ou a região com aviso prévio.
Depois que você escolher o projeto, a região, o modelo, a versão do modelo e o comportamento de renovação automática e o pedido for aprovado e ativado, a capacidade de processamento provisionada será ativada, sujeita à capacidade disponível. É possível mudar o comportamento, o modelo ou a versão do modelo de renovação automática usando o console do Google Cloud, que também pode ser usado para modificar o pedido atual. Para mais informações, consulte Alterar a ordem da capacidade de processamento provisionada.
Para mudar a região, entre em contato com o representante da conta Google Cloud para receber ajuda. Talvez seja necessário fazer um novo pedido com uma nova data de término da assinatura.
Todas as mudanças são processadas da melhor forma possível e geralmente são atendidas em até 10 dias úteis após a solicitação inicial.
As mudanças de modelo são limitadas a um editor específico. Por exemplo, é possível alternar a atribuição de modelo de Throughput provisionado do Google Gemini 2.0 Pro para o Google Gemini 2.0 Flash, mas não é possível mudar do Google Gemini 2.0 Flash para o Claude 3.5 Sonnet v2 da Anthropic.
Por padrão, o excedente é faturado como pagamento por uso.
Se a capacidade de processamento exceder o valor do pedido de capacidade de processamento provisionada, os excedentes serão processados e faturados como pagamento por uso padrão. É possível controlar os excedentes por solicitação. Para mais informações, consulte Usar a capacidade de processamento provisionada.
Comprar capacidade de processamento provisionada por uma semana
Em vez de uma assinatura mensal, você pode comprar o throughput provisionado por um período de uma semana com a opção de fornecer uma data de início dentro de duas semanas no futuro para fazer o pedido após o envio do formulário de controle de acesso ao throughput provisionado.
Para informações sobre preços, consulte Throughput provisionado.
Papéis e permissões
O papel a seguir concede acesso total para gerenciar a capacidade de processamento provisionada da Vertex AI:
roles/aiplatform.provisionedThroughputAdmin
: é possível acessar recursos de capacidade de processamento provisionada da Vertex AI.
Esse papel inclui as seguintes permissões:
Permissões | Descrição |
---|---|
aiplatform.googleapis.com/provisionedThroughputs.create |
Envie um novo pedido de capacidade de processamento provisionada. |
aiplatform.googleapis.com/provisionedThroughputs.get |
Acessar um pedido específico de capacidade de processamento provisionada. |
aiplatform.googleapis.com/provisionedThroughputs.list |
Acesse todos os pedidos de capacidade de processamento provisionada. |
aiplatform.googleapis.com/provisionedThroughputs.update |
Modificar um pedido de capacidade de processamento provisionada. |
aiplatform.googleapis.com/provisionedThroughputs.cancel |
Cancelar um pedido ou uma atualização pendente. |
Fazer um pedido de capacidade de processamento provisionada
Alguns recursos do Imagen podem não estar disponíveis publicamente. Para saber mais, consulte Recursos restritos de pré-lançamento e disponibilidade geral.
Antes de fazer um pedido para usar o MedLM-large-1.5, entre em contato com o representante da Google Cloud conta para solicitar acesso. Se você espera que o QPM seja superior a 30.000, para maximizar sua ordem de capacidade de processamento provisionada, solicite um aumento na cota padrão do sistema da Vertex AI usando as seguintes informações:
- Serviço: a API Vertex AI.
- Nome:
Online prediction requests per minute per region
- Tipo de serviço: uma cota.
- Dimensões: a região em que você solicitou a capacidade de processamento provisionada.
- Valor: é o limite de tráfego de previsão on-line escolhido.
Os pedidos de capacidade de processamento provisionada são processados com base no tamanho do pedido e na capacidade disponível. Dependendo do número de GSUs solicitadas e da capacidade disponível, pode levar alguns minutos ou algumas semanas para processar o pedido.
Siga estas etapas para comprar a capacidade de processamento provisionada:
Console
- No console do Google Cloud, acesse a página "Capacidade de processamento provisionada".
- Para iniciar um novo pedido, clique em Novo pedido.
- Insira um Nome para o pedido.
- Selecione o Modelo.
- Selecione a Região.
Insira o Número de unidades de escalonamento de IA generativa (GSUs, na sigla em inglês) que você precisa comprar.
Opcional: você pode usar a ferramenta de estimativa de unidades de escalonamento de IA generativa para estimar o número de GSUs que você vai precisar. Para usar essa ferramenta, faça o seguinte:
- Clique em Ferramenta de estimativa.
- Selecione o Modelo.
Com base no modelo selecionado, insira os detalhes para estimar o número de GSUs necessárias.
Para modelos Gemini 2.0, insira o seguinte:
- Estimativa de consultas por segundo que exigem garantia
- Tokens de entrada por consulta
- Tokens de imagem de entrada por consulta
- Tokens de vídeo de entrada por consulta
- Tokens de áudio de entrada por consulta
- Tokens de texto de saída por consulta
Para modelos Imagen, insira o seguinte:
- Consultas por segundo
- Imagens de saída por consulta
Se você quiser usar os valores que inseriu na ferramenta de estimativa, clique em Uso calculado.
Selecione o Prazo. As seguintes opções estão disponíveis:
- 1 semana (disponível na visualização particular)
- 1 mês
- 3 meses
- 1 ano
Opcional: selecione a data e a hora de início do seu período (pré-lançamento).
Você pode informar uma data e hora de início dentro de duas semanas a partir do momento em que fez o pedido. Se você não especificar uma data e hora de início, o pedido será processado assim que a capacidade estiver disponível. As datas e os horários de início solicitados são processados da melhor maneira possível, e não há garantia de que os pedidos serão atendidos nessas datas até que o status deles seja definido como Aprovado.
Se a data de início solicitada for muito próxima da data atual, o pedido poderá ser aprovado e ativado após a data de início solicitada. Nesse caso, a data de término é ajustada com base na duração do período selecionado, a partir da data de ativação. Para informações sobre como cancelar um pedido pendente, consulte Alterar o pedido de capacidade de processamento provisionada.
Na lista Renovação, especifique se você quer renovar automaticamente o pedido no final do período. Só é possível especificar a opção de renovação se você selecionar 1 mês, 3 meses ou 1 ano como período.
Clique em Continuar.
Na seção Resumo, revise as estimativas de preço e de capacidade de processamento do seu pedido. Leia os termos listados e disponíveis no formulário.
Para finalizar o pedido, clique em Confirmar.
O processamento de um pedido pode levar de alguns minutos a algumas semanas, dependendo do tamanho do pedido e da capacidade disponível. Depois que o pedido é processado, o status dele no console do Google Cloud muda para Ativo. Você só vai receber cobranças pelo pedido depois que ele for ativado.
Mudar o pedido de capacidade de processamento provisionada
Esta tabela descreve como modificar os pedidos de Throughput provisionado no console do Google Cloud com base no status do pedido e nas condições atuais. Modificar pedidos é um recurso em pré-lançamento e está disponível apenas para pedidos on-line feitos pelo console. Para mudanças em pedidos off-line, entre em contato com o Google Cloud representante da conta para receber ajuda.
Além disso, as mudanças feitas no modelo ou na versão do modelo ao usar o console do Google Cloud modificam a ordem atual, mantendo a mesma data de término da assinatura.
Status do pedido | Ação | Observação | Etapas no console do Google Cloud |
---|---|---|---|
Análise pendente | Você pode cancelar o pedido. |
Se você quiser fazer outras mudanças, cancele o pedido pendente e faça um novo. Se você tiver vários modelos, cada um deles poderá ter apenas uma revisão ou um pedido pendente por vez. |
Para cancelar o pedido pendente no console do Google Cloud, faça o seguinte:
|
Ativo |
É possível aumentar as GSUs em pedidos atuais. É possível ativar ou desativar as renovações automáticas. Você pode mudar o modelo ou a versão do modelo. |
Se essas duas condições forem atendidas, não será possível mudar o pedido:
|
Para mudar o pedido ativo no console do Google Cloud, use um dos seguintes métodos:
|
Verificar status do pedido
Após o envio do pedido de capacidade de processamento provisionada, o status do pedido pode aparecer da seguinte forma:
- Revisão pendente: você fez o pedido. Como a aprovação depende da capacidade disponível para provisionar seu pedido, seu pedido está aguardando análise e aprovação. Para mais informações sobre o status do pedido pendente, entre em contato com o representante da Google Cloud conta.
- Aprovado: o Google aprovou seu pedido.
- Ativo: o Google ativou seu pedido, e o faturamento começou.
- Expirado: seu pedido expirou.
Ver pedidos de capacidade de processamento provisionada
Siga estas etapas para conferir seus pedidos de capacidade de processamento provisionada:
Console
- No console do Google Cloud, acesse a página "Capacidade de processamento provisionada".
- Selecione a Região. Sua lista de pedidos vai aparecer.