A partir de 29 de abril de 2025, os modelos Gemini 1.5 Pro e Gemini 1.5 Flash não estarão disponíveis em projetos que não os usaram antes, incluindo novos projetos. Para mais detalhes, consulte Versões e ciclo de vida do modelo.
Visão geral da capacidade de processamento provisionada
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Esta página explica o que é a capacidade de processamento provisionada e quando usá-la.
Introdução à capacidade de processamento provisionada
A capacidade de processamento provisionada é uma assinatura de custo e prazo fixos
disponível em vários períodos que reserva capacidade de processamento para
modelos de IA generativa compatíveis na Vertex AI.
Para reservar a capacidade de processamento, especifique o modelo e os locais
disponíveis em que ele é executado.
Quando usar a capacidade de processamento provisionada
Se alguma das considerações a seguir se aplicar ao seu caso de uso, considere usar a
capacidade de processamento provisionada:
Você está criando aplicativos de produção de IA generativa em tempo real, como
chatbots e agentes.
Suas cargas de trabalho críticas exigem constantemente uma alta capacidade de processamento. A medição da capacidade de processamento
depende do modelo.
Você quer oferecer uma experiência consistente e previsível para os usuários dos
apps.
Você quer custos de IA generativa determinísticos pagando um preço mensal ou semanal fixo
com controle de gastos excedentes.
A capacidade de processamento provisionada é uma das duas maneiras de consumir
seus modelos de IA generativa. A segunda maneira é o pagamento por uso, também conhecido como
sob demanda.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-25 UTC."],[],[],null,["# Provisioned Throughput overview\n\nThis page explains what Provisioned Throughput is and when to use Provisioned Throughput.\n\nIntroduction to Provisioned Throughput\n--------------------------------------\n\nProvisioned Throughput is a fixed-cost, fixed-term subscription\navailable in several term-lengths that reserves throughput for\n[supported generative AI models](/vertex-ai/generative-ai/docs/supported-models) on Vertex AI.\nTo reserve your throughput, you must specify the model and [available\nlocations](/vertex-ai/generative-ai/docs/learn/locations#available-regions) in which the model\nruns.\n\nWhen to use Provisioned Throughput\n----------------------------------\n\nIf any of the following considerations apply to your use case, consider using\nProvisioned Throughput:\n\n- You are building real-time generative AI production applications, such as chatbots and agents.\n- Your critical workloads consistently require high throughput. Throughput measurement depends on the model.\n- You want to provide a consistent and predictable experience for users of your applications.\n- You want deterministic generative AI costs by paying a fixed monthly or weekly price with control of overages.\n\nProvisioned Throughput is one of two ways to consume your\ngenerative AI models. The second way is pay-as-you-go, which is also referred to\nas [on-demand](/vertex-ai/generative-ai/docs/error-code-429#troubleshoot-dynamic-shared-quota).\n\nWhat's next\n-----------\n\n- [Supported models](/vertex-ai/generative-ai/docs/supported-models) using Provisioned Throughput."]]