Vertex AI 上的生成式 AI 的配额和系统限制

本页介绍了使用生成式 AI 服务的两种方式,提供了按区域和模型列出的配额,并展示了如何在 Google Cloud 控制台中查看和修改配额。

概览

您可以通过两种方式使用生成式 AI 服务。您可以选择随用随付 (PayGo),也可以使用预配的吞吐量预先付费。

如果您使用的是按需付费方案,则您对生成式 AI 功能的使用受以下配额系统之一的约束,具体取决于您使用的模型:

  • Gemini 2.0 之前的模型针对每个生成式 AI 模型使用标准配额系统,以帮助确保公平性并减少资源使用和可用性的激增。此配额适用于给定 Google Cloud 项目和受支持区域的 Vertex AI 上的生成式 AI 请求。
  • 较新的模型使用动态共享配额 (DSQ),该配额会针对特定模型和区域,在所有客户之间动态分配可用的 PayGo 容量,从而无需设置配额和提交配额增加请求。DSQ 没有配额

如需确保应用具有高可用性并为生产工作负载提供可预测的服务等级,请参阅预配吞吐量

按模型划分的配额系统

以下模型支持动态共享配额 (DSQ)

以下旧版 Gemini 模型支持 DSQ:

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

非 Gemini 模型和较早的 Gemini 模型使用标准配额系统。如需了解详情,请参阅 Vertex AI 配额和限制

已调参模型配额

调优后的模型推理与基础模型共用同一配额。 对于调优后的模型推理,没有单独的配额。

文本嵌入限制

每个文本嵌入模型请求最多可包含 250 个输入文本(每个输入文本生成 1 个嵌入)和 20,000 个词元。系统仅使用每个输入文本中的前 2,048 个 token 来计算嵌入。 对于 gemini-embedding-001,每个请求只能包含一个输入文本。相应模型的配额列在名称 gemini-embedding 下方。

每分钟每个基础模型的嵌入内容输入 token 数

与之前主要受 RPM 配额限制的嵌入模型不同,Gemini Embedding 模型的配额限制了每个项目每分钟可发送的令牌数量。

配额
每分钟的嵌入内容输入 token 数 200000

Vertex AI Agent Engine 限制

以下限制适用于每个区域中给定项目的 Vertex AI Agent Engine
说明 限制
每分钟创建、删除或更新的 Vertex AI Agent Engine 数量 10
每分钟创建、删除或更新的 Vertex AI Agent Engine 会话数 100
每分钟创建、删除或更新的 Vertex AI Agent Engine 会话数 100
每分钟 QueryStreamQuery Vertex AI Agent Engine 60
每分钟附加到 Vertex AI Agent Engine 会话的事件数 100
Vertex AI Agent Engine 资源数量上限 100
每分钟创建、删除或更新的 Vertex AI Agent Engine 内存资源数量 100
每分钟从 Vertex AI Agent Engine 记忆库获取、列出或检索的次数 300

批量预测

批量推理作业的配额和限制在所有区域中都是相同的。

Gemini 模型的并发批量推理作业数限额

Gemini 模型的批量推理没有预定义的配额限制。相反,批量服务提供对大型共享资源池的访问权限,并根据模型在所有客户中的实时可用性和需求动态分配资源。 当更多客户处于活跃状态并使模型容量达到饱和时,您的批量请求可能会因容量不足而排队。

并发批量推理作业配额

下表列出了并发批处理推理作业数量的配额,这些配额不适用于 Gemini 模型:
配额
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
如果提交的任务数量超过分配的配额,则会将任务放入队列中,并在配额容量可用时进行处理。

在 Google Cloud 控制台中查看和修改配额

如需在 Google Cloud 控制台中查看和修改配额,请执行以下操作:
  1. 前往配额和系统限制页面。
  2. 前往“配额和系统限制”页面

  3. 如需调整配额,请在过滤条件中复制并粘贴属性 aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model。按 Enter 键。
  4. 点击行末的三个点,然后选择修改配额
  5. 在窗格中输入新的配额值,然后点击提交申请

Vertex AI RAG 引擎

对于使用 RAG 引擎执行检索增强生成 (RAG) 的每项服务,以下配额适用,配额以每分钟请求数 (RPM) 为单位进行衡量。
服务 配额 指标
RAG 引擎数据管理 API 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 1,500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1,500 RPM Online prediction requests per base model per minute per region per base_model

您可以指定其他过滤条件,即 base_model: textembedding-gecko
以下限制适用:
服务 限制 指标
并发 ImportRagFiles 请求 3 RPM VertexRagService concurrent import requests per region
每个 ImportRagFiles 请求的文件数量上限 10000 VertexRagService import rag files requests per region

如需了解更多速率限制和配额,请参阅 Vertex AI 上的生成式 AI 的速率限制

Gen AI Evaluation Service

Gen AI Evaluation Service 使用 gemini-2.0-flash 作为基于模型的指标的默认评判模型。 对基于模型的指标的单个评估请求可能会导致对 Gen AI Evaluation Service 发出多个底层请求。每个模型的配额按项目计算,这意味着定向到 gemini-2.0-flash 进行模型推理和基于模型的评估的任何请求都会计入配额。 下表显示了 Gen AI Evaluation Service 和底层评判模型的配额:
请求配额 默认配额
每分钟的 Gen AI Evaluation Service 请求数 每个区域中每个项目 1,000 个请求

base_model: gemini-2.0-flash 的每分钟在线预测请求数量
请参阅按区域和模型的配额

如果您在使用 Gen AI Evaluation Service 时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额

限额
Gen AI Evaluation Service 请求超时 60 秒

在新项目中首次使用 Gen AI Evaluation Service 时,您可能会遇到初始设置延迟,最长可达两分钟。如果第一个请求失败,请等待几分钟,然后重试。后续评估请求通常会在 60 秒内完成。

基于模型的指标的输入和输出令牌数上限取决于用作评判模型的模型。如需查看型号列表,请参阅 Google 型号

Vertex AI Pipelines 配额

每个调优作业都使用 Vertex AI Pipelines。如需了解详情,请参阅 Vertex AI Pipelines 配额和限制

后续步骤