Vertex AI 上的生成式 AI 的配额和系统限制

本文档介绍了使用生成式 AI 服务的不同方式及其对应的配额系统,涵盖以下主题:

使用和配额模式

您可以通过两种方式使用生成式 AI 服务:随用随付 (PayGo) 或通过预配吞吐量预留专用容量。根据您使用的模型,您的 PayGo 用量受标准项目级配额或动态共享配额系统的约束。

下表对这些选项进行了比较。

选项 说明 优点 使用场景
采用标准配额的随用随付 (PayGo) 方案 旧版模型的每个项目、每个区域的请求数限制。 单个项目的可预测限制。 使用非 Gemini 模型或较早的 Gemini 模型的应用。
采用动态共享配额 (DSQ) 的随用随付 (PayGo) 容量在特定模型和区域的所有客户之间动态共享。没有要管理的每个项目的配额。 无需管理配额或申请增加配额;可灵活使用,并可根据可用容量自动扩缩。 开发、测试和可容忍性能变化的应用程序。建议在大多数 PayGo 场景中使用较新的型号。
预配吞吐量 为特定模型预留的专用计算容量,需提前付费。 专用吞吐量、可预测的高性能和稳定的延迟时间。 需要高可用性和可预测服务等级的生产环境工作负载。

按模型列出的配额系统

以下模型支持动态共享配额 (DSQ)

以下旧版 Gemini 模型支持 DSQ:

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

非 Gemini 模型和较早的 Gemini 模型使用标准配额系统。如需了解详情,请参阅 Vertex AI 配额和限制

特定于功能的配额和限制

本部分介绍了特定生成式 AI 功能的配额和限制。

已调优的模型配额

已调优的模型推理与基本模型共享同一配额。 已调优的模型推理没有单独的配额。

每个调优作业都使用 Vertex AI Pipelines。如需了解详情,请参阅 Vertex AI Pipelines 配额和限制

文本嵌入限制

每个请求最多可包含 250 个输入文本(每个输入文本生成 1 个嵌入)和 2 万个词元。系统仅使用每个输入文本中的前 2,048 个词元来计算嵌入。对于 gemini-embedding-001配额列在名称 gemini-embedding 下。

每个基本模型每分钟的嵌入内容输入词元数

与之前主要受 RPM 配额限制的嵌入模型不同,Gemini 嵌入模型的配额限制了每个项目每分钟可发送的词元数。

配额
每分钟的嵌入内容输入词元数 5000000

Vertex AI Agent Engine 限制

以下限制适用于每个区域中给定项目的 Vertex AI Agent Engine
说明 限制
每分钟创建、删除或更新的 Vertex AI Agent Engine 数 10
每分钟创建、删除或更新的 Vertex AI Agent Engine 会话数 100
每分钟 QueryStreamQuery Vertex AI Agent Engine 数 60
每分钟向 Vertex AI Agent Engine 会话附加的事件数 300
Vertex AI Agent Engine 资源数上限 100
每分钟创建、删除或更新的 Vertex AI Agent Engine 内存资源数 100
每分钟从 Vertex AI Agent Engine 记忆库中获取、列出或检索的次数 300

批量预测

批量推理作业的配额和限制在所有区域中都是相同的。

Gemini 模型的并发批量推理作业限制

Gemini 模型的批量推理没有预定义的配额限制。相反,批量服务提供对大型共享资源池的访问权限,并根据模型在所有客户中的实时可用性和需求动态分配资源。 当更多客户处于活跃状态并使模型容量达到饱和时,您的批量请求可能会因容量不足而排队。

非 Gemini 模型的并发批量推理作业配额

下表列出了并发批量推理作业数的配额,这些配额不适用于 Gemini 模型:
配额
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
如果提交的任务数量超过分配的配额,则会将任务放入队列中,并在配额容量可用时进行处理。

在 Google Cloud 控制台中查看和修改配额

如需在 Google Cloud 控制台中查看和修改配额,请执行以下操作:
  1. 前往配额和系统限制页面。
  2. 前往“配额和系统限制”

  3. 如需调整配额,请在过滤条件中复制和粘贴属性 aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs。按 Enter 键。
  4. 点击行末的三个点,然后选择修改配额
  5. 在窗格中输入新的配额值,然后点击提交请求

Vertex AI RAG 引擎

对于使用 RAG 引擎执行检索增强生成 (RAG) 的每项服务,以下配额适用,配额以每分钟请求数 (RPM) 为单位进行计量。
服务 配额 指标
RAG 引擎数据管理 API 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 1,500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1,500 RPM Online prediction requests per base model per minute per region per base_model

您可以指定其他过滤条件,即 base_model: textembedding-gecko
适用的限制如下:
服务 限制 指标
并发 ImportRagFiles 请求数 3 RPM VertexRagService concurrent import requests per region
每个 ImportRagFiles 请求的文件数上限 10,000 VertexRagService import rag files requests per region

如需了解更多速率限制和配额,请参阅 Vertex AI 上的生成式 AI 的速率限制

Gen AI Evaluation Service

Gen AI Evaluation Service 使用 gemini-2.0-flash 作为基于模型的指标的默认评判模型。 对基于模型的指标的单个评估请求可能会导致对 Gen AI Evaluation Service 发出多个底层请求。每个模型的配额按项目计算,这意味着定向到 gemini-2.0-flash 进行模型推理和基于模型的评估的任何请求都会计入配额。下表显示了 Gen AI Evaluation Service 和底层评判模型的配额:
请求配额 默认配额
每分钟的 Gen AI Evaluation Service 请求数 每个区域中每个项目 1,000 个请求

base_model: gemini-2.0-flash 的每分钟在线预测请求数
请参阅按区域和模型列出的配额

如果您在使用 Gen AI Evaluation Service 时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额

限制
Gen AI Evaluation Service 请求超时 60 秒

在新项目中首次使用 Gen AI Evaluation Service 时,您可能会遇到初始设置延迟,最长可达两分钟。如果第一个请求失败,请等待几分钟,然后重试。后续评估请求通常会在 60 秒内完成。

基于模型的指标的输入和输出词元数上限取决于用作评判模型的模型。如需查看模型列表,请参阅 Google 模型

后续步骤