本页介绍了使用生成式 AI 服务的两种方式,提供了按区域和模型列出的配额,并展示了如何在 Google Cloud 控制台中查看和修改配额。
概览
您可以通过两种方式使用生成式 AI 服务。您可以选择随用随付 (PayGo),也可以使用预配的吞吐量预先付费。
如果您使用的是按需付费方案,则您对生成式 AI 功能的使用受以下配额系统之一的约束,具体取决于您使用的模型:
- Gemini 2.0 之前的模型针对每个生成式 AI 模型使用标准配额系统,以帮助确保公平性并减少资源使用和可用性的激增。此配额适用于给定 Google Cloud 项目和受支持区域的 Vertex AI 上的生成式 AI 请求。
- 较新的模型使用动态共享配额 (DSQ),该配额会针对特定模型和区域,在所有客户之间动态分配可用的 PayGo 容量,从而无需设置配额和提交配额增加请求。DSQ 没有配额。
如需确保应用具有高可用性并为生产工作负载提供可预测的服务等级,请参阅预配吞吐量。
按模型划分的配额系统
以下模型支持动态共享配额 (DSQ):
- Gemini 2.5 Flash-Lite
预览版 - 支持 Live API 的 Gemini 2.0 Flash
预览版 - 支持图片生成的 Gemini 2.0 Flash
预览版 - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
以下旧版 Gemini 模型支持 DSQ:
- Gemini 1.5 Pro
- Gemini 1.5 Flash
非 Gemini 模型和较早的 Gemini 模型使用标准配额系统。如需了解详情,请参阅 Vertex AI 配额和限制。
已调参模型配额
调优后的模型推理与基础模型共用同一配额。 对于调优后的模型推理,没有单独的配额。
文本嵌入限制
每个文本嵌入模型请求最多可包含 250 个输入文本(每个输入文本生成 1 个嵌入)和 20,000 个词元。系统仅使用每个输入文本中的前 2,048 个 token 来计算嵌入。 对于gemini-embedding-001
,每个请求只能包含一个输入文本。相应模型的配额列在名称 gemini-embedding
下方。
每分钟每个基础模型的嵌入内容输入 token 数
与之前主要受 RPM 配额限制的嵌入模型不同,Gemini Embedding 模型的配额限制了每个项目每分钟可发送的令牌数量。
配额 | 值 |
---|---|
每分钟的嵌入内容输入 token 数 | 200000 |
Vertex AI Agent Engine 限制
以下限制适用于每个区域中给定项目的 Vertex AI Agent Engine:说明 | 限制 |
---|---|
每分钟创建、删除或更新的 Vertex AI Agent Engine 数量 | 10 |
每分钟创建、删除或更新的 Vertex AI Agent Engine 会话数 | 100 |
每分钟创建、删除或更新的 Vertex AI Agent Engine 会话数 | 100 |
每分钟 Query 或 StreamQuery Vertex AI Agent Engine |
60 |
每分钟附加到 Vertex AI Agent Engine 会话的事件数 | 100 |
Vertex AI Agent Engine 资源数量上限 | 100 |
每分钟创建、删除或更新的 Vertex AI Agent Engine 内存资源数量 | 100 |
每分钟从 Vertex AI Agent Engine 记忆库获取、列出或检索的次数 | 300 |
批量预测
批量推理作业的配额和限制在所有区域中都是相同的。Gemini 模型的并发批量推理作业数限额
Gemini 模型的批量推理没有预定义的配额限制。相反,批量服务提供对大型共享资源池的访问权限,并根据模型在所有客户中的实时可用性和需求动态分配资源。 当更多客户处于活跃状态并使模型容量达到饱和时,您的批量请求可能会因容量不足而排队。并发批量推理作业配额
下表列出了并发批处理推理作业数量的配额,这些配额不适用于 Gemini 模型:配额 | 值 |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
在 Google Cloud 控制台中查看和修改配额
如需在 Google Cloud 控制台中查看和修改配额,请执行以下操作:- 前往配额和系统限制页面。
- 如需调整配额,请在过滤条件中复制并粘贴属性
aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
。按 Enter 键。 - 点击行末的三个点,然后选择修改配额。
- 在窗格中输入新的配额值,然后点击提交申请。
Vertex AI RAG 引擎
对于使用 RAG 引擎执行检索增强生成 (RAG) 的每项服务,以下配额适用,配额以每分钟请求数 (RPM) 为单位进行衡量。服务 | 配额 | 指标 |
---|---|---|
RAG 引擎数据管理 API | 60 RPM | VertexRagDataService requests per minute per region |
RetrievalContexts API |
1,500 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1,500 RPM | Online prediction requests per base model per minute per region per base_model 您可以指定其他过滤条件,即 base_model: textembedding-gecko |
服务 | 限制 | 指标 |
---|---|---|
并发 ImportRagFiles 请求 |
3 RPM | VertexRagService concurrent import requests per region |
每个 ImportRagFiles 请求的文件数量上限 |
10000 | VertexRagService import rag files requests per region |
如需了解更多速率限制和配额,请参阅 Vertex AI 上的生成式 AI 的速率限制。
Gen AI Evaluation Service
Gen AI Evaluation Service 使用gemini-2.0-flash
作为基于模型的指标的默认评判模型。
对基于模型的指标的单个评估请求可能会导致对 Gen AI Evaluation Service 发出多个底层请求。每个模型的配额按项目计算,这意味着定向到 gemini-2.0-flash
进行模型推理和基于模型的评估的任何请求都会计入配额。
下表显示了 Gen AI Evaluation Service 和底层评判模型的配额:
请求配额 | 默认配额 |
---|---|
每分钟的 Gen AI Evaluation Service 请求数 | 每个区域中每个项目 1,000 个请求 |
base_model: gemini-2.0-flash 的每分钟在线预测请求数量 |
请参阅按区域和模型的配额。 |
如果您在使用 Gen AI Evaluation Service 时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额。
限额 | 值 |
---|---|
Gen AI Evaluation Service 请求超时 | 60 秒 |
在新项目中首次使用 Gen AI Evaluation Service 时,您可能会遇到初始设置延迟,最长可达两分钟。如果第一个请求失败,请等待几分钟,然后重试。后续评估请求通常会在 60 秒内完成。
基于模型的指标的输入和输出令牌数上限取决于用作评判模型的模型。如需查看型号列表,请参阅 Google 型号。
Vertex AI Pipelines 配额
每个调优作业都使用 Vertex AI Pipelines。如需了解详情,请参阅 Vertex AI Pipelines 配额和限制。
后续步骤
- 如需详细了解动态共享配额,请参阅动态共享配额。
- 如需了解 Vertex AI 的配额和限制,请参阅 Vertex AI 配额和限制。
- 如需详细了解 Google Cloud 配额和限制,请参阅了解配额值和系统限制。