本頁面介紹兩種使用生成式 AI 服務的方式,並提供各區域和模型的配額清單,以及說明如何在 Google Cloud 控制台中查看及編輯配額。
總覽
使用生成式 AI 服務的方式有兩種。您可以選擇即付即用 (PayGo),也可以使用佈建輸送量預先付款。
如果您使用即付即用方案,生成式 AI 功能的使用量會受到下列其中一種配額系統限制,具體取決於您使用的模型:
- Gemini 2.0 之前的模型會為每個生成式 AI 模型使用標準配額系統,確保公平性,並減少資源使用量和可用性暴增的情況。特定 Google Cloud 專案和支援區域的 Vertex AI 生成式 AI 要求適用配額規定。
- 較新的模型使用動態共用配額 (DSQ),可針對特定模型和區域,在所有客戶之間動態分配可用的隨用隨付容量,因此您不必設定配額,也不必提交配額增加要求。DSQ 沒有配額。
如要確保應用程式的高可用性,並為正式版工作負載取得可預測的服務等級,請參閱「佈建輸送量」。
依模型劃分的配額系統
下列模型支援動態共用配額 (DSQ):
- Gemini 2.5 Flash-Lite
預先發布版 - Gemini 2.0 Flash with Live API
預覽版 - Gemini 2.0 Flash 圖像生成功能
預先發布版 - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
下列舊版 Gemini 模型支援 DSQ:
- Gemini 1.5 Pro
- Gemini 1.5 Flash
非 Gemini 和舊版 Gemini 模型使用標準配額系統。詳情請參閱 Vertex AI 配額與限制。
調整後模型配額
調整後模型的推論作業與基礎模型共用配額。 微調模型推論沒有獨立配額。
文字嵌入限制
每項文字嵌入模型要求最多可有 250 個輸入文字 (每個輸入文字產生 1 個嵌入) 和 20,000 個權杖。系統只會使用每個輸入文字的前 2,048 個符記計算嵌入。對於gemini-embedding-001
,每項要求只能包含單一輸入文字。這個模型的配額會列在名稱 gemini-embedding
下方。
每分鐘每個基礎模型嵌入內容輸入的權杖數
與先前主要受 RPM 配額限制的嵌入模型不同,Gemini 嵌入模型的配額會限制每個專案每分鐘可傳送的權杖數量。
配額 | 值 |
---|---|
每分鐘嵌入內容輸入權杖數 | 200000 |
Vertex AI Agent Engine 限制
下列限制適用於各區域中特定專案的 Vertex AI Agent Engine:說明 | 限制 |
---|---|
每分鐘建立、刪除或更新 Vertex AI Agent Engine | 10 |
每分鐘建立、刪除或更新 Vertex AI Agent Engine 工作階段 | 100 |
每分鐘建立、刪除或更新 Vertex AI Agent Engine 工作階段 | 100 |
Query 或 StreamQuery Vertex AI Agent Engine 每分鐘 |
60 |
每分鐘將事件附加至 Vertex AI Agent Engine 工作階段 | 100 |
Vertex AI Agent Engine 資源數量上限 | 100 |
每分鐘建立、刪除或更新 Vertex AI Agent Engine 記憶體資源 | 100 |
每分鐘從 Vertex AI Agent Engine Memory Bank 取得、列出或擷取資料 | 300 |
批次預測
所有區域的批次推論工作配額和限制都相同。Gemini 模型並行批次推論工作限制
Gemini 模型沒有預先定義的批次推論配額限制。而是提供大量共用資源,並根據模型即時可用性,以及所有客戶對該模型的需求,動態分配資源。如果活躍客戶人數增加,導致模型容量飽和,您的批次要求可能會排隊等待容量。並行批次推論工作配額
下表列出並行批次推論工作數量的配額,不適用於 Gemini 模型:配額 | 值 |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
在 Google Cloud 控制台中查看及編輯配額
如要在 Google Cloud 控制台中查看及編輯配額,請按照下列步驟操作:- 前往「配額與系統限制」頁面。
- 如要調整配額,請複製並貼上「Filter」(篩選條件) 中的屬性
aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
。按下 Enter 鍵。 - 按一下資料列末尾的三點圖示,然後選取「編輯配額」。
- 在窗格中輸入新的配額值,然後按一下「提交要求」。
Vertex AI RAG 引擎
如要讓各項服務使用 RAG 引擎執行檢索增強生成 (RAG),請遵守下列配額規定,配額以每分鐘要求數 (RPM) 計算。服務 | 配額 | 指標 |
---|---|---|
RAG Engine 資料管理 API | 60 RPM | VertexRagDataService requests per minute per region |
RetrievalContexts 個 API |
1,500 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1,500 RPM | Online prediction requests per base model per minute per region per base_model 您可以指定的額外篩選條件為 base_model: textembedding-gecko |
服務 | 限制 | 指標 |
---|---|---|
並行 ImportRagFiles 要求 |
3 RPM | VertexRagService concurrent import requests per region |
每個 ImportRagFiles 要求的檔案數量上限 |
10,000 | VertexRagService import rag files requests per region |
如要瞭解更多頻率限制和配額,請參閱「Vertex AI 的生成式 AI 頻率限制」。
Gen AI Evaluation Service
Gen AI Evaluation Service 會使用gemini-2.0-flash
做為模型評估指標的預設評估模型。以模型為基礎的指標單一評估要求,可能會導致對 Gen AI Evaluation Service 提出多個基礎要求。系統會根據每個專案計算各模型的配額,也就是說,凡是導向 gemini-2.0-flash
的模型推論和模型評估要求,都會計入配額。下表列出 Gen AI Evaluation Service 和基礎評估模型適用的配額:要求配額 | 預設配額 |
---|---|
每分鐘的 Gen AI Evaluation Service 要求數 | 每個區域每項專案 1,000 個要求 |
每分鐘線上預測要求數 (base_model: gemini-2.0-flash ) |
請參閱各區域和模型的配額。 |
如果您在使用 Gen AI 評估服務時收到配額相關錯誤,可能需要提出配額提高要求。詳情請參閱「查看及管理配額」。
限制 | 值 |
---|---|
Gen AI Evaluation Service 請求逾時 | 60 秒 |
在新的專案中首次使用生成式 AI 評估服務時,初始設定可能會延遲最多兩分鐘。如果第一次要求失敗,請稍候幾分鐘再重試。後續的評估要求通常會在 60 秒內完成。
模型指標的輸入和輸出權杖上限取決於用來做為評估模型的模型。如需型號清單,請參閱 Google 型號。
Vertex AI Pipelines 配額
每項微調工作都會使用 Vertex AI Pipelines。詳情請參閱 Vertex AI Pipelines 配額與限制。
後續步驟
- 如要進一步瞭解動態共用配額,請參閱「動態共用配額」。
- 如要瞭解 Vertex AI 的配額和限制,請參閱「Vertex AI 配額和限制」。
- 如要進一步瞭解配額和限制,請參閱「瞭解配額值和系統限制」。 Google Cloud