Vertex AI 生成式 AI 配額和系統限制

本頁面介紹兩種使用生成式 AI 服務的方式,並提供各區域和模型的配額清單,以及說明如何在 Google Cloud 控制台中查看及編輯配額。

總覽

使用生成式 AI 服務的方式有兩種。您可以選擇即付即用 (PayGo),也可以使用佈建輸送量預先付款。

如果您使用即付即用方案,生成式 AI 功能的使用量會受到下列其中一種配額系統限制,具體取決於您使用的模型:

  • Gemini 2.0 之前的模型會為每個生成式 AI 模型使用標準配額系統,確保公平性,並減少資源使用量和可用性暴增的情況。特定 Google Cloud 專案和支援區域的 Vertex AI 生成式 AI 要求適用配額規定。
  • 較新的模型使用動態共用配額 (DSQ),可針對特定模型和區域,在所有客戶之間動態分配可用的隨用隨付容量,因此您不必設定配額,也不必提交配額增加要求。DSQ 沒有配額。

如要確保應用程式的高可用性,並為正式版工作負載取得可預測的服務等級,請參閱「佈建輸送量」。

依模型劃分的配額系統

下列模型支援動態共用配額 (DSQ)

下列舊版 Gemini 模型支援 DSQ:

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

非 Gemini 和舊版 Gemini 模型使用標準配額系統。詳情請參閱 Vertex AI 配額與限制

調整後模型配額

調整後模型的推論作業與基礎模型共用配額。 微調模型推論沒有獨立配額。

文字嵌入限制

每項文字嵌入模型要求最多可有 250 個輸入文字 (每個輸入文字產生 1 個嵌入) 和 20,000 個權杖。系統只會使用每個輸入文字的前 2,048 個符記計算嵌入。對於 gemini-embedding-001,每項要求只能包含單一輸入文字。這個模型的配額會列在名稱 gemini-embedding 下方。

每分鐘每個基礎模型嵌入內容輸入的權杖數

與先前主要受 RPM 配額限制的嵌入模型不同,Gemini 嵌入模型的配額會限制每個專案每分鐘可傳送的權杖數量。

配額
每分鐘嵌入內容輸入權杖數 200000

Vertex AI Agent Engine 限制

下列限制適用於各區域中特定專案的 Vertex AI Agent Engine
說明 限制
每分鐘建立、刪除或更新 Vertex AI Agent Engine 10
每分鐘建立、刪除或更新 Vertex AI Agent Engine 工作階段 100
每分鐘建立、刪除或更新 Vertex AI Agent Engine 工作階段 100
QueryStreamQuery Vertex AI Agent Engine 每分鐘 60
每分鐘將事件附加至 Vertex AI Agent Engine 工作階段 100
Vertex AI Agent Engine 資源數量上限 100
每分鐘建立、刪除或更新 Vertex AI Agent Engine 記憶體資源 100
每分鐘從 Vertex AI Agent Engine Memory Bank 取得、列出或擷取資料 300

批次預測

所有區域的批次推論工作配額和限制都相同。

Gemini 模型並行批次推論工作限制

Gemini 模型沒有預先定義的批次推論配額限制。而是提供大量共用資源,並根據模型即時可用性,以及所有客戶對該模型的需求,動態分配資源。如果活躍客戶人數增加,導致模型容量飽和,您的批次要求可能會排隊等待容量。

並行批次推論工作配額

下表列出並行批次推論工作數量的配額,不適用於 Gemini 模型:
配額
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
如果提交的工作數量超過分配的配額,系統會將工作排入佇列,並在配額容量可用時處理工作。

在 Google Cloud 控制台中查看及編輯配額

如要在 Google Cloud 控制台中查看及編輯配額,請按照下列步驟操作:
  1. 前往「配額與系統限制」頁面。
  2. 前往「配額與系統限制」頁面

  3. 如要調整配額,請複製並貼上「Filter」(篩選條件) 中的屬性 aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model。按下 Enter 鍵。
  4. 按一下資料列末尾的三點圖示,然後選取「編輯配額」
  5. 在窗格中輸入新的配額值,然後按一下「提交要求」

Vertex AI RAG 引擎

如要讓各項服務使用 RAG 引擎執行檢索增強生成 (RAG),請遵守下列配額規定,配額以每分鐘要求數 (RPM) 計算。
服務 配額 指標
RAG Engine 資料管理 API 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts 個 API 1,500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1,500 RPM Online prediction requests per base model per minute per region per base_model

您可以指定的額外篩選條件為 base_model: textembedding-gecko
以下限制適用於這類要求:
服務 限制 指標
並行 ImportRagFiles 要求 3 RPM VertexRagService concurrent import requests per region
每個 ImportRagFiles 要求的檔案數量上限 10,000 VertexRagService import rag files requests per region

如要瞭解更多頻率限制和配額,請參閱「Vertex AI 的生成式 AI 頻率限制」。

Gen AI Evaluation Service

Gen AI Evaluation Service 會使用 gemini-2.0-flash 做為模型評估指標的預設評估模型。以模型為基礎的指標單一評估要求,可能會導致對 Gen AI Evaluation Service 提出多個基礎要求。系統會根據每個專案計算各模型的配額,也就是說,凡是導向 gemini-2.0-flash 的模型推論和模型評估要求,都會計入配額。下表列出 Gen AI Evaluation Service 和基礎評估模型適用的配額:
要求配額 預設配額
每分鐘的 Gen AI Evaluation Service 要求數 每個區域每項專案 1,000 個要求
每分鐘線上預測要求數 (
base_model: gemini-2.0-flash)
請參閱各區域和模型的配額

如果您在使用 Gen AI 評估服務時收到配額相關錯誤,可能需要提出配額提高要求。詳情請參閱「查看及管理配額」。

限制
Gen AI Evaluation Service 請求逾時 60 秒

在新的專案中首次使用生成式 AI 評估服務時,初始設定可能會延遲最多兩分鐘。如果第一次要求失敗,請稍候幾分鐘再重試。後續的評估要求通常會在 60 秒內完成。

模型指標的輸入和輸出權杖上限取決於用來做為評估模型的模型。如需型號清單,請參閱 Google 型號

Vertex AI Pipelines 配額

每項微調工作都會使用 Vertex AI Pipelines。詳情請參閱 Vertex AI Pipelines 配額與限制

後續步驟