Vertex AI の生成 AI の割り当てとシステムの上限

このページでは、生成 AI サービスを使用する 2 つの方法を紹介し、リージョンとモデルごとの割り当てのリストを示します。また、 Google Cloud コンソールで割り当てを表示して編集する方法についても説明します。

概要

生成 AI サービスを使用する方法は 2 つあります。従量課金制(PayGo)を選択するか、プロビジョンド スループットを使用して前払いできます。

従量課金制を使用している場合、生成 AI 機能の使用には、使用しているモデルに応じて、次のいずれかの割り当てシステムが適用されます。

  • Gemini 2.0 より前のモデルでは、各生成 AI モデルに標準の割り当てシステムを使用して、公平性を確保し、リソースの使用量と可用性の急増を抑えます。割り当ては、特定の Google Cloud プロジェクトとサポート対象のリージョンに対する、Vertex AI の生成 AI リクエストに適用されます。
  • 新しいモデルでは、動的共有割り当て(DSQ)が使用されます。これにより、特定のモデルとリージョンのすべてのユーザー間で利用可能な PayGo 容量が動的に分配されるため、割り当てを設定したり、割り当て増加リクエストを送信したりする必要がなくなります。DSQ に割り当てはありません

アプリケーションの高可用性を確保し、本番環境ワークロードに対して予想どおりのサービスレベルを実現するには、プロビジョンド スループットをご覧ください。

モデル別の割り当てシステム

次のモデルは、動的共有割り当て(DSQ)をサポートしています。

次の以前の Gemini モデルは DSQ をサポートしています。

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

Gemini 以外のモデルと以前の Gemini モデルでは、標準の割り当てシステムが使用されます。詳細については、Vertex AI の割り当てと上限をご覧ください。

チューニング済みモデルの割り当て

チューニング済みモデルの推論は、ベースモデルと同じ割り当てを共有します。チューニング済みモデルの推論に個別の割り当てはありません。

テキスト エンベディングの上限

各テキスト エンベディング モデル リクエストには、最大 250 個の入力テキスト(入力テキストごとに 1 つのエンベディングを生成)と、リクエストごとに 20,000 個のトークンを指定できます。エンベディングの計算には、各入力テキストの最初の 2,048 トークンのみが使用されます。gemini-embedding-001 の場合、各リクエストに含めることができる入力テキストは 1 つだけです。このモデルの割り当ては、gemini-embedding という名前で表示されます。

1 分あたりのベースモデルごとのコンテンツ埋め込み入力トークン数

以前のエンベディング モデルは主に RPM 割り当てによって制限されていましたが、Gemini エンベディング モデルの割り当てでは、プロジェクトごとに 1 分あたりに送信できるトークンの数が制限されます。

割り当て
1 分あたりのコンテンツ入力トークンの埋め込み 200000

Vertex AI Agent Engine の上限

各リージョンの特定のプロジェクトの Vertex AI Agent Engine には、次の上限が適用されます。
説明 上限
1 分あたりの Vertex AI Agent Engine の作成、削除、更新回数 10
1 分あたりの Vertex AI Agent Engine セッションの作成、削除、更新回数 100
1 分あたりの Vertex AI Agent Engine セッションの作成、削除、更新回数 100
Query または StreamQuery Vertex AI Agent Engine(1 分あたり) 60
1 分あたりの Vertex AI Agent Engine セッションにイベントを追加する 100
Vertex AI Agent Engine リソースの最大数 100
1 分あたりの Vertex AI Agent Engine メモリリソースの作成、削除、更新回数 100
1 分あたりの Vertex AI Agent Engine Memory Bank からの取得、一覧表示、取得 300

バッチ予測

バッチ推論ジョブの割り当てと上限は、すべてのリージョンで同じです。

Gemini モデルの同時バッチ推論ジョブの上限

Gemini モデルのバッチ推論に事前定義された割り当て上限はありません。バッチサービスは、モデルのリアルタイムの可用性と、そのモデルに対するすべてのお客様の需要に基づいて動的に割り当てられる、大規模な共有リソースプールへのアクセスを提供します。アクティブなユーザーが増え、モデルの容量が飽和状態になると、バッチリクエストが容量不足のためにキューに登録されることがあります。

バッチ推論ジョブの同時実行数の割り当て

次の表に、同時実行バッチ推論ジョブ数の割り当てを示します。これは Gemini モデルには適用されません。
割り当て
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
送信されたタスク数が指定された割り当てを超えると、タスクはキューに配置され、割り当て容量が使用可能になると処理されます。

Google Cloud コンソールで割り当てを表示して編集する

Google Cloud コンソールで割り当てを表示して編集する手順は次のとおりです。
  1. [割り当てとシステム上限] ページに移動します。
  2. [割り当てとシステム上限] に移動

  3. 割り当てを調整するには、[フィルタ] でプロパティ aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model をコピーして貼り付けます。Enter キーを押します。
  4. 行の末尾にあるその他アイコンをクリックし、[割り当てを編集] を選択します。
  5. ペインに新しい割り当て値を入力し、[リクエストを送信] をクリックします。

Vertex AI RAG Engine

RAG Engine を使用して検索拡張生成(RAG)を実行するサービスごとに、次の割り当てが適用されます。割り当ては 1 分あたりのリクエスト数(RPM)で測定されます。
サービス 割り当て 指標
RAG Engine データ マネジメント API 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 1,500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1,500 RPM Online prediction requests per base model per minute per region per base_model

指定できる追加のフィルタは base_model: textembedding-gecko です。
次の上限が適用されます。
サービス 上限 指標
同時に可能な ImportRagFiles リクエスト 3 RPM VertexRagService concurrent import requests per region
ImportRagFiles リクエストあたりの最大ファイル数 10,000 VertexRagService import rag files requests per region

その他のレート制限と割り当てについては、Vertex AI の生成 AI のレート制限をご覧ください。

Gen AI Evaluation Service

Gen AI Evaluation Service は、モデルベースの指標のデフォルトの判定モデルとして gemini-2.0-flash を使用します。モデルベースの指標の 1 回の評価リクエストで、Gen AI Evaluation Service に対して基盤となるリクエストが複数発生する場合があります。各モデルの割り当てはプロジェクトごとに計算されます。つまり、モデル推論とモデルベースの評価のために gemini-2.0-flash に送信されるリクエストはすべて割り当てにカウントされます。次の表に、Gen AI Evaluation Service と基盤となるジャッジモデルの割り当てを示します。
リクエストの割り当て デフォルトの割り当て
1 分あたりの Gen AI Evaluation Service リクエスト 1 プロジェクト、1 リージョンあたり 1,000 件のリクエスト

base_model: gemini-2.0-flash の 1 分あたりのオンライン予測リクエスト数
リージョンとモデル別の割り当てをご覧ください。

Gen AI Evaluation Service の使用中に割り当てに関するエラーが発生した場合は、割り当ての増加をリクエストする必要があります。詳細については、割り当ての表示と管理をご覧ください。

上限
Gen AI Evaluation Service リクエストのタイムアウト 60 秒

新しいプロジェクトで Gen AI Evaluation Service を初めて使用する場合は、初期設定による遅延が発生することがあります(通常は 2 分以内)。最初のリクエストが失敗した場合は、数分待ってから再試行してください。その後の評価リクエストは通常、60 秒以内に完了します。

モデルベースの指標の入力トークンと出力トークンの上限は、判定モデルとして使用されるモデルによって異なります。モデルのリストについては、 Google モデルをご覧ください。

Vertex AI Pipelines の割り当て

チューニング ジョブは Vertex AI Pipelines を使用します。詳細については、Vertex AI Pipelines の割り当てと上限をご覧ください。

次のステップ