このページでは、生成 AI サービスを使用する 2 つの方法を紹介し、リージョンとモデルごとの割り当てのリストを示します。また、 Google Cloud コンソールで割り当てを表示して編集する方法についても説明します。
概要
生成 AI サービスを使用する方法は 2 つあります。従量課金制(PayGo)を選択するか、プロビジョンド スループットを使用して前払いできます。
従量課金制を使用している場合、生成 AI 機能の使用には、使用しているモデルに応じて、次のいずれかの割り当てシステムが適用されます。
- Gemini 2.0 より前のモデルでは、各生成 AI モデルに標準の割り当てシステムを使用して、公平性を確保し、リソースの使用量と可用性の急増を抑えます。割り当ては、特定の Google Cloud プロジェクトとサポート対象のリージョンに対する、Vertex AI の生成 AI リクエストに適用されます。
- 新しいモデルでは、動的共有割り当て(DSQ)が使用されます。これにより、特定のモデルとリージョンのすべてのユーザー間で利用可能な PayGo 容量が動的に分配されるため、割り当てを設定したり、割り当て増加リクエストを送信したりする必要がなくなります。DSQ に割り当てはありません。
アプリケーションの高可用性を確保し、本番環境ワークロードに対して予想どおりのサービスレベルを実現するには、プロビジョンド スループットをご覧ください。
モデル別の割り当てシステム
次のモデルは、動的共有割り当て(DSQ)をサポートしています。
- Gemini 2.5 Flash-Lite
プレビュー - Live API を使用した Gemini 2.0 Flash
プレビュー - 画像生成機能を搭載した Gemini 2.0 Flash
プレビュー - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
次の以前の Gemini モデルは DSQ をサポートしています。
- Gemini 1.5 Pro
- Gemini 1.5 Flash
Gemini 以外のモデルと以前の Gemini モデルでは、標準の割り当てシステムが使用されます。詳細については、Vertex AI の割り当てと上限をご覧ください。
チューニング済みモデルの割り当て
チューニング済みモデルの推論は、ベースモデルと同じ割り当てを共有します。チューニング済みモデルの推論に個別の割り当てはありません。
テキスト エンベディングの上限
各テキスト エンベディング モデル リクエストには、最大 250 個の入力テキスト(入力テキストごとに 1 つのエンベディングを生成)と、リクエストごとに 20,000 個のトークンを指定できます。エンベディングの計算には、各入力テキストの最初の 2,048 トークンのみが使用されます。gemini-embedding-001
の場合、各リクエストに含めることができる入力テキストは 1 つだけです。このモデルの割り当ては、gemini-embedding
という名前で表示されます。1 分あたりのベースモデルごとのコンテンツ埋め込み入力トークン数
以前のエンベディング モデルは主に RPM 割り当てによって制限されていましたが、Gemini エンベディング モデルの割り当てでは、プロジェクトごとに 1 分あたりに送信できるトークンの数が制限されます。
割り当て | 値 |
---|---|
1 分あたりのコンテンツ入力トークンの埋め込み | 200000 |
Vertex AI Agent Engine の上限
各リージョンの特定のプロジェクトの Vertex AI Agent Engine には、次の上限が適用されます。説明 | 上限 |
---|---|
1 分あたりの Vertex AI Agent Engine の作成、削除、更新回数 | 10 |
1 分あたりの Vertex AI Agent Engine セッションの作成、削除、更新回数 | 100 |
1 分あたりの Vertex AI Agent Engine セッションの作成、削除、更新回数 | 100 |
Query または StreamQuery Vertex AI Agent Engine(1 分あたり) |
60 |
1 分あたりの Vertex AI Agent Engine セッションにイベントを追加する | 100 |
Vertex AI Agent Engine リソースの最大数 | 100 |
1 分あたりの Vertex AI Agent Engine メモリリソースの作成、削除、更新回数 | 100 |
1 分あたりの Vertex AI Agent Engine Memory Bank からの取得、一覧表示、取得 | 300 |
バッチ予測
バッチ推論ジョブの割り当てと上限は、すべてのリージョンで同じです。Gemini モデルの同時バッチ推論ジョブの上限
Gemini モデルのバッチ推論に事前定義された割り当て上限はありません。バッチサービスは、モデルのリアルタイムの可用性と、そのモデルに対するすべてのお客様の需要に基づいて動的に割り当てられる、大規模な共有リソースプールへのアクセスを提供します。アクティブなユーザーが増え、モデルの容量が飽和状態になると、バッチリクエストが容量不足のためにキューに登録されることがあります。バッチ推論ジョブの同時実行数の割り当て
次の表に、同時実行バッチ推論ジョブ数の割り当てを示します。これは Gemini モデルには適用されません。割り当て | 値 |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Google Cloud コンソールで割り当てを表示して編集する
Google Cloud コンソールで割り当てを表示して編集する手順は次のとおりです。- [割り当てとシステム上限] ページに移動します。
- 割り当てを調整するには、[フィルタ] でプロパティ
aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
をコピーして貼り付けます。Enter キーを押します。 - 行の末尾にあるその他アイコンをクリックし、[割り当てを編集] を選択します。
- ペインに新しい割り当て値を入力し、[リクエストを送信] をクリックします。
Vertex AI RAG Engine
RAG Engine を使用して検索拡張生成(RAG)を実行するサービスごとに、次の割り当てが適用されます。割り当ては 1 分あたりのリクエスト数(RPM)で測定されます。サービス | 割り当て | 指標 |
---|---|---|
RAG Engine データ マネジメント API | 60 RPM | VertexRagDataService requests per minute per region |
RetrievalContexts API |
1,500 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1,500 RPM | Online prediction requests per base model per minute per region per base_model 指定できる追加のフィルタは base_model: textembedding-gecko です。 |
サービス | 上限 | 指標 |
---|---|---|
同時に可能な ImportRagFiles リクエスト |
3 RPM | VertexRagService concurrent import requests per region |
ImportRagFiles リクエストあたりの最大ファイル数 |
10,000 | VertexRagService import rag files requests per region |
その他のレート制限と割り当てについては、Vertex AI の生成 AI のレート制限をご覧ください。
Gen AI Evaluation Service
Gen AI Evaluation Service は、モデルベースの指標のデフォルトの判定モデルとしてgemini-2.0-flash
を使用します。モデルベースの指標の 1 回の評価リクエストで、Gen AI Evaluation Service に対して基盤となるリクエストが複数発生する場合があります。各モデルの割り当てはプロジェクトごとに計算されます。つまり、モデル推論とモデルベースの評価のために gemini-2.0-flash
に送信されるリクエストはすべて割り当てにカウントされます。次の表に、Gen AI Evaluation Service と基盤となるジャッジモデルの割り当てを示します。リクエストの割り当て | デフォルトの割り当て |
---|---|
1 分あたりの Gen AI Evaluation Service リクエスト | 1 プロジェクト、1 リージョンあたり 1,000 件のリクエスト |
base_model: gemini-2.0-flash の 1 分あたりのオンライン予測リクエスト数 |
リージョンとモデル別の割り当てをご覧ください。 |
Gen AI Evaluation Service の使用中に割り当てに関するエラーが発生した場合は、割り当ての増加をリクエストする必要があります。詳細については、割り当ての表示と管理をご覧ください。
上限 | 値 |
---|---|
Gen AI Evaluation Service リクエストのタイムアウト | 60 秒 |
新しいプロジェクトで Gen AI Evaluation Service を初めて使用する場合は、初期設定による遅延が発生することがあります(通常は 2 分以内)。最初のリクエストが失敗した場合は、数分待ってから再試行してください。その後の評価リクエストは通常、60 秒以内に完了します。
モデルベースの指標の入力トークンと出力トークンの上限は、判定モデルとして使用されるモデルによって異なります。モデルのリストについては、 Google モデルをご覧ください。
Vertex AI Pipelines の割り当て
チューニング ジョブは Vertex AI Pipelines を使用します。詳細については、Vertex AI Pipelines の割り当てと上限をご覧ください。
次のステップ
- 動的共有割り当ての詳細を確認する。動的共有割り当てをご覧ください。
- Vertex AI の割り当てと上限の詳細について、Vertex AI の割り当てと上限を確認する。
- Google Cloud の割り当てと上限の詳細については、割り当ての値とシステムの上限についてをご覧ください。