Vertex AI の生成 AI のレート制限

Google Cloud では、割り当てを使用して公平性を確保し、リソースの使用量と可用性の急増を抑えます。割り当ては、Google Cloud プロジェクトで使用できる Google Cloud リソースの量を制限します。割り当ては、ハードウェア、ソフトウェア、ネットワーク コンポーネントなど、さまざまなリソースタイプに適用されます。たとえば、割り当てによって、サービスへの API 呼び出しの数、プロジェクトで同時に使用されるロードバランサの数、作成可能なプロジェクトの数を制限できます。割り当てを適用することで、サービスの過負荷を防ぎ、Google Cloud ユーザーのコミュニティを保護します。割り当ては、自組織で使用している Google Cloud リソースの管理にも役立ちます。

Cloud Quotas システムは次のことを行います。

  • Google Cloud プロダクトとサービスの消費量をモニタリングする
  • これらのリソースの消費量を制限する
  • 割り当て値の変更をリクエストする手段を提供する

ほとんどの場合、割り当ての許容量を超えるリソースを消費しようとすると、システムによってリソースへのアクセスがブロックされ、実行しようとしているタスクは失敗します。

割り当ては通常、Google Cloud プロジェクト レベルで適用されます。あるプロジェクトでリソースを使用しても、別のプロジェクトで使用可能な割り当てに影響することはありません。Google Cloud プロジェクト内では、すべてのアプリケーションと IP アドレスで割り当てが共有されます。

レート上限

次の表に、指標 generate_content_input_tokens_per_minute_per_base_model のすべてのリージョンの次のモデルに適用されるレート上限を示します。
ベースモデル 1 分あたりのトークン数
base_model: gemini-1.5-flash(バージョン 001) 4M(4,000,000)
base_model: gemini-1.5-pro(バージョン 001) 4M(4,000,000)
次の表に、リストされている指標について、サポートされているリージョン全体で Gemini 2.0 Flash に適用されるレート条件を示します。
割り当て名 1 分あたりのトークン数
メディアの高解像度
メディアの中程度の解像度
デフォルト
低解像度のメディア
generate_content_image_input_per_base_model_id_and_resolution
  • US-* / Asia-*: 40,248,000
  • EU-*:10,062,000
  • US-* / Asia-*: 10,296,000
  • EU-*: 2,574,000
generate_content_video_input_per_base_model_id_and_resolution
  • US-* / Asia-*: 37,872,000
  • EU-*: 9,468,000
  • US-* / Asia-*: 9,936,000
  • EU-*: 2,484,000
generate_content_audio_input_per_base_model_id_and_resolution
  • US-* / Asia-*: 1,728,000
  • EU-*: 432,000
  • US-* / Asia-*: 1,728,000
  • EU-*: 432,000
generate_content_document_input_per_base_model_id_and_resolution
  • US-* / Asia-*: 670,800
  • EU-*: 167,700
  • US-* / Asia-*: 179,400
  • EU-*: 44,850

Gemini 1.5 Flash(gemini-1.5-flash-002)と Gemini 1.5 Pro(gemini-1.5-pro-002)のバージョン 002 の割り当て情報については、Google モデルをご覧ください。

リージョンとモデル別の割り当て

1 分あたりのリクエスト数(RPM)の割り当ては、ベースモデルと、そのモデルのすべてのバージョン、識別子、チューニング済みバージョンに適用されます。次の例は、RPM 割り当てがどのように適用されるかを示しています。
  • ベースモデル gemini-1.0-pro へのリクエストと、その安定版 gemini-1.0-pro-001 へのリクエストは、ベースモデル gemini-1.0-pro の RPM の割り当てに対する 2 つのリクエストとしてカウントされます。
  • ベースモデルの 2 つのバージョンである「gemini-1.0-pro-001」と「gemini-1.0-pro-002」へのリクエストは、ベースモデル「gemini-1.0-pro」の RPM の割り当てに対する 2 つのリクエストとしてカウントされます。
  • ベースモデルの 2 つのバージョンである「gemini-1.0-pro-001」と「my-tuned-chat-model」という名前のチューニング済みバージョンへのリクエストは、ベースモデル「gemini-1.0-pro」に対する 2 つのリクエストとしてカウントされます。
この割り当ては、特定の Google Cloud プロジェクトとサポート対象のリージョンに対する、Vertex AI の生成 AI リクエストに適用されます。

Google Cloud コンソールで割り当てを表示する

Google Cloud コンソールで割り当てを表示する方法は次のとおりです。
  1. Google Cloud コンソールで、[IAM と管理] ページに移動します。
  2. [コンソールに割り当てを表示する] をクリックします。
  3. [フィルタ] フィールドで、ディメンションまたは指標を指定します。
ディメンション(モデル ID) 指標(Gemini モデルの割り当て ID)
base_model: gemini-1.5-flash
base_model: gemini-1.5-pro
次の調整をリクエストできます。
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
  • aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model
その他のすべてのモデル 調整できる割り当ては 1 つだけです。
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model

リージョンとモデル別の割り当てを表示する

使用可能な各モデルの割り当て上限を表示するには、リージョンを選択します。

割り当てを増やす

Vertex AI の生成 AI の割り当てを引き上げる場合は、Google Cloud コンソールから割り当ての増加をリクエストできます。割り当ての詳細については、割り当てを操作するをご覧ください。

RAG Engine の割り当て

RAG Engine を使用して検索拡張生成(RAG)を実行するサービスごとに、次の割り当てが適用されます。割り当ては 1 分あたりのリクエスト数(RPM)で測定されます。
サービス 割り当て 指標
RAG Engine データ マネジメント API 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 1,500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1,500 RPM Online prediction requests per base model per minute per region per base_model

指定できる追加のフィルタは base_model: textembedding-gecko です。
次の上限が適用されます。
サービス 上限 指標
同時に可能な ImportRagFiles リクエスト 3 RPM VertexRagService concurrent import requests per region
ImportRagFiles リクエストあたりの最大ファイル数 10,000 VertexRagService import rag files requests per region

その他のレート制限と割り当てについては、Vertex AI の生成 AI のレート制限をご覧ください。

バッチ リクエスト

バッチ リクエストの割り当てと上限は、すべてのリージョンで同じです。

同時実行バッチ リクエスト

次の表に、同時実行バッチ リクエスト数の割り当てを示します。
割り当て
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
送信されたタスク数が指定された割り当てを超えると、タスクはキューに配置され、割り当て容量が使用可能になると処理されます。

バッチ リクエストの上限

次の表に、各バッチテキスト生成リクエストのサイズの上限を示します。
モデル 上限
gemini-1.5-pro 100 万件のレコード
gemini-1.5-flash 100 万件のレコード
gemini-1.0-pro 15 万件のレコード
gemini-1.0-pro-vision 5 万件のレコード

カスタム トレーニング モデルの割り当て

特定のプロジェクトとリージョンに対して、Vertex AI の生成 AI のチューニング済みモデルには、次の割り当てが適用されます。
割り当て
リージョンごとの制限付きイメージ トレーニング TPU V3 Pod コア
* サポート対象のリージョン - europe-west4
64
リージョンごとの制限付きイメージ トレーニング Nvidia A100 80 GB GPU
* サポート対象のリージョン - us-central1
* サポート対象のリージョン - us-east4

8
2
* チューニング シナリオでは、特定のリージョンでのアクセラレータの予約があります。チューニングの割り当てはサポートされているため、特定のリージョンでリクエストする必要があります。

テキスト エンベディングの上限

各テキスト エンベディング モデル リクエストには、最大 250 個の入力テキスト(入力テキストごとに 1 つのエンベディングを生成)と、リクエストごとに 20,000 個のトークンを指定できます。エンベディングの計算には、各入力テキストの最初の 2,048 トークンのみが使用されます。

Gen AI Evaluation Service のサービス割り当て

Gen AI Evaluation Service は、gemini-1.5-pro を判定モデルとして使用し、モデルベースの指標の一貫性と客観性を保証するメカニズムを使用します。モデルベースの指標の 1 回の評価リクエストで、Gen AI Evaluation Service に対して基盤となるリクエストが複数発生する場合があります。各モデルの割り当てはプロジェクトごとに計算されます。つまり、モデル推論とモデルベースの評価のために gemini-1.5-pro に送信されるリクエストはすべて割り当てにカウントされます。モデルごとに割り当てが異なります。次の表に、Gen AI Evaluation Service の割り当てと、基盤となる自動評価モデルの割り当てを示します。
リクエストの割り当て デフォルトの割り当て
1 分あたりの Gen AI Evaluation Service リクエスト 1 プロジェクト、1 リージョンあたり 1,000 件のリクエスト
base_model: gemini-1.5-pro の 1 分あたりのオンライン予測リクエスト数 リージョンとモデル別の割り当てをご覧ください。
Gen AI Evaluation Service の使用中に割り当てに関するエラーが発生した場合は、割り当ての増加をリクエストする必要があります。詳細については、割り当ての表示と管理をご覧ください。
上限
Gen AI Evaluation Service リクエストのタイムアウト 60 秒
新しいプロジェクトで Gen AI Evaluation Service を初めて使用する場合は、初期設定による遅延が発生することがあります(通常は 2 分以内)。この作業を行うのは 1 回限りです。最初のリクエストが失敗した場合は、数分待ってから再試行してください。その後の評価リクエストは通常、60 秒以内に完了します。モデルベースの指標では、自動評価として使用されるモデルに応じて、入力トークンと出力トークンの上限が設定されています。関連するモデルの上限については、モデル情報 | Vertex AI の生成 AI | Google Cloud をご覧ください。

パイプライン評価の割り当て

パイプライン評価サービスの使用中に割り当てに関するエラーが発生した場合は、割り当ての増加リクエストを提出する必要があります。詳細については、割り当ての表示と管理をご覧ください。 評価パイプライン サービスは、Vertex AI Pipelines を使用して PipelineJobs を実行します。Vertex AI Pipelines の関連の割り当てをご覧ください。一般的な割り当ての推奨事項は次のとおりです。
サービス 割り当て 推奨事項
Vertex AI API リージョンごとの同時 LLM バッチ予測ジョブ数 ポイントワイズ: 1 * num_concurrent_pipelines

ペアワイズ: 2 * num_concurrent_pipelines
Vertex AI API 1 分、1 リージョンあたりの評価リクエストの数 1,000 × num_concurrent_pipelines
また、モデルベースの評価指標を計算する際に、自動評価で割り当ての問題が発生する可能性があります。関連する割り当ては、使用された自動評価によって異なります。
タスク 割り当て ベースモデル 推奨事項
summarization
question_answering
1 分あたりのベースモデルごとのオンライン予測リクエスト数(リージョン、base_model ごと) text-bison 60 × num_concurrent_pipelines

Vertex AI Pipelines

チューニング ジョブは Vertex AI Pipelines を使用します。詳細については、Vertex AI Pipelines の割り当てと上限をご覧ください。

Vertex AI Reasoning Engine

各リージョンの特定のプロジェクトの Vertex AI Reasoning Engine には、次の割り当てと上限が適用されます。
割り当て
1 分あたりの推論エンジンの作成 / 削除 / 更新回数 10
1 分あたりの推論エンジンのクエリ / ストリーム クエリ 60
Reasoning Engine リソースの最大数 100

エラーコード 429 のトラブルシューティング

429 エラーのトラブルシューティングについては、エラーコード 429 をご覧ください。

次のステップ