このページでは、動的共有割り当て(DSQ)と、DSQ とプロビジョニングされたスループットの違いについて説明します。
動的共有割り当ての概要
動的共有割り当て(DSQ)は、特定のモデルのサービスによって処理されるすべてのクエリに利用可能なオンデマンド容量を分配します。 Google Cloud この機能を使用すると、割り当て上限の設定や割り当て増加リクエスト(QIR)の送信が不要になります。
DSQ は、すべてのお客様からのリクエストを同じリージョンまたはマルチリージョン エンドポイントに処理します。割り当ては削除され、使用可能な容量が各プロジェクトに分散されます。
アプリケーションの高可用性を確保し、本番環境ワークロードの予測可能なサービスレベルを実現するには、プロビジョニングされたスループットを使用する方法しかありません。プロビジョニングされたスループットの詳細については、プロビジョニングされたスループットをご覧ください。
サポートされているモデル
このセクションでは、動的共有割り当て(DSQ)をサポートするモデルを示します。これらのモデルでは、DSQ がデフォルトで有効になっています。
Google モデル
次の表に、DSQ をサポートする Google モデル(とバージョン)を示します。
モデル | DSQ のリリース日 | ステータス |
---|---|---|
Gemini 2.0 Flash-Lite(gemini-2.0-flash-lite-001 ) |
2025 年 2 月 25 日 | ライブ |
Gemini 2.0 Flash(gemini-2.0-flash-001 ) |
2025 年 2 月 5 日 | ライブ |
Gemini 1.5 Flash(gemini-1.5-flash-002 ) |
2024 年 9 月 24 日 | ライブ |
Gemini 1.5 Pro(gemini-1.5-pro-002 ) |
2024 年 9 月 24 日 | ライブ |
DSQ 割り当ては、Google Cloud コンソールの [割り当てとシステム制限 ] ページに表示されません。
DSQ エラーのトラブルシューティング
クエリを処理するのに十分な容量がない場合は、429 エラーが発生することがあります。発生する可能性のあるエラーのトラブルシューティングについては、エラーコード 429 をご覧ください。
次のステップ
- DSQ をサポートする Gemini モデルの詳細については、Gemini モデルをご覧ください。
- 生成 AI の割り当てと上限の詳細については、Vertex AI の生成 AI のレート上限をご覧ください。
- Vertex AI の割り当てと上限の詳細については、Vertex AI の割り当てと上限をご覧ください。
- Google Cloud 割り当てと上限の詳細については、割り当ての値とシステムの上限についてをご覧ください。