動的共有割り当て(DSQ)は、割り当てと割り当て増加リクエスト(QIR)を管理することなく、ワークロードのニーズに柔軟に対応できるように、従量課金制(PayGo)リクエストを処理するために導入されました。DSQ では、使用量に対する事前定義の割り当て上限はありません。DSQ は、リソースのリアルタイムの可用性と、そのモデルのすべてのお客様のリアルタイムの需要に基づいて動的に割り当てられる、大規模な共有リソースプールへのアクセスを提供します。アクティブな顧客が増えると、各顧客に割り当てられるスループットが減少します。同様に、顧客数が少ない場合は、各顧客のスループットが高くなる可能性があります。
サポートされているモデル
次の Gemini モデルとその教師ありファインチューニング モデルは DSQ をサポートしています。
- Gemini 2.5 Flash-Lite
プレビュー - Live API を使用した Gemini 2.0 Flash
プレビュー - 画像生成機能を搭載した Gemini 2.0 Flash
プレビュー - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
次の以前の Gemini モデルは DSQ をサポートしています。
- Gemini 1.5 Pro
- Gemini 1.5 Flash
DSQ の仕組み
動的共有割り当て(DSQ)は、トラフィック パターンとニーズに合わせて調整され、使用上の摩擦を最小限に抑えます。DSQ のリソースに対するプロジェクトのアクセスは、Google が設定した任意の数で制限されません。代わりに、共有プールの全体的な容量と、すべてのお客様からの現在の総需要によって決まります。このモデルは、柔軟性を高めるように設計されており、ワークロードがバーストして、使用可能なときに多くのリソースを消費できます。逆に、共有プールのすべての顧客が、顧客ごとの割り当てを構成することなく、リソースが使用可能になったときにリソースにアクセスできるようになります。
共有リソース環境のすべてのユーザーに公平で安定したエクスペリエンスを提供するために、動的共有割り当ては、特に分離されたソースからの需要が非常に高い期間に、リクエストの処理方法をインテリジェントに管理します。DSQ では、固定上限ではなく、動的な優先順位付けのアプローチが採用されています。つまり、システムはバーストに対応するように設計されていますが、単一のソースからのトラフィックの異常に大きな急増は、より一貫性のある安定したトラフィックとは異なる優先度で処理される可能性があります。この高度な管理により、広範なユーザー アクティビティと通常のワークロードが一時的な極端なスパイクから保護され、システム全体の安定性と公平なアクセスが促進されます。
マルチモーダル入力を含む Gemini リクエストには、画像、音声、動画、ドキュメントを含む、対応するシステムレートの上限が適用されます。
アプリケーションの高可用性を確保し、本番環境ワークロードに対して予想どおりのサービスレベルを実現するには、プロビジョンド スループットをご覧ください。
DSQ でのリソース不足 429 エラーについて
「リソース消耗」429 エラーが発生すると、クォータの上限に達したのではないかと疑念を抱くことがありますが、ただし、DSQ ではこのようにはなりません。これらのエラーは、特定の時間における特定のタイプ(特定のリージョンの特定のモデルなど)のリソースの共有プール全体で、多くのユーザーから同時に非常に高い需要が発生していることを示します。これは、ラッシュ時の人気のある電車に乗ろうとするようなものです。お客様専用の「チケットの上限」はありませんが、電車自体が一時的に満席になることがあります。これは、プロジェクトに課せられた固定の上限ではなく、リソースの競合の一時的な状態です。
DSQ は、利用可能な容量を公平かつ効率的に管理し、分配するために常に機能しています。このようなエラーが表示された場合は、その共有プールで瞬時の需要が利用可能な供給量を上回っていることを意味します。リソースが他の場所でアイドル状態であってもブロックされるハード割り当てとは異なり、DSQ はリソースが空いているときにいつでもアクセスできるようにすることを目的としています。このエラーは、アカウントの上限ではなく、システム全体の現在の負荷を反映したものです。
この動的な環境では可用性が急速に変化する可能性があるため、再試行メカニズムを実装することをおすすめします。リソース不足エラーの処理方法については、429 エラーの処理ガイドまたはエラーコード 429 をご覧ください。
次のステップ
- Vertex AI の割り当てと上限の詳細について、Vertex AI の割り当てと上限を確認する。
- Google Cloud の割り当てと上限の詳細については、割り当ての値とシステムの上限についてをご覧ください。