プロビジョンド スループットの要件を計算する

このセクションでは、生成 AI のスケール単位(GSU)とバーンダウン率のコンセプトについて説明します。プロビジョンド スループットは、生成 AI スケール ユニット(GSU)数とバーンダウン率を使用して計算され、料金が設定されます。

GSU とバーンダウン率

生成 AI スケール ユニット(GSU)は、プロンプトとレスポンスのスループットの測定値です。この量は、モデルをプロビジョニングするスループットを指定します。

バーンダウン率は、入力単位と出力単位(トークン、文字、画像など)を、それぞれ 1 秒あたりの入力トークン数、1 秒あたりの入力文字数、1 秒あたりの入力画像数に変換する比率です。この比率はスループットを表し、モデル間で標準単位を生成するために使用されます。

モデルによって使用するスループットが異なります。各モデルの最小 GSU 購入額と購入単位については、このドキュメントのサポートされているモデルとバーンダウン率をご覧ください。

次の式は、スループットの計算方法を示しています。

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

計算された 1 秒あたりのスループットから、ユースケースに必要な GSU の数を決定します。

重要な考慮事項

プロビジョンド スループットのニーズを計画するには、次の重要な考慮事項を確認してください。

  • リクエストには優先順位が設定されます。

    プロビジョンド スループットを購入したユーザーは、オンデマンド リクエストよりも優先され、最初に処理されます。

  • スループットは繰り越せません。

    未使用のスループットは、翌月に繰り越しされません。

  • プロビジョンド スループットは、1 秒あたりのトークン数、1 秒あたりの文字数、1 秒あたりの画像数で測定されます。

    プロビジョンド スループットは、1 分あたりのクエリ数(QPM)のみに基づいて測定されるわけではありません。これは、ユースケースのクエリサイズ、レスポンス サイズ、QPM に基づいて測定されます。

  • プロビジョンド スループットは、プロジェクト、リージョン、モデル、バージョンに固有です。

    プロビジョンド スループットは、特定のプロジェクト、リージョン、モデル、バージョンの組み合わせに割り当てられます。別のリージョンから呼び出された同じモデルは、プロビジョンド スループットの割り当てにはカウントされず、オンデマンド リクエストよりも優先されません。

コンテキストのキャッシュ保存

プロビジョンド スループットは、デフォルトのコンテキスト キャッシュ保存をサポートしています。ただし、プロビジョンド スループットは、コンテキスト キャッシュに関する情報の取得を含む Vertex AI API を使用したリクエストのキャッシュ保存をサポートしていません。

デフォルトでは、Google はコストとレイテンシを削減するために入力を自動的にキャッシュに保存します。Gemini 2.5 Flash モデルと Gemini 2.5 Pro モデルでは、キャッシュ ヒットが発生した場合、キャッシュに保存されたトークンは標準入力トークンと比較して 75% 割引で課金されます。プロビジョニングされたスループットの場合、割引はバーンダウン率の引き下げによって適用されます。

たとえば、Gemini 2.5 Pro の入力テキスト トークンとキャッシュ保存されたトークンのバーンダウン率は次のようになります。

  • 1 入力テキスト トークン = 1 トークン

  • 1 入力キャッシュ テキスト トークン = 0.25 トークン

このモデルに 1,000 個の入力トークンを送信すると、プロビジョニングされたスループットが 1 秒あたり 1,000 個の入力トークンでバーンダウンされます。ただし、1,000 個のキャッシュ保存済みトークンを Gemini 2.5 Pro に送信すると、プロビジョニングされたスループットが 1 秒あたり 250 個のトークンでバーンダウンされます。

これにより、トークンがキャッシュに保存されず、キャッシュ割引が適用されない類似のクエリのスループットが向上する可能性があります。

プロビジョニングされたスループットでサポートされているモデルのバーンダウン率については、サポートされているモデルとバーンダウン率をご覧ください。

Live API のバーンダウンについて

プロビジョニングされたスループットは、Live API を使用した Gemini 2.5 Flash をサポートしています。Live API を使用してバーンダウンを計算する方法については、Live API のスループットを計算するをご覧ください。

Live API で Gemini 2.5 Flash のプロビジョンド スループットを使用する方法については、Live API のプロビジョンド スループットをご覧ください。

プロビジョンド スループットの必要量の計算例

プロビジョニングされたスループットの必要量を計算するには、 Google Cloud コンソールの見積もりツールを使用します。次の例は、モデル用のプロビジョンド スループットの量を見積もるプロセスを示しています。この見積もりの計算では、リージョンは考慮されません。

次の表に、例に沿って使用できる gemini-2.0-flash のバーンダウン率を示します。

モデル GSU あたりのスループット 単位 GSU の最小購入単位 バーンダウン率
Gemini 2.0 Flash 3,360 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 7 トークン
1 出力テキスト トークン = 4 トークン
  1. 要件をまとめます。

    1. この例では、gemini-2.0-flash を使用して、1,000 個のテキスト トークンと 500 個の音声トークンを入力とするクエリの 10 QPS(1 秒あたりのクエリ数)をサポートし、300 個のテキスト トークンの出力を受け取ることができることを確認することを要件とします。

      ここでは、モデル、QPS、入力と出力のサイズを特定しているため、ユースケースを理解していることを前提としています。

    2. スループットを計算するには、選択したモデルのバーンダウン率を参照してください。

  2. スループットを計算します。

    1. 入力にバーンダウン率を掛けて、入力トークンの合計数を算出します。

      1,000*(入力テキスト トークンあたり 1 トークン) + 500*(入力音声トークンあたり 7 トークン) = クエリあたり 4,500 個のバーンダウン調整済み入力トークン。

    2. 出力にバーンダウン率を掛けて、出力トークンの合計を求めます。

      300 ×(出力テキスト トークンあたり 4 トークン)= クエリあたりのバーンダウン調整済み出力トークン数 1,200

    3. 合計を足し合わせます。

      バーンダウン調整後の入力トークン数 4,500 + バーンダウン調整後の出力トークン数 1,200 = クエリあたりの合計トークン数 5,700

    4. トークンの合計数に QPS を掛けて、1 秒あたりの合計スループットを算出します。

      クエリあたりの合計トークン数 5,700 個 × 10 QPS = 1 秒あたりの合計トークン数 57,000 個

  3. GSU を計算します。

    1. GSU は、1 秒あたりの合計トークン数をバーンダウン率の表にある GSU あたりの 1 秒あたりのスループットで割った値です。

      1 秒あたりの合計トークン数 57,000 ÷ GSU あたりの 1 秒あたりのスループット 3,360 = 16.96 GSU

    2. gemini-2.0-flash の最小 GSU 購入単位は 1 であるため、ワークロードを保証するには 17 個の GSU が必要になります。

次のステップ