このページは Cloud Translation API によって翻訳されました。

プロビジョンドスループットの要件を計算する

このセクションでは、生成 AI のスケール単位（GSU）とバーンダウン率のコンセプトについて説明します。プロビジョンドスループットは、生成 AI スケールユニット（GSU）数とバーンダウン率を使用して計算され、料金が設定されます。

GSU とバーンダウン率

生成 AI のスケール単位（GSU）は、プロンプトとレスポンスのスループットの測定値です。この量は、モデルをプロビジョニングするスループットを指定します。

バーンダウン率は、入力単位と出力単位（トークン、文字、画像など）をそれぞれ 1 秒あたりの入力トークン数、1 秒あたりの入力文字数、1 秒あたりの入力画像数に変換する比率です。この比率はスループットを表し、モデル間で標準単位を生成するために使用されます。

モデルによって使用するスループットが異なります。各モデルの最小 GSU 購入額と購入単位については、このドキュメントのサポートされているモデルとバーンダウン率をご覧ください。

次の式は、スループットの計算方法を示しています。

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

計算された 1 秒あたりのスループットから、ユースケースに必要な GSU の数を決定します。

重要な考慮事項

プロビジョンドスループットのニーズを計画するには、次の重要な考慮事項を確認してください。

リクエストには優先順位が設定されます。

プロビジョンドスループットを購入したユーザーは、オンデマンドリクエストよりも優先され、最初に処理されます。
スループットは繰り越せません。

未使用のスループットは、翌月に繰り越しされません。
プロビジョンドスループットは、1 秒あたりのトークン数、1 秒あたりの文字数、または 1 秒あたりの画像数で測定されます。

プロビジョンドスループットは、1 分あたりのクエリ数（QPM）のみに基づいて測定されるわけではありません。これは、ユースケースのクエリサイズ、レスポンスサイズ、QPM に基づいて測定されます。
プロビジョンドスループットは、プロジェクト、リージョン、モデル、バージョンに固有です。

プロビジョンドスループットは、特定のプロジェクト、リージョン、モデル、バージョンの組み合わせに割り当てられます。別のリージョンから呼び出された同じモデルは、プロビジョンドスループットの割り当てにはカウントされず、オンデマンドリクエストよりも優先されません。

コンテキストのキャッシュ保存

プロビジョンドスループットは、暗黙的なコンテキストキャッシュ保存をサポートしています。明示的なコンテキストキャッシュ保存はサポートされていません。明示的なコンテキストキャッシュ保存トラフィックが、プロビジョンドスループットから従量課金制に移動します。サポートされているモデルと上限については、コンテキストキャッシュ保存をご覧ください。

暗黙的キャッシュ保存は、デフォルトですべての Google Cloud プロジェクトで有効になっています。暗黙的なキャッシュ保存により、キャッシュヒット時の費用とレイテンシが削減されます。キャッシュヒットが発生すると、キャッシュに保存されたトークンは標準入力トークンと比較して割引で課金されます。モデル固有の割引を表示するには、コンテキストキャッシュ保存の概要をご覧ください。プロビジョンドスループットの場合、割引はバーンダウン率の引き下げによって適用されます。

たとえば、Gemini 2.5 Pro の入力テキストトークンとキャッシュに保存されたトークンのバーンダウン率は次のとおりです。

1 入力テキストトークン = 1 トークン
1 入力キャッシュに保存されたテキストトークン = 0.1 トークン

このモデルに 1,000 個の入力トークンを送信すると、プロビジョンドスループットが 1 秒あたり 1,000 個の入力トークンでバーンダウンされます。ただし、1,000 個のキャッシュに保存されたトークンを Gemini 2.5 Pro に送信すると、プロビジョンドスループットが 1 秒あたり 100 個のトークンでバーンダウンします。

これにより、トークンがキャッシュに保存されず、キャッシュ割引が適用されない類似のクエリのスループットが向上する可能性があります。

プロビジョンドスループットでサポートされているモデルのバーンダウン率を表示するには、サポートされているモデルとバーンダウン率をご覧ください。

Live API のバーンダウンについて

プロビジョンドスループットは、Gemini 2.5 Flash と Live API をサポートしています。Live API を使用してバーンダウンを計算する方法については、Live API のスループットを計算するをご覧ください。

Gemini 2.5 Flash と Live API でプロビジョンドスループットを使用する方法については、Live API のプロビジョンドスループットをご覧ください。

プロビジョンドスループットの必要量の計算例

プロビジョンドスループットの必要量を計算するには、 Google Cloud コンソールの見積もりツールを使用します。次の例は、モデル用のプロビジョンドスループットの量を見積もるプロセスを示しています。この見積もりの計算では、リージョンは考慮されません。

次の表に、例に沿って使用できる gemini-2.0-flash のバーンダウン率を示します。

モデル	GSU あたりのスループット	単位	GSU の最小購入単位	バーンダウン率
Gemini 2.0 Flash	3,360	トークン	1	1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 入力音声トークン = 7 トークン 1 出力テキストトークン = 4 トークン

要件をまとめます。
1. この例では、gemini-2.0-flash を使用して、1,000 個のテキストトークンと 500 個の音声トークンの入力を含むクエリの 1 秒あたり 10 件の秒間クエリ数（QPS）をサポートし、300 個のテキストトークンの出力を受け取ることができることを確認することを要件とします。
  
  ここでは、モデル、QPS、入力と出力のサイズを特定しているため、ユースケースを理解していることを前提としています。
2. スループットを計算するには、選択したモデルのバーンダウン率を参照してください。
スループットを計算します。
1. 入力にバーンダウン率を掛けて、入力トークンの合計数を算出します。
  
  1,000&ast;（入力テキストトークンあたり 1 トークン）+ 500&ast;（入力音声トークンあたり 7 トークン）= クエリあたり 4,500 個のバーンダウン調整済み入力トークン。
2. 出力にバーンダウン率を掛けて、出力トークンの合計数を算出します。
  
  300&ast;（出力テキストトークンあたり 4 トークン）= クエリあたりのバーンダウン調整済み出力トークン数 1,200
3. 合計します。
  
  入力トークン（バーンダウン調整後）4,500 個 + 出力トークン（バーンダウン調整後）1,200 個 = クエリあたりの合計トークン数 5,700 個
4. トークンの合計数に QPS を掛けて、1 秒あたりの合計スループットを算出します。
  
  クエリあたりの合計トークン数 5,700 個 × 10 QPS = 1 秒あたりの合計トークン数 57,000 個
GSU を計算します。
1. GSU は、1 秒あたりの合計トークン数をバーンダウン率のテーブルにある GSU あたりの 1 秒あたりのスループットで割った値です。
  
  1 秒あたりの合計トークン数 57,000 ÷ GSU あたりの 1 秒あたりのスループット 3,360 = 16.96 GSU
2. gemini-2.0-flash の最小 GSU 購入単位は 1 であるため、ワークロードを保証するには 17 個の GSU が必要になります。

次のステップ

プロビジョンドスループットを購入する。