このセクションでは、プロビジョニングされたスループットが Live API でトークン数のカウントと割り当ての適用にどのように機能するかについて説明します。
Live API は、セッションを通じて低レイテンシのマルチモーダル インタラクションをサポートしています。セッション メモリを使用して、セッション内のインタラクションから情報を保持し、呼び出します。これにより、モデルは以前に提供または議論された情報を思い出すことができます。プロビジョニングされたスループットは、Live API モデルの Gemini 2.5 Flash をサポートしています。セッションの制限や機能など、Live API の詳細については、Live API リファレンスをご覧ください。
Live API のスループットを計算する
Live API を使用している間、セッション メモリに保存されたトークンは、モデルに対する後続のリクエストで使用できます。その結果、プロビジョニングされたスループットでは、同じリクエスト内の受信トークンとセッション メモリトークンが考慮されます。これにより、リクエストごとに処理されるトークンの数が、進行中のリクエストでユーザーが送信したトークンの数よりも多くなる可能性があります。
Live API には、セッション メモリに保存できるトークンの合計数に上限があります。また、トークンの合計数を含むメタデータ フィールドもあります。リクエストを処理するために必要なスループットを計算する際は、セッション メモリ内のトークンを考慮する必要があります。従量課金制(PayGo)で Live API を使用したことがある場合は、これらのトラフィック パターンとセッション トークンを使用して、プロビジョニングされたスループットのニーズを見積もることができます。
Live API のプロビジョンド スループットの要件を見積もる方法の例
セッション中、すべてのトラフィックはプロビジョニングされたスループットまたは従量課金制として処理されます。セッション中にプロビジョニングされたスループットの割り当てに達すると、後で再試行するように求めるエラー メッセージが表示されます。割り当て内に収まると、リクエストの送信を再開できます。セッションがライブである限り、セッション メモリなどのセッション状態を使用できます。
この例は、セッション メモリのトークンを含めて、2 つの連続するリクエストが処理される方法を示しています。
リクエスト#1 の詳細
時間: 10 秒
送信されたトークン(音声): 10 秒 × 25 トークン/秒 = 250 トークン
送信されたトークン(動画): 10 秒 × 258 トークン / フレーム / 秒 = 2,580 トークン
Request#1 で処理されたトークンの合計数:
- 送信されたトークン数: 送信された音声トークンと動画トークンの合計 = 2,580 + 250 = 2,830 トークン
- 受け取ったトークン数: 100(音声)
リクエスト#2 の詳細
再生時間: 40 秒
送信されたトークン(音声): 40 秒 × 1,000 トークン
Request#2 で処理されたトークンの合計数:
- 送信されたトークン数: リクエスト 2 で送信されたトークン数 + リクエスト 1 のセッション メモリ トークン数 = 2,830 トークン + 1,000 トークン = 3,830 トークン
- 受信したトークン: 200(音声)
リクエストで処理されたトークンの数を計算する
これらのリクエストで処理されるトークンの数は、次のように計算されます。
セッション メモリに追加のトークンがないため、リクエスト#1 は進行中のリクエストの入力トークンと出力トークンのみを処理します。
リクエスト #2 は、進行中のリクエストの入力トークンと出力トークンを処理しますが、セッション メモリの入力トークンも含まれます。これは、セッション メモリの前のリクエスト(リクエスト #1)の入力トークンで構成されます。セッション メモリ内のトークンのバーンダウン率は、標準の入力トークンと同じです(入力セッション メモリトークン 1 個 = 入力トークン 1 個)。
リクエスト#2 の送信後、処理に 1 秒かかった場合、トークンは次のように処理され、プロビジョニングされたスループットの割り当てに適用されます。
入力にバーンダウン率を掛けて、入力トークンの合計数を取得します。
2,830 x(セッション メモリ トークンあたり 1 トークン)+ 1,000 x(入力テキスト トークンあたり 1 トークン)= クエリあたりのバーンダウン調整済み入力トークン数 3,830
出力にバーンダウン率を掛けて、出力トークンの合計を取得します。
200 x(音声出力トークンあたり 6 トークン)= 1,200 トークン
次の 2 つの合計を追加して、処理されたトークンの合計数を取得します。
3,830 個のトークン + 1,200 個のトークン = 5,030 個のトークン
プロビジョンド スループットの割り当てが 1 秒あたり 5,030 トークンを超える場合、このリクエストはすぐに処理できます。割り当てに設定したレートで、トークンが時間とともに処理されます。