サポートされているモデル

次の表に、プロビジョンド スループットをサポートするモデル、各生成 AI のスケール単位(GSU)のスループット、各モデルのバーンダウン率を示します。

Google モデル

プロビジョンド スループットは、特定のモデル ID を使用してプロジェクトから直接呼び出すモデルのみをサポートします。モデル エイリアスはサポートしていません。プロビジョニングされたスループットを使用してモデルに API 呼び出しを行うには、モデル バージョンのエイリアスではなく、特定のモデル バージョン ID(gemini-2.0-flash-001 など)を使用する必要があります。

また、プロビジョンド スループットは、Vertex AI エージェントや Vertex AI Search などの他の Vertex AI プロダクトによって呼び出されるモデルをサポートしていません。たとえば、Vertex AI Search を使用中に Gemini 2.0 Flash に API 呼び出しを行う場合、Gemini 2.0 Flash のプロビジョンド スループットの注文では、Vertex AI Search によって行われた呼び出しは保証されません。

次の表に、プロビジョンド スループットをサポートする Google モデルのスループット、購入単位、バーンダウン率を示します。1 秒あたりのスループットは、すべてのリクエストにわたるプロンプト入力と生成出力を 1 秒あたりで定義したものです。

ワークロードに必要なトークン数を確認するには、SDK トークン化ツールまたは countTokens API をご覧ください。

モデル GSU ごとの 1 秒あたりのスループット 単位 GSU の最小購入単位 バーンダウン率

Gemini 2.5 Flash(Live API を使用)

サポートされている最新バージョン: gemini-live-2.5-flash

1620 トークン 1 1 入力テキスト トークン = 1 入力テキスト トークン
1 入力音声トークン = 6 入力テキスト トークン
1 入力動画トークン = 6 入力テキスト トークン
1 入力セッション メモリ トークン = 1 入力テキスト トークン
1 出力テキスト トークン = 4 入力テキスト トークン
1 出力音声トークン = 24 入力テキスト トークン

Gemini 2.5 Flash-Lite

サポートされている最新バージョン: gemini-2.5-flash-lite-preview-06-17プレビュー

8070 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 5 トークン
1 出力レスポンス テキスト トークン = 4 トークン

Gemini 2.5 Pro

サポートされている最新バージョン: gemini-2.5-pro

650 トークン 1 入力トークンが 200,000 以下の場合:
1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 1 トークン
1 出力レスポンス テキスト トークン = 8 トークン
1 出力推論テキスト トークン = 8 トークン

入力トークンが 200,000 を超える場合:
1 入力テキスト トークン = 2 トークン
1 入力画像トークン = 2 トークン
1 入力動画トークン = 2 トークン
1 入力音声トークン = 2 トークン
1 出力レスポンス テキスト トークン = 12 トークン
1 出力推論テキスト トークン = 12 トークン

Gemini 2.5 Flash

サポートされている最新バージョン: gemini-2.5-flash

2690 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 4 トークン
1 出力レスポンス テキスト トークン = 9 トークン
1 出力推論テキスト トークン = 9 トークン

Gemini 2.0 Flash

サポートされている最新バージョン: gemini-2.0-flash-001

3360 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 7 トークン
1 出力テキスト トークン = 4 トークン

Gemini 2.0 Flash-Lite

サポートされている最新バージョン: gemini-2.0-flash-lite-001

6720 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 1 トークン
1 出力テキスト トークン = 4 トークン
Imagen 3 0.025 画像 1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。
Imagen 3 Fast 0.05 画像 1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。
Imagen 2 0.05 画像 1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。
Imagen 2 Edit 0.05 画像 1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。
MedLM medium 2,000 文字数 1 1 入力文字 = 1 文字
1 出力文字 = 2 文字
MedLM large 200 文字数 1 1 入力文字 = 1 文字
1 出力文字 = 3 文字
MedLM large 1.5 200 文字数 1 1 入力文字 = 1 文字
1 出力文字 = 3 文字

新しいモデルが利用可能になり次第、アップグレードできます。提供状況と廃止日については、Google モデルをご覧ください。

サポートされているロケーションの詳細については、利用可能なロケーションをご覧ください。

グローバル エンドポイント モデルのサポート

プロビジョンド スループットは、次のモデルのグローバル エンドポイントをサポートしています。

モデル サポートされている最新のモデル バージョン
Gemini 2.5 Flash-Lite(プレビュー gemini-2.5-flash-lite-preview-06-17
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash gemini-2.5-flash
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

プロビジョニングされたスループットの割り当てを超えるトラフィックは、デフォルトでグローバル エンドポイントを使用します。

モデルのグローバル エンドポイントにプロビジョンド スループットを割り当てるには、プロビジョンド スループットの注文を行うときにリージョンとして global を選択します。

教師ありファインチューニング モデルのサポート

教師ありファインチューニングをサポートする Google モデルでは、次のものがサポートされています。

  • プロビジョンド スループットは、ベースモデルと、それらのベースモデルの教師ありファインチューニング バージョンの両方に適用できます。

  • 教師ありファインチューニング済みモデルのエンドポイントと、それに対応するベースモデルは、同じプロビジョンド スループットの割り当てに対してカウントされます。

    たとえば、特定のプロジェクトの gemini-2.0-flash-lite-001 用に購入したプロビジョンド スループットでは、そのプロジェクト内で作成された gemini-2.0-flash-lite-001 の教師ありファインチューニング バージョンから行われたリクエストが優先されます。適切なヘッダーを使用して、トラフィックの動作を制御します。

パートナーのモデル

次の表に、プロビジョンド スループットをサポートするパートナー モデルのスループット、購入単位、バーンダウン率を示します。Claude モデルは、1 秒あたりのトークンで測定されます。これは、1 秒あたりのすべてのリクエストの入力トークンと出力トークンの合計として定義されます。

モデル GSU あたりのスループット(トークン/秒) GSU の最小購入量 GSU の購入単位 バーンダウン率
Anthropic の Claude Opus 4 70 35 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュヒット トークン = 0.1 トークン
Anthropic の Claude Sonnet 4 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュヒット トークン = 0.1 トークン
Anthropic の Claude 3.7 Sonnet 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュヒット トークン = 0.1 トークン
Anthropic の Claude 3.5 Sonnet v2 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュヒット トークン = 0.1 トークン
Anthropic の Claude 3.5 Haiku 2,000 10 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュヒット トークン = 0.1 トークン
Anthropic の Claude 3 Opus 70 35 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュヒット トークン = 0.1 トークン
Anthropic の Claude 3 Haiku 4,200 5 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュヒット トークン = 0.1 トークン
Anthropic の Claude 3.5 Sonnet 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュヒット トークン = 0.1 トークン

サポートされているロケーションについては、Anthropic Claude リージョンの可用性をご覧ください。Anthropic モデル用のプロビジョンド スループットを注文するには、Google Cloud アカウント担当者にお問い合わせください。

次のステップ