Google モデル
プロビジョンド スループットは、特定のモデル ID を使用してプロジェクトから直接呼び出すモデルのみをサポートします。モデル エイリアスはサポートしていません。プロビジョニングされたスループットを使用してモデルに API 呼び出しを行うには、モデル バージョンのエイリアスではなく、特定のモデル バージョン ID(gemini-2.0-flash-001
など)を使用する必要があります。
また、プロビジョンド スループットは、Vertex AI エージェントや Vertex AI Search などの他の Vertex AI プロダクトによって呼び出されるモデルをサポートしていません。たとえば、Vertex AI Search を使用中に Gemini 2.0 Flash に API 呼び出しを行う場合、Gemini 2.0 Flash のプロビジョンド スループットの注文では、Vertex AI Search によって行われた呼び出しは保証されません。
次の表に、プロビジョンド スループットをサポートする Google モデルのスループット、購入単位、バーンダウン率を示します。1 秒あたりのスループットは、すべてのリクエストにわたるプロンプト入力と生成出力を 1 秒あたりで定義したものです。
ワークロードに必要なトークン数を確認するには、SDK トークン化ツールまたは countTokens API をご覧ください。
モデル | GSU ごとの 1 秒あたりのスループット | 単位 | GSU の最小購入単位 | バーンダウン率 |
---|---|---|---|---|
Gemini 2.5 Flash(Live API を使用) サポートされている最新バージョン: |
1620 | トークン | 1 | 1 入力テキスト トークン = 1 入力テキスト トークン 1 入力音声トークン = 6 入力テキスト トークン 1 入力動画トークン = 6 入力テキスト トークン 1 入力セッション メモリ トークン = 1 入力テキスト トークン 1 出力テキスト トークン = 4 入力テキスト トークン 1 出力音声トークン = 24 入力テキスト トークン |
Gemini 2.5 Flash-Lite サポートされている最新バージョン: |
8070 | トークン | 1 |
1 入力テキスト トークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 入力音声トークン = 5 トークン 1 出力レスポンス テキスト トークン = 4 トークン |
Gemini 2.5 Pro サポートされている最新バージョン: |
650 | トークン | 1 |
入力トークンが 200,000 以下の場合: 1 入力テキスト トークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 入力音声トークン = 1 トークン 1 出力レスポンス テキスト トークン = 8 トークン 1 出力推論テキスト トークン = 8 トークン 入力トークンが 200,000 を超える場合: 1 入力テキスト トークン = 2 トークン 1 入力画像トークン = 2 トークン 1 入力動画トークン = 2 トークン 1 入力音声トークン = 2 トークン 1 出力レスポンス テキスト トークン = 12 トークン 1 出力推論テキスト トークン = 12 トークン |
Gemini 2.5 Flash サポートされている最新バージョン: |
2690 | トークン | 1 |
1 入力テキスト トークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 入力音声トークン = 4 トークン 1 出力レスポンス テキスト トークン = 9 トークン 1 出力推論テキスト トークン = 9 トークン |
Gemini 2.0 Flash サポートされている最新バージョン: |
3360 | トークン | 1 |
1 入力テキスト トークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 入力音声トークン = 7 トークン 1 出力テキスト トークン = 4 トークン |
Gemini 2.0 Flash-Lite サポートされている最新バージョン: |
6720 | トークン | 1 |
1 入力テキスト トークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 入力音声トークン = 1 トークン 1 出力テキスト トークン = 4 トークン |
Imagen 3 | 0.025 | 画像 | 1 | プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。 |
Imagen 3 Fast | 0.05 | 画像 | 1 | プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。 |
Imagen 2 | 0.05 | 画像 | 1 | プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。 |
Imagen 2 Edit | 0.05 | 画像 | 1 | プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。 |
MedLM medium | 2,000 | 文字数 | 1 | 1 入力文字 = 1 文字 1 出力文字 = 2 文字 |
MedLM large | 200 | 文字数 | 1 | 1 入力文字 = 1 文字 1 出力文字 = 3 文字 |
MedLM large 1.5 | 200 | 文字数 | 1 | 1 入力文字 = 1 文字 1 出力文字 = 3 文字 |
新しいモデルが利用可能になり次第、アップグレードできます。提供状況と廃止日については、Google モデルをご覧ください。
サポートされているロケーションの詳細については、利用可能なロケーションをご覧ください。
グローバル エンドポイント モデルのサポート
プロビジョンド スループットは、次のモデルのグローバル エンドポイントをサポートしています。
モデル | サポートされている最新のモデル バージョン |
---|---|
Gemini 2.5 Flash-Lite(プレビュー) | gemini-2.5-flash-lite-preview-06-17 |
Gemini 2.5 Pro | gemini-2.5-pro |
Gemini 2.5 Flash | gemini-2.5-flash |
Gemini 2.0 Flash | gemini-2.0-flash-001 |
Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
プロビジョニングされたスループットの割り当てを超えるトラフィックは、デフォルトでグローバル エンドポイントを使用します。
モデルのグローバル エンドポイントにプロビジョンド スループットを割り当てるには、プロビジョンド スループットの注文を行うときにリージョンとして global
を選択します。
教師ありファインチューニング モデルのサポート
教師ありファインチューニングをサポートする Google モデルでは、次のものがサポートされています。
プロビジョンド スループットは、ベースモデルと、それらのベースモデルの教師ありファインチューニング バージョンの両方に適用できます。
教師ありファインチューニング済みモデルのエンドポイントと、それに対応するベースモデルは、同じプロビジョンド スループットの割り当てに対してカウントされます。
たとえば、特定のプロジェクトの
gemini-2.0-flash-lite-001
用に購入したプロビジョンド スループットでは、そのプロジェクト内で作成されたgemini-2.0-flash-lite-001
の教師ありファインチューニング バージョンから行われたリクエストが優先されます。適切なヘッダーを使用して、トラフィックの動作を制御します。
パートナーのモデル
次の表に、プロビジョンド スループットをサポートするパートナー モデルのスループット、購入単位、バーンダウン率を示します。Claude モデルは、1 秒あたりのトークンで測定されます。これは、1 秒あたりのすべてのリクエストの入力トークンと出力トークンの合計として定義されます。
モデル | GSU あたりのスループット(トークン/秒) | GSU の最小購入量 | GSU の購入単位 | バーンダウン率 |
---|---|---|---|---|
Anthropic の Claude Opus 4 | 70 | 35 | 1 | 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込みトークン = 1.25 トークン 1 キャッシュヒット トークン = 0.1 トークン |
Anthropic の Claude Sonnet 4 | 350 | 25 | 1 | 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込みトークン = 1.25 トークン 1 キャッシュヒット トークン = 0.1 トークン |
Anthropic の Claude 3.7 Sonnet | 350 | 25 | 1 | 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込みトークン = 1.25 トークン 1 キャッシュヒット トークン = 0.1 トークン |
Anthropic の Claude 3.5 Sonnet v2 | 350 | 25 | 1 | 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込みトークン = 1.25 トークン 1 キャッシュヒット トークン = 0.1 トークン |
Anthropic の Claude 3.5 Haiku | 2,000 | 10 | 1 | 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込みトークン = 1.25 トークン 1 キャッシュヒット トークン = 0.1 トークン |
Anthropic の Claude 3 Opus | 70 | 35 | 1 | 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込みトークン = 1.25 トークン 1 キャッシュヒット トークン = 0.1 トークン |
Anthropic の Claude 3 Haiku | 4,200 | 5 | 1 | 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込みトークン = 1.25 トークン 1 キャッシュヒット トークン = 0.1 トークン |
Anthropic の Claude 3.5 Sonnet | 350 | 25 | 1 | 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込みトークン = 1.25 トークン 1 キャッシュヒット トークン = 0.1 トークン |
サポートされているロケーションについては、Anthropic Claude リージョンの可用性をご覧ください。Anthropic モデル用のプロビジョンド スループットを注文するには、Google Cloud アカウント担当者にお問い合わせください。