支援模型

下表列出支援預先配置的處理量模型、每個生成式 AI 擴充單元 (GSU) 的處理量,以及每個模型的耗用率

Google 模型

佈建輸送量僅支援您直接使用特定模型 ID 從專案呼叫的模型,而非模型別名。如要使用已配置的傳送量來對模型進行 API 呼叫,您必須使用特定模型版本 ID (例如 gemini-2.0-flash-001),而非模型版本別名

此外,已配置吞吐量不支援由其他 Vertex AI 產品 (例如 Vertex AI Agents 和 Vertex AI Search) 呼叫的模型。舉例來說,如果您在使用 Vertex AI Search 時向 Gemini 2.0 Flash 發出 API 呼叫,Gemini 2.0 Flash 的預留傳輸量訂單將不會保證 Vertex AI Search 發出的呼叫。

下表列出支援預先配置處理量的 Google 模型的處理量、購買增量和消耗率。每秒處理量的定義是每秒所有要求的提示輸入內容和產生的輸出內容。

如要瞭解工作負載需要多少個符記,請參閱 SDK 分詞器countTokens API

型號 每個 GSU 的每秒處理量 單位 最低 GSU 購買增量 消耗率

使用 Live API 的 Gemini 2.5 Flash

最新支援版本:gemini-live-2.5-flash

1620 權杖 1 1 個輸入文字符號 = 1 個輸入文字符號
1 個輸入音訊符號 = 6 個輸入文字符號
1 個輸入影片符號 = 6 個輸入文字符號
1 個輸入工作階段記憶體符號 = 1 個輸入文字符號
1 個輸出文字符號 = 4 個輸入文字符號
1 個輸出音訊符號 = 24 個輸入文字符號

Gemini 2.5 Flash-Lite

最新支援版本:gemini-2.5-flash-lite-preview-06-17(預先發布版)

8070 權杖 1 1 個輸入文字符記 = 1 個符記
1 個輸入圖片符記 = 1 個符記
1 個輸入影片符記 = 1 個符記
1 個輸入音訊符記 = 5 個符記
1 個輸出回應文字符記 = 4 個符記

Gemini 2.5 Pro

最新支援版本:gemini-2.5-pro

650 權杖 1 輸入符記小於或等於 200,000 個:
1 個輸入文字符記 = 1 個符記
1 個輸入圖片符記 = 1 個符記
1 個輸入影片符記 = 1 個符記
1 個輸入音訊符記 = 1 個符記
1 個輸出回應文字符記 = 8 個符記
1 個輸出推理文字符記 = 8 個符記

輸入符記超過 200,000 個:
1 個輸入文字符記 = 2 個符記
1 個輸入圖片符記 = 2 個符記
1 個輸入影片符記 = 2 個符記
1 個輸入音訊符記 = 2 個符記
1 個輸出回應文字符記 = 12 個符記
1 個輸出推理文字符記 = 12 個符記

Gemini 2.5 Flash

最新支援版本:gemini-2.5-flash

2690 權杖 1 1 個輸入文字符記 = 1 個符記
1 個輸入圖片符記 = 1 個符記
1 個輸入影片符記 = 1 個符記
1 個輸入音訊符記 = 4 個符記
1 個輸出回應文字符記 = 9 個符記
1 個輸出推理文字符記 = 9 個符記

Gemini 2.0 Flash

最新支援版本:gemini-2.0-flash-001

3360 權杖 1 1 個輸入文字符號 = 1 個符號
1 個輸入圖片符號 = 1 個符號
1 個輸入影片符號 = 1 個符號
1 個輸入音訊符號 = 7 個符號
1 個輸出文字符號 = 4 個符號

Gemini 2.0 Flash-Lite

最新支援版本:gemini-2.0-flash-lite-001

6720 權杖 1 1 個輸入文字符記 = 1 個符記
1 個輸入圖片符記 = 1 個符記
1 個輸入影片符記 = 1 個符記
1 個輸入音訊符記 = 1 個符記
1 個輸出文字符記 = 4 個符記
Imagen 3 0.025 圖片 1 只有輸出圖片會計入預配置傳輸量配額。
Imagen 3 Fast 0.05 圖片 1 只有輸出圖片會計入預配置傳輸量配額。
Imagen 2 0.05 圖片 1 只有輸出圖片會計入預配置傳輸量配額。
Imagen 2 Edit 0.05 圖片 1 只有輸出圖片會計入預先配置的傳輸量配額。
MedLM 中介層 2,000 字元 1 1 個輸入字元 = 1 個字元
1 個輸出字元 = 2 個字元
MedLM 大型 200 字元 1 1 個輸入字元 = 1 個字元
1 個輸出字元 = 3 個字元
MedLM large 1.5 200 字元 1 1 個輸入字元 = 1 個字元
1 個輸出字元 = 3 個字元

您可以隨時升級至新款型號。如要瞭解型號的供應情形和停產日期,請參閱 Google 型號

如要進一步瞭解支援的位置,請參閱「可用的位置」。

全球端點模型支援

佈建輸送量支援下列模型的全域端點

型號 最新支援的模型版本
Gemini 2.5 Flash-Lite (預先發布版) gemini-2.5-flash-lite-preview-06-17
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash gemini-2.5-flash
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

超過已佈建處理量配額的流量,預設會使用全球端點。

如要將已佈建吞吐量指派給模型的全域端點,請在下單訂購已佈建吞吐量時,將 global 選為區域。

支援監督式微調模型

對於支援監督式精細調整的 Google 模型,系統支援下列功能:

  • 佈建輸送量可套用於基礎模型,以及這些基礎模型的受控微調版本。

  • 監督式微調模型端點及其對應的基礎模型,都會計入相同的佈建輸送量配額。

    舉例來說,如果您為特定專案的 gemini-2.0-flash-lite-001 購買了預配置吞吐量,系統會將優先處理來自該專案中所建立的監督精細調整版 gemini-2.0-flash-lite-001 的請求。使用適當的標頭來控管流量行為。

合作夥伴模型

下表列出支援預先配置的處理量夥伴機型的處理量、購買增量和耗用率。Claude 模型以每秒符號數量做為評估標準,這項指標定義為所有要求在每秒內的輸入和輸出符號總數。

型號 每個 GSU 的傳輸量 (符記/秒) 最低 GSU 購買量 GSU 購買增量 消耗率
Anthropic 的 Claude Opus 4 70 35 1 1 個輸入符記 = 1 個符記
1 個輸出符記 = 5 個符記
1 個快取寫入符記 = 1.25 個符記
1 個快取命中符記 = 0.1 個符記
Anthropic 的 Claude Sonnet 4 350 25 1 1 個輸入符記 = 1 個符記
1 個輸出符記 = 5 個符記
1 個快取寫入符記 = 1.25 個符記
1 個快取命中符記 = 0.1 個符記
Anthropic Claude 3.7 Sonnet 350 25 1 1 個輸入符記 = 1 個符記
1 個輸出符記 = 5 個符記
1 個快取寫入符記 = 1.25 個符記
1 個快取命中符記 = 0.1 個符記
Anthropic 的 Claude 3.5 Sonnet 2 版 350 25 1 1 個輸入符記 = 1 個符記
1 個輸出符記 = 5 個符記
1 個快取寫入符記 = 1.25 個符記
1 個快取命中符記 = 0.1 個符記
Anthropic 的 Claude 3.5 Haiku 2,000 10 1 1 個輸入符記 = 1 個符記
1 個輸出符記 = 5 個符記
1 個快取寫入符記 = 1.25 個符記
1 個快取命中符記 = 0.1 個符記
Anthropic 的 Claude 3 Opus 70 35 1 1 個輸入符記 = 1 個符記
1 個輸出符記 = 5 個符記
1 個快取寫入符記 = 1.25 個符記
1 個快取命中符記 = 0.1 個符記
Anthropic 的 Claude 3 Haiku 4,200 5 1 1 個輸入符記 = 1 個符記
1 個輸出符記 = 5 個符記
1 個快取寫入符記 = 1.25 個符記
1 個快取命中符記 = 0.1 個符記
Anthropic 的 Claude 3.5 Sonnet 350 25 1 1 個輸入符記 = 1 個符記
1 個輸出符記 = 5 個符記
1 個快取寫入符記 = 1.25 個符記
1 個快取命中符記 = 0.1 個符記

如要瞭解支援的位置,請參閱 Anthropic Claude 區域可用性。如要為 Anthropic 模型訂購已配置的傳輸量,請與您的 Google Cloud 帳戶代表聯絡。

後續步驟