本頁面由 Cloud Translation API 翻譯而成。

支援的模型

下表列出支援預先佈建處理量的模型、每個生成式 AI 擴充單元 (GSU) 的處理量，以及每個模型的消耗率。

Google 模型

佈建輸送量僅支援您使用特定模型 ID (而非模型別名)，直接從專案呼叫的模型。如要使用預先佈建的輸送量對模型發出 API 呼叫，您必須使用特定模型版本 ID (例如 gemini-2.0-flash-001)，而非模型版本別名。

此外，透過佈建輸送量呼叫的模型不支援其他 Vertex AI 產品，例如 Vertex AI Agents 和 Vertex AI Search。舉例來說，如果您在使用 Vertex AI Search 時對 Gemini 2.0 Flash 進行 API 呼叫，則 Gemini 2.0 Flash 的佈建輸送量訂單不會保證 Vertex AI Search 進行的呼叫。

佈建輸送量不支援批次預測呼叫。

下表列出支援佈建輸送量的 Google 模型，以及這些模型的輸送量、購買增量和消耗率。每秒處理量是指每秒所有要求中，提示輸入和生成的輸出內容。

如要瞭解工作負載所需的權杖數量，請參閱 SDK 分詞器或 countTokens API。

型號	每 GSU 的每秒總處理量	單位	最低 GSU 購買增量	燃盡率
Gemini 2.5 Flash with Live API 最新支援版本：`gemini-live-2.5-flash`	1620	權杖	1	1 個輸入文字權杖 = 1 個輸入文字權杖 1 個輸入音訊權杖 = 6 個輸入文字權杖 1 個輸入影片權杖 = 6 個輸入文字權杖 1 個輸入工作階段記憶體權杖 = 1 個輸入文字權杖 1 個輸出文字權杖 = 4 個輸入文字權杖 1 個輸出音訊權杖 = 24 個輸入文字權杖
Gemini 2.5 Flash Image 最新支援版本：`gemini-2.5-flash-image`	2690	權杖	1	1 個輸入文字符記 = 1 個符記 1 個輸入圖片符記 = 1 個符記 1 個輸出文字符記 = 9 個符記 1 個輸出圖片符記 = 100 個符記
Gemini 2.5 Flash-Lite 最新支援版本 (GA)：`gemini-2.5-flash-lite` 最新支援版本 (預覽版)：`gemini-2.5-flash-lite-preview-09-2025`	8070	權杖	1	1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 3 個權杖 1 個輸出回應文字權杖 = 4 個權杖 1 個輸出推理文字權杖 = 4 個權杖
Gemini 2.5 Flash，搭配 Live API 原生音訊最新支援版本：`gemini-live-2.5-flash-preview-native-audio-09-2025` (預覽版)	1620	權杖	1	1 個輸入文字權杖 = 1 個權杖 1 個輸入音訊權杖 = 6 個權杖 1 個輸入影片權杖 = 6 個權杖 1 個輸入圖片權杖 = 6 個權杖 1 個輸入工作階段記憶體權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 1 個輸出音訊權杖 = 24 個權杖
Gemini 2.5 Pro 最新支援版本：`gemini-2.5-pro`	650	權杖	1	輸入權杖數少於或等於 200,000 個： 1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 1 個權杖 1 個輸出回應文字權杖 = 8 個權杖 1 個輸出推理文字權杖 = 8 個權杖輸入權杖數超過 200,000 個： 1 個輸入文字權杖 = 2 個權杖 1 個輸入圖片權杖 = 2 個權杖 1 個輸入影片權杖 = 2 個權杖 1 個輸入音訊權杖 = 2 個權杖 1 個輸出回應文字權杖 = 12 個權杖 1 個輸出推理文字權杖 = 12 個權杖
Gemini 2.5 Flash 最新支援版本 (GA)：`gemini-2.5-flash` 最新支援版本 (預覽版)：`gemini-2.5-flash-preview-09-2025`	2690	權杖	1	1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 4 個權杖 1 個輸出回應文字權杖 = 9 個權杖 1 個輸出推理文字權杖 = 9 個權杖
Gemini 2.0 Flash 最新支援版本：`gemini-2.0-flash-001`	3360	權杖	1	1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 7 個權杖 1 個輸出文字權杖 = 4 個權杖
Gemini 2.0 Flash-Lite 最新支援版本：`gemini-2.0-flash-lite-001`	6720	權杖	1	1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖
Veo 3 最新支援版本：`veo-3.0-generate-001`	0.0040	影片秒數	34	1 輸出影片秒數 = 1 輸出影片秒數
Veo 3 最新支援版本：`veo-3.0-generate-001`	0.0040	影片和音訊秒數	67	1 秒輸出影片 + 音訊 = 2 秒輸出影片
Veo 3 Fast 最新支援版本：`veo-3.0-fast-generate-001`	0.0080	影片秒數	17	1 輸出影片秒數 = 1 輸出影片秒數
Veo 3 Fast 最新支援版本：`veo-3.0-fast-generate-001`	0.0080	影片和音訊秒數	25	1 秒的輸出影片和音訊 = 1.45 秒的輸出影片
Imagen 4 Ultra 生成 `imagen-4.0-ultra-generate-001`	0.015	圖片	1	只有輸出圖片會計入佈建輸送量配額。
Imagen 4 Generate `imagen-4.0-generate-001`	0.02	圖片	1	只有輸出圖片會計入佈建輸送量配額。
Imagen 4 快速生成 `imagen-4.0-fast-generate-001`	0.04	圖片	1	只有輸出圖片會計入佈建輸送量配額。
Imagen 3 Generate 002 `imagen-3.0-generate-002`	0.02	圖片	1	只有輸出圖片會計入佈建輸送量配額。
Imagen 3 Generate 001 `imagen-3.0-generate-001`	0.025	圖片	1	只有輸出圖片會計入佈建輸送量配額。
Imagen 3 Fast	0.05	圖片	1	只有輸出圖片會計入佈建輸送量配額。
MedLM medium 注意：MedLM 已遭淘汰，2025 年 9 月 29 日當天或之後，您將無法再存取 MedLM。	2,000	字元	1	1 個輸入字元 = 1 個字元 1 個輸出字元 = 2 個字元
MedLM Large 注意：MedLM 已遭淘汰，2025 年 9 月 29 日當天或之後，您將無法再存取 MedLM。	200	字元	1	1 個輸入字元 = 1 個字元 1 個輸出字元 = 3 個字元
MedLM Large 1.5 注意：MedLM 已遭淘汰，2025 年 9 月 29 日當天或之後，您將無法再存取 MedLM。	200	字元	1	1 個輸入字元 = 1 個字元 1 個輸出字元 = 3 個字元

如要瞭解模型的功能和輸入/輸出限制，請參閱模型說明文件。

要求存取權：模型 gemini-live-2.5-flash 屬於私人正式版。如要瞭解如何取得這個版本，請參閱存取權要求頁面。

新機型推出後，你隨時可以升級。如要瞭解模型供應情形和停用日期，請參閱「Google 模型」。

如要進一步瞭解支援的地點，請參閱「可用的地點」。

支援全球端點模型

佈建輸送量支援下列模型的全球端點：

型號	最新支援的模型版本
Gemini 2.5 Flash Image	`gemini-2.5-flash-image`
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite-preview-09-2025` (預覽) `gemini-2.5-flash-lite` (GA)
Gemini 2.5 Pro	`gemini-2.5-pro`
Gemini 2.5 Flash	`gemini-2.5-flash-preview-09-2025` (預覽) `gemini-2.5-flash` (GA)
Gemini 2.0 Flash	`gemini-2.0-flash-001`
Gemini 2.0 Flash-Lite	`gemini-2.0-flash-lite-001`

如果流量超出佈建處理量配額，系統預設會使用全域端點。

如要將佈建輸送量指派給模型的全域端點，請在下達佈建輸送量訂單時選取 global 做為區域。

支援經過監督式微調的模型

如果 Google 模型支援監督式微調，則支援下列項目：

佈建輸送量可套用至基礎模型，以及這些基礎模型的監督式微調版本。
監督式微調模型端點及其對應的基礎模型會計入相同的佈建輸送量配額。

舉例來說，如果為特定專案的 gemini-2.0-flash-lite-001 購買佈建輸送量，系統會優先處理該專案中，透過受監督的微調版 gemini-2.0-flash-lite-001 提出的要求。使用適當的標頭來控管流量行為。

合作夥伴模型

下表列出支援佈建處理量的合作夥伴模型的處理量、購買增量和消耗率。Claude 模型的測量單位為每秒的權杖數，定義為每秒所有要求中輸入和輸出權杖的總數。

型號	每 GSU 的輸送量 (每秒權杖數)	最低 GSU 購買量	GSU 購買增量	燃盡率
Anthropic 的 Claude Sonnet 4.5	350	25	1	輸入權杖少於 200,000 個： 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖輸入權杖大於或等於 200,000 個： 1 個輸入權杖 = 2 個權杖 1 個輸出權杖 = 7.5 個權杖 1 個快取寫入權杖 = 2.5 個權杖 1 個快取命中權杖 = 0.2 個權杖
Anthropic 的 Claude Opus 4.1	70	35	1	1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude Haiku 4.5	1050	8	1	輸入內容詞元少於 200,000 個： 1 個輸入內容詞元 = 1 個詞元 1 個輸出內容詞元 = 5 個詞元 1 個快取寫入詞元 = 1.25 個詞元 1 個快取命中詞元 = 0.1 個詞元
Anthropic 的 Claude Opus 4	70	35	1	1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude Sonnet 4	350	25	1	輸入權杖少於 200,000 個： 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖輸入權杖大於或等於 200,000 個： 1 個輸入權杖 = 2 個權杖 1 個輸出權杖 = 7.5 個權杖 1 個快取寫入權杖 = 2.5 個權杖 1 個快取命中權杖 = 0.2 個權杖
Anthropic 的 Claude 3.7 Sonnet	350	25	1	1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3.5 Sonnet v2 (已淘汰)	350	25	1	1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3.5 Haiku	2,000	10	1	1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3 Opus	70	35	1	1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3 Haiku	4,200	5	1	1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3.5 Sonnet (已淘汰)	350	25	1	1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖

如要瞭解支援的地區，請參閱「Anthropic Claude 區域支援情形」。如要訂購 Anthropic 模型適用的佈建輸送量，請與Google Cloud 帳戶代表聯絡。

後續步驟

計算佈建的處理量需求。