Google 模型
佈建輸送量僅支援您直接使用特定模型 ID 從專案呼叫的模型,而非模型別名。如要使用已配置的傳送量來對模型進行 API 呼叫,您必須使用特定模型版本 ID (例如 gemini-2.0-flash-001
),而非模型版本別名。
此外,已配置吞吐量不支援由其他 Vertex AI 產品 (例如 Vertex AI Agents 和 Vertex AI Search) 呼叫的模型。舉例來說,如果您在使用 Vertex AI Search 時向 Gemini 2.0 Flash 發出 API 呼叫,Gemini 2.0 Flash 的預留傳輸量訂單將不會保證 Vertex AI Search 發出的呼叫。
下表列出支援預先配置處理量的 Google 模型的處理量、購買增量和消耗率。每秒處理量的定義是每秒所有要求的提示輸入內容和產生的輸出內容。
如要瞭解工作負載需要多少個符記,請參閱 SDK 分詞器或 countTokens API。
型號 | 每個 GSU 的每秒處理量 | 單位 | 最低 GSU 購買增量 | 消耗率 |
---|---|---|---|---|
使用 Live API 的 Gemini 2.5 Flash 最新支援版本: |
1620 | 權杖 | 1 | 1 個輸入文字符號 = 1 個輸入文字符號 1 個輸入音訊符號 = 6 個輸入文字符號 1 個輸入影片符號 = 6 個輸入文字符號 1 個輸入工作階段記憶體符號 = 1 個輸入文字符號 1 個輸出文字符號 = 4 個輸入文字符號 1 個輸出音訊符號 = 24 個輸入文字符號 |
Gemini 2.5 Flash-Lite 最新支援版本: |
8070 | 權杖 | 1 |
1 個輸入文字符記 = 1 個符記 1 個輸入圖片符記 = 1 個符記 1 個輸入影片符記 = 1 個符記 1 個輸入音訊符記 = 5 個符記 1 個輸出回應文字符記 = 4 個符記 |
Gemini 2.5 Pro 最新支援版本: |
650 | 權杖 | 1 |
輸入符記小於或等於 200,000 個: 1 個輸入文字符記 = 1 個符記 1 個輸入圖片符記 = 1 個符記 1 個輸入影片符記 = 1 個符記 1 個輸入音訊符記 = 1 個符記 1 個輸出回應文字符記 = 8 個符記 1 個輸出推理文字符記 = 8 個符記 輸入符記超過 200,000 個: 1 個輸入文字符記 = 2 個符記 1 個輸入圖片符記 = 2 個符記 1 個輸入影片符記 = 2 個符記 1 個輸入音訊符記 = 2 個符記 1 個輸出回應文字符記 = 12 個符記 1 個輸出推理文字符記 = 12 個符記 |
Gemini 2.5 Flash 最新支援版本: |
2690 | 權杖 | 1 |
1 個輸入文字符記 = 1 個符記 1 個輸入圖片符記 = 1 個符記 1 個輸入影片符記 = 1 個符記 1 個輸入音訊符記 = 4 個符記 1 個輸出回應文字符記 = 9 個符記 1 個輸出推理文字符記 = 9 個符記 |
Gemini 2.0 Flash 最新支援版本: |
3360 | 權杖 | 1 |
1 個輸入文字符號 = 1 個符號 1 個輸入圖片符號 = 1 個符號 1 個輸入影片符號 = 1 個符號 1 個輸入音訊符號 = 7 個符號 1 個輸出文字符號 = 4 個符號 |
Gemini 2.0 Flash-Lite 最新支援版本: |
6720 | 權杖 | 1 |
1 個輸入文字符記 = 1 個符記 1 個輸入圖片符記 = 1 個符記 1 個輸入影片符記 = 1 個符記 1 個輸入音訊符記 = 1 個符記 1 個輸出文字符記 = 4 個符記 |
Imagen 3 | 0.025 | 圖片 | 1 | 只有輸出圖片會計入預配置傳輸量配額。 |
Imagen 3 Fast | 0.05 | 圖片 | 1 | 只有輸出圖片會計入預配置傳輸量配額。 |
Imagen 2 | 0.05 | 圖片 | 1 | 只有輸出圖片會計入預配置傳輸量配額。 |
Imagen 2 Edit | 0.05 | 圖片 | 1 | 只有輸出圖片會計入預先配置的傳輸量配額。 |
MedLM 中介層 | 2,000 | 字元 | 1 | 1 個輸入字元 = 1 個字元 1 個輸出字元 = 2 個字元 |
MedLM 大型 | 200 | 字元 | 1 | 1 個輸入字元 = 1 個字元 1 個輸出字元 = 3 個字元 |
MedLM large 1.5 | 200 | 字元 | 1 | 1 個輸入字元 = 1 個字元 1 個輸出字元 = 3 個字元 |
您可以隨時升級至新款型號。如要瞭解型號的供應情形和停產日期,請參閱 Google 型號。
如要進一步瞭解支援的位置,請參閱「可用的位置」。
全球端點模型支援
佈建輸送量支援下列模型的全域端點:
型號 | 最新支援的模型版本 |
---|---|
Gemini 2.5 Flash-Lite (預先發布版) | gemini-2.5-flash-lite-preview-06-17 |
Gemini 2.5 Pro | gemini-2.5-pro |
Gemini 2.5 Flash | gemini-2.5-flash |
Gemini 2.0 Flash | gemini-2.0-flash-001 |
Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
超過已佈建處理量配額的流量,預設會使用全球端點。
如要將已佈建吞吐量指派給模型的全域端點,請在下單訂購已佈建吞吐量時,將 global
選為區域。
支援監督式微調模型
對於支援監督式精細調整的 Google 模型,系統支援下列功能:
佈建輸送量可套用於基礎模型,以及這些基礎模型的受控微調版本。
監督式微調模型端點及其對應的基礎模型,都會計入相同的佈建輸送量配額。
舉例來說,如果您為特定專案的
gemini-2.0-flash-lite-001
購買了預配置吞吐量,系統會將優先處理來自該專案中所建立的監督精細調整版gemini-2.0-flash-lite-001
的請求。使用適當的標頭來控管流量行為。
合作夥伴模型
下表列出支援預先配置的處理量夥伴機型的處理量、購買增量和耗用率。Claude 模型以每秒符號數量做為評估標準,這項指標定義為所有要求在每秒內的輸入和輸出符號總數。
型號 | 每個 GSU 的傳輸量 (符記/秒) | 最低 GSU 購買量 | GSU 購買增量 | 消耗率 |
---|---|---|---|---|
Anthropic 的 Claude Opus 4 | 70 | 35 | 1 | 1 個輸入符記 = 1 個符記 1 個輸出符記 = 5 個符記 1 個快取寫入符記 = 1.25 個符記 1 個快取命中符記 = 0.1 個符記 |
Anthropic 的 Claude Sonnet 4 | 350 | 25 | 1 | 1 個輸入符記 = 1 個符記 1 個輸出符記 = 5 個符記 1 個快取寫入符記 = 1.25 個符記 1 個快取命中符記 = 0.1 個符記 |
Anthropic Claude 3.7 Sonnet | 350 | 25 | 1 | 1 個輸入符記 = 1 個符記 1 個輸出符記 = 5 個符記 1 個快取寫入符記 = 1.25 個符記 1 個快取命中符記 = 0.1 個符記 |
Anthropic 的 Claude 3.5 Sonnet 2 版 | 350 | 25 | 1 | 1 個輸入符記 = 1 個符記 1 個輸出符記 = 5 個符記 1 個快取寫入符記 = 1.25 個符記 1 個快取命中符記 = 0.1 個符記 |
Anthropic 的 Claude 3.5 Haiku | 2,000 | 10 | 1 | 1 個輸入符記 = 1 個符記 1 個輸出符記 = 5 個符記 1 個快取寫入符記 = 1.25 個符記 1 個快取命中符記 = 0.1 個符記 |
Anthropic 的 Claude 3 Opus | 70 | 35 | 1 | 1 個輸入符記 = 1 個符記 1 個輸出符記 = 5 個符記 1 個快取寫入符記 = 1.25 個符記 1 個快取命中符記 = 0.1 個符記 |
Anthropic 的 Claude 3 Haiku | 4,200 | 5 | 1 | 1 個輸入符記 = 1 個符記 1 個輸出符記 = 5 個符記 1 個快取寫入符記 = 1.25 個符記 1 個快取命中符記 = 0.1 個符記 |
Anthropic 的 Claude 3.5 Sonnet | 350 | 25 | 1 | 1 個輸入符記 = 1 個符記 1 個輸出符記 = 5 個符記 1 個快取寫入符記 = 1.25 個符記 1 個快取命中符記 = 0.1 個符記 |
如要瞭解支援的位置,請參閱 Anthropic Claude 區域可用性。如要為 Anthropic 模型訂購已配置的傳輸量,請與您的 Google Cloud 帳戶代表聯絡。