GSU 和消耗率
生成式 AI 擴充單元 (GSU) 是提示和回覆的處理量指標。這個值會指定要為模型配置多少吞吐量。
消耗率是一種比率,可將輸入和輸出單位 (例如符元、字元或圖片) 分別轉換為每秒輸入符元數、每秒輸入字元數或每秒輸入圖片數。這個比率代表吞吐量,用於產生各模型的標準單位。
不同模型的吞吐量各不相同。如要瞭解各型號的最低 GSU 購買金額和增量,請參閱本文件中的「支援的型號和消耗率」。
以下方程式說明瞭吞吐量的計算方式:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
計算出的每秒處理量,可決定您在用途上需要多少 GSU。
重要注意事項
為協助您規劃所需的預設吞吐量,請詳閱下列重要考量事項:
要求會依優先順序處理。
系統會優先處理已配置吞吐量的客戶,並在處理隨選要求之前先處理這些客戶。
吞吐量不會累加。
未使用的吞吐量不會累積或轉移至下個月。
已配置的處理量以每秒詞元數、每秒字元數或每秒圖片數為單位。
已佈建的處理量並非只根據每分鐘查詢次數 (QPM) 來評估。這項指標的計算方式是根據應用情況的查詢大小、回應大小和 QPM 而定。
已配置的傳送量專屬於專案、區域、模型和版本。
系統會將佈建輸送量指派給特定專案-區域-模型-版本組合。從不同區域呼叫的相同模型不會計入您的已配置吞吐量配額,且不會優先處理按需要求。
脈絡快取
佈建輸送量支援預設內容快取。不過,已配置吞吐量不支援使用 Vertex AI API 快取請求,其中包含擷取有關情境快取資訊的資訊。
根據預設,Google 會自動快取輸入內容,以降低成本和延遲時間。對於 Gemini 2.5 Flash 和 Gemini 2.5 Pro 模型,如果發生快取命中,系統會以 75% 折扣收取快取符記的費用,相較於標準輸入符記。就已配置的總處理量而言,系統會透過降低消耗率來套用折扣。
舉例來說,Gemini 2.5 Pro 的輸入文字符記和快取符記,有以下的消耗率:
1 個輸入文字符號 = 1 個符號
1 個輸入快取文字符號 = 0.25 個符號
將 1,000 個輸入符記傳送至此模型,會導致預留的處理量以每秒 1,000 個輸入符記的速度遞減。不過,如果您將 1,000 個快取符記傳送至 Gemini 2.5 Pro,這會導致預先配置的傳輸量以每秒 250 個符記的速度遞減。
請注意,這可能會導致類似查詢的傳輸量提高,因為在這種情況下,系統不會快取符記,也不會套用快取折扣。
如要查看佈建輸送量支援的模型的耗損率,請參閱「支援的模型和耗損率」。
瞭解 Live API 的耗時曲線
已配置的傳送量支援 Gemini 2.5 Flash 和 Live API。如要瞭解如何在使用 Live API 時計算耗盡時間,請參閱「計算 Live API 的傳送/接收速率」。
如要進一步瞭解如何使用 Gemini 2.5 Flash 的預配置傳送量搭配 Live API,請參閱「Live API 的預配置傳送量」。
預估所需的已佈建處理量範例
如要預估所需的已佈建輸送量,請使用控制台中的預估工具 Google Cloud 。以下範例說明如何預估模型的預留總處理量。系統不會在預估計算中考量該區域。
下表列出 gemini-2.0-flash
的耗用率,您可以根據這個範例進行操作。
型號 | 每個 GSU 的總處理量 | 單位 | 最低 GSU 購買增量 | 消耗率 |
---|---|---|---|---|
Gemini 2.0 Flash | 3,360 | 權杖 | 1 |
1 個輸入文字符號 = 1 個符號 1 個輸入圖片符號 = 1 個符號 1 個輸入影片符號 = 1 個符號 1 個輸入音訊符號 = 7 個符號 1 個輸出文字符號 = 4 個符號 |
收集您的需求。
在這個範例中,您的需求是驗證您能否支援每秒 10 次查詢 (QPS),輸入 1,000 個文字符記和 500 個音訊符記,以便使用
gemini-2.0-flash
接收 300 個文字符記的輸出內容。這個步驟表示您已瞭解用途,因為您已識別模型、QPS 以及輸入和輸出內容的大小。
如要計算吞吐量,請參閱所選模型的耗損率。
計算處理量。
將輸入值乘以消耗率,即可得出總輸入符記:
1,000*(每個輸入文字詞元 1 個詞元) + 500*(每個輸入音訊詞元 7 個詞元) = 每個查詢 4,500 個調整後的輸入詞元。
將輸出值乘以消耗率,即可得出總輸出符記:
300*(每個輸出文字符號 4 個符號) = 每項查詢 1,200 個調整後的輸出符號
將總數加總:
4,500 個經過調整的輸入權杖 + 1,200 個經過調整的輸出權杖 = 每項查詢的權杖總數為 5,700
將符記總數乘以 QPS,即可算出每秒的總傳輸量:
每個查詢的總權杖數 5,700 * 每秒 10 個查詢 = 每秒 57,000 個權杖
計算 GSU。
GSU 是每秒的總符記除以每個 GSU 的每秒處理量 (取自消耗表)。
每秒總符號數 57,000 ÷ 每 GSU 每秒 3,360 個處理量 = 16.96 GSU
gemini-2.0-flash
的最低 GSU 購買增量為 1,因此您需要 17 個 GSU 才能確保工作負載。