使用已佈建的處理量

本頁面說明預先配置傳輸量的運作方式、如何控制超出或略過預先配置的傳輸量,以及如何監控用量。

佈建輸送量的運作方式

本節說明預先配置的傳送量如何運作,並在配額實施期間使用配額檢查功能。

檢查已佈建的處理量配額

您可佈建的處理量上限是購買的生成式 AI 擴充單元 (GSU) 數量和每個 GSU 的處理量乘積。每當您在配額執行期間提出要求時,系統就會進行檢查。這段期間是指強制執行預先配置的傳送量配額頻率。

收到要求時,系統無法得知實際的回應大小。由於我們優先考量即時應用程式的回應速度,因此「已配置的傳輸量」會預估輸出符記大小。如果初始預估值超過可用的佈建傳輸量上限配額,系統會以即付即用模式處理要求;否則,則以佈建傳輸量模式處理。方法是將初始預估值與預留的最大處理量配額進行比較。

產生回應並得知實際的輸出符記大小後,系統會將預估值和實際使用量之間的差異加到可用的預設處理量配額金額,藉此核對實際使用量和配額。

佈建輸送量配額執行期間

對於 gemini-2.0-flash-litegemini-2.0-flash 型別,配額執行期間最多可能需要 30 秒,且可能有所變動。也就是說,在某些情況下,您可能會暫時遇到優先流量,其每秒的流量超過配額,但 30 秒的流量不應超過配額。這些時間範圍以 Vertex AI 內部時鐘時間為準,與要求提出時間無關。

舉例來說,如果您購買 gemini-2.0-flash-001 的 GSU 1 個,則預期的傳輸量為每秒 3,360 個符記。平均而言,您在 30 秒內的符記不得超過 100,800 個,計算公式如下:

3,360 tokens per second * 30 seconds = 100,800 tokens

如果您在一天內只提交一個要求,且該要求在 1 秒內耗用 8,000 個符記,即使您在要求時已超出每秒 3,360 個符記的限制,系統仍可能會將該要求視為已配置的傳輸量要求。這是因為要求未超過每 30 秒 100,800 個符記的門檻。

控管超出或略過已佈建的傳輸量

當您超出購買的處理量時,可以使用 API 控制超出量,或是針對個別要求略過已配置的處理量。

請詳閱每個選項,判斷您必須採取哪些行動才能滿足用途。

預設行為

如果您超出購買的處理量,超出部分會以即時用量計費。預留傳送量訂單啟用後,系統會自動執行預設行為。您不必變更程式碼,即可開始使用訂單。

僅使用已佈建的處理量

如果您想避免產生隨選費用,請只使用已佈建的 Throughput。要求超出預留傳輸量訂單金額時,系統會傳回 錯誤 429

向 API 傳送要求時,請將 X-Vertex-AI-LLM-Request-Type HTTP 標頭設為 dedicated

僅使用即付即用

這也稱為「按需使用」。要求會略過預先配置的傳送量順序,並直接傳送至付費即用。這可能對實驗或開發中的應用程式有所助益。

傳送要求至 API 時,請將 X-Vertex-AI-LLM-Request-Type HTTP 標頭設為 shared

範例

Gen AI SDK for Python

安裝

pip install --upgrade google-genai

詳情請參閱 SDK 參考說明文件

設定環境變數,以便透過 Vertex AI 使用 Gen AI SDK:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

REST

設定環境後,您可以使用 REST 測試文字提示。以下範例會將要求傳送至發布商模型端點。

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

監控已佈建的輸送量

您可以使用以 aiplatform.googleapis.com/PublisherModel 資源類型評估的指標組合,自行監控已配置的傳送量用量。

佈建輸送量流量監控功能為公開測試功能。

維度

您可以使用下列維度篩選指標:

維度
type input
output
request_type

dedicated:流量會使用已佈建的輸送量進行處理。

spillover:超過預留傳輸量配額後,系統會以預付費配額處理流量。

shared:如果已啟用預先配置的傳輸量,系統會使用共用的 HTTP 標頭,將流量視為按使用付費配額處理。如果未啟用已配置的傳輸量,系統預設會以預付制處理流量。

路徑前置字串

指標的路徑前置字串為 aiplatform.googleapis.com/publisher/online_serving

舉例來說,/consumed_throughput 指標的完整路徑為 aiplatform.googleapis.com/publisher/online_serving/consumed_throughput

指標

下列 Cloud Monitoring 指標可用於 Gemini 型號的 aiplatform.googleapis.com/PublisherModel 資源。使用 dedicated 要求類型篩選已配置的傳送量用量。

指標 顯示名稱 說明
/dedicated_gsu_limit 限制 (GSU) GSU 中的專屬限制。使用這項指標,瞭解您在 GSU 中的已配置輸送量上限配額。
/tokens 權杖 輸入和輸出符記數量分布情形。
/token_count 符記數 累積的輸入和輸出符記數量。
/consumed_token_throughput 權杖總處理量 總處理量用量,可計算符記中的用量消耗率,並納入配額調和。請參閱「檢查已佈建的處理量配額」一文。

您可以使用這項指標瞭解已佈建的處理量配額的使用情形。
/dedicated_token_limit 上限 (每秒詞元數) 專屬限制 (每秒詞元數)。使用這項指標,瞭解您在符記型模型中預先配置的傳輸量上限配額。
/characters 角色 輸入和輸出字元數量分布情形。
/character_count 字元數 累積的輸入和輸出字元數。
/consumed_throughput 字元處理量 總處理量用量,可計算字元的用量消耗率,並納入配額對帳的已配置的總處理量配額檢查

使用這項指標,瞭解您已配置的處理量配額的使用情形。

對於符記型模型,這項指標等同於符記所消耗的吞吐量乘以 4。
/dedicated_character_limit 上限 (每秒字元數) 專屬限制 (每秒字元數)。使用這項指標,瞭解字元型模型的預先配置傳送量上限配額。
/model_invocation_count 模型叫用次數 模型叫用次數 (預測要求)。
/model_invocation_latencies 模型叫用延遲時間 模型叫用延遲時間 (預測延遲時間)。
/first_token_latencies 首次權杖延遲 從收到要求到第一個符記返回的時間長度。

人類模型也有佈建的處理量篩選器,但僅適用於 tokens/token_count

資訊主頁

佈建輸送量的預設監控資訊主頁提供指標,讓您更瞭解自己的用量和佈建輸送量使用情形。如要存取資訊主頁,請按照下列步驟操作:

  1. 在 Google Cloud 控制台中,前往「已配置的傳送量」頁面。

    前往「已佈建的處理量」

  2. 如要查看所有訂單中個別模型的佈建輸送量使用情形,請選取「使用情形摘要」分頁。

  3. 從「預留處理量使用率 (按模型劃分)」表格中選取模型,即可查看所選模型的更多指標。

資訊主頁的限制

資訊主頁可能會顯示非預期的結果,尤其是流量波動劇烈或不常出現 (例如每秒查詢次數少於 1 次) 的情況。以下原因可能會導致這些結果:

  • 時間範圍超過 12 小時,可能會導致配額執行期間的呈現方式不夠準確。吞吐量指標及其衍生指標 (例如使用率) 會根據所選時間範圍,在對齊期間顯示平均值。時間範圍擴大時,每個對齊期間也會擴大。對齊期間會擴大計算平均用量。由於配額強制執行作業是以分鐘為單位計算,因此將時間範圍設為 12 小時以下,即可取得分鐘級別的資料,更能與實際配額強制執行期間相比較。如要進一步瞭解對齊期間,請參閱「對齊:系列內規則化」。如要進一步瞭解時間範圍,請參閱「規則化時間間隔」。
  • 如果同時提交多個要求,監控匯總資料可能會影響您篩選特定要求的能力。
  • 在要求提出時,已配置的處理量會限制流量,但在配額調和後才會回報用量指標。
  • 預留的處理量配額執行期間與監控匯總期間或要求/回應期間無關,也可能不一致。
  • 如果沒有發生錯誤,您可能會在錯誤率圖表中看到錯誤訊息。例如:要求資料時發生錯誤。找不到一或多項資源。

快訊

啟用快訊功能後,請設定預設快訊,以便管理流量用量。

啟用警告

如要在資訊主頁中啟用快訊,請按照下列步驟操作:

  1. 在 Google Cloud 控制台中,前往「已配置的傳送量」頁面。

    前往「已佈建的處理量」

  2. 如要查看所有訂單中個別模型的佈建輸送量使用情形,請選取「使用情形摘要」分頁。

  3. 選取「建議的快訊」,系統就會顯示下列快訊:

    • Provisioned Throughput Usage Reached Limit
    • Provisioned Throughput Utilization Exceeded 80%
    • Provisioned Throughput Utilization Exceeded 90%
  4. 查看警報,瞭解如何管理流量。

查看更多快訊詳細資料

如要查看快訊的更多資訊,請按照下列步驟操作:

  1. 前往「Integrations」頁面。

    前往「整合」

  2. 在「Filter」欄位中輸入「vertex」,然後按下「Enter」鍵。畫面上會顯示「Google Vertex AI」

  3. 如要查看更多資訊,請按一下「查看詳細資料」。畫面上會顯示 Google Vertex AI 詳細資料窗格。

  4. 選取「警示」分頁標籤,即可選取「警示政策」範本。

後續步驟