本頁面由 Cloud Translation API 翻譯而成。

使用已佈建的處理量

本頁說明預先佈建輸送量的運作方式、如何控管溢出或略過預先佈建輸送量，以及如何監控用量。

佈建輸送量的運作方式

本節說明「佈建輸送量」的運作方式，包括在配額強制執行期間檢查配額。

檢查佈建輸送量配額

佈建處理量配額上限是您購買的生成式 AI 擴充單元 (GSU) 數量，以及每個 GSU 的處理量倍數。系統會在配額強制執行週期內，每次您提出要求時進行檢查。配額強制執行週期是指強制執行最高佈建輸送量配額的頻率。

收到要求時，系統並不知道實際的回應大小。由於我們優先考量即時應用程式的回覆速度，因此「佈建輸送量」會估算輸出權杖大小。如果初始預估值超過可用的佈建傳輸量上限配額，系統會以即付即用模式處理要求。否則，系統會以佈建傳輸量模式處理要求。方法是比較初始預估值與佈建輸送量配額上限。

系統產生回應並得知實際輸出權杖大小後，會將預估用量與實際用量之間的差額加到可用的預先佈建處理量配額，藉此核對實際用量和配額。

佈建輸送量配額強制執行期

對於 Gemini 模型，配額強制執行期最多可能需要 30 秒，且可能會變更。也就是說，在某些情況下，您可能會暫時遇到優先流量，每秒超過配額量，但每 30 秒不應超過配額。這些時間範圍是以 Vertex AI 內部時鐘時間為準，與提出要求的時間無關。

舉例來說，如果您購買 1 個 GSU 的 gemini-2.0-flash-001，則應預期每秒 3,360 個符記的持續輸送量。平均來說，每 30 秒的權杖數不得超過 100,800 個，計算公式如下：

3,360 tokens per second * 30 seconds = 100,800 tokens

舉例來說，假設您在一天內只提交一個要求，且該要求在一秒內耗用 8,000 個權杖，即使您在提出要求時超過每秒 3,360 個權杖的限制，系統仍可能會將該要求視為佈建輸送量要求。這是因為要求未超過每 30 秒 100,800 個權杖的門檻。

控管超額用量或略過佈建處理量

使用 API 控制超出購買處理量的用量，或以要求為單位略過佈建處理量。

請詳閱每個選項，判斷必須採取哪些行動才能符合您的用途。

預設行為

如果超出購買的處理量，超出的部分會改為即付即用，並按即付即用費率計費。佈建輸送量訂單生效後，系統會自動執行預設行為。只要在佈建區域使用訂單，就不必變更程式碼。

僅使用佈建輸送量

如要避免支付隨選費用來控管成本，請只使用佈建輸送量。如果要求超出佈建輸送量訂單金額，系統會傳回錯誤 429。

向 API 傳送要求時，請將 X-Vertex-AI-LLM-Request-Type HTTP 標頭設為 dedicated。

僅使用即付即用

這也稱為使用隨選功能。要求會略過「佈建輸送量」訂單，直接傳送至隨用隨付。這可能適用於實驗或開發中的應用程式。

傳送 API 要求時，請將 X-Vertex-AI-LLM-Request-Type HTTP 標頭設為 shared。

範例

Python

安裝

pip install --upgrade google-genai

詳情請參閱 SDK 參考說明文件。

設定環境變數，透過 Vertex AI 使用 Gen AI SDK：

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Go

瞭解如何安裝或更新 Go。

詳情請參閱 SDK 參考說明文件。

設定環境變數，透過 Vertex AI 使用 Gen AI SDK：

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"
	"net/http"

	"google.golang.org/genai"
)

// generateText shows how to generate text Provisioned Throughput.
func generateText(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{
			APIVersion: "v1",
			Headers: http.Header{
				// Options:
				// - "dedicated": Use Provisioned Throughput
				// - "shared": Use pay-as-you-go
				// https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
				"X-Vertex-AI-LLM-Request-Type": []string{"shared"},
			},
		},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := genai.Text("How does AI work?")

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// Artificial Intelligence (AI) isn't magic, nor is it a single "thing." Instead, it's a broad field of computer science focused on creating machines that can perform tasks that typically require human intelligence.
	// .....
	// In Summary:
	// ...

	return nil
}

REST

設定環境後，即可使用 REST 測試文字提示。下列範例會將要求傳送至發布商模型端點。

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

監控佈建輸送量

您可以使用一組以 aiplatform.googleapis.com/PublisherModel 資源類型測量的指標，自行監控佈建輸送量用量。

佈建輸送量流量監控是公開預先發布版功能。

維度

您可以根據下列維度篩選指標：

尺寸值

type input
output

尺寸	值
`type`	`input` `output`
`request_type`	`dedicated`：流量是使用佈建輸送量處理。 `spillover`：超過佈建輸送量配額後，系統會以隨用隨付配額處理流量。 `shared`：如果已啟用佈建輸送量，系統會使用共用的 HTTP 標頭，以隨用隨付配額處理流量。如果「佈建輸送量」未啟用，系統預設會以隨用隨付方式處理流量。

request_type

dedicated：流量是使用佈建輸送量處理。

spillover：超過佈建輸送量配額後，系統會以隨用隨付配額處理流量。

shared：如果已啟用佈建輸送量，系統會使用共用的 HTTP 標頭，以隨用隨付配額處理流量。如果「佈建輸送量」未啟用，系統預設會以隨用隨付方式處理流量。

路徑前置字串

指標的路徑前置字元為 aiplatform.googleapis.com/publisher/online_serving。

舉例來說，/consumed_throughput 指標的完整路徑是 aiplatform.googleapis.com/publisher/online_serving/consumed_throughput。

指標

您可以在 aiplatform.googleapis.com/PublisherModel 資源上查看 Gemini 模型適用的下列 Cloud Monitoring 指標。使用 dedicated 要求類型，篩選出佈建輸送量用量。

指標	顯示名稱	說明
`/dedicated_gsu_limit`	限制 (GSU)	專屬 GSU 限制。這項指標可協助您瞭解 GSU 的佈建輸送量配額上限。
`/tokens`	權杖	輸入和輸出詞元數量分布情形。
`/token_count`	符記數量	累積的輸入和輸出權杖數量。
`/consumed_token_throughput`	詞元處理量	總處理量用量，其中包含權杖的消耗率，以及配額對帳。請參閱「佈建的處理量配額檢查」。使用這項指標瞭解佈建的處理量配額用量。
`/dedicated_token_limit`	上限 (每秒權杖數)	每秒詞元數的專屬限制。使用這項指標，瞭解以權杖為準模型的佈建輸送量配額上限。
`/characters`	字元	輸入和輸出字元數的分布情形。
`/character_count`	字元數	累積的輸入和輸出字元數。
`/consumed_throughput`	字元處理量	總處理量用量，其中會考量字元消耗率，並納入配額對帳佈建總處理量配額檢查。使用這項指標，瞭解已佈建處理量配額的使用情況。如果是以權杖為準的模型，這項指標等同於以權杖為單位計算的耗用量乘以 4。
`/dedicated_character_limit`	上限 (每秒字元數)	每秒字元數的專屬限制。使用這項指標，瞭解字元型模型的佈建輸送量配額上限。
`/model_invocation_count`	模型叫用次數	模型調用次數 (預測要求)。
`/model_invocation_latencies`	模型叫用延遲	模型叫用延遲時間 (預測延遲時間)。
`/first_token_latencies`	第一個權杖的延遲時間	從收到要求到傳回第一個權杖的時間長度。

Anthropic 模型也有佈建處理量的篩選器，但僅適用於 tokens 和 token_count。

資訊主頁

佈建輸送量的預設監控資訊主頁提供指標，可協助您進一步瞭解用量和佈建輸送量使用率。如要存取資訊主頁，請按照下列步驟操作：

前往 Google Cloud 控制台的「佈建輸送量」頁面。
前往「佈建處理量」
如要查看訂單中個別模型的佈建輸送量使用情形，請選取「使用情形摘要」分頁。

在「各模型的佈建輸送量使用情形」表格中，您可以查看所選時間範圍的下列資訊：
- 您擁有的 GSU 總數。
- 以 GSU 為單位的尖峰處理量用量。
- 平均 GSU 使用率。
- 達到佈建輸送量上限的次數。
從「Provisioned Throughput utilization by model」(模型佈建處理量使用率) 表格中選取模型，即可查看所選模型的更多指標。

資訊主頁的限制

如果流量波動劇烈或不常出現 (例如每秒查詢次數少於 1 次)，資訊主頁可能會顯示非預期的結果。可能的原因如下：

如果時間範圍超過 12 小時，配額強制執行期間的代表性可能會較低。輸送量指標及其衍生指標 (例如使用率) 會顯示所選時間範圍內，各對齊週期的平均值。時間範圍擴大時，每個對齊週期也會擴大。對齊週期會擴大，涵蓋平均用量計算。由於系統會以分鐘為單位計算配額用量，因此將時間範圍設為 12 小時以下，可取得以分鐘為單位的資料，與實際配額用量期間的資料更具可比性。如要進一步瞭解對齊週期，請參閱對齊：系列內正規化。如要進一步瞭解時間範圍，請參閱「正規化時間間隔」。
如果同時提交多個要求，監控匯總作業可能會影響您篩選特定要求的能力。
如果提出要求時，佈建的處理量已達上限，系統會節流處理流量，但會在配額調整後回報用量指標。
「佈建處理量」配額的強制執行週期與監控匯總週期或要求/回應週期無關，且可能不一致。
如果沒有發生錯誤，錯誤率圖表可能會顯示錯誤訊息。例如「要求資料時發生錯誤。找不到一或多項資源。

監控 Genmedia 模型

Veo 3 和 Imagen 模型不支援佈建輸送量監控功能。

快訊

啟用快訊功能後，請設定預設快訊，協助您管理流量用量。

啟用警告

如要在資訊主頁中啟用快訊，請按照下列步驟操作：

前往 Google Cloud 控制台的「佈建輸送量」頁面。
前往「佈建處理量」
如要查看訂單中個別模型的佈建輸送量使用情形，請選取「使用情形摘要」分頁。
選取「建議的快訊」，系統會顯示下列快訊：
- Provisioned Throughput Usage Reached Limit
- Provisioned Throughput Utilization Exceeded 80%
- Provisioned Throughput Utilization Exceeded 90%
查看有助於管理流量的快訊。

查看更多快訊詳細資料

如要查看快訊的詳細資訊，請按照下列步驟操作：

前往「整合」頁面。
前往「整合」頁面
在「Filter」欄位中輸入 vertex，然後按 Enter 鍵。系統會顯示「Google Vertex AI」。
如要查看更多資訊，請按一下「查看詳細資料」。系統會顯示「Google Vertex AI 詳細資料」窗格。
選取「快訊」分頁標籤，然後選取「快訊政策」範本。

後續步驟

排解錯誤代碼 429。