이 페이지는 Cloud Translation API를 통해 번역되었습니다.

프로비저닝된 처리량 사용

이 페이지에서는 프로비저닝된 처리량의 작동 방식, 초과 사용량을 제어하거나 프로비저닝된 처리량을 우회하는 방법, 사용량을 모니터링하는 방법을 설명합니다.

프로비저닝된 처리량의 작동 방식

이 섹션에서는 할당량 적용 기간 동안 할당량 확인을 사용하여 프로비저닝된 처리량이 작동하는 방식을 설명합니다.

프로비저닝된 처리량 할당량 확인

프로비저닝된 처리량 최대 할당량은 구매한 생성형 AI 확장 단위(GSU) 수와 GSU당 처리량의 배수입니다. 최대 프로비저닝된 처리량 할당량이 적용되는 빈도인 할당량 적용 기간 내에 요청할 때마다 확인됩니다.

요청이 수신될 때 실제 응답 크기는 알 수 없습니다. 실시간 애플리케이션의 응답 속도가 우선되므로 프로비저닝된 처리량은 출력 토큰 크기를 예상합니다. 초기 예상치가 사용 가능한 프로비저닝된 처리량 최대 할당량을 초과하면 요청이 사용한 만큼만 지불로 처리됩니다. 그렇지 않으면 프로비저닝된 처리량으로 처리됩니다. 초기 예상치를 프로비저닝된 처리량 최대 할당량과 비교하여 결정합니다.

응답이 생성되고 실제 출력 토큰 크기가 알려지면 예상치와 실제 사용량의 차이를 사용 가능한 프로비저닝된 처리량 할당량에 더하여 실제 사용량과 할당량을 조정합니다.

프로비저닝된 처리량 할당량 적용 기간

Gemini 모델의 경우 할당량 적용 기간은 최대 30초가 걸릴 수 있으며 변경될 수 있습니다. 즉, 경우에 따라 일시적으로 초당 할당량을 초과하는 우선순위 지정 트래픽이 발생할 수 있지만 30초 기준으로는 할당량을 초과하지 않아야 합니다. 이 기간은 Vertex AI 내부 시간을 기반으로 하며 요청 시점과는 무관합니다.

예를 들어 gemini-2.0-flash-001 GSU 1개를 구매하면 상시 사용 설정된 처리량이 초당 3,360개 토큰일 것으로 예상됩니다. 평균적으로 30초 기준 100,800개의 토큰을 초과할 수 없으며, 이는 다음 수식을 사용하여 계산됩니다.

3,360 tokens per second * 30 seconds = 100,800 tokens

하루에 초당 8,000개의 토큰을 소비하는 요청을 하나만 제출한 경우 요청 시 초당 3,360개의 토큰 제한을 초과했더라도 프로비저닝된 처리량 요청으로 처리될 수 있습니다. 이는 요청이 30초당 100,800개 토큰이라는 기준을 초과하지 않았기 때문입니다.

초과 사용량 제어 또는 프로비저닝된 처리량 우회

API를 사용하여 구매한 처리량을 초과할 때 초과분을 제어하거나 요청별로 프로비저닝된 처리량을 우회할 수 있습니다.

각 옵션을 읽고 사용 사례에 맞게 무엇을 해야 하는지 결정하세요.

기본 동작

구매한 처리량을 초과하면 초과분은 주문형으로 전환되고 사용한 만큼만 지불하는 요금으로 청구됩니다. 프로비저닝된 처리량 주문이 활성화되면 기본 동작이 자동으로 실행됩니다. 프로비저닝된 리전에서 주문을 소비하는 한 주문을 소비하기 위해 코드를 변경할 필요는 없습니다.

프로비저닝된 처리량만 사용

주문형 요금을 피해 비용을 관리하는 경우 프로비저닝된 처리량만 사용하세요. 프로비저닝된 처리량 주문 금액을 초과하는 요청은 오류 429을 반환합니다.

API에 요청을 보낼 때 X-Vertex-AI-LLM-Request-Type HTTP 헤더를 dedicated로 설정합니다.

사용한 만큼만 지불 사용

이를 주문형 사용이라고도 합니다. 요청이 프로비저닝된 처리량 주문을 우회하고 사용한 만큼만 지불로 직접 전송됩니다. 이는 개발 중인 실험이나 애플리케이션에 유용할 수 있습니다.

API에 요청을 보낼 때 X-Vertex-AI-LLM-Request-Type HTTP 헤더를 shared로 설정합니다.

예

Python

설치

pip install --upgrade google-genai

자세한 내용은 SDK 참고 문서를 참조하세요.

Vertex AI에서 생성형 AI SDK를 사용하도록 환경 변수를 설정합니다.

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Go

Go를 설치하거나 업데이트하는 방법을 알아보세요.

자세한 내용은 SDK 참고 문서를 참조하세요.

Vertex AI에서 생성형 AI SDK를 사용하도록 환경 변수를 설정합니다.

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"
	"net/http"

	"google.golang.org/genai"
)

// generateText shows how to generate text Provisioned Throughput.
func generateText(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{
			APIVersion: "v1",
			Headers: http.Header{
				// Options:
				// - "dedicated": Use Provisioned Throughput
				// - "shared": Use pay-as-you-go
				// https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
				"X-Vertex-AI-LLM-Request-Type": []string{"shared"},
			},
		},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := genai.Text("How does AI work?")

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// Artificial Intelligence (AI) isn't magic, nor is it a single "thing." Instead, it's a broad field of computer science focused on creating machines that can perform tasks that typically require human intelligence.
	// .....
	// In Summary:
	// ...

	return nil
}

REST

환경을 설정하면 REST를 사용하여 텍스트 프롬프트를 테스트할 수 있습니다. 다음 샘플은 요청을 게시자 모델 엔드포인트에 전송합니다.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

프로비저닝된 처리량 모니터링

aiplatform.googleapis.com/PublisherModel 리소스 유형에서 측정된 측정항목 집합을 사용하여 프로비저닝된 처리량 사용량을 직접 모니터링할 수 있습니다.

프로비저닝된 처리량 트래픽 모니터링은 공개 프리뷰 기능입니다.

측정기준

다음 측정기준을 사용하여 측정항목을 필터링할 수 있습니다.

측정기준 값

type input
output

측정기준	값
`type`	`input` `output`
`request_type`	`dedicated`: 프로비저닝된 처리량을 사용하여 트래픽이 처리됩니다. `spillover`: 프로비저닝된 처리량 할당량을 초과하면 트래픽이 사용한 만큼만 지불 할당량으로 처리됩니다. `shared`: 프로비저닝된 처리량이 활성화된 경우 공유 HTTP 헤더를 사용하여 트래픽이 사용한 만큼만 지불 할당량으로 처리됩니다. 프로비저닝된 처리량이 활성화되어 있지 않으면 기본적으로 트래픽이 사용한 만큼만 지불로 처리됩니다.

request_type

dedicated: 프로비저닝된 처리량을 사용하여 트래픽이 처리됩니다.

spillover: 프로비저닝된 처리량 할당량을 초과하면 트래픽이 사용한 만큼만 지불 할당량으로 처리됩니다.

shared: 프로비저닝된 처리량이 활성화된 경우 공유 HTTP 헤더를 사용하여 트래픽이 사용한 만큼만 지불 할당량으로 처리됩니다. 프로비저닝된 처리량이 활성화되어 있지 않으면 기본적으로 트래픽이 사용한 만큼만 지불로 처리됩니다.

경로 프리픽스

측정항목의 경로 접두사는 aiplatform.googleapis.com/publisher/online_serving입니다.

예를 들어 /consumed_throughput 측정항목의 전체 경로는 aiplatform.googleapis.com/publisher/online_serving/consumed_throughput입니다.

측정항목

Gemini 모델의 aiplatform.googleapis.com/PublisherModel 리소스에서 다음 Cloud Monitoring 측정항목을 사용할 수 있습니다. dedicated 요청 유형을 사용하여 프로비저닝된 처리량 사용량을 필터링합니다.

측정항목	표시 이름	설명
`/dedicated_gsu_limit`	한도(GSU)	GSU의 전용 한도입니다. 이 측정항목을 사용하여 GSU의 프로비저닝된 처리량 최대 할당량을 파악합니다.
`/tokens`	토큰	입력 및 출력 토큰 수 분포입니다.
`/token_count`	토큰 수	누적된 입력 및 출력 토큰 수입니다.
`/consumed_token_throughput`	토큰 처리량	토큰의 소진율을 고려하고 할당량 조정을 통합하는 처리량 사용량입니다. 프로비저닝된 처리량 할당량 확인을 참조하세요. 이 측정항목을 사용하여 프로비저닝된 처리량 할당량이 사용된 방식을 파악합니다.
`/dedicated_token_limit`	한도(초당 토큰 수)	초당 토큰 전용 한도입니다. 이 측정항목을 사용하여 토큰 기반 모델의 프로비저닝된 처리량 최대 할당량을 파악합니다.
`/characters`	문자	입력 및 출력 문자 수 분포입니다.
`/character_count`	문자 수	누적된 입력 및 출력 문자 수입니다.
`/consumed_throughput`	문자 처리량	처리량 사용량: 소진율을 문자 수로 고려하고 할당량 조정 프로비저닝된 처리량 할당량 확인을 통합합니다. 이 측정항목을 사용하여 프로비저닝된 처리량 할당량이 사용된 방식을 파악합니다. 토큰 기반 모델의 경우 이 측정항목은 토큰에서 소비된 처리량에 4를 곱한 값과 같습니다.
`/dedicated_character_limit`	한도(초당 문자 수)	초당 문자 수 전용 제한입니다. 이 측정항목을 사용하여 문자 기반 모델의 프로비저닝된 처리량 최대 할당량을 파악합니다.
`/model_invocation_count`	모델 호출 수	모델 호출 수(예측 요청)입니다.
`/model_invocation_latencies`	모델 호출 지연 시간	모델 호출 지연 시간(예측 지연 시간)입니다.
`/first_token_latencies`	첫 번째 토큰 지연 시간	요청이 수신된 시점부터 첫 번째 토큰이 반환될 때까지의 기간입니다.

Anthropic 모델에는 프로비저닝된 처리량에 대한 필터도 있지만 tokens 및 token_count에만 해당합니다.

대시보드

프로비저닝된 처리량의 기본 모니터링 대시보드는 사용량과 프로비저닝된 처리량 사용률을 더 잘 파악할 수 있는 측정항목을 제공합니다. 대시보드에 액세스하려면 다음 단계를 따르세요.

Google Cloud 콘솔에서 프로비저닝된 처리량 페이지로 이동합니다.
프로비저닝된 처리량으로 이동
주문 전반에서 각 모델의 프로비저닝된 처리량 사용률을 보려면 사용률 요약 탭을 선택합니다.

모델별 프로비저닝된 처리량 사용률 표에서 선택한 기간에 대해 다음을 확인할 수 있습니다.
- 보유한 총 GSU 수입니다.
- GSU 측면에서의 최대 처리량 사용량입니다.
- 평균 GSU 사용률입니다.
- 프로비저닝된 처리량 한도에 도달한 횟수입니다.
모델별 프로비저닝된 처리량 사용률 표에서 모델을 선택하여 선택한 모델과 관련된 추가 측정항목을 확인합니다.

대시보드 제한사항

특히 급증하거나 빈번하지 않은(예: 초당 1개 미만의 쿼리) 변동하는 트래픽의 경우 대시보드에 예상치 못한 결과가 표시될 수 있습니다. 이러한 결과는 다음과 같은 이유로 발생할 수 있습니다.

시간 범위가 12시간을 초과하면 할당량 적용 기간이 정확하게 반영되지 않을 수 있습니다. 처리량 측정항목과 사용률 등의 파생 측정항목은 선택한 기간을 기준으로 정렬 기간의 평균을 표시합니다. 기간을 넓히면 각 정렬 기간도 넓어집니다. 정렬 기간은 평균 사용량 계산에 걸쳐 확장됩니다. 할당량 적용은 분 단위 미만 수준으로 계산되므로 기간을 12시간 이하로 설정하면 실제 할당량 적용 기간과 더 유사한 분 단위 데이터가 생성됩니다. 정렬 기간에 관한 자세한 내용은 정렬: 계열 내 정규화를 참조하세요. 기간에 관한 자세한 내용은 시간 간격 정규화를 참조하세요.
여러 요청이 동시에 제출된 경우 집계 모니터링이 특정 요청으로 필터링하는 기능에 영향을 줄 수 있습니다.
프로비저닝된 처리량은 요청이 있을 때 트래픽을 제한하지만 할당량이 조정된 후에 사용량 측정항목을 보고합니다.
프로비저닝된 처리량 할당량 적용 기간은 모니터링 집계 기간 또는 요청 또는 응답 기간과는 무관하며 일치하지 않을 수 있습니다.
오류가 발생하지 않은 경우 오류율 차트 내에 오류 메시지가 표시될 수 있습니다. 예를 들어 데이터를 요청하는 중에 오류가 발생했습니다. 하나 이상의 리소스를 찾을 수 없습니다.

Genmedia 모델 모니터링

Veo 3 및 Imagen 모델에서는 프로비저닝된 처리량 모니터링을 사용할 수 없습니다.

알림

알림을 사용 설정한 후 트래픽 사용량을 관리하는 데 도움이 되는 기본 알림을 설정합니다.

알림 사용

대시보드에서 알림을 사용 설정하려면 다음 단계를 따르세요.

Google Cloud 콘솔에서 프로비저닝된 처리량 페이지로 이동합니다.
프로비저닝된 처리량으로 이동
주문 전반에서 각 모델의 프로비저닝된 처리량 사용률을 보려면 사용률 요약 탭을 선택합니다.
추천 알림을 선택하면 다음 알림이 표시됩니다.
- Provisioned Throughput Usage Reached Limit
- Provisioned Throughput Utilization Exceeded 80%
- Provisioned Throughput Utilization Exceeded 90%
트래픽을 관리하는 데 도움이 되는 알림을 확인합니다.

알림 세부정보 더 보기

알림에 대한 자세한 내용을 보려면 다음 단계를 따르세요.

통합 페이지로 이동합니다.
통합으로 이동
필터 필드에 vertex를 입력하고 Enter 키를 누릅니다. Google Vertex AI가 표시됩니다.
자세한 내용을 보려면 세부정보 보기를 클릭하세요. Google Vertex AI 세부정보 창이 표시됩니다.
알림 탭을 선택하면 알림 정책 템플릿을 선택할 수 있습니다.

다음 단계

오류 코드 429 문제 해결