프로비저닝된 처리량의 작동 방식
이 섹션에서는 할당량 적용 기간 동안 할당량 확인을 사용하여 프로비저닝된 처리량이 작동하는 방식을 설명합니다.
프로비저닝된 처리량 할당량 확인
프로비저닝된 처리량 최대 할당량은 구매한 생성형 AI 확장 단위(GSU) 수와 GSU당 처리량의 배수입니다. 최대 프로비저닝된 처리량 할당량이 적용되는 빈도인 할당량 적용 기간 내에 요청할 때마다 확인됩니다.
요청이 수신될 때 실제 응답 크기는 알 수 없습니다. 실시간 애플리케이션의 응답 속도가 우선되므로 프로비저닝된 처리량은 출력 토큰 크기를 예상합니다. 초기 예상치가 사용 가능한 프로비저닝된 처리량 최대 할당량을 초과하면 요청이 사용한 만큼만 지불로 처리됩니다. 그렇지 않으면 프로비저닝된 처리량으로 처리됩니다. 초기 예상치를 프로비저닝된 처리량 최대 할당량과 비교하여 결정합니다.
응답이 생성되고 실제 출력 토큰 크기가 알려지면 예상치와 실제 사용량의 차이를 사용 가능한 프로비저닝된 처리량 할당량에 더하여 실제 사용량과 할당량을 조정합니다.
프로비저닝된 처리량 할당량 적용 기간
gemini-2.0-flash-lite
및 gemini-2.0-flash
모델의 경우 할당량 적용 기간은 최대 30초가 걸릴 수 있으며 변경될 수 있습니다.
즉, 경우에 따라 일시적으로 초당 할당량을 초과하는 우선순위 지정 트래픽이 발생할 수 있지만 30초 기준으로는 할당량을 초과하지 않아야 합니다. 다른 모델의 할당량 적용 기간은 최대 1분이 걸릴 수 있습니다. 이 기간은 Vertex AI 내부 시간을 기반으로 하며 요청 시점과는 무관합니다.
예를 들어 gemini-2.0-flash-001
GSU 1개를 구매하면 상시 사용 설정된 처리량이 초당 800자일 것으로 예상됩니다. 평균적으로 30초 기준 24,000자(영문 기준)를 초과할 수 없으며, 이는 다음 수식을 사용하여 계산됩니다.
800 characters per second * 30 seconds = 24,000 characters
하루 종일 초당 1,600자를 소비하는 단일 요청을 제출한 경우에도 요청 시 초당 800자 한도를 초과하긴 했지만 30초 기준당 24,000자 미만이므로 여전히 프로비저닝된 처리량 요청으로 처리될 수 있습니다.
초과 사용량 제어 또는 프로비저닝된 처리량 우회
API를 사용하여 구매한 처리량을 초과할 때 초과분을 제어하거나 요청별로 프로비저닝된 처리량을 우회할 수 있습니다.
각 옵션을 읽고 사용 사례에 맞게 무엇을 해야 하는지 결정하세요.
기본 동작
구매한 처리량을 초과하면 초과분은 주문형으로 전환되고 사용한 만큼만 지불하는 요금으로 청구됩니다. 프로비저닝된 처리량 주문이 활성화되면 기본 동작이 자동으로 실행됩니다. 주문을 소비하기 위해 코드를 변경할 필요는 없습니다.
프로비저닝된 처리량만 사용
주문형 요금을 피해 비용을 관리하는 경우 프로비저닝된 처리량만 사용하세요. 프로비저닝된 처리량 주문 금액을 초과하는 요청은 오류 429
을 반환합니다.
API에 요청을 보낼 때 X-Vertex-AI-LLM-Request-Type
HTTP 헤더를 dedicated
로 설정합니다.
사용한 만큼만 지불 사용
이를 주문형 사용이라고도 합니다. 요청이 프로비저닝된 처리량 주문을 우회하고 사용한 만큼만 지불로 직접 전송됩니다. 이는 개발 중인 실험이나 애플리케이션에 유용할 수 있습니다.
API에 요청을 보낼 때 X-Vertex-AI-LLM-Request-Type
HTTP 헤더를 shared
로 설정합니다.
예
설치
pip install --upgrade google-genai
Vertex AI에서 Gen AI SDK를 사용하도록 환경 변수를 설정합니다.
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=us-central1 export GOOGLE_GENAI_USE_VERTEXAI=True
환경을 설정하면 REST를 사용하여 텍스트 프롬프트를 테스트할 수 있습니다. 다음 샘플은 요청을 게시자 모델 엔드포인트에 전송합니다.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
프로비저닝된 처리량 모니터링
aiplatform.googleapis.com/PublisherModel
리소스 유형에서 측정된 측정항목 집합을 사용하여 프로비저닝된 처리량 사용량을 직접 모니터링할 수 있습니다.
프로비저닝된 처리량 트래픽 모니터링은 공개 프리뷰 기능입니다.
측정기준
다음 측정기준을 사용하여 측정항목을 필터링할 수 있습니다.
측정기준 | 값 |
---|---|
type |
input output |
request_type |
|
경로 프리픽스
측정항목의 경로 접두사는 aiplatform.googleapis.com/publisher/online_serving
입니다.
예를 들어 /consumed_throughput
측정항목의 전체 경로는 aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
입니다.
측정항목
Gemini 모델의 aiplatform.googleapis.com/PublisherModel
리소스에서 다음 Cloud Monitoring 측정항목을 사용할 수 있습니다. dedicated
요청 유형을 사용하여 프로비저닝된 처리량 사용량을 필터링합니다.
측정항목 | 표시 이름 | 설명 |
---|---|---|
/dedicated_gsu_limit |
한도(GSU) | GSU의 전용 한도입니다. 이 측정항목을 사용하여 GSU의 프로비저닝된 처리량 최대 할당량을 파악합니다. |
/tokens |
토큰 | 입력 및 출력 토큰 수 분포입니다. |
/token_count |
토큰 수 | 누적된 입력 및 출력 토큰 수입니다. |
/consumed_token_throughput |
토큰 처리량 | 토큰의 소진율을 고려하고 할당량 조정을 통합하는 처리량 사용량입니다. 프로비저닝된 처리량 할당량 확인을 참조하세요. 이 측정항목을 사용하여 프로비저닝된 처리량 할당량이 사용된 방식을 파악합니다. |
/dedicated_token_limit |
한도(초당 토큰 수) | 초당 토큰 전용 한도입니다. 이 측정항목을 사용하여 토큰 기반 모델의 프로비저닝된 처리량 최대 할당량을 파악합니다. |
/characters |
문자 | 입력 및 출력 문자 수 분포입니다. |
/character_count |
문자 수 | 누적된 입력 및 출력 문자 수입니다. |
/consumed_throughput |
문자 처리량 | 처리량 사용량: 소진율을 문자 수로 고려하고 할당량 조정 프로비저닝된 처리량 할당량 확인을 통합합니다. 이 측정항목을 사용하여 프로비저닝된 처리량 할당량이 사용된 방식을 파악합니다. 토큰 기반 모델의 경우 이 측정항목은 토큰에서 소비된 처리량에 4를 곱한 값과 같습니다. |
/dedicated_character_limit |
한도(초당 문자 수) | 초당 문자 수 전용 제한입니다. 이 측정항목을 사용하여 문자 기반 모델의 프로비저닝된 처리량 최대 할당량을 파악합니다. |
/model_invocation_count |
모델 호출 수 | 모델 호출 수(예측 요청)입니다. |
/model_invocation_latencies |
모델 호출 지연 시간 | 모델 호출 지연 시간(예측 지연 시간)입니다. |
/first_token_latencies |
첫 번째 토큰 지연 시간 | 요청이 수신된 시점부터 첫 번째 토큰이 반환될 때까지의 기간입니다. |
Anthropic 모델에는 프로비저닝된 처리량 필터도 있지만 tokens/token_count
에만 적용됩니다.
대시보드
프로비저닝된 처리량의 기본 모니터링 대시보드는 사용량과 프로비저닝된 처리량 사용률을 더 잘 파악할 수 있는 측정항목을 제공합니다. 대시보드에 액세스하려면 다음 단계를 따르세요.
Google Cloud 콘솔에서 프로비저닝된 처리량 페이지로 이동합니다.
주문 전반에서 각 모델의 프로비저닝된 처리량 사용률을 보려면 사용률 요약 탭을 선택합니다.
모델별 프로비저닝된 처리량 사용률 표에서 모델을 선택하여 선택한 모델과 관련된 추가 측정항목을 확인합니다.
대시보드 제한사항
특히 트래픽이 급증하는 경우 대시보드에 예상치 못한 결과가 표시될 수 있습니다. 이러한 결과는 다음과 같은 이유로 발생할 수 있습니다.
- 시간 범위가 12시간을 초과하면 할당량 적용 기간이 정확하게 반영되지 않을 수 있습니다. 처리량 측정항목과 사용률 등의 파생 측정항목은 선택한 기간을 기준으로 정렬 기간의 평균을 표시합니다. 기간을 넓히면 각 정렬 기간도 넓어집니다. 정렬 기간은 평균 사용량 계산에 걸쳐 확장됩니다. 할당량 적용은 분 단위 미만 수준으로 계산되므로 기간을 12시간 이하로 설정하면 실제 할당량 적용 기간과 더 유사한 분 단위 데이터가 생성됩니다. 정렬 기간에 관한 자세한 내용은 정렬: 계열 내 정규화를 참조하세요. 기간에 관한 자세한 내용은 시간 간격 정규화를 참조하세요.
- 여러 요청이 동시에 제출된 경우 집계 모니터링이 특정 요청으로 필터링하는 기능에 영향을 줄 수 있습니다.
- 프로비저닝된 처리량은 요청이 있을 때 트래픽을 제한하지만 할당량이 조정된 후에 사용량 측정항목을 보고합니다.
- 프로비저닝된 처리량 할당량 적용 기간은 모니터링 집계 기간 또는 요청 또는 응답 기간과는 무관하며 일치하지 않을 수 있습니다.
- 오류가 발생하지 않은 경우 오류율 차트 내에 오류 메시지가 표시될 수 있습니다. 예를 들어 데이터를 요청하는 중에 오류가 발생했습니다. 하나 이상의 리소스를 찾을 수 없습니다.
알림
알림을 사용 설정한 후 트래픽 사용량을 관리하는 데 도움이 되는 기본 알림을 설정합니다.
알림 사용
대시보드에서 알림을 사용 설정하려면 다음 단계를 따르세요.
Google Cloud 콘솔에서 프로비저닝된 처리량 페이지로 이동합니다.
주문 전반에서 각 모델의 프로비저닝된 처리량 사용률을 보려면 사용률 요약 탭을 선택합니다.
추천 알림을 선택하면 다음 알림이 표시됩니다.
Provisioned Throughput Usage Reached Limit
Provisioned Throughput Utilization Exceeded 80%
Provisioned Throughput Utilization Exceeded 90%
트래픽을 관리하는 데 도움이 되는 알림을 확인합니다.
알림 세부정보 더보기
알림에 대한 자세한 내용을 보려면 다음 단계를 따르세요.
통합 페이지로 이동합니다.
필터 필드에 vertex를 입력하고 Enter 키를 누릅니다. Google Vertex AI가 표시됩니다.
자세한 내용을 보려면 세부정보 보기를 클릭하세요. Google Vertex AI 세부정보 창이 표시됩니다.
알림 탭을 선택하면 알림 정책 템플릿을 선택할 수 있습니다.
다음 단계
- 오류 코드
429
문제 해결