모델에 전송된 요청 수가 사용 가능한 처리 용량을 초과하면 Vertex AI는 리소스가 소진되었음을 나타내는 429
오류 코드를 반환합니다. 구체적인 오류 메시지와 해결 경로는 사용한 만큼만 지불(pay-as-you-go) 요금제 서비스를 사용 중인지 아니면 프로비저닝된 처리량을 구매했는지에 따라 다릅니다.
429 오류 이해하기
다음 표에서는 사용한 만큼만 지불(Pay-as-you-go) 및 프로비저닝된 처리량 할당량 프레임워크에서 429
오류가 처리되는 방식을 비교합니다.
기능 | 사용한 만큼만 지불(Pay-as-you-go) | 프로비저닝된 처리량 |
---|---|---|
오류 메시지 | Resource exhausted, please try again later. |
Too many requests. Exceeded the Provisioned Throughput. |
원인 | 요청 수가 공유 리소스 풀의 사용 가능한 용량을 초과합니다. | 요청 수가 예약된 처리량 용량을 초과합니다. |
SLA 영향 | 429 오류를 수신하는 요청은 서비스수준계약(SLA)에 설명된 대로 오류율에 집계되지 않습니다. |
구매한 처리량 미만의 사용량에 대한 오류는 5XX 로 반환되며 SLA에 반영됩니다. 구매한 처리량을 초과하는 사용량에 대한 오류는 사용한 만큼만 지불(pay-as-you-go) 요금으로 처리되며 SLA에 반영되지 않습니다. |
프로비저닝된 처리량 구독을 사용하면 모델에 특정 처리량을 예약할 수 있습니다. 구독이 없고 공유 리소스를 사용할 수 없는 경우 429
오류가 발생합니다. 예약된 용량이 없어도 요청을 다시 시도할 수 있습니다.
프로비저닝된 처리량이 있는 프로젝트의 경우 Vertex AI는 프로젝트의 사용량에 대해 구매한 처리량을 예약합니다. 구매한 금액보다 적게 사용하는 경우 429
로 반환되었을 오류가 5XX
로 반환되고 SLA 오류율에 반영됩니다. 구매한 금액을 초과하면 추가 요청이 주문형으로 사용한 만큼만 지불 방식으로 처리됩니다.
429 오류를 해결하는 방법
429
오류를 해결하는 단계는 할당량 프레임워크에 따라 다릅니다.
사용한 만큼만 지불(Pay-as-you-go)
사용한 만큼만 지불(Pay-as-you-go) 할당량 프레임워크에서는 429
오류를 해결하기 위해 다음과 같은 옵션이 있습니다.
- 전역 엔드포인트 사용: 가능하면 리전 엔드포인트 대신 전역 엔드포인트를 사용하세요.
- 재시도 전략 구현: 잘린 지수 백오프를 사용하여 요청을 재시도합니다.
- 할당량 증가 요청: 모델에서 할당량을 사용하는 경우 할당량 증가 요청(QIR)을 제출할 수 있습니다.
- 트래픽 원활화: 모델에서 동적 공유 할당량 (DSQ)을 사용하는 경우 트래픽을 원활하게 하고 급격한 트래픽 급증을 줄이는 것이 도움이 될 수 있습니다. 자세한 내용은 동적 공유 할당량을 참조하세요.
- 프로비저닝된 처리량 구독: 보다 일관된 서비스 수준을 얻으려면 프로비저닝된 처리량을 구독하세요. 자세한 내용은 프로비저닝된 처리량을 참조하세요.
프로비저닝된 처리량
프로비저닝된 처리량 구독이 있는 경우 429
오류를 해결하려면 다음 단계를 따르세요.
- 주문형 처리 허용: 예측 요청에 헤더를 설정하지 않아 기본 동작을 사용합니다. 초과분은 주문형으로 처리되고 청구 금액은 사용한 만큼만 지불 방식을 따릅니다.
- 예약된 용량 늘리기: 프로비저닝된 처리량 구독에서 GSU 수를 늘립니다.
다음 단계
- 동적 공유 할당량에 대한 자세한 내용은 동적 공유 할당량을 참고하기
- 프로비저닝된 처리량에 대한 자세한 내용은 프로비저닝된 처리량 참고하기
- Vertex AI의 할당량 및 한도에 대한 자세한 내용은 Vertex AI 할당량 및 한도를 참고하기
- Google Cloud 할당량 및 한도에 대한 자세한 내용은 할당량 값 및 시스템 한도 이해 참고하기
- API 오류에 대해 자세히 알아보려면 API 오류 참고하기