오류 코드 429

모델에 전송된 요청 수가 사용 가능한 처리 용량을 초과하면 Vertex AI는 리소스가 소진되었음을 나타내는 429 오류 코드를 반환합니다. 구체적인 오류 메시지와 해결 경로는 사용한 만큼만 지불(pay-as-you-go) 요금제 서비스를 사용 중인지 아니면 프로비저닝된 처리량을 구매했는지에 따라 다릅니다.

429 오류 이해하기

다음 표에서는 사용한 만큼만 지불(Pay-as-you-go) 및 프로비저닝된 처리량 할당량 프레임워크에서 429 오류가 처리되는 방식을 비교합니다.

기능 사용한 만큼만 지불(Pay-as-you-go) 프로비저닝된 처리량
오류 메시지 Resource exhausted, please try again later. Too many requests. Exceeded the Provisioned Throughput.
원인 요청 수가 공유 리소스 풀의 사용 가능한 용량을 초과합니다. 요청 수가 예약된 처리량 용량을 초과합니다.
SLA 영향 429 오류를 수신하는 요청은 서비스수준계약(SLA)에 설명된 대로 오류율에 집계되지 않습니다. 구매한 처리량 미만의 사용량에 대한 오류는 5XX로 반환되며 SLA에 반영됩니다. 구매한 처리량을 초과하는 사용량에 대한 오류는 사용한 만큼만 지불(pay-as-you-go) 요금으로 처리되며 SLA에 반영되지 않습니다.

프로비저닝된 처리량 구독을 사용하면 모델에 특정 처리량을 예약할 수 있습니다. 구독이 없고 공유 리소스를 사용할 수 없는 경우 429 오류가 발생합니다. 예약된 용량이 없어도 요청을 다시 시도할 수 있습니다.

프로비저닝된 처리량이 있는 프로젝트의 경우 Vertex AI는 프로젝트의 사용량에 대해 구매한 처리량을 예약합니다. 구매한 금액보다 적게 사용하는 경우 429로 반환되었을 오류가 5XX로 반환되고 SLA 오류율에 반영됩니다. 구매한 금액을 초과하면 추가 요청이 주문형으로 사용한 만큼만 지불 방식으로 처리됩니다.

429 오류를 해결하는 방법

429 오류를 해결하는 단계는 할당량 프레임워크에 따라 다릅니다.

사용한 만큼만 지불(Pay-as-you-go)

사용한 만큼만 지불(Pay-as-you-go) 할당량 프레임워크에서는 429 오류를 해결하기 위해 다음과 같은 옵션이 있습니다.

  • 전역 엔드포인트 사용: 가능하면 리전 엔드포인트 대신 전역 엔드포인트를 사용하세요.
  • 재시도 전략 구현: 잘린 지수 백오프를 사용하여 요청을 재시도합니다.
  • 할당량 증가 요청: 모델에서 할당량을 사용하는 경우 할당량 증가 요청(QIR)을 제출할 수 있습니다.
  • 트래픽 원활화: 모델에서 동적 공유 할당량 (DSQ)을 사용하는 경우 트래픽을 원활하게 하고 급격한 트래픽 급증을 줄이는 것이 도움이 될 수 있습니다. 자세한 내용은 동적 공유 할당량을 참조하세요.
  • 프로비저닝된 처리량 구독: 보다 일관된 서비스 수준을 얻으려면 프로비저닝된 처리량을 구독하세요. 자세한 내용은 프로비저닝된 처리량을 참조하세요.

프로비저닝된 처리량

프로비저닝된 처리량 구독이 있는 경우 429 오류를 해결하려면 다음 단계를 따르세요.

  • 주문형 처리 허용: 예측 요청에 헤더를 설정하지 않아 기본 동작을 사용합니다. 초과분은 주문형으로 처리되고 청구 금액은 사용한 만큼만 지불 방식을 따릅니다.
  • 예약된 용량 늘리기: 프로비저닝된 처리량 구독에서 GSU 수를 늘립니다.

다음 단계