오류 코드 429

요청 수가 요청을 처리하도록 할당된 용량을 초과할 경우 오류 코드 429가 반환됩니다. 다음 표에는 각 유형의 할당량 프레임워크에서 생성된 오류 메시지가 표시됩니다.

할당량 프레임워크	메시지
Pay-as-you-go	`Resource exhausted, please try again later.`
프로비저닝된 처리량	`Too many requests. Exceeded the Provisioned Throughput.`

프로비저닝된 처리량 구독을 사용하면 특정 생성형 AI 모델의 처리량을 예약할 수 있습니다. 프로비저닝된 처리량 구독이 없고 애플리케이션에서 리소스를 사용할 수 없는 경우 오류 코드 429가 반환됩니다. 예약된 용량이 없어도 요청을 다시 시도할 수 있습니다. 하지만 서비스수준계약(SLA)에 설명된 대로 요청은 오류율에 집계되지 않습니다.

프로비저닝된 처리량을 구매한 프로젝트의 경우 Vertex AI는 프로젝트의 처리량을 측정하고 프로젝트의 실제 사용량에 대해 구매한 처리량을 예약합니다.

표준 프로비저닝된 처리량의 경우 구매한 양보다 적게 사용하면 429로 반환되었을 오류가 5XX로 반환되고 SLA 오류율에 반영됩니다. 단일 영역 프로비저닝된 처리량의 경우 구매한 양보다 적게 사용하면 용량 관련 429 오류가 5XX로 처리되지만 SLA 오류율에 포함되지 않습니다. 구매한 양을 초과하면 추가 요청은 사용한 만큼만 지불 방식으로 주문형으로 처리됩니다.

Pay-as-you-go

사용한 만큼만 지불(Pay-as-you-go) 할당량 프레임워크에서는 429 오류를 해결하기 위해 다음과 같은 옵션이 있습니다.

가능한 경우 리전 엔드포인트 대신 전역 엔드포인트를 사용하세요.
잘린 지수 백오프를 사용하여 재시도 전략을 구현합니다.
모델에서 할당량을 사용하는 경우 할당량 증가 요청(QIR)을 제출할 수 있습니다. 모델에서 동적 공유 할당량을 사용하는 경우 트래픽을 완화하고 큰 급증을 줄이는 것이 도움이 될 수 있습니다. 자세한 내용은 동적 공유 할당량 (DSQ)을 참조하세요.
보다 일관적인 서비스 수준을 얻기 위해서는 프로비저닝된 처리량을 구독하세요. 자세한 내용은 프로비저닝된 처리량을 참조하세요.

프로비저닝된 처리량

프로비저닝된 처리량으로 생성된 429 오류를 수정하려면 다음 단계를 따르세요.

예측 요청에 헤더를 설정하지 않는 기본 동작 예시를 사용합니다. 초과분은 주문형으로 처리되고 사용한 만큼만 지불로 청구됩니다.
프로비저닝된 처리량 구독에서 GSU 수를 늘립니다.

다음 단계

동적 공유 할당량에 대한 자세한 내용은 동적 공유 할당량 참고하기
프로비저닝된 처리량에 대한 자세한 내용은 프로비저닝된 처리량 참고하기
Vertex AI의 할당량 및 한도에 대한 자세한 내용은 Vertex AI 할당량 및 한도를 참조하세요.
Google Cloud 할당량 및 시스템 한도에 대해 자세히 알아보려면 Cloud 할당량 문서를 참조하세요.
API 오류에 대해 자세히 알아보려면 API 오류 참고하기