요청 수가 요청을 처리하도록 할당된 용량을 초과할 경우 오류 코드 429
가 반환됩니다. 다음 표에는 각 유형의 할당량 프레임워크에서 생성된 오류 메시지가 표시됩니다.
할당량 프레임워크 | 메시지 |
---|---|
사용한 만큼만 지불 | Resource exhausted, please try again later. |
프로비저닝된 처리량 | Too many requests. Exceeded the Provisioned Throughput. |
프로비저닝된 처리량 구독을 사용하면 특정 생성형 AI 모델의 처리량을 예약할 수 있습니다. 프로비저닝된 처리량 구독이 없고 애플리케이션에서 리소스를 사용할 수 없는 경우 오류 코드 429
가 반환됩니다. 예약된 용량이 없어도 요청을 다시 시도할 수 있습니다. 하지만 서비스수준계약 (SLA)에 설명된 대로 요청은 오류율에 집계되지 않습니다.
프로비저닝된 처리량을 구매한 프로젝트의 경우 Vertex AI는 프로젝트의 처리량을 측정하고 이를 사용할 수 있도록 해당 처리량을 예약합니다. 구매한 처리량보다 적게 사용하는 경우 429
로 반환되었을 오류가 5XX
로 반환되고 요청에서 컨텍스트 캐싱을 사용하지 않는 한 SLA에 설명된 오류율의 일부로 집계됩니다. 컨텍스트 캐싱이 사용된 경우 프로비저닝된 처리량 요청은 사용한 만큼만 지불로 간주됩니다.
사용한 만큼만 지불
사용한 만큼만 지불 할당량 프레임워크에서는 429
오류를 해결하기 위해 다음과 같은 옵션이 있습니다.
- 잘린 지수 백오프를 사용하여 재시도 전략을 구현합니다.
- 소비자 재정의를 설정하고 비용을 제어하도록 구성한 경우 한도를 늘립니다. 자세한 내용은 동적 공유 할당량을 참조하세요.
- 보다 일관적인 서비스 수준을 얻기 위해서는 프로비저닝된 처리량을 구독하세요. 자세한 내용은 프로비저닝된 처리량을 참조하세요.
프로비저닝된 처리량
프로비저닝된 처리량으로 생성된 429 오류를 수정하려면 다음 단계를 따르세요.
- 예측 요청에 헤더를 설정하지 않는 기본 동작 예시를 사용합니다. 초과분은 주문형으로 처리되고 사용한 만큼만 지불로 청구됩니다.
- 프로비저닝된 처리량 구독에서 GSU 수를 늘립니다.
다음 단계
- 동적 공유 할당량에 대한 자세한 내용은 동적 공유 할당량을 참고하세요.
- 프로비저닝된 처리량에 대한 자세한 내용은 프로비저닝된 처리량을 참고하세요.
- Vertex AI의 할당량 및 한도에 대한 자세한 내용은 Vertex AI 할당량 및 한도를 참조하세요.
- Google Cloud 할당량 및 한도에 대한 자세한 내용은 할당량 값 및 시스템 한도 이해를 참고하세요.