如果傳送至模型的要求數量超過可用的處理能力,Vertex AI 會傳回 429
錯誤代碼,表示資源已用盡。具體錯誤訊息和解決方法取決於您是使用付費即用服務,還是已購買預先配置傳送量。
瞭解 429 錯誤
下表比較了在付費即用和預先配置的傳送量配額架構中,如何處理 429
錯誤。
功能 | 即付即用 | 佈建輸送量 |
---|---|---|
錯誤訊息 | Resource exhausted, please try again later. |
Too many requests. Exceeded the Provisioned Throughput. |
原因 | 要求數量超過共用資源集區的可用容量。 | 要求數量超出預留的吞吐量容量。 |
服務水準協議影響 | 根據服務水準協議 (SLA)的規定,收到 429 錯誤的請求不會計入錯誤率。 |
如有低於購買的傳送量,系統會傳回 5XX 並計入服務水準協議。如有超出購買的傳送量,系統會視為按使用付費,且不會計入服務水準協議。 |
透過「已佈建的處理量」訂閱方案,您可以為模型保留特定的處理量。如果您未訂閱,且無法使用共用資源,系統會顯示 429
錯誤。即使您沒有預留容量,也可以重試要求。
如果專案使用佈建輸送量,Vertex AI 會為專案使用量預留已購買的輸送量。如果您使用的量少於購買量,原本會傳回 429
的錯誤會傳回為 5XX
,並計入 SLA 錯誤率。如果您超過購買的用量,系統會按需以即付即用的方式處理額外要求。
如何解決 429 錯誤
解決 429
錯誤的步驟會因配額架構而異。
即付即用
在預付配額架構中,您可以透過下列選項解決 429
錯誤:
- 使用全球端點:盡可能使用全球端點,而非地區端點。
- 實作重試策略:使用部分指數輪詢重試要求。
- 申請提高配額:如果模型使用配額,您可以提交配額提高要求 (QIR)。
- 流量平穩:如果模型使用動態共用配額 (DSQ),建議您平穩流量並減少大量尖峰情形。詳情請參閱「動態共用配額」。
- 訂閱已佈建的處理量:如要獲得更穩定的服務品質,請訂閱已佈建的處理量。詳情請參閱「已配置的傳送量」。
佈建輸送量
如要解決佈建輸送量訂閱方案時發生的 429
錯誤,請執行下列操作:
- 允許按需處理:請不要在預測要求中設定標頭,以便使用預設行為。系統會按需處理超額費用,並以即付即用費率計費。
- 增加保留容量:增加預留處理量訂閱方案中的 GSU 數量。
後續步驟
- 如要進一步瞭解動態共用配額,請參閱「動態共用配額」。
- 如要進一步瞭解已佈建的處理量,請參閱「已佈建的處理量」。
- 如要瞭解 Vertex AI 的配額和限制,請參閱「Vertex AI 配額和限制」。
- 如要進一步瞭解 Google Cloud 的配額和限制,請參閱「瞭解配額值和系統限制」一文。
- 如要進一步瞭解 API 錯誤,請參閱「API 錯誤」。