Quando il numero di richieste inviate a un modello supera la capacità di elaborazione disponibile, Vertex AI restituisce un codice di errore 429
, che indica che la risorsa è esaurita. Il messaggio di errore specifico e il percorso di risoluzione dipendono dal fatto che tu stia utilizzando il servizio pay-as-you-go o abbia acquistato Provisioned Throughput.
Informazioni sull'errore 429
La seguente tabella confronta la gestione dell'errore 429
nei framework di quote pay-as-you-go e di velocità effettiva di provisioning.
Pagamento a consumo | Throughput riservato | |
---|---|---|
Messaggio di errore | Resource exhausted, please try again later. |
Too many requests. Exceeded the Provisioned Throughput. |
Causa | Il numero di richieste supera la capacità disponibile nel pool di risorse condiviso. | Il numero di richieste supera la capacità di throughput riservata. |
Impatto sullo SLA | Le richieste che ricevono un errore 429 non vengono conteggiate ai fini del tasso di errore, come descritto nell'accordo sul livello del servizio (SLA). |
Gli errori relativi all'utilizzo inferiore al throughput acquistato vengono restituiti come 5XX . Per il throughput riservato standard, gli errori 5XX vengono conteggiati ai fini dello SLA. Il throughput di cui è stato eseguito il provisioning a zona singola non è coperto dallo SLA. Gli errori relativi all'utilizzo superiore al throughput acquistato vengono trattati come pay as you go e non vengono conteggiati ai fini dello SLA. |
Con un abbonamento alla velocità effettiva sottoposta a provisioning, riservi una quantità specifica di throughput per i tuoi modelli. Se non hai un abbonamento e le risorse condivise non sono disponibili, riceverai un errore 429
. Anche se non hai capacità riservata, puoi riprovare a inviare la richiesta.
Per i progetti con throughput riservato, Vertex AI riserva il throughput acquistato per l'utilizzo del progetto. Quando utilizzi un importo inferiore a quello acquistato, gli errori che altrimenti potrebbero essere 429
vengono restituiti come 5XX
e vengono conteggiati ai fini del tasso di errore SLA. Quando superi l'importo acquistato, le richieste aggiuntive vengono elaborate on demand con pagamento a consumo.
Come risolvere gli errori 429
I passaggi per risolvere un errore 429
variano a seconda del framework delle quote.
Pagamento a consumo
Nel framework delle quote con pagamento a consumo, hai le seguenti opzioni per risolvere gli errori 429
:
- Utilizza l'endpoint globale: quando possibile, utilizza l'endpoint globale anziché un endpoint regionale.
- Implementa una strategia di ripetizione: utilizza il backoff esponenziale troncato per riprovare a inviare le richieste.
- Richiedi un aumento della quota: se il tuo modello utilizza le quote, puoi inviare una richiesta di aumento della quota (QIR).
- Traffico uniforme: se il tuo modello utilizza la quota condivisa dinamica (DSQ), uniformare il traffico e ridurre i picchi elevati può essere utile. Per saperne di più, consulta Quota condivisa dinamica.
- Abbonati al throughput riservato: per un livello di servizio più coerente, abbonati al throughput riservato. Per saperne di più, consulta la sezione Throughput riservato.
Throughput riservato
Per risolvere un errore 429
quando hai un abbonamento Provisioned Throughput, puoi procedere nel seguente modo:
- Consenti l'elaborazione on demand: utilizza il comportamento predefinito non impostando un'intestazione nelle richieste di previsione. Eventuali eccedenze vengono elaborate on demand e fatturate in base al consumo.
- Aumenta la capacità riservata: aumenta il numero di GSU nell'abbonamento alla velocità effettiva di provisioning.
Passaggi successivi
- Per saperne di più sulla quota condivisa dinamica, consulta Quota condivisa dinamica.
- Per saperne di più sul throughput riservato, consulta Throughput riservato.
- Per informazioni su quote e limiti per Vertex AI, consulta Quote e limiti di Vertex AI.
- Per saperne di più su quote e limiti di Google Cloud, consulta Informazioni sui valori di quota e sui limiti di sistema.
- Per saperne di più sugli errori dell'API, consulta la sezione Errori dell'API.