Quote e limiti di sistema dell'IA generativa su Vertex AI

Questa pagina introduce due modi per utilizzare i servizi di AI generativa, fornisce un elenco di quote per regione e modello e mostra come visualizzare e modificare le quote nella console Google Cloud .

Panoramica

Esistono due modi per utilizzare i servizi di AI generativa. Puoi scegliere il pagamento a consumo (PayGo) oppure pagare in anticipo utilizzando Provisioned Throughput.

Se utilizzi PayGo, l'utilizzo delle funzionalità di AI generativa è soggetto a uno dei seguenti sistemi di quote, a seconda del modello che utilizzi:

  • I modelli precedenti a Gemini 2.0 utilizzano un sistema di quote standard per ogni modello di AI generativa per garantire l'equità e ridurre i picchi di utilizzo e disponibilità delle risorse. Le quote si applicano alle richieste di AI generativa su Vertex AI per un determinato progetto e una determinata regione supportata. Google Cloud
  • I modelli più recenti utilizzano la quota condivisa dinamica (DSQ), che distribuisce dinamicamente la capacità PayGo disponibile tra tutti i clienti per un modello e una regione specifici, eliminando la necessità di impostare quote e inviare richieste di aumento della quota. Non sono previste quote con DSQ.

Per contribuire a garantire l'alta disponibilità della tua applicazione e ottenere livelli di servizio prevedibili per i tuoi carichi di lavoro di produzione, consulta Throughput di cui è stato eseguito il provisioning.

Sistema di quote per modello

I seguenti modelli supportano la quota condivisa dinamica (DSQ):

I seguenti modelli Gemini legacy supportano DSQ:

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

I modelli non Gemini e Gemini precedenti utilizzano il sistema di quote standard. Per ulteriori informazioni, consulta Quote e limiti di Vertex AI.

Quote per i modelli ottimizzati

L'inferenza del modello ottimizzato condivide la stessa quota del modello di base. Non esiste una quota separata per l'inferenza del modello ottimizzato.

Limiti di incorporamento del testo

Ogni richiesta del modello di incorporamento di testo può contenere fino a 250 testi di input (generando 1 incorporamento per testo di input) e 20.000 token per richiesta. Per calcolare gli incorporamenti vengono utilizzati solo i primi 2048 token di ogni testo di input. Per gemini-embedding-001, ogni richiesta può includere un solo testo di input. La quota per questo modello è elencata sotto il nome gemini-embedding.

Token di input dei contenuti incorporati al minuto per modello di base

A differenza dei precedenti modelli di incorporamento, limitati principalmente dalle quote RPM, la quota per il modello di incorporamento Gemini limita il numero di token che possono essere inviati al minuto per progetto.

Quota Valore
Token di input dei contenuti incorporati al minuto 200000

Limiti di Vertex AI Agent Engine

I seguenti limiti si applicano a Vertex AI Agent Engine per un determinato progetto in ogni regione:
Descrizione Limite
Crea, elimina o aggiorna Vertex AI Agent Engine al minuto 10
Crea, elimina o aggiorna le sessioni di Vertex AI Agent Engine al minuto 100
Crea, elimina o aggiorna le sessioni di Vertex AI Agent Engine al minuto 100
Query o StreamQuery Vertex AI Agent Engine al minuto 60
Aggiungi evento alle sessioni al minuto di Vertex AI Agent Engine 100
Numero massimo di risorse Vertex AI Agent Engine 100
Crea, elimina o aggiorna le risorse di memoria di Vertex AI Agent Engine al minuto 100
Recupera, elenca o recupera da Vertex AI Agent Engine Memory Bank al minuto 300

Previsione batch

Le quote e i limiti per i job di inferenza batch sono gli stessi in tutte le regioni.

Limiti dei job di inferenza batch simultanei per i modelli Gemini

Non esistono limiti di quota predefiniti per l'inferenza batch per i modelli Gemini. Il servizio batch fornisce invece l'accesso a un ampio pool condiviso di risorse, allocate dinamicamente in base alla disponibilità e alla domanda in tempo reale del modello per tutti i clienti. Quando più clienti sono attivi e hanno saturato la capacità del modello, le richieste batch potrebbero essere inserite in coda per capacità.

Quote di job di inferenza batch simultanei

La seguente tabella elenca le quote per il numero di job di inferenza batch simultanei, che non si applicano ai modelli Gemini:
Quota Valore
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
Se il numero di attività inviate supera la quota allocata, le attività vengono inserite in una coda ed elaborate quando la capacità della quota diventa disponibile.

Visualizzare e modificare le quote nella console Google Cloud

Per visualizzare e modificare le quote nella console Google Cloud :
  1. Vai alla pagina Quote e limiti di sistema.
  2. Vai a Quote e limiti di sistema

  3. Per modificare la quota, copia e incolla la proprietà aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model nel filtro. Premi Invio.
  4. Fai clic sui tre puntini alla fine della riga e seleziona Modifica quota.
  5. Inserisci un nuovo valore di quota nel riquadro e fai clic su Invia richiesta.

Vertex AI RAG Engine

Per ogni servizio che esegue la generazione aumentata dal recupero (RAG) utilizzando RAG Engine, si applicano le seguenti quote, con la quota misurata come richieste al minuto (RPM).
Servizio Quota Metrica
API di gestione dei dati di RAG Engine 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 1500 giri/minuto VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1500 giri/minuto Online prediction requests per base model per minute per region per base_model

Un altro filtro che puoi specificare è base_model: textembedding-gecko
I limiti sono i seguenti:
Servizio Limite Metrica
Richieste ImportRagFiles simultanee 3 RPM VertexRagService concurrent import requests per region
Numero massimo di file per richiesta ImportRagFiles 10.000 VertexRagService import rag files requests per region

Per ulteriori limiti di frequenza e quote, consulta Limiti di frequenza dell'AI generativa su Vertex AI.

Gen AI evaluation service

Gen AI evaluation service utilizza gemini-2.0-flash come modello di valutazione predefinito per le metriche basate sul modello. Una singola richiesta di valutazione per una metrica basata su modelli potrebbe comportare più richieste sottostanti al servizio Gen AI evaluation service. La quota di ogni modello viene calcolata in base al progetto, il che significa che tutte le richieste indirizzate a gemini-2.0-flash per l'inferenza del modello e la valutazione basata su modelli contribuiscono alla quota. Le quote per Gen AI evaluation service e il modello di valutazione sottostante sono riportate nella tabella seguente:
Richiedi quota Quota predefinita
Richieste di Gen AI evaluation service al minuto 1000 richieste per progetto per regione
Richieste di previsione online al minuto per
base_model: gemini-2.0-flash
Consulta le quote per regione e modello.

Se ricevi un errore relativo alle quote durante l'utilizzo del servizio di valutazione dell'IA generativa, potresti dover presentare una richiesta di aumento della quota. Per ulteriori informazioni, consulta Visualizzare e gestire le quote.

Limite Valore
Timeout della richiesta del servizio di valutazione dell'AI generativa 60 secondi

Quando utilizzi il servizio di valutazione dell'IA generativa per la prima volta in un nuovo progetto, potresti riscontrare un ritardo iniziale di configurazione fino a due minuti. Se la prima richiesta non va a buon fine, attendi qualche minuto e riprova. Le successive richieste di valutazione vengono in genere completate entro 60 secondi.

Il numero massimo di token di input e output per le metriche basate su modelli dipende dal modello utilizzato come modello giudice. Consulta Modelli Google per un elenco di modelli.

Quote di Vertex AI Pipelines

Ogni job di ottimizzazione utilizza Vertex AI Pipelines. Per ulteriori informazioni, consulta Quote e limiti di Vertex AI Pipelines.

Passaggi successivi