Limiti di frequenza dell'IA generativa su Vertex AI

Google Cloud utilizza le quote per garantire l'equità e ridurre i picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità di una Google Cloud risorsa che Google Cloud il progetto può utilizzare. Le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o il numero di progetti che puoi creare. Le quote proteggono la community degli utenti diGoogle Cloud impedendo il sovraccarico dei servizi. Le quote ti aiutano inoltre a gestire le tue Google Cloud risorse.

Il sistema delle quote di Cloud esegue le seguenti operazioni:

Nella maggior parte dei casi, quando provi a utilizzare una risorsa per un volume maggiore di quello consentito dalla quota, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire non va a buon fine.

In genere, le quote si applicano a livello di progetto Google Cloud. L'utilizzo di una risorsa in un progetto non influisce sulla quota disponibile in un altro progetto. All'interno di un progetto Google Cloud, le quote sono condivise tra tutte le applicazioni e gli indirizzi IP.

Limiti di frequenza

Questa tabella elenca i limiti di frequenza che si applicano ai seguenti modelli in tutte le regioni per la metricagenerate_content_input_tokens_per_minute_per_base_model:
Modello base Token al minuto
base_model: gemini-1.5-flash (versione 001) 4 milioni (4.000.000)
base_model: gemini-1.5-pro (versione 001) 4 milioni (4.000.000)

Gemini 2.0 Flash

La tabella seguente elenca le limitazioni di frequenza che si applicano a Gemini 2.0 Flash nelle regioni supportate per le metriche elencate:
Nome quota Token al minuto
Risoluzione media alta
Risoluzione media
Valore predefinito
Risoluzione media bassa
generate_content_image_input_per_base_model_id_and_resolution
  • US-* / Asia-*: 40.248.000
  • UE-*: 10.062.000
  • US-* / Asia-*: 10.296.000
  • UE-*: 2.574.000
generate_content_video_input_per_base_model_id_and_resolution
  • US-* / Asia-*: 37.872.000
  • UE-*: 9.468.000
  • US-* / Asia-*: 9.936.000
  • UE-*: 2.484.000
generate_content_audio_input_per_base_model_id_and_resolution
  • US-* / Asia-*: 1.728.000
  • UE-*: 432.000
  • US-* / Asia-*: 1.728.000
  • UE-*: 432.000
generate_content_document_input_per_base_model_id_and_resolution
  • US-* / Asia-*: 670.800
  • UE-*: 167.700
  • US-* / Asia-*: 179.400
  • UE-*: 44.850

Gemini 2.0 Flash-Lite

La tabella seguente elenca le limitazioni di frequenza che si applicano a Gemini 2.0 Flash-Lite nelle regioni supportate per le metriche elencate:
Nome quota Token al minuto
Risoluzione media alta
Risoluzione media
Valore predefinito
Risoluzione media bassa
generate_content_image_input_per_base_model_id_and_resolution
  • US-* / Asia-*: 6.708.000
  • UE-*: 1.677.000
  • US-* / Asia-*: 1.716.000
  • UE-*: 429.000
generate_content_video_input_per_base_model_id_and_resolution
  • US-* / Asia-*: 6.312.000
  • UE-*: 1.578.000
  • US-* / Asia-*: 1.656.000
  • UE-*: 414.000
generate_content_audio_input_per_base_model_id_and_resolution
  • US-* / Asia-*: 864.000
  • UE-*: 216.000
  • US-* / Asia-*: 864.000
  • UE-*: 216.000
generate_content_document_input_per_base_model_id_and_resolution
  • US-* / Asia-*: 3.354.000
  • UE-*: 838.500
  • US-* / Asia-*: 897.000
  • UE-*: 224.250

Per informazioni sulle quote per la versione 002 di Gemini 1.5 Flash (gemini-1.5-flash-002) e Gemini 1.5 Pro (gemini-1.5-pro-002), consulta Modelli Google.

Quote per regione e modello

La quota di richieste al minuto (RPM) si applica a un modello di base e a tutte le versioni, gli identificatori e le versioni ottimizzate di quel modello. Gli esempi riportati di seguito mostrano come viene applicata la quota RPM:
  • Una richiesta al modello di base gemini-1.0-pro e una richiesta alla relativa versione stabile gemini-1.0-pro-001 vengono conteggiate come due richieste ai fini della quota RPM del modello di base gemini-1.0-pro.
  • Una richiesta a due versioni di un modello di base, "gemini-1.0-pro-001" e "gemini-1.0-pro-002", viene conteggiata come due richieste ai fini della quota RPM del modello di base, "gemini-1.0-pro".
  • Una richiesta a due versioni di un modello di base, "gemini-1.0-pro-001" e una versione ottimizzata denominata "my-tuned-chat-model", viene conteggiata come due richieste al modello di base "gemini-1.0-pro".
Le quote si applicano alle richieste di AI generativa su Vertex AI per un determinato progetto Google Cloud e una regione supportata.

Visualizzare le quote nella console Google Cloud

Per visualizzare le quote nella console Google Cloud:
  1. Nella console Google Cloud, vai alla pagina Quote di IAM e amministrazione.
  2. Fai clic su Visualizza quote nella console.
  3. Nel campo Filtro, specifica la dimensione o la metrica.
Dimensione (identificatore del modello) Metrica (identificatore della quota per i modelli Gemini)
base_model: gemini-1.5-flash
base_model: gemini-1.5-pro
Puoi richiedere aggiustamenti in:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
  • aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model
Tutti gli altri modelli Puoi modificare una sola quota:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model

Visualizza le quote per regione e modello

Scegli una regione per visualizzare i limiti di quota per ogni modello disponibile:

Aumentare le quote

Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la console Google Cloud per richiedere un aumento di quota. Per scoprire di più sulle quote, consulta Utilizzo delle quote.

Quote di RAG Engine

Per ogni servizio che esegue la generazione basata sul recupero (RAG) utilizzando RAG Engine, si applicano le seguenti quote, misurate in richieste al minuto (RPM).
Servizio Quota Metrica
API di gestione dei dati di RAG Engine 60 giri/min VertexRagDataService requests per minute per region
RetrievalContexts API 1500 rpm VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1500 rpm Online prediction requests per base model per minute per region per base_model

Un altro filtro da specificare è base_model: textembedding-gecko
I limiti sono i seguenti:
Servizio Limite Metrica
Richieste ImportRagFiles simultanee 3 RPM VertexRagService concurrent import requests per region
Numero massimo di file per richiesta ImportRagFiles 10.000 VertexRagService import rag files requests per region

Per altri limiti di frequenza e quote, consulta Limiti di frequenza dell'IA generativa su Vertex AI.

Richieste batch

Le quote e i limiti per le richieste batch sono gli stessi in tutte le regioni.

Limiti di richieste batch contemporanee

La tabella seguente elenca i limiti per il numero di richieste batch simultanee:
Quota Valore
Modelli Gemini 8
Se il numero di attività inviate supera il limite allocato, le attività vengono messe in coda ed elaborate quando la capacità del limite diventa disponibile.

Quote per le richieste batch in parallelo

La seguente tabella elenca le quote per il numero di richieste batch contemporaneamente, che non si applicano ai modelli Gemini:
Quota Valore
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
Se il numero di attività inviate supera la quota allocata, le attività vengono messe in coda ed elaborate quando la capacità della quota diventa disponibile.

Quote dei modelli con addestramento personalizzato

Le seguenti quote si applicano ai modelli ottimizzati di AI generativa su Vertex AI per un determinato progetto e una determinata regione:
Quota Valore
Core del pod TPU v3 per l'addestramento di immagini con limitazioni per regione
* Regione supportata: europe-west4
64
GPU NVIDIA A100 80 GB per regione per l'addestramento di immagini con limitazioni
* Regione supportata: us-central1
* Regione supportata: us-east4

8
2
* Gli scenari di ottimizzazione hanno prenotazioni di acceleratori in regioni specifiche. Le quote per la messa a punto sono supportate e devono essere richieste in regioni specifiche.

Limiti di incorporamento di testo

Ogni richiesta di modello di embedding di testo può contenere fino a 250 testi di input (generando 1 embedding per testo di input) e 20.000 token per richiesta. Per calcolare gli embedding vengono utilizzati solo i primi 2048 token di ogni testo di input.

Quote del servizio di valutazione dell'IA generativa

Il servizio di valutazione dell'IA generativa utilizza gemini-1.5-pro come modello di giudizio e meccanismi per garantire una valutazione coerente e oggettiva delle metriche basate su modelli. Una singola richiesta di valutazione per una metrica basata su modello potrebbe comportare più richieste sottostanti al servizio di valutazione dell'AI generativa. La quota di ogni modello viene calcolata in base al progetto, il che significa che tutte le richieste indirizzate a gemini-1.5-pro per l'inferenza del modello e la valutazione basata su modelli contribuiscono alla quota. Le quote dei diversi modelli vengono impostate in modo diverso. Nella tabella sono riportate la quota per il servizio di valutazione dell'IA generativa e la quota per il modello di autoregolamentazione sottostante.
Richiedi quota Quota predefinita
Richieste al servizio di valutazione dell'IA generativa al minuto 1000 richieste per progetto per regione
Richieste di previsione online al minuto per base_model: gemini-1.5-pro Consulta Quote per regione e modello.
Se ricevi un errore relativo alle quote durante l'utilizzo del servizio di valutazione dell'IA generativa, potresti dover presentare una richiesta di aumento della quota. Per ulteriori informazioni, consulta Visualizzare e gestire le quote.
Limite Valore
Timeout della richiesta di servizio di valutazione dell'AI generativa 60 secondi
Gli utenti che utilizzano per la prima volta il servizio di valutazione dell'IA generativa in un nuovo progetto potrebbero riscontrare un ritardo iniziale di configurazione in genere fino a due minuti. Si tratta di un processo che viene eseguito una sola volta. Se la prima richiesta non va a buon fine, attendi qualche minuto e riprova. Le richieste di valutazione successive vengono in genere completate entro 60 secondi. I token di input e di output massimi sono limitati per le metriche basate su modello in base al modello utilizzato come autore automatico. Per i modelli pertinenti, consulta Informazioni sui modelli | IA generativa su Vertex AI | Google Cloud per i limiti.

Quote di valutazione della pipeline

Se ricevi un errore relativo alle quote durante l'utilizzo del servizio di pipeline di valutazione, potresti dover presentare una richiesta di aumento della quota. Per ulteriori informazioni, consulta Visualizzare e gestire le quote. Il servizio delle pipeline di valutazione utilizza Vertex AI Pipelines per eseguire PipelineJobs. Consulta le quote pertinenti per Vertex AI Pipelines. Di seguito sono riportati alcuni consigli generali sulle quote:
Servizio Quota Consiglio
API Vertex AI Job di previsione batch LLM simultanei per regione Su base punto: 1 * num_pipeline_concurrenti

In coppia: 2 * num_pipeline_concurrenti
API Vertex AI Richieste di valutazione al minuto per regione 1000 * num_concurrent_pipelines
Inoltre, durante il calcolo delle metriche di valutazione basate su modelli, l'autoreattore potrebbe riscontrare problemi di quota. La quota pertinente dipende dall'autoreattore utilizzato:
Tasks Quota Modello base Consiglio
summarization
question_answering
Richieste di previsione online per modello base al minuto per regione per base_model text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

Ogni job di ottimizzazione utilizza Vertex AI Pipelines. Per ulteriori informazioni, consulta Quote e limiti di Vertex AI Pipelines.

Vertex AI Reasoning Engine

Le seguenti quote e limiti si applicano al motore di ragionamento Vertex AI per un determinato progetto in ogni regione.
Quota Valore
Creazione/eliminazione/aggiornamento del motore di ragionamento al minuto 10
Motore di ragionamento Query/StreamQuery al minuto 60
Numero massimo di risorse del motore di ragionamento 100

Risolvere i problemi relativi al codice di errore 429

Per risolvere il problema relativo all'errore 429, consulta la sezione Codice di errore 429.

Passaggi successivi