Límites de frecuencia de la IA generativa en Vertex AI

Google Cloud usa cuotas para garantizar la equidad y reducir los aumentos repentinos en el uso y la disponibilidad de los recursos. Una cuota restringe la cantidad de un recurso de Google Cloud que puede usar tu proyecto de Google Cloud. Las cuotas se aplican a una variedad de tipos de recursos, incluidos los componentes de hardware, software y red. Por ejemplo, las cuotas pueden restringir la cantidad de llamadas a la API para un servicio, la cantidad de balanceadores de cargas que se usan en simultáneo en tu proyecto o la cantidad de proyectos que puedes crear. Las cuotas protegen a la comunidad de usuarios de Google Cloud mediante la prevención de la sobrecarga de los servicios. También te ayudan a administrar tus propios recursos de Google Cloud.

El sistema de cuotas Cloud realiza las siguientes acciones:

  • Supervisa el consumo de productos y servicios de Google Cloud.
  • Restringe el consumo de esos recursos.
  • Proporciona un medio para solicitar cambios en el valor de la cuota.

En la mayoría de los casos, cuando intentas consumir más de lo que permite la cuota de un recurso, el sistema bloquea el acceso al recurso, y la tarea que intentas realizar falla.

Por lo general, las cuotas se aplican a nivel del proyecto de Google Cloud. El uso de un recurso en un proyecto no afecta tu cuota disponible en otro proyecto. Dentro de un proyecto de Google Cloud, las cuotas se comparten entre todas las aplicaciones y direcciones IP.

Cuotas por región y modelo

La cuota de consultas por minuto (QPM) se aplica a un modelo base y a todas las versiones, identificadores y versiones ajustadas de ese modelo. Por ejemplo, una solicitud a gemini-1.0-pro y una solicitud a gemini-1.0-pro-001 se cuentan como dos solicitudes a la cuota de RPM del modelo base, gemini-1.0-pro. Del mismo modo, una solicitud a gemini-1.0-pro-001 y gemini-1.0-pro-002 se cuenta como dos solicitudes a la cuota de RPM del modelo base, gemini-1.0-pro. Lo mismo se aplica a los modelos ajustados, por lo que una solicitud a gemini-1.0-pro-001 y un modelo ajustado basado en gemini-1.0-pro-001 llamado my-tuned-chat-model se cuentan como dos solicitudes para el modelo base, gemini-1.0-pro.

Las cuotas se aplican a las solicitudes de IA generativa en Vertex AI para un proyecto de Google Cloud determinado y una región compatible.

Para ver las cuotas en la consola de Google Cloud, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Cuotas de IAM y administración.

    Ver cuotas en la consola

  2. En el campo Filtro, especifica la dimensión o métrica.
Dimensión (identificador de modelo) Métrica (identificador de cuota para modelos de Gemini)
base_model: gemini-1.5-flash
base_model: gemini-1.5-pro
Puedes solicitar ajustes en los siguientes casos:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
  • aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model
Todos los demás modelos Solo puedes ajustar una cuota:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model

Elige una región para ver los límites de cuota de cada modelo disponible:

Límites de frecuencia

Se aplican los siguientes límites de frecuencia a los modelos enumerados en todas las regiones para la métrica, generate_content_input_tokens_per_minute_per_base_model:

Modelo base Tokens por minuto
base_model: gemini-1.5-flash 4M (4,000,000)
base_model: gemini-1.5-pro 4M (4,000,000)

Solicitudes por lotes

Las cuotas y los límites de las solicitudes por lotes son los mismos en todas las regiones.

Solicitudes por lotes simultáneas

En la siguiente tabla, se enumeran las cuotas de la cantidad de solicitudes por lotes simultáneas:

Cuota Valor
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/model_garden_oss_concurrent_batch_prediction_jobs 1
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs 1

Si la cantidad de tareas enviadas excede la cuota asignada, las tareas se colocan en una cola y se procesan cuando la capacidad de la cuota está disponible.

Límites de solicitudes por lotes

En la siguiente tabla, se muestra el límite de tamaño de cada solicitud de generación de texto por lotes.

Modelo Límite
gemini-1.5-pro 50,000 registros
gemini-1.5-flash 150,000 registros
gemini-1.0-pro 150,000 registros
gemini-1.0-pro-vision 50,000 registros

Cuotas de un modelo entrenado personalizado

Las siguientes cuotas se aplican a los modelos generativos de IA de Vertex AI para un proyecto y una región determinados:

Cuota Valor
Núcleos de pods de TPU V3 de entrenamiento de imagen restringido por región
*Región compatible: europe-west4
64
GPU Nvidia A100 de 80 GB de entrenamiento de imagen restringido por región
*Región compatible: us-central1
* Región compatible: us-east4

8
2

* Las situaciones de ajuste tienen reservas de aceleradores en regiones específicas. Las cuotas para el ajuste son compatibles y deben solicitarse en regiones específicas.

Cuotas de evaluación en línea

El servicio en línea de evaluación usa el modelo de Gemini 1.5 como evaluador automático con mecanismos e instrucciones IP de Google para garantizar una evaluación coherente y objetiva de las métricas basadas en modelos.

Una sola solicitud de evaluación para una métrica basada en modelos puede dar como resultado varias solicitudes subyacentes al servicio de predicción en línea. La cuota de cada modelo se calcula por proyecto, lo que significa que cualquier solicitud dirigida a Gemini 1.5 para la inferencia de modelo y la evaluación basada en modelos contribuyen a la cuota. Las distintas cuotas de modelos se configuran de manera diferente. La cuota del servicio de evaluación y la cuota del modelo de evaluador automático subyacente se muestran en la tabla.

Cuota de solicitudes Cuota predeterminada
Solicitudes de servicio de evaluación en línea por minuto 1,000 solicitudes por proyecto y por región
Solicitudes de predicción en línea por minuto para base_model: gemini-1.5-pro 1,600 solicitudes por proyecto por región

Si recibes un error relacionado con las cuotas mientras usas el servicio en línea de evaluación, es posible que debas presentar una solicitud de aumento de cuota. Consulta Ve y administra cuotas para obtener más información.

Límite Valor
Tiempo de espera de la solicitud del servicio de evaluación en línea 60 segundos

Los usuarios nuevos del servicio de evaluación en línea dentro de un proyecto nuevo pueden experimentar un retraso de configuración inicial de hasta dos minutos. Este es un proceso que solo deberá realizar una vez. Si tu primera solicitud falla, espera unos minutos y vuelve a intentarlo. Las solicitudes de evaluación posteriores suelen completarse en 60 segundos.

Los tokens de entrada y salida máximos están limitados para las métricas basadas en modelo según el modelo que se usa como evaluador automático. Consulta Información del modelo | IA generativa en Vertex AI | Google Cloud para conocer los límites de los modelos relevantes.

LlamaIndex en cuotas de Vertex AI para RAG

Las siguientes cuotas son para realizar la generación de aumento de recuperación (RAG) mediante LlamaIndex en Vertex AI:

Servicio Cuota
LlamaIndex en las APIs de administración de datos de Vertex AI 60 solicitudes por minuto (RPM)
API RetrievalContexts 1,500 RPM
base_model: textembedding-gecko 1,500 RPM
Solicitudes de predicción en línea 1 30,000 RPM
Transferencia de datos 1,000 archivos

1Esta cuota solo se aplica a los extremos públicos. Los extremos privados tienen solicitudes ilimitadas por minuto.

Cuotas de evaluación de canalizaciones

Si recibes un error relacionado con las cuotas mientras usas el servicio de canalizaciones de evaluación, es posible que debas presentar una solicitud de aumento de cuota. Consulta Ve y administra cuotas para obtener más información.

El servicio de canalizaciones de evaluación usa Vertex AI Pipelines para ejecutar PipelineJobs. Consulta las cuotas relevantes para Vertex AI Pipelines. Las siguientes son recomendaciones generales de cuota:

Servicio Cuota Recomendación
La API de Vertex AI Trabajos de predicción por lotes de LLM simultáneos por región Por puntos: 1 * num_concurrent_pipelines

Por pares: 2 * num_concurrent_pipelines
La API de Vertex AI Solicitudes de evaluación por minuto, por región 1,000 * num_concurrent_pipelines

Además, cuando se calculan las métricas de evaluación basadas en modelos, el evaluador automático puede alcanzar problemas de cuota. La cuota relevante depende del evaluador automático que se usó:

Tasks Cuota Modelo de base Recomendación
summarization
question_answering
Solicitudes de predicción en línea por modelo base por minuto, por región y por base_model text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

Cada trabajo de ajuste usa Vertex AI Pipelines. Para obtener más información, consulta Cuotas y límites de Vertex AI Pipelines.

Cuota compartida dinámica

Para los servicios que admiten cuotas compartidas dinámicas, Google Cloud distribuye la capacidad según demanda entre todas las consultas que se procesan. Esta función elimina la necesidad de enviar solicitudes de aumento de cuota (QIR).

Si deseas controlar los costos y evitar los excesos de presupuesto, puedes configurar una cuota autoimpuesta llamada anulación de cuota del consumidor. Si deseas obtener más información, consulta Crea una anulación de cuota del consumidor.

Si necesitas tráfico priorizado, usa la capacidad de procesamiento aprovisionada.

También puedes supervisar tu uso a través de Cuotas y límites del sistema en la consola de Google Cloud.

Para obtener información sobre los modelos que admiten la cuota compartida dinámica, consulta Usa los modelos de Claude de Anthropic.

Ejemplo de cómo funciona la cuota compartida dinámica

Google Cloud analiza la capacidad disponible en una región específica, como Norteamérica y, luego, observa cuántos clientes envían solicitudes. Considera el cliente A, que envía 25 consultas por minuto (QPM) y el cliente B, que envía 25 QPM. El servicio puede admitir 100 QPM. Si el cliente A aumenta la frecuencia de sus consultas a 75 QPM, la cuota compartida dinámica admite el aumento. Si el cliente A aumenta la frecuencia de sus consultas a 100 QPM, la cuota compartida dinámica limita al cliente A a 75 QPM para seguir entregando al cliente B a 25 QPM.

Para solucionar errores que pueden ocurrir con el uso de la cuota compartida dinámica, consulta Soluciona problemas de errores de cuota.

Código de error 429

Si la cantidad de solicitudes supera la capacidad asignada para procesar solicitudes, se muestra el código de error 429. En la siguiente tabla, se muestra el mensaje de error que genera cada tipo de framework de cuota:

Marco de trabajo de cuotas Mensaje
Pay-as-you-go Resource exhausted, please try again later.
Capacidad de procesamiento aprovisionada Too many requests. Exceeded the provisioned throughput.

Con una suscripción de capacidad de procesamiento aprovisionada, puedes reservar una cantidad de capacidad de procesamiento para modelos de IA generativa específicos. Si no tienes una suscripción a la capacidad de procesamiento aprovisionada y los recursos no están disponibles para tu aplicación, se muestra un código de error 429. Aunque no tengas capacidad reservada, puedes volver a enviar la solicitud. Sin embargo, la solicitud no se toma en cuenta en la tasa de error, como se describe en el Acuerdo de Nivel de Servicio (ANS).

En el caso de los proyectos que compraron el rendimiento aprovisionado, Vertex AI mide el rendimiento de un proyecto y reserva esa cantidad de rendimiento para que esté disponible. Cuando usas menos del importe de rendimiento comprado, los errores que, de otro modo, se mostrarían como 429 se muestran como 5XX y se registran como parte del porcentaje de errores que se describe en el ANS.

Pay-as-you-go

En el framework de cuota de prepago, tienes las siguientes opciones para resolver los errores 429:

Capacidad de procesamiento aprovisionada

Para corregir el error que genera la capacidad de procesamiento aprovisionada, haz lo siguiente:

  • Usa el ejemplo predeterminado, que no establece un encabezado en las solicitudes de predicción. Cualquier excedente se procesa a pedido y se factura como pago por uso.
  • Aumenta la cantidad de GSU en tu suscripción a la capacidad de procesamiento aprovisionada.

Aumentos de cuota

Si quieres aumentar tus cuotas para IA generativa en Vertex AI, puedes usar la consola de Google Cloud para solicitar un aumento de la cuota. Para obtener más información sobre las cuotas, consulta Trabaja con cuotas.

¿Qué sigue?