Cuotas y límites del sistema de IA generativa en Vertex AI

En esta página, se presentan dos formas de consumir servicios de IA generativa, se proporciona una lista de cuotas por región y modelo, y se muestra cómo ver y editar tus cuotas en la consola de Google Cloud.

Descripción general

Existen dos formas de consumir servicios de IA generativa. Puedes elegir el pago por uso (PayGo) o pagar por adelantado con el Throughput aprovisionado.

Si usas PayGo, el uso de las funciones de IA generativa está sujeto a uno de los siguientes sistemas de cuotas, según el modelo que uses:

  • Los modelos anteriores a Gemini 2.0 usan un sistema de cuotas estándar para cada modelo de IA generativa para garantizar la equidad y reducir los aumentos repentinos en el uso y la disponibilidad de los recursos. Las cuotas se aplican a las solicitudes de IA generativa en Vertex AI para un proyecto Google Cloud y una región compatibles.
  • Los modelos más nuevos usan la cuota compartida dinámica (DSQ), que distribuye de forma dinámica la capacidad de pago por uso disponible entre todos los clientes de un modelo y una región específicos, lo que elimina la necesidad de establecer cuotas y enviar solicitudes de aumento de cuota. No hay cuotas con DSQ.

Para garantizar la alta disponibilidad de tu aplicación y obtener niveles de servicio predecibles para tus cargas de trabajo de producción, consulta Capacidad de procesamiento aprovisionada.

Sistema de cuotas por modelo

Modelo Cuota
Gemini 2.0 Flash-Lite (gemini-2.0-flash-lite-001) Consulta Cuota compartida dinámica (DSQ).
Gemini 2.0 Flash (gemini-2.0-flash-001) Consulta Cuota compartida dinámica (DSQ).
Modelos de Gemini anteriores y que no son de Gemini Consulta el sistema de cuotas estándar, Cuotas y límites de Vertex AI.

Consulta y edita las cuotas en la consola de Google Cloud

Para ver y editar las cuotas en la consola de Google Cloud, haz lo siguiente:
  1. Ve a la página Cuotas y límites del sistema.
  2. Ir a Cuotas y límites del sistema

  3. Para ajustar la cuota, copia y pega la propiedad aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model en Filtro. Presiona Intro.
  4. Haz clic en los tres puntos al final de la fila y selecciona Editar cuota.
  5. Ingresa un nuevo valor de cuota en el panel y haz clic en Enviar solicitud.

¿Qué sigue?