Se introdujo la cuota compartida dinámica (DSQ) para atender tus solicitudes de prepago (PayGo) con mayor flexibilidad para adaptarse a las necesidades de tu carga de trabajo sin tener que administrar cuotas ni solicitudes de aumento de cuota (QIR). Con DSQ, no hay límites de cuota predefinidos para tu uso. En cambio, DSQ proporciona acceso a un gran grupo compartido de recursos, asignados de forma dinámica según la disponibilidad y la demanda en tiempo real de todos los clientes de ese modelo. Cuando hay más clientes activos, cada uno obtiene una menor cantidad de capacidad de procesamiento. Del mismo modo, si hay menos clientes, cada uno podría obtener un mayor rendimiento.
Modelos compatibles
Los siguientes modelos de Gemini y sus modelos ajustados de forma supervisada admiten DSQ:
- Gemini 2.5 Flash-Lite
Versión preliminar - Gemini 2.0 Flash con la API en vivo
Versión preliminar - Gemini 2.0 Flash con generación de imágenes
Versión preliminar - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Los siguientes modelos heredados de Gemini admiten DSQ:
- Gemini 1.5 Pro
- Gemini 1.5 Flash
Cómo funciona DSQ
La cuota compartida dinámica (DSQ) se adapta a tus patrones y necesidades de tráfico, y minimiza las fricciones de uso. El acceso de tu proyecto a los recursos de DSQ no está limitado por un número arbitrario que establecemos. En cambio, se determina según la capacidad general del grupo compartido y la demanda colectiva actual de todos los clientes. Este modelo está diseñado para ofrecer una flexibilidad significativa, lo que permite que tus cargas de trabajo aumenten y consuman más recursos cuando estén disponibles. Por el contrario, también permite que todos los clientes del grupo compartido tengan la oportunidad de acceder a los recursos cuando estén disponibles sin necesidad de configurar una cuota por cliente.
Para garantizar una experiencia justa y estable para todos los usuarios en el entorno de recursos compartidos, la cuota compartida dinámica administra de forma inteligente cómo se controlan las solicitudes, en especial durante los períodos de demanda muy alta de fuentes aisladas. En lugar de un límite fijo, DSQ emplea un enfoque de priorización dinámica. Esto significa que, si bien el sistema está diseñado para adaptarse a las ráfagas, los aumentos inusualmente grandes y rápidos en el tráfico de una sola fuente pueden manejarse con una prioridad diferente a la del tráfico más constante y estable. Esta administración sofisticada garantiza que la actividad general de los usuarios y las cargas de trabajo habituales estén protegidas de los picos extremos y transitorios, lo que promueve la estabilidad general del sistema y el acceso equitativo.
Las solicitudes a Gemini con entradas multimodales están sujetas a los límites de frecuencia del sistema correspondientes, que incluyen imágenes, audio, video y documentos.
Para garantizar la alta disponibilidad de tu aplicación y obtener niveles de servicio predecibles para tus cargas de trabajo de producción, consulta Capacidad de procesamiento aprovisionada.
Información sobre los errores 429 de agotamiento de recursos en DSQ
Entendemos que encontrarse con un error 429 de “recurso agotado” puede ser frustrante y hacer que sospeches que estás alcanzando algún tipo de límite de cuota. Sin embargo, con DSQ, no es así. Estos errores indican que el grupo compartido general de recursos para ese tipo específico (p.ej., un modelo en particular en una región específica) en un momento específico experimenta una demanda extremadamente alta de muchos usuarios simultáneamente. Piensa en ello como intentar subir a un tren muy popular durante la hora pico. No hay un "límite de boletos" específicamente para ti, pero es posible que el tren esté lleno por un momento. Es un estado temporal de contención de recursos, no un límite fijo impuesto en tu proyecto.
El DSQ trabaja constantemente para administrar y distribuir la capacidad disponible de manera justa y eficiente. Cuando recibes un error de este tipo, significa que la demanda instantánea superó la oferta disponible en ese grupo compartido. A diferencia de una cuota fija, en la que se te bloquearía incluso si los recursos estuvieran inactivos en otro lugar, el DSQ tiene como objetivo brindarte acceso siempre que los recursos estén disponibles. El error de agotamiento refleja la carga actual de todo el sistema, no un límite en tu cuenta.
Te recomendamos que implementes mecanismos de reintento, ya que la disponibilidad en este entorno dinámico puede cambiar rápidamente. Para obtener más información sobre las tácticas para controlar los errores de agotamiento de recursos, consulta Guía para controlar los errores 429 o Código de error 429.
¿Qué sigue?
- Para obtener información sobre las cuotas y los límites de Vertex AI, consulta Cuotas y límites de Vertex AI.
- Para obtener más información sobre las Google Cloud cuotas y los límites, consulta Comprende los valores de cuota y los límites del sistema.