La cuota compartida dinámica (DSQ) se introdujo para atender tus solicitudes de pago por uso (PayGo) con mayor flexibilidad para adaptarnos a tus necesidades de carga de trabajo sin tener que gestionar cuotas ni solicitudes de aumento de cuota (QIR). Con DSQ, no hay límites de cuota predefinidos para tu uso. En su lugar, DSQ proporciona acceso a un gran conjunto compartido de recursos, asignados dinámicamente en función de la disponibilidad de recursos en tiempo real y de la demanda en tiempo real de todos los clientes de ese modelo. Cuando hay más clientes activos, cada cliente obtiene una cantidad de rendimiento menor. Del mismo modo, si hay menos clientes, cada uno de ellos puede obtener un mayor rendimiento.
Modelos admitidos
Los siguientes modelos de Gemini y sus modelos ajustados con supervisión admiten DSQ:
- Versión preliminar de Gemini 2.5 Flash Image (versión preliminar)
- Gemini 2.5 Flash-Lite
- Gemini 2.0 Flash con la API Live (versión preliminar)
- Gemini 2.0 Flash con generación de imágenes (vista previa)
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Los siguientes modelos antiguos de Gemini admiten DSQ:
- Gemini 1.5 Pro
- Gemini 1.5 Flash
Los siguientes modelos de Imagen admiten DSQ:
- Imagen 4
- Imagen 4 Fast
- Imagen 4 Ultra
Cómo funciona DSQ
La cuota compartida dinámica se adapta a tus patrones y necesidades de tráfico, y minimiza los problemas de uso. El acceso de tu proyecto a los recursos de DSQ no está limitado por un número arbitrario que hayamos establecido. En su lugar, se determina en función de la capacidad general del grupo compartido y de la demanda colectiva actual de todos los clientes. Este modelo se ha diseñado para ofrecer una flexibilidad considerable, lo que permite que tus cargas de trabajo aumenten y consuman más recursos cuando estén disponibles. Por el contrario, también permite que todos los clientes del grupo compartido tengan la oportunidad de acceder a los recursos cuando estén disponibles sin tener que configurar una cuota por cliente.
Para ofrecer una experiencia justa y estable a todos los usuarios en el entorno de recursos compartidos, la cuota compartida dinámica gestiona de forma inteligente cómo se gestionan las solicitudes, especialmente durante los periodos de demanda muy alta de fuentes aisladas. En lugar de un límite fijo, DSQ emplea un enfoque de priorización dinámica. Esto significa que, aunque el sistema está diseñado para adaptarse a picos, los aumentos inusualmente grandes y rápidos del tráfico de una sola fuente pueden gestionarse con una prioridad diferente a la del tráfico más constante y estable. Esta gestión sofisticada asegura que la actividad general de los usuarios y las cargas de trabajo habituales estén protegidas frente a picos extremos y transitorios, lo que favorece la estabilidad general del sistema y un acceso equitativo.
Las solicitudes de Gemini con entradas multimodales están sujetas a los límites de frecuencia del sistema correspondientes, que incluyen imágenes, audio, vídeos y documentos.
Para asegurarte de que tu aplicación tenga una alta disponibilidad y de que tus cargas de trabajo de producción tengan niveles de servicio predecibles, consulta Rendimiento aprovisionado.
Información sobre los errores 429 por agotamiento de recursos en DSQ
Somos conscientes de que recibir un error 429 de "recurso agotado" puede ser frustrante y hacerte pensar que has alcanzado algún tipo de límite de cuota. Sin embargo, con DSQ no es así. Estos errores indican que el conjunto compartido de recursos de ese tipo específico (por ejemplo, un modelo concreto en una región específica) en un momento determinado está experimentando una demanda extremadamente alta por parte de muchos usuarios simultáneamente. Es como intentar subirte a un tren muy popular durante la hora punta. No hay un límite de billetes específico para ti, pero puede que el tren esté lleno en ese momento. Se trata de un estado temporal de contención de recursos, no de un límite fijo impuesto a tu proyecto.
DSQ trabaja constantemente para gestionar y distribuir la capacidad disponible de forma justa y eficiente. Cuando recibas este error, significa que la demanda instantánea ha superado la oferta disponible en ese grupo compartido. A diferencia de una cuota estricta, en la que se te bloquearía aunque los recursos estuvieran inactivos en otro lugar, DSQ tiene como objetivo darte acceso siempre que los recursos estén libres. El error de agotamiento refleja la carga actual de todo el sistema, no un límite de tu cuenta.
Te recomendamos que implementes mecanismos de reintento, ya que la disponibilidad en este entorno dinámico puede cambiar rápidamente. Para obtener más información sobre cómo gestionar los errores de agotamiento de recursos, consulta la guía para gestionar errores 429 o el código de error 429.
Siguientes pasos
- Para obtener información sobre las cuotas y los límites de Vertex AI, consulta Cuotas y límites de Vertex AI.
- Para obtener más información sobre las Google Cloud cuotas y los límites del sistema, consulta la documentación de cuotas de Cloud.