En esta página se presentan dos formas de consumir servicios de IA generativa, se proporciona una lista de cuotas por región y modelo, y se explica cómo ver y editar tus cuotas en la Google Cloud consola.
Información general
Hay dos formas de consumir servicios de IA generativa. Puedes elegir el modelo de pago por uso (PayGo) o pagar por adelantado con Provisioned Throughput.
Si usas la modalidad de pago por uso, el uso que hagas de las funciones de IA generativa estará sujeto a uno de los siguientes sistemas de cuotas, en función del modelo que utilices:
- Los modelos anteriores a Gemini 2.0 usan un sistema de cuotas estándar para cada modelo de IA generativa con el fin de garantizar la equidad y reducir los picos en el uso y la disponibilidad de recursos. Las cuotas se aplican a las solicitudes de IA generativa en Vertex AI de un Google Cloud proyecto y una región admitidos.
- Los modelos más recientes usan la cuota compartida dinámica (DSQ), que distribuye de forma dinámica la capacidad de pago por uso disponible entre todos los clientes de un modelo y una región concretos, lo que elimina la necesidad de definir cuotas y enviar solicitudes para aumentar las cuotas. DSQ no tiene cuotas.
Para asegurarte de que tu aplicación tenga una alta disponibilidad y de que tus cargas de trabajo de producción tengan niveles de servicio predecibles, consulta Rendimiento aprovisionado.
Sistema de cuotas por modelo
Los siguientes modelos admiten la cuota compartida dinámica (DSQ):
- Versión preliminar de Gemini 2.5 Flash Image (versión preliminar)
- Gemini 2.5 Flash-Lite
- Gemini 2.0 Flash con la API Live (versión preliminar)
- Gemini 2.0 Flash con generación de imágenes (vista previa)
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Los siguientes modelos antiguos de Gemini admiten DSQ:
- Gemini 1.5 Pro
- Gemini 1.5 Flash
Los modelos de Gemini anteriores y los que no son de Gemini usan el sistema de cuotas estándar. Para obtener más información, consulta las cuotas y los límites de Vertex AI.
Cuotas de modelos ajustados
La inferencia del modelo ajustado comparte la misma cuota que el modelo base. No hay una cuota independiente para la inferencia de modelos ajustados.
Límites de inserción de texto
Cada solicitud puede tener hasta 250 textos de entrada (que generan una inserción por texto de entrada) y 20.000 tokens por solicitud. Solo se usan los primeros 2048 tokens de cada texto de entrada para calcular las inserciones. En el caso degemini-embedding-001
, la cuota se indica en el nombre gemini-embedding
.
Tokens de entrada de contenido insertado por minuto y por modelo base
A diferencia de los modelos de inserción anteriores, que estaban limitados principalmente por las cuotas de RPM, la cuota del modelo de inserción de Gemini limita el número de tokens que se pueden enviar por minuto y por proyecto.
Cuota | Valor |
---|---|
Tokens de entrada de contenido insertado por minuto | 5.000.000 |
Límites de Vertex AI Agent Engine
Se aplican los siguientes límites a Vertex AI Agent Engine en cada región de un proyecto determinado:Descripción | Límite |
---|---|
Crear, eliminar o actualizar Vertex AI Agent Engine por minuto | 10 |
Crear, eliminar o actualizar sesiones de Vertex AI Agent Engine por minuto | 100 |
Query o StreamQuery Vertex AI Agent Engine por minuto |
90 |
Añadir eventos a las sesiones de Vertex AI Agent Engine por minuto | 300 |
Número máximo de recursos de Vertex AI Agent Engine | 100 |
Crear, eliminar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto | 100 |
Obtener, enumerar o recuperar datos de Memory Bank de Vertex AI Agent Engine por minuto | 300 |
Solicitudes de ejecución por minuto del entorno de pruebas (ejecución de código) | 1000 |
Entidades de entorno aislado (ejecución de código) por región | 1000 |
Predicción por lotes
Las cuotas y los límites de los trabajos de inferencia por lotes son los mismos en todas las regiones.Límites de tareas de inferencia por lotes simultáneas para modelos de Gemini
No hay límites de cuota predefinidos para la inferencia por lotes de los modelos de Gemini. En su lugar, el servicio de lote proporciona acceso a un gran conjunto de recursos compartidos que se asignan dinámicamente en función de la disponibilidad en tiempo real del modelo y de la demanda de todos los clientes de ese modelo. Cuando haya más clientes activos y se sature la capacidad del modelo, es posible que tus solicitudes por lotes se pongan en cola por falta de capacidad.Cuotas de tareas de inferencia por lotes simultáneas para modelos que no son de Gemini
En la siguiente tabla se indican las cuotas del número de tareas de inferencia por lotes simultáneas, que no se aplican a los modelos de Gemini:Cuota | Valor |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Ver y editar las cuotas en la Google Cloud consola
Para ver y editar las cuotas en la Google Cloud consola, siga estos pasos:- Ve a la página Cuotas y límites del sistema.
- Para ajustar la cuota, copie y pegue la propiedad
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs
en el filtro. Pulsa Intro. - Haz clic en los tres puntos que hay al final de la fila y selecciona Editar cuota.
- Introduce un nuevo valor de cuota en el panel y haz clic en Enviar solicitud.
Ir a Cuotas y límites del sistema
Motor de RAG de Vertex AI
Para que cada servicio realice la generación aumentada de recuperación (RAG) con RAG Engine, se aplican las siguientes cuotas, que se miden como solicitudes por minuto (RPM).Servicio | Cuota | Métrica |
---|---|---|
APIs de gestión de datos de RAG Engine | 60 RPM | VertexRagDataService requests per minute per region |
RetrievalContexts API |
600 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1500 RPM | Online prediction requests per base model per minute per region per base_model Otro filtro que puede especificar es base_model: textembedding-gecko |
Servicio | Límite | Métrica |
---|---|---|
Solicitudes simultáneas de ImportRagFiles |
3 RPM | VertexRagService concurrent import requests per region |
Número máximo de archivos por solicitud ImportRagFiles |
10.000 | VertexRagService import rag files requests per region |
Para obtener más información sobre los límites de frecuencia y las cuotas, consulta los límites de frecuencia de la IA generativa en Vertex AI.
Servicio de evaluación de la IA generativa
El servicio de evaluación de IA generativa usagemini-2.0-flash
como modelo de juez predeterminado para las métricas basadas en modelos.
Una sola solicitud de evaluación de una métrica basada en modelos puede dar lugar a varias solicitudes subyacentes al servicio de evaluación de la IA generativa. La cuota de cada modelo se calcula por proyecto, lo que significa que las solicitudes dirigidas a gemini-2.0-flash
para la inferencia de modelos y la evaluación basada en modelos contribuyen a la cuota.
En la siguiente tabla se muestran las cuotas del servicio de evaluación de la IA generativa y del modelo de juez subyacente:
Solicitar cuota | Cuota predeterminada |
---|---|
Solicitudes del servicio de evaluación de la IA generativa por minuto | 1000 solicitudes por proyecto y región |
Solicitudes de predicción online por minuto parabase_model: gemini-2.0-flash |
Consulta las cuotas por región y modelo. |
Si recibes un error relacionado con las cuotas al usar el servicio de evaluación de IA generativa, es posible que tengas que enviar una solicitud de aumento de cuota. Para obtener más información, consulta Ver y gestionar cuotas.
Límite | Valor |
---|---|
Tiempo de espera de la solicitud del servicio de evaluación de la IA generativa | 60 segundos |
Cuando uses el servicio de evaluación de IA generativa por primera vez en un proyecto nuevo, puede que experimentes un retraso inicial de hasta dos minutos. Si la primera solicitud falla, espera unos minutos y vuelve a intentarlo. Las solicitudes de evaluación posteriores suelen completarse en un plazo de 60 segundos.
El número máximo de tokens de entrada y salida de las métricas basadas en modelos depende del modelo que se utilice como modelo de juez. Consulta los modelos de Google para ver una lista de modelos.
Cuotas de Vertex AI Pipelines
Cada tarea de ajuste usa Vertex AI Pipelines. Para obtener más información, consulta las cuotas y los límites de Vertex AI Pipelines.
Siguientes pasos
- Para obtener más información sobre la cuota compartida dinámica, consulta Cuota compartida dinámica.
- Para obtener información sobre las cuotas y los límites de Vertex AI, consulta Cuotas y límites de Vertex AI.
- Para obtener más información sobre las Google Cloud cuotas y los límites del sistema, consulta la documentación de cuotas de Cloud.