Cómo funciona la capacidad de procesamiento aprovisionada
En esta sección, se explica cómo funciona la capacidad de procesamiento aprovisionada mediante la verificación de cuotas durante el período de aplicación de cuotas.
Verificación de la cuota de la capacidad de procesamiento aprovisionada
Tu cuota máxima de capacidad de procesamiento aprovisionada es un múltiplo de la cantidad de unidades de escalamiento de IA generativa (GSU) que compraste y la capacidad de procesamiento por GSU. Se verifica cada vez que realizas una solicitud dentro de tu período de aplicación de cuotas, que indica la frecuencia con la que se aplica la cuota máxima de rendimiento reservado.
En el momento en que se recibe una solicitud, se desconoce el tamaño real de la respuesta. Debido a que priorizamos la velocidad de respuesta para las aplicaciones en tiempo real, la capacidad de procesamiento aprovisionada estima el tamaño del token de salida. Si la estimación inicial supera la cuota máxima de capacidad de procesamiento aprovisionada disponible, la solicitud se procesa como pago por uso. De lo contrario, se procesa como capacidad de procesamiento aprovisionada. Para ello, se compara la estimación inicial con la cuota máxima de capacidad de procesamiento aprovisionada.
Cuando se genera la respuesta y se conoce el tamaño real del token de salida, se concilian el uso y la cuota reales agregando la diferencia entre la estimación y el uso real al importe disponible de la cuota de capacidad de procesamiento aprovisionada.
Período de aplicación de la cuota de la capacidad de procesamiento aprovisionada
En el caso de los modelos gemini-2.0-flash-lite
y gemini-2.0-flash
, el período de aplicación de la cuota puede tardar hasta 30 segundos y está sujeto a cambios.
Esto significa que, en algunos casos, es posible que experimentes temporalmente tráfico prioritario que supere el importe de tu cuota por segundo, pero no deberías superar tu cuota por 30 segundos. El período de aplicación forzosa de la cuota para otros modelos puede tardar hasta un minuto. Estos períodos se basan en la hora del reloj interno de Vertex AI y son independientes del momento en que se realizan las solicitudes.
Por ejemplo, si compras una GSU de gemini-2.0-flash-001
, deberías obtener 800 caracteres por segundo de capacidad de procesamiento siempre activa. En promedio, no puedes superar los 24,000 caracteres en un período de 30 segundos, que se calcula con esta fórmula:
800 characters per second * 30 seconds = 24,000 characters
Si enviaste una sola solicitud durante todo el día que consumió 1,600 caracteres en un segundo, es posible que aún se procese como una solicitud de capacidad de procesamiento aprovisionada, ya que aún está por debajo del umbral de 24,000 caracteres por 30 segundos, aunque superaste el límite de 800 caracteres por segundo en el momento de la solicitud.
Controla los excedentes o omite la capacidad de procesamiento aprovisionada
Usa la API para controlar los excedentes cuando superes la capacidad de procesamiento que compraste o para omitir la capacidad de procesamiento aprovisionada por solicitud.
Lee cada opción para determinar qué debes hacer para cumplir con tu caso de uso.
Comportamiento predeterminado
Si superas el importe de capacidad de procesamiento que compraste, los excedentes se facturan según demanda con la tarifa de pago por uso. Una vez que tu pedido de capacidad de procesamiento aprovisionada esté activo, el comportamiento predeterminado se realizará automáticamente. No es necesario que cambies tu código para comenzar a consumir tu pedido.
Usar solo la capacidad de procesamiento aprovisionada
Si administras los costos evitando los cargos on demand, usa solo la capacidad de procesamiento aprovisionada. Las solicitudes que superan el importe del pedido de rendimiento reservado muestran un error 429
.
Cuando envíes solicitudes a la API, configura el encabezado HTTP X-Vertex-AI-LLM-Request-Type
en dedicated
.
Usar solo el pago por uso
Esto también se conoce como uso a pedido. Las solicitudes omiten el pedido de capacidad de procesamiento aprovisionada y se envían directamente al pago por uso. Esto puede ser útil para experimentos o aplicaciones que están en desarrollo.
Cuando envíes solicitudes a la API, establece el encabezado HTTP X-Vertex-AI-LLM-Request-Type
en shared
.
Ejemplo
Instalar
pip install --upgrade google-genai
Establece variables de entorno para usar el SDK de Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=us-central1 export GOOGLE_GENAI_USE_VERTEXAI=True
Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Supervisa la capacidad de procesamiento aprovisionada
Puedes supervisar por tu cuenta el uso de la capacidad de procesamiento aprovisionada con un conjunto de métricas que se miden en el tipo de recurso aiplatform.googleapis.com/PublisherModel
.
La supervisión de tráfico de la capacidad de procesamiento aprovisionada es una función de versión preliminar pública.
Dimensiones
Puedes filtrar las métricas con las siguientes dimensiones:
Dimensión | Valores |
---|---|
type |
input output |
request_type |
|
Prefijo de ruta de acceso
El prefijo de ruta de una métrica es aiplatform.googleapis.com/publisher/online_serving
.
Por ejemplo, la ruta de acceso completa de la métrica /consumed_throughput
es aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
.
Métricas
Las siguientes métricas de Cloud Monitoring están disponibles en el recurso aiplatform.googleapis.com/PublisherModel
para los modelos de Gemini. Usa los tipos de solicitud dedicated
para filtrar el uso de la capacidad de procesamiento aprovisionada.
Métrica | Nombre visible | Descripción |
---|---|---|
/dedicated_gsu_limit |
Límite (GSU) | Límite dedicado en GSU Usa esta métrica para comprender la cuota máxima de capacidad de procesamiento aprovisionada en GSU. |
/tokens |
Tokens | Distribución del recuento de tokens de entrada y salida. |
/token_count |
Recuento de tokens | Cantidad acumulada de tokens de entrada y salida. |
/consumed_token_throughput |
Capacidad de procesamiento de tokens | Uso de la capacidad de procesamiento, que considera la tasa de consumo en tokens y que incorpora la conciliación de cuotas Consulta Verificación de la cuota de capacidad de procesamiento aprovisionada. Usa esta métrica para comprender cómo se usó tu cuota de capacidad de procesamiento aprovisionada. |
/dedicated_token_limit |
Límite (tokens por segundo) | Es el límite dedicado en tokens por segundo. Usa esta métrica para comprender la cuota máxima de rendimiento aprovisionado para los modelos basados en tokens. |
/characters |
Caracteres | Distribución del recuento de caracteres de entrada y salida. |
/character_count |
Recuento de caracteres | Es el recuento acumulado de caracteres de entrada y salida. |
/consumed_throughput |
Capacidad de procesamiento de caracteres | El uso de la capacidad de procesamiento, que considera la tasa de consumo en caracteres y que incorpora la conciliación de cuotas Verificación de cuotas de capacidad de procesamiento aprovisionada Usa esta métrica para comprender cómo se usó tu cuota de capacidad de procesamiento aprovisionada. En el caso de los modelos basados en tokens, esta métrica equivale a la capacidad de procesamiento consumida en tokens multiplicada por 4. |
/dedicated_character_limit |
Límite (caracteres por segundo) | Es un límite dedicado en caracteres por segundo. Usa esta métrica para comprender la cuota máxima de rendimiento aprovisionado para los modelos basados en caracteres. |
/model_invocation_count |
Recuento de invocaciones de modelos | Cantidad de invocaciones de modelos (solicitudes de predicción). |
/model_invocation_latencies |
Latencias de invocación de modelos | Latencias de invocación del modelo (latencia de predicción) |
/first_token_latencies |
Latencias del primer token | Es la duración desde que se recibe la solicitud hasta que se muestra el primer token. |
Los modelos antropicos también tienen un filtro para la capacidad de procesamiento aprovisionada, pero solo para tokens/token_count
.
Paneles
Los paneles de supervisión predeterminados de la capacidad de procesamiento aprovisionada proporcionan métricas que te permiten comprender mejor tu uso y la utilización de la capacidad de procesamiento aprovisionada. Para acceder a los paneles, haz lo siguiente:
En la consola de Google Cloud, ve a la página Capacidad de procesamiento aprovisionada.
Para ver el uso de la capacidad de procesamiento aprovisionada de cada modelo en tus pedidos, selecciona la pestaña Resumen de uso.
Selecciona un modelo de la tabla Utilización de la capacidad de procesamiento aprovisionada por modelo para ver más métricas específicas del modelo seleccionado.
Limitaciones del panel
Es posible que el panel muestre resultados que no esperabas, en especial si el tráfico es irregular. Los siguientes motivos pueden contribuir a esos resultados:
- Los intervalos de tiempo superiores a 12 horas pueden generar una representación menos precisa del período de aplicación de la cuota. Las métricas de capacidad de procesamiento y sus derivados, como el uso, muestran promedios en los períodos de alineación que se basan en el período seleccionado. Cuando se expande el período, también se expande cada período de alineación. El período de alineación se expande durante el cálculo del uso promedio. Debido a que la aplicación forzosa de la cuota se calcula a un nivel inferior al minuto, establecer el intervalo de tiempo en un período de 12 horas o menos genera datos a nivel de minutos que son más comparables con el período real de aplicación forzosa de la cuota. Para obtener más información sobre los períodos de alineación, consulta Alineación: regularización dentro de la serie. Para obtener más información sobre los intervalos de tiempo, consulta Cómo regularizar los intervalos de tiempo.
- Si se enviaron varias solicitudes al mismo tiempo, la supervisión de las agregaciones podría afectar tu capacidad para filtrar solicitudes específicas.
- La capacidad de procesamiento aprovisionada limita el tráfico cuando se realiza una solicitud, pero informa las métricas de uso después de que se concilia la cuota.
- Los períodos de aplicación forzosa de la cuota de capacidad de procesamiento aprovisionada son independientes y pueden no alinearse con los períodos de agregación de supervisión ni con los períodos de solicitud o respuesta.
- Si no se produjo ningún error, es posible que veas un mensaje de error en el gráfico de porcentaje de errores. Por ejemplo, Se produjo un error cuando se solicitaban los datos. No se pudo encontrar uno o más recursos.
Alertas
Después de habilitar las alertas, configura alertas predeterminadas para ayudarte a administrar el uso del tráfico.
Habilitar alertas
Para habilitar las alertas en el panel, haz lo siguiente:
En la consola de Google Cloud, ve a la página Capacidad de procesamiento aprovisionada.
Para ver el uso de la capacidad de procesamiento aprovisionada de cada modelo en tus pedidos, selecciona la pestaña Resumen de uso.
Selecciona Alertas recomendadas y se mostrarán las siguientes alertas:
Provisioned Throughput Usage Reached Limit
Provisioned Throughput Utilization Exceeded 80%
Provisioned Throughput Utilization Exceeded 90%
Revisa las alertas que te ayudan a administrar tu tráfico.
Cómo ver más detalles de las alertas
Para obtener más información sobre las alertas, haz lo siguiente:
Ve a la página Integraciones.
Ingresa vertex en el campo Filtrar y presiona Intro. Aparecerá Google Vertex AI.
Para obtener más información, haz clic en Ver detalles. Se mostrará el panel Detalles de Google Vertex AI.
Selecciona la pestaña Alertas y podrás elegir una plantilla de Política de alertas.
¿Qué sigue?
- Soluciona el código de error
429
.