Usa la capacidad de procesamiento aprovisionada

En esta página, se explica cómo funciona la capacidad de procesamiento aprovisionada, cómo controlar los excedentes u omitir la capacidad de procesamiento aprovisionada y cómo supervisar el uso.

Cómo funciona la capacidad de procesamiento aprovisionada

En esta sección, se explica cómo funciona la capacidad de procesamiento aprovisionada mediante la verificación de cuotas durante el período de aplicación de cuotas.

Verificación de la cuota de la capacidad de procesamiento aprovisionada

Tu cuota máxima de capacidad de procesamiento aprovisionada es un múltiplo de la cantidad de unidades de escalamiento de IA generativa (GSU) que compraste y la capacidad de procesamiento por GSU. Se verifica cada vez que realizas una solicitud dentro de tu período de aplicación de cuotas, que indica la frecuencia con la que se aplica la cuota máxima de rendimiento reservado.

En el momento en que se recibe una solicitud, se desconoce el tamaño real de la respuesta. Debido a que priorizamos la velocidad de respuesta para las aplicaciones en tiempo real, la capacidad de procesamiento aprovisionada estima el tamaño del token de salida. Si la estimación inicial supera la cuota máxima de capacidad de procesamiento aprovisionada disponible, la solicitud se procesa como pago por uso. De lo contrario, se procesa como capacidad de procesamiento aprovisionada. Para ello, se compara la estimación inicial con la cuota máxima de capacidad de procesamiento aprovisionada.

Cuando se genera la respuesta y se conoce el tamaño real del token de salida, se concilian el uso y la cuota reales agregando la diferencia entre la estimación y el uso real al importe disponible de la cuota de capacidad de procesamiento aprovisionada.

Período de aplicación de la cuota de la capacidad de procesamiento aprovisionada

En el caso de los modelos gemini-2.0-flash-lite y gemini-2.0-flash, el período de aplicación de la cuota puede tardar hasta 30 segundos y está sujeto a cambios. Esto significa que, en algunos casos, es posible que experimentes temporalmente tráfico prioritario que supere el importe de tu cuota por segundo, pero no deberías superar tu cuota por 30 segundos. El período de aplicación forzosa de la cuota para otros modelos puede tardar hasta un minuto. Estos períodos se basan en la hora del reloj interno de Vertex AI y son independientes del momento en que se realizan las solicitudes.

Por ejemplo, si compras una GSU de gemini-2.0-flash-001, deberías obtener 800 caracteres por segundo de capacidad de procesamiento siempre activa. En promedio, no puedes superar los 24,000 caracteres en un período de 30 segundos, que se calcula con esta fórmula:

800 characters per second * 30 seconds = 24,000 characters

Si enviaste una sola solicitud durante todo el día que consumió 1,600 caracteres en un segundo, es posible que aún se procese como una solicitud de capacidad de procesamiento aprovisionada, ya que aún está por debajo del umbral de 24,000 caracteres por 30 segundos, aunque superaste el límite de 800 caracteres por segundo en el momento de la solicitud.

Controla los excedentes o omite la capacidad de procesamiento aprovisionada

Usa la API para controlar los excedentes cuando superes la capacidad de procesamiento que compraste o para omitir la capacidad de procesamiento aprovisionada por solicitud.

Lee cada opción para determinar qué debes hacer para cumplir con tu caso de uso.

Comportamiento predeterminado

Si superas el importe de capacidad de procesamiento que compraste, los excedentes se facturan según demanda con la tarifa de pago por uso. Una vez que tu pedido de capacidad de procesamiento aprovisionada esté activo, el comportamiento predeterminado se realizará automáticamente. No es necesario que cambies tu código para comenzar a consumir tu pedido.

Usar solo la capacidad de procesamiento aprovisionada

Si administras los costos evitando los cargos on demand, usa solo la capacidad de procesamiento aprovisionada. Las solicitudes que superan el importe del pedido de rendimiento reservado muestran un error 429.

Cuando envíes solicitudes a la API, configura el encabezado HTTP X-Vertex-AI-LLM-Request-Type en dedicated.

Usar solo el pago por uso

Esto también se conoce como uso a pedido. Las solicitudes omiten el pedido de capacidad de procesamiento aprovisionada y se envían directamente al pago por uso. Esto puede ser útil para experimentos o aplicaciones que están en desarrollo.

Cuando envíes solicitudes a la API, establece el encabezado HTTP X-Vertex-AI-LLM-Request-Type en shared.

Ejemplo

Instalar

pip install --upgrade google-genai
Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.0-flash-001",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Supervisa la capacidad de procesamiento aprovisionada

Puedes supervisar por tu cuenta el uso de la capacidad de procesamiento aprovisionada con un conjunto de métricas que se miden en el tipo de recurso aiplatform.googleapis.com/PublisherModel.

La supervisión de tráfico de la capacidad de procesamiento aprovisionada es una función de versión preliminar pública.

Dimensiones

Puedes filtrar las métricas con las siguientes dimensiones:

Dimensión Valores
type input
output
request_type

dedicated: El tráfico se procesa con la capacidad de procesamiento aprovisionada.

shared: Si la capacidad de procesamiento aprovisionada está activa, el tráfico se procesa con el modelo de pago por uso de forma predeterminada si superas la cuota máxima de la capacidad de procesamiento aprovisionada o si usaste el encabezado HTTP shared.

Prefijo de ruta de acceso

El prefijo de ruta de una métrica es aiplatform.googleapis.com/publisher/online_serving.

Por ejemplo, la ruta de acceso completa de la métrica /consumed_throughput es aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Métricas

Las siguientes métricas de Cloud Monitoring están disponibles en el recurso aiplatform.googleapis.com/PublisherModel para los modelos de Gemini. Usa los tipos de solicitud dedicated para filtrar el uso de la capacidad de procesamiento aprovisionada.

Métrica Nombre visible Descripción
/dedicated_gsu_limit Límite (GSU) Límite dedicado en GSU Usa esta métrica para comprender la cuota máxima de capacidad de procesamiento aprovisionada en GSU.
/tokens Tokens Distribución del recuento de tokens de entrada y salida.
/token_count Recuento de tokens Cantidad acumulada de tokens de entrada y salida.
/consumed_token_throughput Capacidad de procesamiento de tokens Uso de la capacidad de procesamiento, que considera la tasa de consumo en tokens y que incorpora la conciliación de cuotas Consulta Verificación de la cuota de capacidad de procesamiento aprovisionada.

Usa esta métrica para comprender cómo se usó tu cuota de capacidad de procesamiento aprovisionada.
/dedicated_token_limit Límite (tokens por segundo) Es el límite dedicado en tokens por segundo. Usa esta métrica para comprender la cuota máxima de rendimiento aprovisionado para los modelos basados en tokens.
/characters Caracteres Distribución del recuento de caracteres de entrada y salida.
/character_count Recuento de caracteres Es el recuento acumulado de caracteres de entrada y salida.
/consumed_throughput Capacidad de procesamiento de caracteres El uso de la capacidad de procesamiento, que considera la tasa de consumo en caracteres y que incorpora la conciliación de cuotas Verificación de cuotas de capacidad de procesamiento aprovisionada

Usa esta métrica para comprender cómo se usó tu cuota de capacidad de procesamiento aprovisionada.

En el caso de los modelos basados en tokens, esta métrica equivale a la capacidad de procesamiento consumida en tokens multiplicada por 4.
/dedicated_character_limit Límite (caracteres por segundo) Es un límite dedicado en caracteres por segundo. Usa esta métrica para comprender la cuota máxima de rendimiento aprovisionado para los modelos basados en caracteres.
/model_invocation_count Recuento de invocaciones de modelos Cantidad de invocaciones de modelos (solicitudes de predicción).
/model_invocation_latencies Latencias de invocación de modelos Latencias de invocación del modelo (latencia de predicción)
/first_token_latencies Latencias del primer token Es la duración desde que se recibe la solicitud hasta que se muestra el primer token.

Los modelos antropicos también tienen un filtro para la capacidad de procesamiento aprovisionada, pero solo para tokens/token_count.

Paneles

Los paneles de supervisión predeterminados de la capacidad de procesamiento aprovisionada proporcionan métricas que te permiten comprender mejor tu uso y la utilización de la capacidad de procesamiento aprovisionada. Para acceder a los paneles, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Capacidad de procesamiento aprovisionada.

    Ir a Capacidad de procesamiento aprovisionada

  2. Para ver el uso de la capacidad de procesamiento aprovisionada de cada modelo en tus pedidos, selecciona la pestaña Resumen de uso.

  3. Selecciona un modelo de la tabla Utilización de la capacidad de procesamiento aprovisionada por modelo para ver más métricas específicas del modelo seleccionado.

Limitaciones del panel

Es posible que el panel muestre resultados que no esperabas, en especial si el tráfico es irregular. Los siguientes motivos pueden contribuir a esos resultados:

  • Los intervalos de tiempo superiores a 12 horas pueden generar una representación menos precisa del período de aplicación de la cuota. Las métricas de capacidad de procesamiento y sus derivados, como el uso, muestran promedios en los períodos de alineación que se basan en el período seleccionado. Cuando se expande el período, también se expande cada período de alineación. El período de alineación se expande durante el cálculo del uso promedio. Debido a que la aplicación forzosa de la cuota se calcula a un nivel inferior al minuto, establecer el intervalo de tiempo en un período de 12 horas o menos genera datos a nivel de minutos que son más comparables con el período real de aplicación forzosa de la cuota. Para obtener más información sobre los períodos de alineación, consulta Alineación: regularización dentro de la serie. Para obtener más información sobre los intervalos de tiempo, consulta Cómo regularizar los intervalos de tiempo.
  • Si se enviaron varias solicitudes al mismo tiempo, la supervisión de las agregaciones podría afectar tu capacidad para filtrar solicitudes específicas.
  • La capacidad de procesamiento aprovisionada limita el tráfico cuando se realiza una solicitud, pero informa las métricas de uso después de que se concilia la cuota.
  • Los períodos de aplicación forzosa de la cuota de capacidad de procesamiento aprovisionada son independientes y pueden no alinearse con los períodos de agregación de supervisión ni con los períodos de solicitud o respuesta.
  • Si no se produjo ningún error, es posible que veas un mensaje de error en el gráfico de porcentaje de errores. Por ejemplo, Se produjo un error cuando se solicitaban los datos. No se pudo encontrar uno o más recursos.

Alertas

Después de habilitar las alertas, configura alertas predeterminadas para ayudarte a administrar el uso del tráfico.

Habilitar alertas

Para habilitar las alertas en el panel, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Capacidad de procesamiento aprovisionada.

    Ir a Capacidad de procesamiento aprovisionada

  2. Para ver el uso de la capacidad de procesamiento aprovisionada de cada modelo en tus pedidos, selecciona la pestaña Resumen de uso.

  3. Selecciona Alertas recomendadas y se mostrarán las siguientes alertas:

    • Provisioned Throughput Usage Reached Limit
    • Provisioned Throughput Utilization Exceeded 80%
    • Provisioned Throughput Utilization Exceeded 90%
  4. Revisa las alertas que te ayudan a administrar tu tráfico.

Cómo ver más detalles de las alertas

Para obtener más información sobre las alertas, haz lo siguiente:

  1. Ve a la página Integraciones.

    Ir a Integraciones

  2. Ingresa vertex en el campo Filtrar y presiona Intro. Aparecerá Google Vertex AI.

  3. Para obtener más información, haz clic en Ver detalles. Se mostrará el panel Detalles de Google Vertex AI.

  4. Selecciona la pestaña Alertas y podrás elegir una plantilla de Política de alertas.

¿Qué sigue?