Se usó la API de Cloud Translation para traducir esta página.

Usa la capacidad de procesamiento aprovisionada

En esta página, se explica cómo funciona la capacidad de procesamiento aprovisionada, cómo controlar los excedentes o omitir la capacidad de procesamiento aprovisionada y cómo supervisar el uso.

Cómo funciona la capacidad de procesamiento aprovisionada

En esta sección, se explica cómo funciona la capacidad de procesamiento aprovisionada mediante la verificación de cuotas durante el período de aplicación forzosa de cuotas.

Verificación de la cuota de la capacidad de procesamiento aprovisionada

Tu cuota máxima de capacidad de procesamiento aprovisionada es un múltiplo de la cantidad de unidades de escalamiento de IA generativa (GSU) que compraste y la capacidad de procesamiento por GSU. Se verifica cada vez que realizas una solicitud dentro de tu período de aplicación de cuotas, que indica la frecuencia con la que se aplica la cuota máxima de rendimiento reservado.

En el momento en que se recibe una solicitud, se desconoce el tamaño real de la respuesta. Debido a que priorizamos la velocidad de respuesta para las aplicaciones en tiempo real, la capacidad de procesamiento aprovisionada estima el tamaño del token de salida. Si la estimación inicial supera la cuota máxima de capacidad de procesamiento aprovisionada disponible, la solicitud se procesa como pago por uso. De lo contrario, se procesa como capacidad de procesamiento aprovisionada. Para ello, se compara la estimación inicial con la cuota máxima de capacidad de procesamiento aprovisionada.

Cuando se genera la respuesta y se conoce el tamaño real del token de salida, se concilian el uso y la cuota reales agregando la diferencia entre la estimación y el uso real al importe disponible de la cuota de capacidad de procesamiento aprovisionada.

Período de aplicación de la cuota de la capacidad de procesamiento aprovisionada

En el caso de los modelos gemini-2.0-flash-lite y gemini-2.0-flash, el período de aplicación de la cuota puede tardar hasta 30 segundos y está sujeto a cambios. Esto significa que, en algunos casos, es posible que experimentes temporalmente tráfico prioritario que supere el importe de tu cuota por segundo, pero no deberías superar tu cuota por 30 segundos. Estos períodos se basan en la hora del reloj interno de Vertex AI y son independientes del momento en que se realizan las solicitudes.

Por ejemplo, si compras una GSU de gemini-2.0-flash-001, deberías obtener 3,360 tokens por segundo de capacidad de procesamiento siempre activa. En promedio, no puedes superar los 100,800 tokens por 30 segundos, que se calcula con la siguiente fórmula:

3,360 tokens per second * 30 seconds = 100,800 tokens

Si, en un día, enviaste solo una solicitud que consumió 8,000 tokens en un segundo, es posible que aún se procese como una solicitud de rendimiento reservado, a pesar de que superaste el límite de 3,360 tokens por segundo en el momento de la solicitud. Esto se debe a que la solicitud no superó el límite de 100,800 tokens por 30 segundos.

Controla los excedentes o omite la capacidad de procesamiento aprovisionada

Usa la API para controlar los excedentes cuando superes la capacidad de procesamiento que compraste o para omitir la capacidad de procesamiento aprovisionada por solicitud.

Lee cada opción para determinar qué debes hacer para cumplir con tu caso de uso.

Comportamiento predeterminado

Si superas el importe de capacidad de procesamiento que compraste, los excedentes se facturan según demanda con la tarifa de pago por uso. Una vez que tu pedido de capacidad de procesamiento aprovisionada esté activo, el comportamiento predeterminado se realizará automáticamente. No es necesario que cambies tu código para comenzar a consumir tu pedido.

Usa solo la capacidad de procesamiento aprovisionada

Si administras los costos evitando los cargos on demand, usa solo la capacidad de procesamiento aprovisionada. Las solicitudes que superan el importe del pedido de rendimiento reservado muestran un error 429.

Cuando envíes solicitudes a la API, configura el encabezado HTTP X-Vertex-AI-LLM-Request-Type en dedicated.

Usar solo el pago por uso

Esto también se conoce como uso a pedido. Las solicitudes omiten el pedido de capacidad de procesamiento aprovisionada y se envían directamente al pago por uso. Esto puede ser útil para experimentos o aplicaciones que están en desarrollo.

Cuando envíes solicitudes a la API, establece el encabezado HTTP X-Vertex-AI-LLM-Request-Type en shared.

Ejemplo

Gen AI SDK for Python

Instalar

pip install --upgrade google-genai

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

REST

Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Supervisa la capacidad de procesamiento aprovisionada

Puedes supervisar por tu cuenta el uso de la capacidad de procesamiento aprovisionada con un conjunto de métricas que se miden en el tipo de recurso aiplatform.googleapis.com/PublisherModel.

La supervisión de tráfico de la capacidad de procesamiento aprovisionada es una función de versión preliminar pública.

Dimensiones

Puedes filtrar las métricas con las siguientes dimensiones:

Dimensión Valores

type input
output

Dimensión	Valores
`type`	`input` `output`
`request_type`	`dedicated`: El tráfico se procesa con la capacidad de procesamiento aprovisionada. `spillover`: El tráfico se procesa como cuota de pago por uso después de que superas la cuota de rendimiento aprovisionado. `shared`: Si la capacidad de procesamiento aprovisionada está activa, el tráfico se procesa como cuota de pago por uso con el encabezado HTTP compartido. Si la capacidad de procesamiento aprovisionada no está activa, el tráfico se procesará como pago por uso de forma predeterminada.

request_type

dedicated: El tráfico se procesa con la capacidad de procesamiento aprovisionada.

spillover: El tráfico se procesa como cuota de pago por uso después de que superas la cuota de rendimiento aprovisionado.

shared: Si la capacidad de procesamiento aprovisionada está activa, el tráfico se procesa como cuota de pago por uso con el encabezado HTTP compartido. Si la capacidad de procesamiento aprovisionada no está activa, el tráfico se procesará como pago por uso de forma predeterminada.

Prefijo de ruta de acceso

El prefijo de ruta de una métrica es aiplatform.googleapis.com/publisher/online_serving.

Por ejemplo, la ruta de acceso completa de la métrica /consumed_throughput es aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Métricas

Las siguientes métricas de Cloud Monitoring están disponibles en el recurso aiplatform.googleapis.com/PublisherModel para los modelos de Gemini. Usa los tipos de solicitud dedicated para filtrar el uso de la capacidad de procesamiento aprovisionada.

Métrica	Nombre visible	Descripción
`/dedicated_gsu_limit`	Límite (GSU)	Límite dedicado en GSU Usa esta métrica para comprender la cuota máxima de capacidad de procesamiento aprovisionada en GSU.
`/tokens`	Tokens	Distribución del recuento de tokens de entrada y salida.
`/token_count`	Recuento de tokens	Cantidad acumulada de tokens de entrada y salida.
`/consumed_token_throughput`	Capacidad de procesamiento de tokens	Uso de la capacidad de procesamiento, que considera la tasa de consumo en tokens y que incorpora la conciliación de cuotas Consulta Verificación de la cuota de capacidad de procesamiento aprovisionada. Usa esta métrica para comprender cómo se usó tu cuota de capacidad de procesamiento aprovisionada.
`/dedicated_token_limit`	Límite (tokens por segundo)	Es el límite dedicado en tokens por segundo. Usa esta métrica para comprender la cuota máxima de rendimiento aprovisionado para los modelos basados en tokens.
`/characters`	Caracteres	Distribución del recuento de caracteres de entrada y salida.
`/character_count`	Recuento de caracteres	Es el recuento acumulado de caracteres de entrada y salida.
`/consumed_throughput`	Capacidad de procesamiento de caracteres	El uso de la capacidad de procesamiento, que considera la tasa de consumo en caracteres y que incorpora la conciliación de cuotas Verificación de cuotas de capacidad de procesamiento aprovisionada Usa esta métrica para comprender cómo se usó tu cuota de capacidad de procesamiento aprovisionada. En el caso de los modelos basados en tokens, esta métrica equivale a la capacidad de procesamiento consumida en tokens multiplicada por 4.
`/dedicated_character_limit`	Límite (caracteres por segundo)	Es un límite dedicado en caracteres por segundo. Usa esta métrica para comprender la cuota máxima de rendimiento aprovisionado para los modelos basados en caracteres.
`/model_invocation_count`	Recuento de invocaciones de modelos	Cantidad de invocaciones de modelos (solicitudes de predicción).
`/model_invocation_latencies`	Latencias de invocación de modelos	Latencias de invocación del modelo (latencia de predicción)
`/first_token_latencies`	Latencias del primer token	Es la duración desde que se recibe la solicitud hasta que se muestra el primer token.

Los modelos antropicos también tienen un filtro para la capacidad de procesamiento aprovisionada, pero solo para tokens/token_count.

Paneles

Los paneles de supervisión predeterminados de la capacidad de procesamiento aprovisionada proporcionan métricas que te permiten comprender mejor tu uso y la utilización de la capacidad de procesamiento aprovisionada. Para acceder a los paneles, haz lo siguiente:

En la consola de Google Cloud , ve a la página Capacidad de procesamiento aprovisionada.
Ir a Capacidad de procesamiento aprovisionada
Para ver el uso de la capacidad de procesamiento aprovisionada de cada modelo en tus pedidos, selecciona la pestaña Resumen de uso.
Selecciona un modelo de la tabla Utilización de la capacidad de procesamiento aprovisionada por modelo para ver más métricas específicas del modelo seleccionado.

Limitaciones del panel

Es posible que el panel muestre resultados inesperados, en especial para el tráfico fluctuante que sea irregular o poco frecuente (por ejemplo, menos de 1 consulta por segundo). Los siguientes motivos pueden contribuir a esos resultados:

Los intervalos de tiempo superiores a 12 horas pueden generar una representación menos precisa del período de aplicación de la cuota. Las métricas de capacidad de procesamiento y sus derivados, como el uso, muestran promedios en los períodos de alineación que se basan en el período seleccionado. Cuando se expande el período, también se expande cada período de alineación. El período de alineación se expande durante el cálculo del uso promedio. Debido a que la aplicación forzosa de la cuota se calcula a un nivel inferior al minuto, establecer el intervalo de tiempo en un período de 12 horas o menos genera datos a nivel de minutos que son más comparables con el período real de aplicación forzosa de la cuota. Para obtener más información sobre los períodos de alineación, consulta Alineación: regularización dentro de la serie. Para obtener más información sobre los intervalos de tiempo, consulta Cómo regularizar los intervalos de tiempo.
Si se enviaron varias solicitudes al mismo tiempo, las agregaciones de supervisión podrían afectar tu capacidad de filtrar solicitudes específicas.
La capacidad de procesamiento aprovisionada limita el tráfico cuando se realiza una solicitud, pero informa las métricas de uso después de que se concilia la cuota.
Los períodos de aplicación forzosa de la cuota de capacidad de procesamiento aprovisionada son independientes y pueden no alinearse con los períodos de agregación de supervisión ni con los períodos de solicitud o respuesta.
Si no se produjo ningún error, es posible que veas un mensaje de error en el gráfico de porcentaje de errores. Por ejemplo, Se produjo un error cuando se solicitaban los datos. No se pudieron encontrar uno o más recursos.

Alertas

Después de habilitar las alertas, configura alertas predeterminadas para ayudarte a administrar el uso del tráfico.

Habilitar alertas

Para habilitar las alertas en el panel, haz lo siguiente:

En la consola de Google Cloud , ve a la página Capacidad de procesamiento aprovisionada.
Ir a Capacidad de procesamiento aprovisionada
Para ver el uso de la capacidad de procesamiento aprovisionada de cada modelo en tus pedidos, selecciona la pestaña Resumen de uso.
Selecciona Alertas recomendadas y se mostrarán las siguientes alertas:
- Provisioned Throughput Usage Reached Limit
- Provisioned Throughput Utilization Exceeded 80%
- Provisioned Throughput Utilization Exceeded 90%
Revisa las alertas que te ayudan a administrar tu tráfico.

Cómo ver más detalles de las alertas

Para obtener más información sobre las alertas, haz lo siguiente:

Ve a la página Integraciones.
Ir a Integraciones
Ingresa vertex en el campo Filtrar y presiona Intro. Aparecerá Google Vertex AI.
Para obtener más información, haz clic en Ver detalles. Se mostrará el panel Detalles de Google Vertex AI.
Selecciona la pestaña Alertas y podrás elegir una plantilla de Política de alertas.

¿Qué sigue?

Soluciona el código de error 429.