Calcula los requisitos de la capacidad de procesamiento aprovisionada

En esta sección, se explican los conceptos de unidad de escala de IA generativa (GSU) y tasas de consumo. La capacidad de procesamiento aprovisionada se calcula y se le asigna un precio con las unidades de escalamiento de IA generativa (GSU) y las tasas de consumo.

GSU y tasa de consumo

Una unidad de escalamiento de IA generativa (GSU) es una medida de la capacidad de procesamiento de tus instrucciones y respuestas. Este importe especifica la cantidad de capacidad de procesamiento que se debe aprovisionar para un modelo.

Una tasa de consumo es una proporción que convierte las unidades de entrada y salida (como tokens, caracteres o imágenes) en tokens de entrada por segundo, caracteres de entrada por segundo o imágenes de entrada por segundo, respectivamente. Esta proporción representa el rendimiento y se usa para producir una unidad estándar en todos los modelos.

Los diferentes modelos usan diferentes cantidades de capacidades de procesamiento. Para obtener información sobre el importe mínimo de compra de GSU y los incrementos para cada modelo, consulta Modelos compatibles y tasas de consumo en este documento.

En esta ecuación, se muestra cómo se calcula la capacidad de procesamiento:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

La capacidad de procesamiento calculada por segundo determina cuántas GSU necesitas para tu caso de uso.

Consideraciones importantes

Para ayudarte a planificar tus necesidades de capacidad de procesamiento aprovisionada, revisa las siguientes consideraciones importantes:

  • Las solicitudes se priorizan.

    Los clientes de capacidad de procesamiento aprovisionada tienen prioridad y se atienden primero antes de las solicitudes bajo demanda.

  • La capacidad de procesamiento no se acumula.

    La capacidad de procesamiento sin usar no se acumula ni se transfiere al mes siguiente.

  • La capacidad de procesamiento aprovisionada se mide en tokens por segundo, caracteres por segundo o imágenes por segundo.

    La capacidad de procesamiento aprovisionada no se mide solo en función de las consultas por minuto (QPM). Se mide en función del tamaño de la búsqueda para tu caso de uso, el tamaño de la respuesta y las QPM.

  • La capacidad de procesamiento aprovisionada es específica para un proyecto, una región, un modelo y una versión.

    La capacidad de procesamiento aprovisionada se asigna a una combinación específica de proyecto, región, modelo y versión. El mismo modelo llamado desde una región diferente no se tendrá en cuenta para tu cuota de capacidad de procesamiento aprovisionada y no se priorizará por sobre las solicitudes a pedido.

El almacenamiento de contexto en caché

La Capacidad de procesamiento aprovisionada admite el almacenamiento en caché de contexto predeterminado. Sin embargo, el procesamiento no admite solicitudes de almacenamiento en caché con la API de Vertex AI que incluyen la recuperación de información sobre una caché de contexto.

De forma predeterminada, Google almacena automáticamente en caché las entradas para reducir el costo y la latencia. En el caso de los modelos Gemini 2.5 Flash y Gemini 2.5 Pro, los tokens almacenados en caché se cobran con un descuento del 75% en relación con los tokens de entrada estándar cuando se produce un acierto de caché. En el caso de la capacidad de procesamiento aprovisionada, el descuento se aplica a través de una tasa de consumo reducida.

Por ejemplo, Gemini 2.5 Pro tiene las siguientes tasas de reducción para los tokens de texto de entrada y los tokens almacenados en caché:

  • 1 token de texto de entrada = 1 token

  • 1 token de texto almacenado en caché de entrada = 0.25 tokens

Si envías 1,000 tokens de entrada a este modelo, se reducirá tu capacidad de procesamiento aprovisionada en 1,000 tokens de entrada por segundo. Sin embargo, si envías 1,000 tokens almacenados en caché a Gemini 2.5 Pro, esto generará una reducción de tu capacidad de procesamiento aprovisionada de 250 tokens por segundo.

Ten en cuenta que esto puede generar un mayor rendimiento para las búsquedas similares en las que no se almacenan en caché los tokens y no se aplica el descuento de caché.

Para ver las tasas de consumo de los modelos compatibles con la capacidad de procesamiento aprovisionada, consulta Modelos compatibles y tasas de consumo.

Comprende el diagrama de burndown de la API de Live

El rendimiento aprovisionado es compatible con Gemini 2.5 Flash con la API de Live. Para comprender cómo calcular la reducción mientras usas la API de Live, consulta Cómo calcular el rendimiento de la API de Live.

Para obtener más información sobre el uso del rendimiento aprovisionado para Gemini 2.5 Flash con la API de Live, consulta Rendimiento aprovisionado para la API de Live.

Ejemplo para estimar tus necesidades de capacidad de procesamiento aprovisionada

Para estimar tus necesidades de capacidad de procesamiento aprovisionada, usa la herramienta de estimación en la consola de Google Cloud . En el siguiente ejemplo, se ilustra el proceso para estimar la cantidad de rendimiento aprovisionado de tu modelo. La región no se considera en los cálculos de estimación.

En esta tabla, se proporcionan las tasas de consumo para gemini-2.0-flash que puedes usar para seguir el ejemplo.

Modelo Capacidad de procesamiento por GSU Unidades Incremento mínimo de compra de GSU Tasas de consumo
Gemini 2.0 Flash 3,360 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagen de entrada = 1 token
1 token de video de entrada = 1 token
1 token de audio de entrada = 7 tokens
1 token de texto de salida = 4 tokens
  1. Reúne tus requisitos.

    1. En este ejemplo, tu requisito es verificar que puedes admitir 10 consultas por segundo (QPS) de una consulta con una entrada de 1,000 tokens de texto y 500 tokens de audio, para recibir una salida de 300 tokens de texto con gemini-2.0-flash.

      Este paso significa que comprendes tu caso de uso, ya que identificaste tu modelo, las QPS y el tamaño de tus entradas y salidas.

    2. Para calcular tu capacidad de procesamiento, consulta las tasas de reducción de tu modelo seleccionado.

  2. Calcula tu capacidad de procesamiento.

    1. Multiplica tus entradas por las tasas de consumo para obtener el total de tokens de entrada:

      1,000 (1 token por token de texto de entrada) + 500 (7 tokens por token de audio de entrada) = 4,500 tokens de entrada ajustados por burndown por consulta.

    2. Multiplica tus resultados por las tasas de reducción para obtener los tokens de salida totales:

      300 * (4 tokens por token de texto de salida) = 1,200 tokens de salida ajustados de reducción por consulta

    3. Suma los totales:

      4,500 tokens de entrada ajustados por reducción + 1,200 tokens de salida ajustados por reducción = 5,700 tokens totales por consulta

    4. Multiplica la cantidad total de tokens por las QPS para obtener la capacidad de procesamiento total por segundo:

      5,700 tokens totales por consulta × 10 QPS = 57,000 tokens totales por segundo

  3. Calcula tus GSU.

    1. Las GSU son la cantidad total de tokens por segundo dividida por la capacidad de procesamiento por segundo por GSU de la tabla de consumo.

      57,000 tokens totales por segundo ÷ 3,360 de capacidad de procesamiento por segundo por GSU = 16.96 GSUs

    2. El incremento mínimo de compra de GSU para gemini-2.0-flash es de 1, por lo que necesitarás 17 GSU para asegurar tu carga de trabajo.

¿Qué sigue?