Calcula los requisitos de la capacidad de procesamiento aprovisionada

En esta sección, se explican los conceptos de unidad de escala de IA generativa (GSU) y tasas de consumo. La capacidad de procesamiento aprovisionada se calcula y se le asigna un precio con las unidades de escalamiento de IA generativa (GSU) y las tasas de consumo.

GSU y tasa de consumo

Una unidad de escalamiento de IA generativa (GSU) es una medida de la capacidad de procesamiento de tus instrucciones y respuestas. Este importe especifica la cantidad de rendimiento con la que se aprovisiona un modelo.

Una tasa de consumo es una proporción que convierte las unidades de entrada y salida (como tokens, caracteres o imágenes) en tokens de entrada por segundo, caracteres de entrada por segundo o imágenes de entrada por segundo, respectivamente. Esta proporción representa la productividad y se usa para producir una unidad estándar en todos los modelos.

Los diferentes modelos usan diferentes cantidades de capacidades de procesamiento. Para obtener información sobre el importe mínimo de compra de GSU y los incrementos para cada modelo, consulta Modelos compatibles y tasas de consumo en este documento.

Esta ecuación muestra cómo se calcula la capacidad de procesamiento:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

La capacidad de procesamiento calculada por segundo determina cuántas GSU necesitas para tu caso de uso.

Consideraciones importantes

Para ayudarte a planificar tus necesidades de capacidad de procesamiento aprovisionada, revisa las siguientes consideraciones importantes:

  • Las solicitudes se priorizan.

    Los clientes con el plan de rendimiento aprovisionado tienen prioridad y se les brinda asistencia primero que a las solicitudes on demand.

  • La capacidad de procesamiento no se acumula.

    La capacidad de procesamiento sin usar no se acumula ni se transfiere al mes siguiente.

  • La capacidad de procesamiento aprovisionada se mide en tokens por segundo, caracteres por segundo o imágenes por segundo.

    La capacidad de procesamiento aprovisionada no se mide únicamente en función de las consultas por minuto (QPM). Se mide en función del tamaño de la consulta de tu caso de uso, el tamaño de la respuesta y el QPM.

  • La capacidad de procesamiento aprovisionada es específica de un proyecto, una región, un modelo y una versión.

    La capacidad de procesamiento aprovisionada se asigna a una combinación específica de proyecto, región, modelo y versión. El mismo modelo llamado desde una región diferente no se tendrá en cuenta en tu cuota de rendimiento aprovisionado ni se priorizará sobre las solicitudes on demand.

Ejemplo de cómo estimar tus necesidades de capacidad de procesamiento aprovisionada

Para estimar tus necesidades de capacidad de procesamiento aprovisionada, usa la herramienta de estimación en la consola de Google Cloud. En el siguiente ejemplo, se ilustra el proceso para estimar la cantidad de rendimiento aprovisionado de tu modelo. La región no se considera en los cálculos de estimación.

En esta tabla, se proporcionan las tasas de agotamiento de gemini-2.0-flash que puedes usar para seguir el ejemplo.

Modelo Capacidad de procesamiento por GSU Unidades Incremento mínimo de compra de GSU Tasas de consumo
Gemini 2.0 Flash 3,360 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagen de entrada = 1 token
1 token de video de entrada = 1 token
1 token de audio de entrada = 7 tokens
1 token de texto de salida = 4 tokens
  1. Recopila tus requisitos.

    1. En este ejemplo, tu requisito es asegurarte de poder admitir 10 consultas por segundo (QPS) de una consulta con una entrada de 1,000 tokens de texto y 500 tokens de audio para recibir un resultado de 300 tokens de texto con gemini-2.0-flash.

      Este paso significa que comprendes tu caso de uso, ya que identificaste tu modelo, las QPS y el tamaño de tus entradas y salidas.

    2. Para calcular la capacidad de procesamiento, consulta las tasas de agotamiento del modelo que seleccionaste.

  2. Calcula tu capacidad de procesamiento.

    1. Multiplica tus entradas por las tasas de consumo para obtener el total de tokens de entrada:

      1,000*(1 token por token de texto de entrada) + 500*(7 tokens por token de audio de entrada) = 4,500 tokens de entrada ajustados por reducción por consulta.

    2. Multiplica tus resultados por las tasas de agotamiento para obtener el total de tokens de salida:

      300*(4 tokens por token de texto de salida) = 1,200 tokens de salida ajustados por reducción por consulta

    3. Suma los totales:

      4,500 tokens de entrada ajustados por agotamiento + 1,200 tokens de salida ajustados por agotamiento = 5,700 tokens totales por consulta

    4. Multiplica la cantidad total de tokens por las QPS para obtener la capacidad de procesamiento total por segundo:

      5,700 tokens totales por consulta × 10 QPS = 57,000 tokens totales por segundo

  3. Calcula tus GSU.

    1. Las GSU son la cantidad total de tokens por segundo dividida por la capacidad de procesamiento por segundo por GSU de la tabla de consumo.

      57,000 tokens totales por segundo ÷ 3,360 de capacidad de procesamiento por segundo por GSU = 16.96 GSU

    2. El incremento mínimo de compra de GSU para gemini-2.0-flash es de 1, por lo que necesitarás 17 GSU para asegurar tu carga de trabajo.

¿Qué sigue?