Capacidad de procesamiento aprovisionada

La capacidad de procesamiento aprovisionada es un servicio mediante suscripción mensual de costo fijo que reserva capacidad de procesamiento para modelos de IA generativa compatibles en Vertex AI. Para reservar tu capacidad de procesamiento, debes especificar el modelo y las ubicaciones disponibles en las que se ejecuta el modelo.

En esta página, se explica cuándo usar la capacidad de procesamiento aprovisionada, cómo funciona y cómo suscribirse.

Modelos compatibles

En las siguientes tablas, se muestran los modelos que admiten la capacidad de procesamiento aprovisionada, la capacidad de procesamiento para cada unidad de escala de IA generativa (GSU) y las tasas de consumo para cada modelo.

Modelos de Google

En esta tabla, se muestran las tasas de capacidad de procesamiento, incremento de compra y consumo para los modelos de Google que admiten la capacidad de procesamiento aprovisionada. Los modelos de Google se miden en caracteres por segundo, que se definen como la entrada de tu instrucción y los caracteres de salida de texto generados en todas las solicitudes por segundo.

Modelo Capacidad de procesamiento por GSU (caracteres/s) Aumento mínimo de compra de GSU Tasas de consumo
gemini-1.5-flash Ventana de contexto menor o igual que 128,000:
54,000

Ventana de contexto mayor que 128,000:
27,000
5 Ventana de contexto menor o igual que 128,000:
1 carácter de entrada = 1 carácter
1 carácter de salida = 4 caracteres
1 imagen = 1,067 caracteres
1 video por segundo = 1,067 caracteres
1 audio por segundo = 107 caracteres
Ventana de contexto mayor que 128,000:
1 carácter de entrada = 2 caracteres
1 carácter de salida = 8 caracteres
1 imagen = 2,134 caracteres
1 video por segundo = 2,134 caracteres
1 audio por segundo = 214 caracteres
gemini-1.5-pro 800 5 Ventana de contexto menor o igual que 128,000:
1 carácter de entrada = 1 carácter
1 carácter de salida = 3 caracteres
1 imagen = 1,052 caracteres
1 video por segundo = 1,052 caracteres
1 audio por segundo = 100 caracteres
Ventana de contexto mayor que 128,000:
1 carácter de entrada = 2 caracteres
1 carácter de salida = 6 caracteres
1 imagen = 2,104 caracteres
1 video por segundo = 2,104 caracteres
1 audio por segundo = 200 caracteres
gemini-1.0-pro 8,000 5 1 carácter de entrada = 1 carácter
1 carácter de salida = 3 caracteres
1 imagen = 20,000 caracteres
1 video por segundo = 16,000 caracteres
MedLM-medium 2,000 5 1 carácter de entrada = 1 caracter
1 carácter de salida = 2 caracteres
MedLM-large 200 5 1 carácter de entrada = 1 carácter
1 carácter de salida = 3 caracteres

Para obtener más información sobre las ubicaciones compatibles, consulta Ubicaciones disponibles.

Puedes actualizar a modelos nuevos a medida que estén disponibles. Para obtener información sobre las fechas de disponibilidad y descontinuación, consulta Modelos de Google.

Modelos heredados de Google

Consulta Modelos heredados que admiten capacidad de procesamiento aprovisionada.

Modelos de socios

En esta tabla, se muestran las tasas de rendimiento, incremento de compras y consumo para los modelos de socios que admiten la capacidad de procesamiento aprovisionada. Los modelos de Claude se miden en tokens por segundo, que se define como un total de tokens de entrada y salida en todas las solicitudes por segundo.

Modelo Capacidad de procesamiento por GSU (tokens/s) Aumento mínimo de compra de GSU Tasas de consumo
Anthropic Claude 3.5 Sonnet 350 25 1 token de entrada = 1 token
1 token de salida = 5 tokens
Anthropic Claude 3 Opus 70 35 1 token de entrada = 1 token
1 token de salida = 5 tokens
Anthropic Claude 3 Haiku 4,200 5 1 token de entrada = 1 token
1 token de salida = 5 tokens
Anthropic Claude 3 Sonnet 350 25 1 token de entrada = 1 token
1 token de salida = 5 tokens

Para obtener más información sobre las ubicaciones compatibles, consulta Ubicaciones disponibles.

Cuándo usar la capacidad de procesamiento aprovisionada

Si se cumple alguna de las siguientes consideraciones en tu caso de uso, considera usar la capacidad de procesamiento aprovisionada:

  • Tus cargas de trabajo críticas requieren una capacidad de procesamiento alta de forma coherente. La medición de la capacidad de procesamiento depende del modelo.
  • Estás compilando aplicaciones de producción de IA generativa en tiempo real, como chatbots y agentes.
  • Tu capacidad de procesamiento debe superar los 20,000 caracteres por segundo.
  • Deseas proporcionar una experiencia coherente y predecible a los usuarios de tus aplicaciones.
  • Deseas costos de IA generativa deterministas pagando un precio mensual fijo con control de los excedentes.

La capacidad de procesamiento aprovisionada es una de las dos formas de procesar la compra de consumible de tus modelos de IA generativa. La segunda forma es el pago por uso, que también se conoce como a pedido.

Cómo se mide la capacidad de procesamiento aprovisionada

En esta sección, se explican los conceptos de unidad de escala de IA generativa (GSU) y tasas de consumo. La capacidad de procesamiento aprovisionada se calcula y se le asigna un precio con las GSU y las tasas de consumo.

Una unidad de escala de IA generativa (GSU) es una medida de la capacidad de procesamiento de tus mensajes y respuestas. Esta cantidad especifica la capacidad de procesamiento con la que se aprovisionará un modelo.

Para producir una unidad estándar en los modelos, todas las entradas y salidas se convierten en caracteres de entrada por segundo (capacidad de procesamiento) mediante proporciones específicas del modelo llamadas tasas de consumo.

Los diferentes modelos usan diferentes cantidades de capacidades de procesamiento. Para obtener información sobre el importe mínimo de compra de GSU y los incrementos para cada modelo, consulta Modelos compatibles y tasas de consumo en este documento.

En esta ecuación, se muestra cómo se calcula la capacidad de procesamiento:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

La capacidad de procesamiento calculada por segundo determina cuántas GSU necesitas para tu caso de uso.

Ejemplo de estimación de tus necesidades de capacidad de procesamiento aprovisionada

Para estimar tus necesidades de capacidad de procesamiento aprovisionada, usa la herramienta de estimación en la consola de Google Cloud. En el siguiente ejemplo, se ilustra el proceso de estimación de la cantidad de capacidad de procesamiento aprovisionada para el modelo. La región no se considera en los cálculos de estimación.

  1. Cumple tus requisitos.

    1. En este ejemplo, tu requisito es asegurarte de poder enviar 2,000 caracteres con 2 imágenes y recibir 300 caracteres de salida para 10 consultas por segundo con gemini-1.5-flash.

      Este paso implica que comprendes tu caso de uso, ya que identificaste el tamaño de tus entradas y salidas, la cantidad de consultas por segundo (QPS) y tu modelo.

    2. Para estimar tu capacidad de procesamiento, especifica tu modelo. En este ejemplo, tu modelo es gemini-1.5-flash.

    3. Especifica el tipo de entrada y, luego, identifica el ritmo de consumo. Usa la tabla de tasas de consumo para identificar la tasa de consumo según el tipo de entrada.

      La tasa de consumo de una imagen para el modelo gemini-1.5-flash es de 1,067 caracteres.

  2. Calcula tu capacidad de procesamiento.

    1. Multiplica la cantidad de imágenes por la tasa de consumo del tipo de entrada de tu modelo específico.

      2 imágenes × 1,067 caracteres de entrada por imagen = 2,134 caracteres de entrada

    2. El total de caracteres de salida es de 300. Regresa a la tabla de tasas de consumo y busca la tasa de consumo de caracteres de salida (cuatro caracteres por carácter de salida) para tu modelo específico (gemini-1.5-flash).

      300 caracteres de salida * 4 caracteres por carácter de salida = 1,200 caracteres de entrada convertidos

    3. Suma los totales.

      2,000 caracteres de entrada + 2,134 caracteres de entrada convertidos para las imágenes + 1,200 caracteres de entrada convertidos para la salida = 5,334 caracteres de entrada convertidos por consulta

    4. Multiplica los caracteres por consulta por las consultas por segundo esperadas para obtener la capacidad de procesamiento total por segundo.

      5,334 caracteres de entrada convertidos por consulta × 10 QPS = 53,340 caracteres de entrada convertidos en total por segundo

  3. Calcula tus GSU.

    1. Las GSU son la capacidad de procesamiento total por segundo dividida por la capacidad de procesamiento por GSU de la tabla de consumo.

      53,340 caracteres de entrada convertidos en total por segundo ÷ 54,000 de capacidad de procesamiento por GSU = 0.988 GSU

    2. El incremento mínimo de compra de GSU para gemini-1.5-flash es de 5, que cumple con tu requisito.

Qué debes tener en cuenta antes de suscribirte

Para ayudarte a decidir si deseas suscribirte a la capacidad de procesamiento aprovisionada, revisa esta lista de detalles sobre la suscripción:

  • No puedes cancelar el pedido.

    La compra de la capacidad de procesamiento aprovisionada es un compromiso, lo que significa que no puedes cancelar el pedido. Sin embargo, puedes aumentar la cantidad de GSUs que compraste. Si compras un compromiso por accidente o hay un problema con la configuración, comunícate con tu representante de cuenta de Google Cloud para obtener asistencia.

  • Puedes renovar automáticamente la suscripción.

    Cuando envíes tu pedido, podrás elegir renovar automáticamente la suscripción al final de su período de vigencia o dejar que la suscripción venza. Puedes cancelar el proceso de renovación automática. Para cancelar tu suscripción antes de que se renueve automáticamente, cancela la renovación automática 30 días antes del inicio del siguiente período de vigencia.

    Si necesitas ayuda con este proceso, comunícate con tu representante de cuenta de Google Cloud.

  • Puedes cambiar la versión o región del modelo con previo aviso.

    La capacidad de procesamiento aprovisionada se habilita después de que elijas tu proyecto, región, modelo y versión. Puedes cambiar la versión del modelo dentro del mismo publicador del modelo o región con un aviso de 10 días hábiles si te comunicas con tu representante de cuenta de Google Cloud para obtener asistencia. Por ejemplo, puedes cambiar entre los modelos de Google. Puedes alternar entre los modelos del socio A. Puedes cambiar entre los modelos del socio B. No puedes cambiar entre los modelos de Google, del socio A y del socio B.

  • No hay tiempo de inactividad cuando cambias de la modalidad de pago por uso a la de capacidad de procesamiento aprovisionada.

    No hay tiempo de inactividad cuando cambias de modelo para un pedido de capacidad de procesamiento aprovisionada. Sin embargo, se requiere el tiempo de preparación para adquirir la capacidad de procesamiento.

  • De forma predeterminada, el excedente se factura como pago por uso.

    Si tu capacidad de procesamiento supera el importe del pedido de capacidad de procesamiento aprovisionada, los excedentes se procesan y facturan como pago por uso. Puedes controlar los excedentes por solicitud. Para obtener más información, consulta Usa la API de REST.

  • Las solicitudes se priorizan.

    Las solicitudes de los clientes de capacidad de procesamiento aprovisionada se priorizan y entregan antes que las solicitudes a pedido.

  • Debes comprometerte con un pago y un uso mínimo.

    El uso mínimo depende del modelo de IA generativa que selecciones. Cualquier uso que no sea la tasa de capacidad de procesamiento adquirida no está garantizado y se entrega según un esfuerzo razonable.

  • La capacidad de procesamiento no se acumula.

    La capacidad de procesamiento sin usar no se acumula ni se transfiere al mes siguiente.

  • La capacidad de procesamiento aprovisionada se mide en caracteres o tokens por segundo.

    La capacidad de procesamiento aprovisionada se mide en caracteres o tokens por segundo, no en consultas por minuto (QPM). Como resultado, medir la capacidad de procesamiento aprovisionada depende del tamaño de la consulta y el QPM de tu caso de uso.

Compra capacidad de procesamiento aprovisionada

En esta sección, se proporcionan los permisos que debes tener para colocar o ver un pedido de capacidad de procesamiento aprovisionada, y las instrucciones para colocar y ver tus pedidos.

Permisos

Para suscribirte a la capacidad de procesamiento aprovisionada, debes tener uno de los siguientes permisos asignados a tu proyecto, lo que te permite crear una lista de pedidos nuevos y realizarlos.

  • aiplatform.googleapis.com/provisionedThroughputAdmin: Es específico de la capacidad de procesamiento aprovisionada.
  • aiplatform.googleapis.com/admin: Otorga derechos administrativos a cada recurso en Vertex AI.

Este rol te permite solo mostrar tus pedidos:

  • aiplatform.googleapis.com/viewer

Cómo realizar un pedido de capacidad de procesamiento aprovisionada

Sigue estos pasos para comprar una suscripción a la capacidad de procesamiento aprovisionada:

Console

  1. En la consola de Google Cloud, ve a la página Capacidad de procesamiento aprovisionada.

    Ir a Capacidad de procesamiento aprovisionada

  2. Para comenzar un pedido nuevo, haz clic en Crear.
  3. Ingresa un Nombre de pedido.
  4. Selecciona el Modelo.
  5. Selecciona la Región.
  6. Ingresa la cantidad de unidades de escala de IA generativa (GSUs) que debes comprar. Si debes estimar la cantidad de GSU, haz clic en la herramienta de estimación.
    1. Selecciona tu Modelo.
    2. Ingresa la cantidad de consultas por segundo.
    3. Ingresa la cantidad de caracteres de entrada por consulta.
    4. Ingresa la cantidad de Imágenes de entrada por consulta.
    5. Ingresa la cantidad de segundos de video por consulta.
    6. Ingresa la cantidad de segundos de audio por consulta.
    7. Ingresa la cantidad de Caracteres de salida por consulta.
    8. Si deseas usar los valores que ingresaste en la herramienta de estimación, haz clic en Usar calculado.
  7. Selecciona el Plazo.
  8. Selecciona la opción Renovación.
  9. Haga clic en Continuar.
  10. En la sección Resumen, revisa las estimaciones de precio y capacidad de procesamiento de tu pedido. Lee las condiciones que aparecen y los vínculos en el formulario.
  11. Para finalizar el pedido, haz clic en Confirmar.

Comprobar estado del pedido

Después de enviar el pedido de capacidad de procesamiento aprovisionada, el estado del pedido puede aparecer como uno de los siguientes:

  • Pendiente de revisión: Realizaste tu pedido. Debido a que la aprobación depende de la capacidad disponible para aprovisionar tu pedido, este espera su revisión y aprobación. Para obtener más información sobre el estado del pedido pendiente, comunícate con tu representante de cuenta de Google Cloud.
  • Activo: Google aprobó y aprovisionó tu pedido, y comenzó la facturación.
  • Vencido: Tu pedido venció.

Ver pedidos de capacidad de procesamiento aprovisionada

Sigue estos pasos para ver tus pedidos de capacidad de procesamiento aprovisionada:

Console

  1. En la consola de Google Cloud, ve a la página Capacidad de procesamiento aprovisionada.

    Ir a Capacidad de procesamiento aprovisionada

  2. Selecciona la Región. Aparecerá su lista de pedidos.

Usa la capacidad de procesamiento aprovisionada

En esta sección, se explica cómo controlar los excedentes u omitir la capacidad de procesamiento aprovisionada y cómo supervisar su uso.

Controla los excesos o evita la capacidad de procesamiento aprovisionada

Usa la API de REST para controlar los excedentes cuando excedes la capacidad de procesamiento adquirida o para omitir la capacidad de procesamiento aprovisionada por solicitud.

Lee cada opción para determinar qué debes hacer para cumplir con tu caso práctico.

Comportamiento predeterminado

Si superas el importe de capacidad de procesamiento que compraste, los excedentes se transfieren a la demanda y se facturan a la tarifa de pago por uso. Una vez que el orden de la capacidad de procesamiento aprovisionada está activo, el comportamiento predeterminado se produce de forma automática. No es necesario que cambies el código para comenzar a consumir el pedido.

En este ejemplo de curl, se muestra el comportamiento predeterminado.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Usa solo la capacidad de procesamiento aprovisionada

Si administras los costos evitando los cargos bajo demanda, usa solo la capacidad de procesamiento aprovisionada. Las solicitudes que exceden el importe del pedido de capacidad de procesamiento aprovisionada muestran un error 429.

En este ejemplo de curl, se muestra cómo puedes usar la API de REST para usar solo tu suscripción a la capacidad de procesamiento aprovisionada, con los excedentes que muestran un error 429.

Configurar el encabezado X-Vertex-AI-LLM-Request-Type como dedicated.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Usa solo pago por uso

Esto también se conoce como uso a pedido. Las solicitudes omiten el orden de capacidad de procesamiento aprovisionada y se envían directamente a pago por uso. Esto puede ser útil para experimentos o aplicaciones que están en desarrollo.

En este ejemplo de curl, se muestra cómo puedes usar la API de REST para omitir la capacidad de procesamiento aprovisionada y usar solo el pago por uso.

Configurar el encabezado X-Vertex-AI-LLM-Request-Type como shared.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Supervisa la capacidad de procesamiento aprovisionada

Puedes supervisar el uso de la capacidad de procesamiento aprovisionada mediante métricas de supervisión y por solicitud.

Encabezados de respuesta

Si se procesó una solicitud con la capacidad de procesamiento aprovisionada, el siguiente encabezado HTTP está presente en la respuesta. Esta línea de código solo se aplica a la llamada a la API de generateContent.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

Métricas

La capacidad de procesamiento aprovisionada se puede supervisar mediante un conjunto de métricas que se miden en el tipo de recurso aiplatform.googleapis.com/PublisherModel. Cada métrica se puede filtrar en las siguientes dimensiones:

  • type: input, output
  • request_type: dedicated, shared

Para filtrar una métrica y ver el uso de la capacidad de procesamiento aprovisionada, usa el tipo de solicitud dedicated. El prefijo de la ruta de acceso para una métrica es aiplatform.googleapis.com/publisher/online_serving. Por ejemplo, la ruta de acceso completa de la métrica /consumed_throughput es aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Las siguientes métricas de Cloud Monitoring están disponibles en el recurso aiplatform.googleapis.com/PublisherModel:

Métrica Descripción Filtra el uso de la capacidad de procesamiento aprovisionada
/characters Distribución del recuento de caracteres de entrada y salida
/character_count Recuento acumulado de caracteres de entrada y salida
/consumed_throughput Tasa de capacidad de procesamiento consumida (considera la tasa de consumo) en caracteres
/model_invocation_count Cantidad de invocaciones del modelo (solicitudes de predicción)
/model_invocation_latencies Latencias de invocación del modelo (latencia de predicción)
/first_token_latencies Duración desde que se recibe la solicitud hasta que se muestra el primer token
/tokens Distribución del recuento de tokens de entrada y salida
/token_count Cantidad acumulada de tokens de entrada y salida

¿Qué sigue?