Información general sobre la capacidad de procesamiento reservada

En esta página se explica qué es el rendimiento aprovisionado y cuándo se debe usar.

Introducción a la capacidad de procesamiento reservada

El rendimiento aprovisionado es una suscripción de coste fijo y plazo fijo disponible en varios plazos que reserva el rendimiento para los modelos de IA generativa admitidos en Vertex AI. Para reservar el rendimiento, debes especificar el modelo y las ubicaciones disponibles en las que se ejecuta el modelo.

Cuándo usar Capacidad de procesamiento reservada

Si alguna de las siguientes consideraciones se aplica a tu caso práctico, plantéate usar Provisioned Throughput:

  • Estás creando aplicaciones de producción de IA generativa en tiempo real, como chatbots y agentes.
  • Tus cargas de trabajo críticas requieren un alto rendimiento de forma constante. El rendimiento se mide en función del modelo.
  • Quieres ofrecer una experiencia coherente y predecible a los usuarios de tus aplicaciones.
  • Quieres que los costes de la IA generativa sean deterministas pagando un precio mensual o semanal fijo y controlando los excesos.

El rendimiento aprovisionado es una de las dos formas de usar tus modelos de IA generativa. La segunda es la modalidad de pago por uso, también denominada bajo demanda.

Siguientes pasos