Qué debes tener en cuenta antes de comprar
Para ayudarte a decidir si deseas comprar la capacidad de procesamiento aprovisionada, considera lo siguiente:
No puedes cancelar tu pedido a mitad del plazo.
La compra de capacidad de procesamiento aprovisionada es un compromiso, lo que significa que no puedes cancelar el pedido durante el plazo. Sin embargo, puedes aumentar la cantidad de GSU compradas. Si compraste un compromiso por accidente o hay un problema con la configuración, comunícate con tuGoogle Cloud representante de cuenta para obtener ayuda.
Puedes renovar automáticamente la suscripción.
Cuando envíes tu pedido, podrás elegir renovar automáticamente la suscripción al final de su período de vigencia o dejar que la suscripción venza. Puedes cancelar el proceso de renovación automática. Para cancelar tu suscripción antes de que se renueve automáticamente, cancela la renovación automática 30 días antes del inicio del siguiente período de vigencia.
Puedes configurar las suscripciones mensuales para que se renueven automáticamente cada mes. Los términos semanales no admiten la renovación automática.
Para obtener más información, consulta Cómo cambiar el orden de la capacidad de procesamiento aprovisionada. También puedes comunicarte con tu Google Cloud representante de cuenta para obtener ayuda.
Puedes cambiar el comportamiento, el modelo, la versión del modelo o la región de la renovación automática con previo aviso.
Después de que elijas tu proyecto, región, modelo, versión del modelo y comportamiento de renovación automática, y se apruebe y active tu pedido, se habilitará la capacidad de procesamiento aprovisionada, sujeta a la capacidad disponible. Puedes cambiar el comportamiento de renovación automática, el modelo, la versión del modelo o la región modificando tu pedido existente de capacidad de procesamiento aprovisionada con la consola de Google Cloud .
Todos los cambios se procesan de la mejor manera posible y, por lo general, se completan en un plazo de 10 días hábiles a partir de la solicitud inicial.
Los cambios en el modelo se limitan a un publicador específico. Por ejemplo, puedes cambiar la asignación del modelo de capacidad de procesamiento aprovisionada de Google Gemini 2.0 Pro a Google Gemini 2.0 Flash, pero no puedes cambiar de Google Gemini 2.0 Flash a Claude 3.5 Sonnet v2 de Anthropic.
De forma predeterminada, el excedente se factura como pago por uso.
Si tu capacidad de procesamiento supera el importe de tu pedido de capacidad de procesamiento aprovisionada, los excedentes se procesan y facturan como pago por uso estándar. Puedes controlar los excedentes por solicitud. Para obtener más información, consulta Usa la capacidad de procesamiento aprovisionada.
Para obtener información sobre los precios, consulta Capacidad de procesamiento aprovisionada.
Compra capacidad de procesamiento aprovisionada para modelos de versión preliminar
Puedes comprar el procesamiento aprovisionado para los modelos de Google en versión preliminar, siempre que no se haya lanzado una versión del modelo con disponibilidad general.
Si tienes un pedido activo de capacidad de procesamiento aprovisionada para un modelo en versión preliminar y se lanza una versión del modelo disponible de forma general, puedes hacer cualquiera de las siguientes acciones:
Mueve el pedido a la versión de disponibilidad general del modelo. Ten en cuenta que, después de que cambies tu pedido al modelo disponible de forma general, no podrás volver a cambiarlo al modelo de versión preliminar. Para obtener más información sobre cómo cambiar un pedido, consulta Cómo cambiar un pedido de capacidad de procesamiento aprovisionada.
Como alternativa, puedes seguir usando la capacidad de procesamiento aprovisionada para la versión preliminar de un modelo siempre que esta sea estable. Para obtener más información sobre los modelos estables y retirados, consulta Versiones de modelo y ciclo de vida.
Funciones y permisos
El siguiente rol otorga acceso completo para administrar la capacidad de procesamiento aprovisionada de Vertex AI:
roles/aiplatform.provisionedThroughputAdmin
: Puedes acceder a los recursos de Vertex AI Provisioned Throughput.
Esta función incluye los siguientes permisos:
Permisos | Descripción |
---|---|
aiplatform.googleapis.com/provisionedThroughputs.create |
Envía un pedido nuevo de capacidad de procesamiento aprovisionada. |
aiplatform.googleapis.com/provisionedThroughputs.get |
Consulta un pedido específico de capacidad de procesamiento aprovisionada. |
aiplatform.googleapis.com/provisionedThroughputs.list |
Consulta todos los pedidos de capacidad de procesamiento aprovisionada. |
aiplatform.googleapis.com/provisionedThroughputs.update |
Modifica un pedido de capacidad de procesamiento aprovisionada. |
aiplatform.googleapis.com/provisionedThroughputs.cancel |
Cancelar un pedido o una actualización pendientes |
Cómo realizar un pedido de capacidad de procesamiento aprovisionada
Es posible que algunas funciones de Imagen no estén disponibles de forma pública. Para obtener más información, consulta Funciones de GA y vista previa restringidas.
Antes de realizar un pedido para usar MedLM-large-1.5, comunícate con tu Google Cloud representante de cuenta para solicitar acceso.
Si esperas que tu QPM supere los 30,000, para maximizar tu pedido de capacidad de procesamiento aprovisionada, solicita un ajuste de cuota para tu cuota de sistema predeterminada de Vertex AI con la siguiente información:
- Servicio: La API de Vertex AI
- Nombre:
Online prediction requests per minute per region
- Tipo de servicio: Es una cuota.
- Dimensiones: La región en la que solicitaste el uso de Capacidad de procesamiento aprovisionada.
- Valor: Es el límite de tráfico de predicción en línea que elegiste.
Los pedidos de capacidad de procesamiento aprovisionada se procesan según el tamaño del pedido y la capacidad disponible. Según la cantidad de GSU solicitadas y la capacidad disponible, el procesamiento del pedido puede tardar desde unos minutos hasta algunas semanas.
Sigue estos pasos para comprar capacidad de procesamiento aprovisionada:
Console
- En la consola de Google Cloud , ve a la página Capacidad de procesamiento aprovisionada.
- Para iniciar un pedido nuevo, haz clic en Nuevo pedido.
- Ingresa un Nombre de pedido.
- Selecciona el Modelo.
- Selecciona la Región.
Ingresa la cantidad de unidades de escalamiento de IA generativa (GSU) que debes comprar.
Opcional: Puedes usar la herramienta de estimación de la unidad de escalamiento de IA generativa para calcular la cantidad de GSU que necesitarás. Para usar esta herramienta, haz lo siguiente:
- Haz clic en Herramienta de estimación.
- Selecciona tu Modelo.
Según el modelo seleccionado, ingresa los detalles para estimar la cantidad de GSU necesarias.
En el caso de los modelos de Gemini 2.5, ingresa lo siguiente:
- Cantidad estimada de consultas por segundo que requieren garantía
- Tokens de texto de entrada por consulta
- Tokens de imagen de entrada por consulta
- Tokens de video de entrada por consulta
- Tokens de audio de entrada por búsqueda
- Tokens de texto de respuesta de resultado por consulta
- Tokens de texto de razonamiento de resultado por consulta
Para el modelo Gemini 2.5 Flash-Lite (versión preliminar), ingresa lo siguiente:
- Cantidad estimada de consultas por segundo que requieren garantía
- Tokens de texto de entrada por consulta
- Tokens de imagen de entrada por consulta
- Tokens de video de entrada por consulta
- Tokens de audio de entrada por búsqueda
- Tokens de texto de salida por consulta
En el caso de los modelos de Gemini 2.0, ingresa lo siguiente:
- Cantidad estimada de consultas por segundo que requieren garantía
- Tokens de entrada por consulta
- Tokens de imagen de entrada por consulta
- Tokens de video de entrada por consulta
- Tokens de audio de entrada por búsqueda
- Tokens de texto de salida por consulta
Para los modelos de Imagen, ingresa lo siguiente:
- Consultas por segundo
- Imágenes de salida por consulta
Si deseas usar los valores que ingresaste en la herramienta de estimación, haz clic en Usar los valores calculados.
Selecciona el Período. Ten en cuenta que las tarifas de plazo no se pueden cancelar hasta que termine el plazo y se aplicarán sin importar el uso real o si se descontinúa el modelo. Google recomienda cambiar el modelo asignado antes de la fecha de descontinuación. Google no cancelará de forma proactiva la renovación automática de los modelos descontinuados.
Las siguientes opciones están disponibles:
- 1 semana
- 1 mes
- 3 meses
- 1 año
Opcional: Selecciona la Fecha y hora de inicio de tu período (versión preliminar).
Puedes proporcionar una fecha y hora de inicio dentro de las dos semanas posteriores al momento en que realices el pedido. Si no especificas una fecha y hora de inicio, el pedido se procesará tan pronto como haya capacidad disponible. Las fechas y horas de inicio solicitadas se procesan en la medida de lo posible, y no se garantiza que los pedidos se completen en esas fechas hasta que se apruebe el estado del pedido (Approved).
Si la fecha de inicio solicitada es demasiado cercana a la fecha actual, es posible que tu pedido se apruebe y active después de la fecha de inicio solicitada. En este caso, la fecha de finalización se ajusta según la duración del período seleccionado, a partir de la fecha de activación. Para obtener información sobre cómo cancelar un pedido pendiente, consulta Cómo cambiar el pedido de capacidad de procesamiento aprovisionada.
En la lista Renovación, especifica si deseas renovar automáticamente el pedido al final del período. Solo puedes especificar la opción de renovación si seleccionas 1 mes, 3 meses o 1 año como plazo.
Haz clic en Continuar.
En la sección Resumen, revisa las estimaciones de precio y capacidad de procesamiento de tu pedido. Lee los términos que se indican y vinculan en el formulario.
Para finalizar el pedido, haz clic en Confirmar.
El procesamiento de un pedido puede tardar desde unos minutos hasta algunas semanas, según el tamaño del pedido y la capacidad disponible. Después de que se procese el pedido, su estado en la consola de Google Cloud cambiará aActivo. Solo se te facturará el pedido después de que se active.
Cómo cambiar el pedido de capacidad de procesamiento aprovisionada
En esta tabla, se describe cómo puedes modificar tus pedidos de capacidad de procesamiento aprovisionada a través de la consola deGoogle Cloud según el estado de tu pedido y las condiciones existentes. La modificación de pedidos es una función en versión preliminar y solo está disponible para los pedidos en línea realizados a través de la consola. Si deseas realizar cambios en los pedidos sin conexión, comunícate con tu Google Cloud representante de cuenta para obtener ayuda.
Además, los cambios que se realizan cuando se usa la consola de Google Cloud en tu modelo o versión del modelo modifican el pedido existente y mantienen la misma fecha de finalización de la suscripción.
Estado del pedido | Acción | Nota | Pasos en la consola de Google Cloud |
---|---|---|---|
Pendiente de revisión | Puedes cancelar tu pedido. |
Si tienes cambios adicionales en tu pedido, cancela el pedido pendiente y realiza uno nuevo. Si tienes varios modelos, cada uno puede tener solo una revisión de pedido pendiente o un pedido pendiente a la vez. |
Para cancelar tu pedido pendiente en la consola de Google Cloud , haz lo siguiente:
|
Fecha de aprobación | No puedes modificar tu pedido. | El pedido está pendiente de activación. No puedes realizar cambios en tu pedido en este momento. | No aplicable |
Activo |
Solo puedes realizar los siguientes cambios si el pedido no vence en los próximos cinco días o si se renueva automáticamente:
|
No puedes cambiar un pedido activo si vence en menos de cinco días y no está configurado para renovarse automáticamente. | Para cambiar tu pedido activo en la consola de Google Cloud , usa uno de los siguientes métodos:
|
Comprobar estado del pedido
Después de enviar tu pedido de capacidad de procesamiento aprovisionada, es posible que el estado del pedido aparezca como uno de los siguientes:
- Pendiente de revisión: Realizaste tu pedido. Como la aprobación depende de la capacidad disponible para aprovisionar tu pedido, este está en espera de revisión y aprobación. Para obtener más información sobre el estado de tu pedido pendiente, comunícate con tu representante de cuenta. Google Cloud
- Aprobado: Google aprobó tu pedido y este está a la espera de activación. No podrás realizar cambios después de que se apruebe el pedido.
- Activo: Google activó tu pedido y, luego, comenzó la facturación.
- Venció: Venció tu pedido.
Cómo ver pedidos de capacidad de procesamiento aprovisionada
Sigue estos pasos para ver tus pedidos de capacidad de procesamiento aprovisionada:
Console
- En la consola de Google Cloud , ve a la página Capacidad de procesamiento aprovisionada.
- Selecciona la Región. Aparecerá tu lista de pedidos.