Opciones de consumo de TPU de Cloud
En este documento se describen las opciones de consumo admitidas para las TPU de Cloud. Las opciones de consumo son los métodos que se usan para solicitar capacidad. A la hora de elegir una opción de consumo, ten en cuenta los siguientes factores:
- La rapidez con la que necesitas la capacidad
- Durante cuánto tiempo necesitas la capacidad
- Si necesitas capacidad durante un periodo fijo o flexible
- Si tu capacidad se puede usar de forma preventiva
- Precios
Si usas las APIs de TPU de Cloud, para cada método de consumo, necesitas una cuota bajo demanda o interrumpible para el número de núcleos de TPU de Cloud que quieras usar. Cada versión de TPU tiene cuotas predeterminadas diferentes para las TPUs bajo demanda y no garantizadas. Para obtener más información, consulta las cuotas de Cloud TPU.
Si usas TPUs con Google Kubernetes Engine (GKE), utilizas la cuota de la API Compute Engine, que es una cuota diferente. Para obtener más información sobre las cuotas que usas para las TPUs en GKE, consulta Asegúrate de tener cuota de TPU.
Opción de consumo | Cómo funciona | Usos recomendados | Versiones y zonas de TPU compatibles | Tipo de cuota de la API Cloud TPU |
---|---|---|---|---|
Reservas futuras de un año o más | Solicitas recursos de TPU con antelación durante un año o más. Estos recursos se reservan para tu uso exclusivo durante ese periodo. Las reservas ofrecen el mayor nivel de garantía de capacidad y son rentables, ya que tienen un precio más bajo que los recursos bajo demanda. Las reservas futuras de TPUs tienen un descuento por compromiso de uso (CUD). Los DUCs ofrecen precios con descuento a cambio de comprar un contrato por uso confirmado. Para obtener más información, consulta el artículo Solicitar una reserva futura de un año o más. |
Las reservas futuras de un año o más son ideales para tareas de entrenamiento de larga duración y cargas de trabajo de inferencia. | Todas las versiones de TPU: consulta Regiones y zonas de TPU. | Cuota bajo demanda |
Reservas futuras de hasta 90 días (en modo calendario) (Vista previa) | Solicitas recursos de TPU para una hora de inicio y una duración específicas, entre 1 y 90 días. Estos recursos se reservan para tu uso exclusivo durante ese periodo. Las reservas ofrecen el mayor nivel de garantía de capacidad y son rentables, ya que tienen un precio más bajo que los recursos bajo demanda. Para obtener más información, consulta Solicitar una reserva futura de hasta 90 días en el modo Calendario. |
Las reservas futuras en modo Calendario son adecuadas para cargas de trabajo de entrenamiento y experimentación que requieren horas de inicio precisas y tienen una duración definida. | v6e (Trillium) para entrenamiento y servicio: asia-northeast1-b, us-east5-a v5p para entrenamiento y servicio: us-east5-a v5e para entrenamiento: us-west4-a v5e para el servicio: us-central1-a |
No se requiere ninguna cuota |
Bajo demanda | Solicitas recursos de TPU para usarlos lo antes posible y durante el tiempo que quieras. La opción bajo demanda ofrece la mayor flexibilidad. Los recursos bajo demanda no se interrumpirán, pero no se garantiza que haya suficientes recursos de TPU disponibles para satisfacer tu solicitud. Bajo demanda es la opción predeterminada al crear recursos de TPU. Para obtener más información sobre cómo crear y usar las TPU bajo demanda, consulta el artículo Gestionar recursos de TPU. |
La opción bajo demanda es adecuada para tareas urgentes y cargas de trabajo que requieren una hora de finalización flexible. | Todas las versiones de TPU: consulta Regiones y zonas de TPU. | Cuota bajo demanda |
Flex-start (Vista previa) | Solicitas recursos de TPU durante un periodo específico (hasta 7 días) sin tener que reservar capacidad con antelación. Los recursos de inicio flexible se proporcionan desde un grupo de capacidad dedicado, por lo que la disponibilidad de estos recursos es mayor que la de los recursos bajo demanda. Para obtener más información sobre cómo usar Flex-start con las TPUs, consulta Solicitar TPUs de Cloud con Flex-start. Para obtener más información sobre cómo usar Flex-start con Google Kubernetes Engine (GKE), consulta Información sobre el aprovisionamiento de GPUs y TPUs con el modo de aprovisionamiento Flex-start. |
El inicio flexible es ideal para experimentos, pruebas a pequeña escala, aprovisionamiento dinámico de TPUs para cargas de trabajo de inferencia, ajuste de modelos y ejecuciones de cargas de trabajo que duren menos de 7 días. |
v6e (Trillium): asia-northeast1-b, us-east5-a v5p: us-east5-a v5e: us-west4-a |
Cuota de instancias interrumpibles |
Spot | Solicitas recursos de TPU que podrían interrumpirse. Las máquinas virtuales de acceso puntual están disponibles a un precio mucho más bajo que los recursos bajo demanda. Las máquinas virtuales de acceso puntual pueden ser más fáciles de obtener que los recursos bajo demanda, pero pueden interrumpirse (apagarse) en cualquier momento. No hay límite de duración de tiempo de ejecución. Para obtener más información sobre las VMs de acceso puntual de TPU, consulta Gestionar VMs de acceso puntual de TPU. |
Spot es una buena opción para programar cargas de trabajo de menor prioridad, como el preentrenamiento de modelos, el ajuste de modelos y las tareas de simulación que toleran las interrupciones de disponibilidad. | Todas las versiones de TPU: consulta Regiones y zonas de TPU. | Cuota de instancias interrumpibles |
Siguientes pasos
Para empezar a usar las TPUs, haz lo siguiente: