Opciones de consumo de Cloud TPU

En este documento, se proporciona una descripción de las opciones de consumo compatibles con Cloud TPU. Las opciones de consumo son los métodos que se usan para solicitar capacidad. Cuando elijas una opción de consumo, ten en cuenta los siguientes factores:

  • La rapidez con la que necesitas la capacidad
  • Cuánto tiempo necesitas la capacidad
  • Si necesitas capacidad para un período fijo o flexible
  • Si tu capacidad se puede adelantar
  • Precios

Si usas las APIs de Cloud TPU, para cada método de consumo, necesitas cuota según demanda o interrumpible para la cantidad de núcleos de Cloud TPU que deseas usar. Existen diferentes cuotas predeterminadas interrumpibles y bajo demanda para cada versión de TPU. Para obtener más información, consulta Cuotas de Cloud TPU.

Si usas TPUs con Google Kubernetes Engine (GKE), usas la cuota de la API de Compute Engine, que es una cuota diferente. Para obtener más información sobre las cuotas que usas para las TPU en GKE, consulta Asegúrate de tener cuota de TPU.

Opción de consumo Cómo funciona Mejor uso para Versiones y zonas de TPU compatibles Tipo de cuota para la API de Cloud TPU
Reservas a largo plazo

Solicitas recursos de TPU con anticipación por un año o más. Estos recursos se reservan para tu uso exclusivo durante ese período.

Las reservas proporcionan el nivel más alto de garantía de capacidad y son rentables, con un precio más bajo que los recursos bajo demanda.

Las reservas de TPU a largo plazo tienen un descuento por compromiso de uso (CUD) adjunto. Los CUD proporcionan precios con descuento a cambio de la compra de un contrato de compromiso de uso. Para obtener más información, consulta Cómo solicitar una reserva a largo plazo.

Las reservas a largo plazo son ideales para trabajos de entrenamiento de larga duración y cargas de trabajo de inferencia. Todas las versiones de TPU: Consulta Regiones y zonas de TPU Cuota a pedido
Reservas a corto plazo (reservas futuras en el modo de calendario) (Vista previa)

Solicitas recursos de TPU para una hora de inicio y una duración específicas, entre 1 y 90 días. Estos recursos se reservan para tu uso exclusivo durante ese período.

Las reservas proporcionan el nivel más alto de garantía de capacidad y son rentables, con un precio más bajo que los recursos bajo demanda.

Para obtener más información, consulta Cómo solicitar una reserva a corto plazo con el modo de calendario.

Las reservas a corto plazo son adecuadas para cargas de trabajo de entrenamiento y experimentación que requieren horas de inicio precisas y tienen una duración definida.

v6e (Trillium) para entrenamiento y servicio: asia-northeast1-b, us-east5-a

v5p para entrenamiento y servicio: us-east5-a

v5e para entrenamiento: us-west4-a

v5e para la inferencia: us-central1-a

No se requiere cuota
A pedido

Solicitas que se usen los recursos de TPU lo antes posible y durante el tiempo que desees.

La opción bajo demanda ofrece la mayor flexibilidad. Los recursos a pedido no se interrumpirán, pero no hay garantía de que haya suficientes recursos de TPU disponibles para satisfacer tu solicitud. A demanda es el valor predeterminado cuando creas recursos de TPU. Para obtener más información sobre cómo crear y usar TPU a pedido, consulta Administra recursos de TPU.

La opción On demand es adecuada para trabajos urgentes y cargas de trabajo que requieren una hora de finalización flexible. Todas las versiones de TPU: Consulta Regiones y zonas de TPU Cuota a pedido
Flex-start (Vista previa)

Solicitas recursos de TPU por un período específico, de hasta 7 días, sin necesidad de reservar capacidad con anticipación.

Los recursos de inicio flexible se entregan desde un grupo de capacidad exclusivo, por lo que la disponibilidad de estos recursos es mayor que la de los recursos a pedido. Para obtener más información sobre cómo usar Flex-start con TPU, consulta Cómo solicitar Cloud TPU con Flex-start.

Para obtener más información sobre el uso de Flex-start con Google Kubernetes Engine (GKE), consulta Acerca del aprovisionamiento de GPU y TPU con el modo de aprovisionamiento de inicio flexible.

Flex-start es ideal para la experimentación, las pruebas a pequeña escala, el aprovisionamiento dinámico de TPU para cargas de trabajo de inferencia, el ajuste de modelos y las ejecuciones de cargas de trabajo que tardan menos de 7 días.

v6e (Trillium): asia-northeast1-b, us-east5-a

v5p: us-east5-a

v5e: us-west4-a

Cuota de instancias interrumpibles
Spot

Solicitas recursos de TPU que podrían interrumpirse.

Las VMs Spot están disponibles a un precio mucho más bajo que los recursos a pedido. Las VMs Spot pueden ser más fáciles de obtener que los recursos a pedido, pero se pueden interrumpir (apagar) en cualquier momento. No hay límite en la duración del tiempo de ejecución. Para obtener más información sobre las VMs Spot de TPU, consulta Administra VMs Spot de TPU.

Spot es una buena opción para programar cargas de trabajo de menor prioridad, como el entrenamiento previo y el ajuste de modelos, y los trabajos de simulación que toleran las interrupciones de disponibilidad. Todas las versiones de TPU: Consulta Regiones y zonas de TPU Cuota de instancias interrumpibles

¿Qué sigue?

Comienza a usar las TPU con las siguientes opciones: