Solicita Cloud TPUs con Flex-start
El inicio flexible para Cloud TPU, con tecnología de Dynamic Workload Scheduler, proporciona una forma flexible y rentable de acceder a los recursos de TPU para las cargas de trabajo de IA. Flex-start te permite aprovisionar TPU de forma dinámica según sea necesario, por hasta 7 días, sin reservas a largo plazo ni administración compleja de cuotas. Con el inicio flexible, envías una solicitud de aprovisionamiento de TPU que persiste hasta que la capacidad esté disponible. Una vez que estén disponibles, Flex-start aprovisiona las VMs de TPU para que se ejecuten durante el período que especificaste en tu solicitud.
El inicio flexible es adecuado para la experimentación rápida, las pruebas a pequeña escala, el aprovisionamiento dinámico de TPU para cargas de trabajo de inferencia, el ajuste de modelos y las ejecuciones de cargas de trabajo que tardan menos de 7 días. Para obtener más información sobre otras opciones de consumo de TPU, consulta Opciones de consumo de Cloud TPU.
Puedes borrar tus recursos de TPU en cualquier momento para detener la facturación. Para obtener más información sobre los precios de las TPU, consulta Precios de Cloud TPU.
Limitaciones
Las Cloud TPU de inicio flexible tienen las siguientes limitaciones:
- Puedes solicitar recursos de inicio flexible por un período de hasta 7 días.
- Flex-start admite las siguientes versiones y zonas de Cloud TPU:
- Debes usar la API de recursos en cola para usar el inicio flexible con Cloud TPU.
Antes de comenzar
Antes de solicitar TPU con inicio flexible, debes hacer lo siguiente:
- Instala Google Cloud CLI
- Crea un Google Cloud proyecto
- Habilita la API de Cloud TPU
Para obtener más información, consulta Configura el entorno de Cloud TPU.
También debes asegurarte de tener suficiente cuota de instancias interrumpibles para usar Flex-start. Si necesitas más núcleos de TPU que la cantidad que otorga la cuota predeterminada, debes solicitar una asignación de cuota más alta. Para obtener más información sobre los valores predeterminados y cómo solicitar más cuota, consulta Cuotas de Cloud TPU.
Solicita TPUs de inicio flexible
Flex-start usa la API de recursos en cola de TPU para solicitar recursos de TPU en cola. Cuando el recurso solicitado está disponible, se asigna a tu Google Cloud proyecto para tu uso exclusivo e inmediato. Después de la duración de ejecución solicitada, se borran las VMs de TPU y el recurso en cola pasa al estado SUSPENDED
. Para obtener más información sobre los recursos en cola, consulta Administra recursos en cola.
Para solicitar TPUs con inicio flexible, usa el comando gcloud alpha compute tpus queued-resources
create
con la marca --provisioning-model
establecida en flex-start
y la marca --max-run-duration
establecida en la duración durante la que deseas que se ejecuten tus TPUs.
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-id=NODE_ID \ --provisioning-model=flex-start \ --max-run-duration=RUN_DURATION
Reemplaza los siguientes marcadores de posición:
- QUEUED_RESOURCE_ID: Es un ID asignado por el usuario para la solicitud de recurso en cola.
- ZONE: Es la zona en la que se creará la VM de TPU.
- ACCELERATOR_TYPE: Especifica la versión y el tamaño de la Cloud TPU que se creará. Para obtener más información sobre los tipos de aceleradores compatibles con cada versión de TPU, consulta Versiones de TPU.
- RUNTIME_VERSION: Es la versión de software de la Cloud TPU.
- NODE_ID: Es un ID asignado por el usuario para la TPU que se crea cuando se asigna la solicitud de recurso en cola.
- RUN_DURATION: Es el tiempo durante el que deben ejecutarse las TPU. Formatea la duración en forma de la cantidad de días, horas, minutos y segundos seguidos de
d
,h
,m
ys
, respectivamente. Por ejemplo, especifica72h
para una duración de 72 horas o1d2h3m4s
para una duración de 1 día, 2 horas, 3 minutos y 4 segundos. La cantidad máxima es de 7 días.
Puedes personalizar aún más tu solicitud de recursos en cola para que se ejecute en momentos específicos con marcas adicionales:
--valid-after-duration
: Es la duración antes de la cual no se debe aprovisionar la TPU.--valid-after-time
: Es la fecha y hora antes de la cual no se debe aprovisionar la TPU.--valid-until-duration
: Es la duración durante la cual la solicitud es válida. Si la solicitud no se completó en este período, vencerá y pasará al estadoFAILED
.--valid-until-time
: Es el período para el que la solicitud es válida. Si la solicitud no se completó para ese momento, vencerá y pasará al estadoFAILED
.
Para obtener más información sobre las marcas opcionales, consulta la documentación de gcloud alpha compute tpus queued-resources
create
.
Obtén el estado de una solicitud de inicio flexible
Para supervisar el estado de tu solicitud de inicio flexible, usa la API de recursos en cola para obtener el estado de la solicitud de recursos en cola con el comando gcloud alpha compute tpus queued-resources describe
:
gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \ --zone ZONE
Un recurso en cola puede estar en uno de los siguientes estados:
WAITING_FOR_RESOURCES
: La solicitud pasó la validación inicial y se agregó a la cola.PROVISIONING
: Se seleccionó la solicitud de la cola y se están creando las VMs de TPU.ACTIVE
: Se completó la solicitud y las VMs de TPU están listas.FAILED
: No se pudo completar la solicitud. Usa el comandodescribe
para obtener más detalles.SUSPENDING
: Se están borrando los recursos asociados a la solicitud.SUSPENDED
: Se borraron los recursos asociados con la solicitud.
Para obtener más información, consulta Cómo recuperar información de diagnóstico y estado sobre una solicitud de recursos en cola.
Supervisa el tiempo de ejecución de las TPU de inicio flexible
Puedes supervisar el tiempo de ejecución de las TPU con inicio flexible verificando la marca de tiempo de finalización de la TPU:
- Obtén los detalles de tu solicitud de recursos en cola.
Elige una de las siguientes opciones según si se crearon tus TPU:
Si el recurso en cola está esperando recursos: En el resultado, consulta el campo
maxRunDuration
. Este campo especifica cuánto tiempo se ejecutarán las TPU una vez que se creen.Si se crearon las TPU asociadas con el recurso en cola: En el resultado, consulta el campo
terminationTimestamp
que se indica para cada nodo del recurso en cola. En este campo, se especifica cuándo se finalizará la TPU.
Borrar un recurso en cola
Puedes borrar una solicitud de recursos en cola y las TPU asociadas a la solicitud. Para ello, borra la solicitud de recursos en cola y pasa la marca --force
al comando queued-resources
delete
:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --force
Si borras la TPU directamente con el comando gcloud compute tpus tpu-vm delete
, también debes borrar el recurso en cola, como se muestra en el siguiente ejemplo.
Cuando borras la TPU, la solicitud de recurso en cola pasa al estado SUSPENDED
, después del cual puedes borrar la solicitud de recurso en cola.
Para borrar una TPU, usa el comando gcloud compute tpus tpu-vm
delete
:
gcloud compute tpus tpu-vm delete NODE_ID \ --zone ZONE
Luego, para borrar el recurso en cola, usa el comando gcloud alpha compute tpus queued-resources delete
:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --zone ZONE
Para obtener más información, consulta Cómo borrar una solicitud de recursos en cola.