Richiedere Cloud TPU utilizzando Flex-start
L'avvio flessibile per Cloud TPU, basato su Dynamic Workload Scheduler, offre un modo flessibile ed economico per accedere alle risorse TPU per i carichi di lavoro AI. L'avvio flessibile ti consente di eseguire il provisioning dinamico delle TPU in base alle esigenze, fino a 7 giorni, senza prenotazioni a lungo termine o gestione complessa delle quote. Con l'avvio flessibile, invii una richiesta di provisioning TPU che rimane fino a quando la capacità non diventa disponibile. Una volta disponibili, Flex-start esegue il provisioning delle VM TPU per la durata specificata nella richiesta.
L'avvio flessibile è ideale per esperimenti rapidi, test su piccola scala, provisioning dinamico di TPU per carichi di lavoro di inferenza, perfezionamento del modello ed esecuzioni di carichi di lavoro che richiedono meno di 7 giorni. Per saperne di più sulle altre opzioni di consumo di TPU, consulta la sezione Opzioni di consumo di Cloud TPU.
Puoi eliminare le risorse TPU in qualsiasi momento per interrompere la fatturazione. Per ulteriori informazioni sui prezzi delle TPU, consulta la pagina Prezzi di Cloud TPU.
Limitazioni
Le TPU flessibili presentano le seguenti limitazioni:
- Puoi richiedere risorse con inizio flessibile per una durata massima di 7 giorni.
- L'avvio flessibile supporta le seguenti versioni e zone di Cloud TPU:
- Per utilizzare l'avvio flessibile con Cloud TPU, devi utilizzare l'API per le risorse in coda.
Prima di iniziare
Prima di richiedere TPU con avvio flessibile, devi:
- Installa Google Cloud CLI
- Crea un progetto Google Cloud
- Abilita l'API Cloud TPU
Per saperne di più, vedi Configurare l'ambiente Cloud TPU.
Devi anche assicurarti di disporre di una quota preemptive sufficiente per utilizzare Flex-start. Se hai bisogno di più core TPU rispetto alla quantità concessa dalla quota predefinita, devi richiedere un'allocazione di quota più elevata. Per ulteriori informazioni sui valori predefiniti e sulla richiesta di quote aggiuntive, consulta la sezione Quote di Cloud TPU.
Richiedere TPU con avvio flessibile
L'avvio flessibile utilizza l'API TPU queued resources per richiedere risorse TPU in modo
in coda. Quando la risorsa richiesta diventa disponibile, viene assegnata al tuo progetto Google Cloud per un utilizzo esclusivo e immediato. Al termine della durata di esecuzione richiesta, le VM TPU vengono eliminate e la risorsa in coda passa allo stato SUSPENDED
. Per ulteriori informazioni sulle risorse in coda, vedi Gestire le risorse in coda.
Per richiedere TPU con avvio flessibile, utilizza il comando gcloud alpha compute tpus queued-resources
create
con il flag --provisioning-model
impostato su flex-start
e il flag --max-run-duration
impostato sulla durata di esecuzione delle TPU.
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-id=NODE_ID \ --provisioning-model=flex-start \ --max-run-duration=RUN_DURATION
Sostituisci i seguenti segnaposto:
- QUEUED_RESOURCE_ID: un ID assegnato dall'utente per la richiesta di risorse in coda.
- ZONE: la zona in cui creare la VM TPU.
- ACCELERATOR_TYPE: specifica la versione e le dimensioni della Cloud TPU da creare. Per ulteriori informazioni sui tipi di acceleratore supportati per ogni versione di TPU, consulta Versioni di TPU.
- RUNTIME_VERSION: la versione del software Cloud TPU.
- NODE_ID: un ID assegnato dall'utente per la TPU creata quando viene allocata la richiesta di risorsa in coda.
- RUN_DURATION: per quanto tempo devono essere eseguite le TPU. Formatta la durata
come numero di giorni, ore, minuti e secondi seguiti rispettivamente da
d
,h
,m
es
. Ad esempio, specifica72h
per una durata di 72 ore o1d2h3m4s
per una durata di 1 giorno, 2 ore, 3 minuti e 4 secondi. Il periodo di tempo massimo è 7 giorni.
Puoi personalizzare ulteriormente la richiesta di risorse in coda per l'esecuzione in orari specifici con flag aggiuntivi:
--valid-after-duration
: la durata prima della quale la TPU non deve essere provisionata.--valid-after-time
: l'ora prima della quale non deve essere eseguito il provisioning della TPU.--valid-until-duration
: la durata di validità della richiesta. Se la richiesta non è stata soddisfatta entro questo periodo di tempo, scade e passa allo statoFAILED
.--valid-until-time
: il periodo di validità della richiesta. Se la richiesta non è stata soddisfatta entro questo orario, scade e passa allo statoFAILED
.
Per saperne di più sui flag facoltativi, consulta la documentazione di
gcloud alpha compute tpus queued-resources
create
.
Ottenere lo stato di una richiesta di avvio flessibile
Per monitorare lo stato della richiesta di avvio flessibile, utilizza l'API delle risorse in coda
per ottenere lo stato della richiesta di risorse in coda utilizzando il comando
gcloud alpha compute tpus queued-resources describe
:
gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \ --zone ZONE
Una risorsa in coda può avere uno dei seguenti stati:
WAITING_FOR_RESOURCES
: La richiesta ha superato la convalida iniziale ed è stata aggiunta alla coda.PROVISIONING
: La richiesta è stata selezionata dalla coda e le VM TPU sono in fase di creazione.ACTIVE
: la richiesta è stata soddisfatta e le VM TPU sono pronte.FAILED
: impossibile completare la richiesta. Utilizza il comandodescribe
per maggiori dettagli.SUSPENDING
: Le risorse associate alla richiesta sono in fase di eliminazione.SUSPENDED
: le risorse associate alla richiesta sono state eliminate.
Per saperne di più, consulta Recuperare lo stato e le informazioni diagnostiche di una richiesta di risorse in coda.
Monitora il tempo di esecuzione delle TPU con avvio flessibile
Puoi monitorare il tempo di esecuzione delle TPU con avvio flessibile controllando il timestamp di terminazione della TPU:
- Visualizza i dettagli della richiesta di risorse in coda.
Scegli una delle seguenti opzioni a seconda che le TPU siano state create:
Se la risorsa in coda è in attesa di risorse: nell'output, visualizza il campo
maxRunDuration
. Questo campo specifica la durata di esecuzione delle TPU una volta create.Se le TPU associate alla risorsa in coda sono state create: nell'output, visualizza il campo
terminationTimestamp
elencato per ogni nodo nella risorsa in coda. Questo campo specifica quando verrà terminata la TPU.
Elimina una risorsa in coda
Puoi eliminare una richiesta di risorse in coda e le TPU associate alla
richiesta eliminando la richiesta di risorse in coda e passando il flag --force
al comando queued-resources
delete
:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --force
Se elimini la TPU direttamente utilizzando il comando gcloud compute tpus tpu-vm delete
,
devi eliminare anche la risorsa in coda, come mostrato nell'esempio seguente.
Quando elimini la TPU, la richiesta di risorsa in coda passa allo stato
SUSPENDED
, dopodiché puoi eliminare la richiesta di risorsa in coda.
Per eliminare una TPU, utilizza il comando gcloud compute tpus tpu-vm
delete
:
gcloud compute tpus tpu-vm delete NODE_ID \ --zone ZONE
Quindi, per eliminare la risorsa in coda, utilizza il
comando gcloud alpha compute tpus queued-resources delete
:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --zone ZONE
Per saperne di più, consulta Eliminare una richiesta di risorse in coda.