TPU Flex-Start-VMs anfordern
TPU-Flex-Start-VMs, die auf dem Dynamic Workload Scheduler basieren, bieten eine flexible und kostengünstige Möglichkeit, auf TPU-Ressourcen für KI-Arbeitslasten zuzugreifen. Mit Flex-Start-VMs können Sie TPUs nach Bedarf für bis zu 7 Tage dynamisch bereitstellen, ohne langfristige Reservierungen oder eine komplexe Kontingentverwaltung. Bei TPU-VMs mit Flex-Start senden Sie eine TPU-Bereitstellungsanfrage, die so lange bestehen bleibt, bis Kapazitäten verfügbar sind. Sobald sie verfügbar sind, laufen die TPU-VMs für die Dauer, die Sie in Ihrer Anfrage angegeben haben.
TPU-Flex-Start-VMs eignen sich gut für schnelle Experimente, kleinere Tests, die dynamische Bereitstellung von TPUs für Inferenz-Workloads, Modellabstimmung und Workloads, die weniger als 7 Tage dauern. Weitere Informationen zu anderen Optionen der TPU-Nutzung finden Sie unter Cloud TPU-Nutzungsoptionen.
Sie können Ihre TPU-Ressourcen jederzeit löschen, um die Abrechnung zu beenden. Weitere Informationen zu TPU-Preisen finden Sie unter Cloud TPU-Preise.
Beschränkungen
Für TPU Flex-Start-VMs gelten die folgenden Beschränkungen:
- Sie können TPU Flex-Start-VMs für eine Dauer von bis zu 7 Tagen anfordern.
- Sie können die folgenden Cloud TPU-Versionen und ‑Zonen anfordern:
- Sie müssen die API für Ressourcen in der Warteschlange verwenden, um TPU Flex-Start-VMs zu nutzen.
Hinweis
Bevor Sie TPU Flex-Start-VMs anfordern, müssen Sie:
- die Google Cloud CLI installieren
- ein Projekt in Google Cloud erstellen
- die Cloud TPU API aktivieren
Weitere Informationen finden Sie unter Cloud TPU-Umgebung einrichten.
Prüfen Sie außerdem, ob Sie für die Verwendung von TPU Flex-Start-VMs genug auf Abruf verfügbares Kontingent haben. Wenn Sie mehr TPU-Kerne benötigen, als im Standardkontingent vorgesehen, müssen Sie eine höhere Kontingentzuweisung beantragen. Weitere Informationen zu Standardeinstellungen und zur Beantragung eines höheren Kontingents finden Sie unter Cloud TPU-Kontingente.
TPU Flex-Start-VMs anfordern
TPU Flex-Start-VMs fordern über die API für in die Warteschlange gestellte Ressourcen TPU-Ressourcen über eine Warteschlange an. Sobald die angeforderte Ressource verfügbar ist, wird sie Ihrem Projekt in Google Cloud zugewiesen und steht Ihnen sofort zur exklusiven Nutzung zur Verfügung.
Nach Ablauf der angeforderten Laufzeit werden die TPU-VMs gelöscht und die Ressource in der Warteschlange wechselt in den Status SUSPENDED
. Weitere Informationen zu Ressourcen in der Warteschlange finden Sie unter In die Warteschlange gestellte Ressourcen verwalten.
Wenn Sie TPU Flex-Start-VMs anfordern möchten, verwenden Sie den Befehl gcloud alpha compute tpus queued-resources create
. Setzen Sie dabei das Flag --provisioning-model
auf flex-start
und das Flag --max-run-duration
auf die gewünschte Laufzeit Ihrer TPUs.
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-id=NODE_ID \ --provisioning-model=flex-start \ --max-run-duration=RUN_DURATION
Ersetzen Sie die folgenden Platzhalter:
- QUEUED_RESOURCE_ID: Eine vom Nutzer zugewiesene ID für die Anforderung der Ressource in der Warteschlange.
- ZONE: Die Zone, in der die TPU-VM erstellt werden soll.
- ACCELERATOR_TYPE: Gibt die Version und Größe der zu erstellenden Cloud TPU an. Weitere Informationen zu den unterstützten Beschleunigertypen für die einzelnen TPU-Versionen finden Sie unter TPU-Versionen.
- RUNTIME_VERSION: Die Softwareversion der Cloud TPU.
- NODE_ID: Eine vom Nutzer zugewiesene ID für die TPU, die erstellt wird, wenn die Ressourcenanfrage in der Warteschlange zugewiesen wird.
- RUN_DURATION: Die Laufzeit der TPUs. Geben Sie die Dauer als Anzahl an Tagen, Stunden, Minuten und Sekunden gefolgt von
d
,h
,m
unds
an. Geben Sie beispielsweise72h
für eine Dauer von 72 Stunden oder1d2h3m4s
für eine Dauer von 1 Tag, 2 Stunden, 3 Minuten und 4 Sekunden an. Die maximale Dauer beträgt 7 Tage.
Sie können Ihre Ressourcenanforderung in der Warteschlange mit zusätzlichen Flags weiter anpassen, damit sie zu bestimmten Zeiten ausgeführt wird:
--valid-after-duration
: Die Dauer, vor deren Ablauf die TPU nicht bereitgestellt werden darf.--valid-after-time
: Die Zeit, vor deren Ablauf die TPU nicht bereitgestellt werden darf.--valid-until-duration
: Die Dauer, für die die Anfrage gültig ist. Wenn die Anfrage bis zu diesem Zeitpunkt nicht erfüllt wurde, läuft sie ab und wechselt in den StatusFAILED
.--valid-until-time
: Der Zeitraum, für den die Anfrage gültig ist. Wenn die Anfrage bis zu diesem Zeitpunkt nicht erfüllt wurde, läuft sie ab und wechselt in den StatusFAILED
.
Weitere Informationen zu optionalen Flags finden Sie in der Dokumentation zu gcloud alpha compute tpus queued-resources
create
.
Status einer Anfrage für TPU Flex-Start-VMs abrufen
Sie können den Status Ihrer Anfrage für TPU Flex-Start-VMs überwachen. Rufen Sie dafür den Status der Ressourcenanfrage in der Warteschlange mit der API für Ressourcen in der Warteschlange ab. Verwenden Sie dazu den Befehl gcloud alpha compute tpus queued-resources describe
:
gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \ --zone ZONE
Eine Ressource in der Warteschlange kann einen der folgenden Status haben:
WAITING_FOR_RESOURCES
: Die Anfrage hat die erste Validierung bestanden und wurde der Warteschlange hinzugefügt.PROVISIONING
: Die Anfrage wurde aus der Warteschlange ausgewählt und die TPU-VMs werden erstellt.ACTIVE
: Die Anfrage wurde erfüllt und die TPU-VMs sind bereit.FAILED
: Die Anfrage konnte nicht abgeschlossen werden. Verwenden Sie den Befehldescribe
, um weitere Details zu erhalten.SUSPENDING
: Die mit der Anfrage verknüpften Ressourcen werden gelöscht.SUSPENDED
: Die mit der Anfrage verknüpften Ressourcen wurden gelöscht.
Weitere Informationen finden Sie unter Status- und Diagnoseinformationen zu einer Ressourcenanfrage in der Warteschlange abrufen.
Laufzeit von TPU Flex-Start-VMs überwachen
Sie können die Laufzeit von TPU Flex-Start-VMs überwachen, indem Sie den Beendigungszeitstempel der TPU prüfen:
- Rufen Sie die Details Ihrer in der Warteschlange befindlichen Ressourcenanfrage ab.
Wählen Sie eine der folgenden Optionen, je nachdem, ob Ihre TPUs erstellt wurden:
Wenn die Ressource in der Warteschlange auf Ressourcen wartet: Sehen Sie sich in der Ausgabe das Feld
maxRunDuration
an. In diesem Feld wird angegeben, wie lange die TPUs nach ihrer Erstellung ausgeführt werden.Wenn die mit der Ressource in der Warteschlange verbundenen TPUs erstellt wurden: Sehen Sie sich in der Ausgabe das Feld
terminationTimestamp
an, das für jeden Knoten in der Ressource in der Warteschlange aufgeführt ist. Dieses Feld gibt an, wann die TPU beendet wird.
In die Warteschlange gestellte Ressource löschen
Ressourcenanfragen in der Warteschlange und die mit der Anfrage verbundenen TPUs können Sie löschen, indem Sie die Ressourcenanfrage in der Warteschlange löschen und das Flag --force
an den Befehl queued-resources
delete
übergeben:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --force
Wenn Sie die TPU direkt mit dem Befehl gcloud compute tpus tpu-vm delete
löschen, müssen Sie auch die in die Warteschlange gestellte Ressource löschen, wie im folgenden Beispiel gezeigt.
Beim Löschen der TPU wechselt die Ressourcenanfrage in der Warteschlange in den Status SUSPENDED
. Anschließend können Sie die Ressourcenanfrage in der Warteschlange löschen.
Löschen Sie die TPU mit dem Befehl gcloud compute tpus tpu-vm
delete
:
gcloud compute tpus tpu-vm delete NODE_ID \ --zone ZONE
Löschen Sie anschließend die Ressource in der Warteschlange mit dem Befehl gcloud alpha compute tpus queued-resources delete
.
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --zone ZONE
Weitere Informationen finden Sie unter In die Warteschlange gestellte Ressourcenanfrage löschen.