TPU Flex-Start-VMs anfordern

TPU-Flex-Start-VMs, die auf dem Dynamic Workload Scheduler basieren, bieten eine flexible und kostengünstige Möglichkeit, auf TPU-Ressourcen für KI-Arbeitslasten zuzugreifen. Mit Flex-Start-VMs können Sie TPUs nach Bedarf für bis zu 7 Tage dynamisch bereitstellen, ohne langfristige Reservierungen oder eine komplexe Kontingentverwaltung. Bei TPU-VMs mit Flex-Start senden Sie eine TPU-Bereitstellungsanfrage, die so lange bestehen bleibt, bis Kapazitäten verfügbar sind. Sobald sie verfügbar sind, laufen die TPU-VMs für die Dauer, die Sie in Ihrer Anfrage angegeben haben.

TPU-Flex-Start-VMs eignen sich gut für schnelle Experimente, kleinere Tests, die dynamische Bereitstellung von TPUs für Inferenz-Workloads, Modellabstimmung und Workloads, die weniger als 7 Tage dauern. Weitere Informationen zu anderen Optionen der TPU-Nutzung finden Sie unter Cloud TPU-Nutzungsoptionen.

Sie können Ihre TPU-Ressourcen jederzeit löschen, um die Abrechnung zu beenden. Weitere Informationen zu TPU-Preisen finden Sie unter Cloud TPU-Preise.

Beschränkungen

Für TPU Flex-Start-VMs gelten die folgenden Beschränkungen:

  • Sie können TPU Flex-Start-VMs für eine Dauer von bis zu 7 Tagen anfordern.
  • Sie können die folgenden Cloud TPU-Versionen und ‑Zonen anfordern:
  • Sie müssen die API für Ressourcen in der Warteschlange verwenden, um TPU Flex-Start-VMs zu nutzen.

Hinweis

Bevor Sie TPU Flex-Start-VMs anfordern, müssen Sie:

  • die Google Cloud CLI installieren
  • ein Projekt in Google Cloud erstellen
  • die Cloud TPU API aktivieren

Weitere Informationen finden Sie unter Cloud TPU-Umgebung einrichten.

Prüfen Sie außerdem, ob Sie für die Verwendung von TPU Flex-Start-VMs genug auf Abruf verfügbares Kontingent haben. Wenn Sie mehr TPU-Kerne benötigen, als im Standardkontingent vorgesehen, müssen Sie eine höhere Kontingentzuweisung beantragen. Weitere Informationen zu Standardeinstellungen und zur Beantragung eines höheren Kontingents finden Sie unter Cloud TPU-Kontingente.

TPU Flex-Start-VMs anfordern

TPU Flex-Start-VMs fordern über die API für in die Warteschlange gestellte Ressourcen TPU-Ressourcen über eine Warteschlange an. Sobald die angeforderte Ressource verfügbar ist, wird sie Ihrem Projekt in Google Cloud zugewiesen und steht Ihnen sofort zur exklusiven Nutzung zur Verfügung. Nach Ablauf der angeforderten Laufzeit werden die TPU-VMs gelöscht und die Ressource in der Warteschlange wechselt in den Status SUSPENDED. Weitere Informationen zu Ressourcen in der Warteschlange finden Sie unter In die Warteschlange gestellte Ressourcen verwalten.

Wenn Sie TPU Flex-Start-VMs anfordern möchten, verwenden Sie den Befehl gcloud alpha compute tpus queued-resources create. Setzen Sie dabei das Flag --provisioning-model auf flex-start und das Flag --max-run-duration auf die gewünschte Laufzeit Ihrer TPUs.

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
    --zone=ZONE \
    --accelerator-type=ACCELERATOR_TYPE \
    --runtime-version=RUNTIME_VERSION \
    --node-id=NODE_ID \
    --provisioning-model=flex-start \
    --max-run-duration=RUN_DURATION

Ersetzen Sie die folgenden Platzhalter:

  • QUEUED_RESOURCE_ID: Eine vom Nutzer zugewiesene ID für die Anforderung der Ressource in der Warteschlange.
  • ZONE: Die Zone, in der die TPU-VM erstellt werden soll.
  • ACCELERATOR_TYPE: Gibt die Version und Größe der zu erstellenden Cloud TPU an. Weitere Informationen zu den unterstützten Beschleunigertypen für die einzelnen TPU-Versionen finden Sie unter TPU-Versionen.
  • RUNTIME_VERSION: Die Softwareversion der Cloud TPU.
  • NODE_ID: Eine vom Nutzer zugewiesene ID für die TPU, die erstellt wird, wenn die Ressourcenanfrage in der Warteschlange zugewiesen wird.
  • RUN_DURATION: Die Laufzeit der TPUs. Geben Sie die Dauer als Anzahl an Tagen, Stunden, Minuten und Sekunden gefolgt von d, h, m und s an. Geben Sie beispielsweise 72h für eine Dauer von 72 Stunden oder 1d2h3m4s für eine Dauer von 1 Tag, 2 Stunden, 3 Minuten und 4 Sekunden an. Die maximale Dauer beträgt 7 Tage.

Sie können Ihre Ressourcenanforderung in der Warteschlange mit zusätzlichen Flags weiter anpassen, damit sie zu bestimmten Zeiten ausgeführt wird:

  • --valid-after-duration: Die Dauer, vor deren Ablauf die TPU nicht bereitgestellt werden darf.
  • --valid-after-time: Die Zeit, vor deren Ablauf die TPU nicht bereitgestellt werden darf.
  • --valid-until-duration: Die Dauer, für die die Anfrage gültig ist. Wenn die Anfrage bis zu diesem Zeitpunkt nicht erfüllt wurde, läuft sie ab und wechselt in den Status FAILED.
  • --valid-until-time: Der Zeitraum, für den die Anfrage gültig ist. Wenn die Anfrage bis zu diesem Zeitpunkt nicht erfüllt wurde, läuft sie ab und wechselt in den Status FAILED.

Weitere Informationen zu optionalen Flags finden Sie in der Dokumentation zu gcloud alpha compute tpus queued-resources create.

Status einer Anfrage für TPU Flex-Start-VMs abrufen

Sie können den Status Ihrer Anfrage für TPU Flex-Start-VMs überwachen. Rufen Sie dafür den Status der Ressourcenanfrage in der Warteschlange mit der API für Ressourcen in der Warteschlange ab. Verwenden Sie dazu den Befehl gcloud alpha compute tpus queued-resources describe:

gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \
    --zone ZONE

Eine Ressource in der Warteschlange kann einen der folgenden Status haben:

  • WAITING_FOR_RESOURCES: Die Anfrage hat die erste Validierung bestanden und wurde der Warteschlange hinzugefügt.
  • PROVISIONING: Die Anfrage wurde aus der Warteschlange ausgewählt und die TPU-VMs werden erstellt.
  • ACTIVE: Die Anfrage wurde erfüllt und die TPU-VMs sind bereit.
  • FAILED: Die Anfrage konnte nicht abgeschlossen werden. Verwenden Sie den Befehl describe, um weitere Details zu erhalten.
  • SUSPENDING: Die mit der Anfrage verknüpften Ressourcen werden gelöscht.
  • SUSPENDED: Die mit der Anfrage verknüpften Ressourcen wurden gelöscht.

Weitere Informationen finden Sie unter Status- und Diagnoseinformationen zu einer Ressourcenanfrage in der Warteschlange abrufen.

Laufzeit von TPU Flex-Start-VMs überwachen

Sie können die Laufzeit von TPU Flex-Start-VMs überwachen, indem Sie den Beendigungszeitstempel der TPU prüfen:

  1. Rufen Sie die Details Ihrer in der Warteschlange befindlichen Ressourcenanfrage ab.
  2. Wählen Sie eine der folgenden Optionen, je nachdem, ob Ihre TPUs erstellt wurden:

    • Wenn die Ressource in der Warteschlange auf Ressourcen wartet: Sehen Sie sich in der Ausgabe das Feld maxRunDuration an. In diesem Feld wird angegeben, wie lange die TPUs nach ihrer Erstellung ausgeführt werden.

    • Wenn die mit der Ressource in der Warteschlange verbundenen TPUs erstellt wurden: Sehen Sie sich in der Ausgabe das Feld terminationTimestamp an, das für jeden Knoten in der Ressource in der Warteschlange aufgeführt ist. Dieses Feld gibt an, wann die TPU beendet wird.

In die Warteschlange gestellte Ressource löschen

Ressourcenanfragen in der Warteschlange und die mit der Anfrage verbundenen TPUs können Sie löschen, indem Sie die Ressourcenanfrage in der Warteschlange löschen und das Flag --force an den Befehl queued-resources delete übergeben:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --force

Wenn Sie die TPU direkt mit dem Befehl gcloud compute tpus tpu-vm delete löschen, müssen Sie auch die in die Warteschlange gestellte Ressource löschen, wie im folgenden Beispiel gezeigt. Beim Löschen der TPU wechselt die Ressourcenanfrage in der Warteschlange in den Status SUSPENDED. Anschließend können Sie die Ressourcenanfrage in der Warteschlange löschen.

Löschen Sie die TPU mit dem Befehl gcloud compute tpus tpu-vm delete:

gcloud compute tpus tpu-vm delete NODE_ID \
    --zone ZONE

Löschen Sie anschließend die Ressource in der Warteschlange mit dem Befehl gcloud alpha compute tpus queued-resources delete.

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --zone ZONE

Weitere Informationen finden Sie unter In die Warteschlange gestellte Ressourcenanfrage löschen.