Cloud TPUs mit Flex-Start anfordern

Flex-Start für Cloud TPU, unterstützt durch Dynamic Workload Scheduler, bietet eine flexible und kostengünstige Möglichkeit, auf TPU-Ressourcen für KI-Arbeitslasten zuzugreifen. Mit Flex-Start können Sie TPUs nach Bedarf dynamisch für bis zu 7 Tage bereitstellen, ohne langfristige Reservierungen oder komplexes Kontingentmanagement. Bei Flex-Start senden Sie eine TPU-Bereitstellungsanfrage, die bestehen bleibt, bis Kapazität verfügbar ist. Sobald die Ressourcen verfügbar sind, werden die TPU-VMs mit flexiblem Start für die in Ihrer Anfrage angegebene Dauer bereitgestellt.

Flex-Start eignet sich gut für schnelle Tests, Tests im kleinen Maßstab, die dynamische Bereitstellung von TPUs für Inferenz-Arbeitslasten, das Feinabstimmen von Modellen und Arbeitslasten, die weniger als 7 Tage dauern. Weitere Informationen zu anderen Optionen für die TPU-Nutzung finden Sie unter Optionen für die Cloud TPU-Nutzung.

Sie können Ihre TPU-Ressourcen jederzeit löschen, um die Abrechnung zu beenden. Weitere Informationen zu TPU-Preisen finden Sie unter Cloud TPU-Preise.

Beschränkungen

Für Cloud TPUs mit flexiblem Start gelten die folgenden Einschränkungen:

  • Sie können Ressourcen mit flexiblem Start für einen Zeitraum von bis zu 7 Tagen anfordern.
  • Flex-Start unterstützt die folgenden Cloud TPU-Versionen und ‑Zonen:
  • Sie müssen die Queued Resources API verwenden, um Flex-Start mit Cloud TPU zu nutzen.

Hinweise

Bevor Sie Flex-Start-TPUs anfordern, müssen Sie Folgendes tun:

  • Google Cloud CLI installieren
  • Google Cloud -Projekt erstellen
  • Cloud TPU API aktivieren

Weitere Informationen finden Sie unter Cloud TPU-Umgebung einrichten.

Außerdem sollten Sie darauf achten, dass Sie ein ausreichendes Kontingent für präemptive Instanzen haben, um Flex-Start zu verwenden. Wenn Sie mehr TPU-Kerne benötigen, als das Standardkontingent vorsieht, müssen Sie eine höhere Kontingentzuweisung anfordern. Weitere Informationen zu Standardwerten und zum Anfordern von zusätzlichem Kontingent finden Sie unter Cloud TPU-Kontingente.

Flex-Start-TPUs anfordern

Bei Flex-Start wird die TPU Queued Resources API verwendet, um TPU-Ressourcen über eine Warteschlange anzufordern. Wenn die angeforderte Ressource verfügbar wird, wird sie Ihrem Google Cloud Projekt zur sofortigen, exklusiven Nutzung zugewiesen. Nach der angeforderten Laufzeit werden die TPU-VMs gelöscht und die in die Warteschlange gestellte Ressource wechselt in den Status SUSPENDED. Weitere Informationen zu in die Warteschlange eingereihten Ressourcen finden Sie unter In die Warteschlange eingereihte Ressourcen verwalten.

Wenn Sie TPUs mit Flex-Start anfordern möchten, verwenden Sie den Befehl gcloud alpha compute tpus queued-resources create mit dem Flag --provisioning-model auf flex-start und dem Flag --max-run-duration auf die Dauer, die Ihre TPUs ausgeführt werden sollen.

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
    --zone=ZONE \
    --accelerator-type=ACCELERATOR_TYPE \
    --runtime-version=RUNTIME_VERSION \
    --node-id=NODE_ID \
    --provisioning-model=flex-start \
    --max-run-duration=RUN_DURATION

Ersetzen Sie die folgenden Platzhalter:

  • QUEUED_RESOURCE_ID: Eine vom Nutzer zugewiesene ID für die in die Warteschlange gestellte Ressourcenanfrage.
  • ZONE: Die Zone, in der die TPU-VM erstellt werden soll.
  • ACCELERATOR_TYPE: Gibt die Version und Größe der zu erstellenden Cloud TPU an. Weitere Informationen zu den unterstützten Beschleunigertypen für die einzelnen TPU-Versionen finden Sie unter TPU-Versionen.
  • RUNTIME_VERSION: Die Softwareversion der Cloud TPU.
  • NODE_ID: Eine vom Nutzer zugewiesene ID für die TPU, die erstellt wird, wenn die in die Warteschlange gestellte Ressourcenanfrage zugewiesen wird.
  • RUN_DURATION: Wie lange die TPUs ausgeführt werden sollen. Formatieren Sie die Dauer als Anzahl an Tagen, Stunden, Minuten und Sekunden gefolgt von d, h, m und s. Geben Sie beispielsweise 72h für eine Dauer von 72 Stunden oder 1d2h3m4s für eine Dauer von 1 Tag, 2 Stunden, 3 Minuten und 4 Sekunden an. Maximal sind 7 Tage möglich.

Sie können Ihre in die Warteschlange gestellte Ressourcenanfrage mit zusätzlichen Flags weiter anpassen, damit sie zu bestimmten Zeiten ausgeführt wird:

  • --valid-after-duration: Die Dauer, vor der die TPU nicht bereitgestellt werden darf.
  • --valid-after-time: Die Zeit, vor der die TPU nicht bereitgestellt werden darf.
  • --valid-until-duration: Die Dauer, für die die Anfrage gültig ist. Wenn die Anfrage innerhalb dieses Zeitraums nicht erfüllt wurde, läuft sie ab und wechselt in den Status FAILED.
  • --valid-until-time: Der Zeitraum, für den die Anfrage gültig ist. Wenn die Anfrage bis dahin nicht erfüllt wurde, läuft sie ab und wechselt in den Status FAILED.

Weitere Informationen zu optionalen Flags finden Sie in der Dokumentation zu gcloud alpha compute tpus queued-resources create.

Status einer Flex-Start-Anfrage abrufen

Wenn Sie den Status Ihrer Flex-Start-Anfrage überwachen möchten, verwenden Sie die API für in die Warteschlange eingereihte Ressourcen, um den Status der Anfrage für in die Warteschlange eingereihte Ressourcen mit dem Befehl gcloud alpha compute tpus queued-resources describe abzurufen:

gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \
    --zone ZONE

Eine in die Warteschlange eingereihte Ressource kann einen der folgenden Status haben:

  • WAITING_FOR_RESOURCES: Die Anfrage hat die erste Validierung bestanden und wurde der Warteschlange hinzugefügt.
  • PROVISIONING: Die Anfrage wurde aus der Warteschlange ausgewählt und die TPU-VMs werden erstellt.
  • ACTIVE: Die Anfrage wurde erfüllt und die TPU-VMs sind bereit.
  • FAILED: Die Anfrage konnte nicht abgeschlossen werden. Weitere Informationen finden Sie im Befehl describe.
  • SUSPENDING: Die mit der Anfrage verknüpften Ressourcen werden gelöscht.
  • SUSPENDED: Die mit der Anfrage verknüpften Ressourcen wurden gelöscht.

Weitere Informationen finden Sie unter Status- und Diagnoseinformationen zu einer in die Warteschlange eingereihten Ressourcenanfrage abrufen.

Laufzeit von Flex-Start-TPUs überwachen

Sie können die Laufzeit von Flex-Start-TPUs überwachen, indem Sie den Zeitstempel für die Beendigung der TPU prüfen:

  1. Details zu Ihrer Anfrage für Ressourcen in der Warteschlange abrufen
  2. Wählen Sie eine der folgenden Optionen aus, je nachdem, ob Ihre TPUs erstellt wurden:

    • Wenn die Ressource in der Warteschlange auf Ressourcen wartet: Sehen Sie sich in der Ausgabe das Feld maxRunDuration an. In diesem Feld wird angegeben, wie lange die TPUs nach der Erstellung ausgeführt werden.

    • Wenn die mit der in die Warteschlange gestellten Ressource verknüpften TPUs erstellt wurden: Sehen Sie sich in der Ausgabe das Feld terminationTimestamp an, das für jeden Knoten in der in die Warteschlange gestellten Ressource aufgeführt ist. In diesem Feld wird angegeben, wann die TPU beendet wird.

In die Warteschlange gestellte Ressource löschen

Sie können eine in die Warteschlange gestellte Ressourcenanfrage und die mit der Anfrage verknüpften TPUs löschen, indem Sie die in die Warteschlange gestellte Ressourcenanfrage löschen und das Flag --force an den Befehl queued-resources delete übergeben:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --force

Wenn Sie die TPU direkt mit dem gcloud compute tpus tpu-vm delete-Befehl löschen, müssen Sie auch die in die Warteschlange gestellte Ressource löschen, wie im folgenden Beispiel gezeigt. Wenn Sie die TPU löschen, wechselt die in die Warteschlange gestellte Ressourcenanfrage in den Status SUSPENDED. Danach können Sie die in die Warteschlange gestellte Ressourcenanfrage löschen.

Verwenden Sie den Befehl gcloud compute tpus tpu-vm delete, um eine TPU zu löschen:

gcloud compute tpus tpu-vm delete NODE_ID \
    --zone ZONE

Verwenden Sie dann den Befehl gcloud alpha compute tpus queued-resources delete, um die in die Warteschlange gestellte Ressource zu löschen:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --zone ZONE

Weitere Informationen finden Sie unter Anfrage für eine in der Warteschlange befindliche Ressource löschen.