Anfragen für vorausschauende Reservierungen im Kalendermodus


Dieses Dokument bietet einen Überblick über vorausschauende Reservierungsanfragen im Kalendermodus. Weitere Informationen zu den verschiedenen Möglichkeiten zum Reservieren von Ressourcen in Compute Engine finden Sie unter Reservierungstyp auswählen.

Wenn Sie Kapazität für die Erstellung von VM-Instanzen mit angehängten GPUs oder TPUs erhalten möchten, verwenden Sie zukünftige Reservierungsanfragen im Kalendermodus. Wenn Google CloudIhre Anfrage genehmigt, stellt Compute Engine die reservierten Ressourcen zum ausgewählten Datum und zur ausgewählten Uhrzeit und für die ausgewählte Dauer bereit. Anschließend können Sie die reservierten Ressourcen verwenden, um GPU-VMs oder TPU-VMs für die folgenden Arbeitslasten zu erstellen:

  • Jobs zum Vortrainieren von Modellen

  • Jobs zur Modellabstimmung

  • Arbeitslasten für HPC-Simulationen (High Performance Computing)

  • Kurzfristig erwartete Steigerungen der Inferenz-Arbeitslast

Anfrage im Kalendermodus erstellen

In den folgenden Abschnitten wird erläutert, wie Sie die Ressourcenverfügbarkeit aufrufen und welche Details Sie angeben müssen, wenn Sie eine zukünftige Reservierungsanfrage im Kalendermodus erstellen.

Zukünftige Verfügbarkeit von Ressourcen ansehen

Bevor Sie eine Anfrage für eine zukünftige Reservierung im Kalendermodus erstellen, können Sie die zukünftige Verfügbarkeit der folgenden Ressourcen in einer Region ansehen:

  • Für GPU-VMs bis zu 60 Tage im Voraus

  • Für TPUs bis zu 120 Tage im Voraus

Compute Engine verwendet den Dynamic Workload Scheduler (DWS), um zu sehen, wann die angeforderten Ressourcen verfügbar sind. Geben Sie beim Erstellen einer Anfrage die Anzahl, den Typ und den Reservierungszeitraum für die Ressourcen an, die Sie als verfügbar bestätigt haben. Google Cloud genehmigt Ihre Anfrage mit größerer Wahrscheinlichkeit, wenn Sie diese Informationen angeben.

Anfrageattribute definieren

Wenn Sie eine Anfrage für eine vorausschauende Reservierung im Kalendermodus erstellen, müssen Sie die folgenden Attribute angeben:

  • Automatisch löschen Mit dieser Eigenschaft wird festgelegt, ob Compute Engine die automatisch erstellte (auto-created) Reservierung für Ihre Anfrage zum Endzeitpunkt löscht, auch wenn die Reservierung nicht vollständig genutzt wurde. Wenn Sie im Kalendermodus eine Anfrage erstellen möchten, müssen Sie die Option zum automatischen Löschen aktivieren.

  • Verbrauchstyp: Mit dieser Eigenschaft wird definiert, wie VMs die automatisch erstellte Reservierung nutzen. Wenn Sie eine Anfrage im Kalendermodus erstellen, müssen Sie angeben, dass Sie Reservierungen mit gezielter Ausrichtung erstellen möchten. Diese Einstellung bedeutet, dass nur VMs, die auf die Reservierung ausgerichtet sind, sie nutzen können.

  • Bereitstellungstyp Mit dieser Property wird die Colocation Ihrer reservierten Ressourcen definiert. Wenn Sie eine Anfrage im Kalendermodus erstellen, müssen Sie angeben, dass Ressourcen dicht bereitgestellt werden sollen. Bei dieser Art der Bereitstellung befinden sich Ressourcen nahe beieinander, um die Netzwerklatenz zu minimieren.

  • Name: Der Name Ihrer Anfrage, der in Ihrem Projekt eindeutig sein muss.

  • Anzahl der Ressourcen: Die Anzahl der GPU-VMs oder TPUs, die zum angeforderten Startzeitpunkt reserviert werden sollen.

  • Planungsstatus: Mit dieser Property wird festgelegt, ob Sie Ihre Anfrage sofort zur Überprüfung an Google Cloud senden oder als Entwurf speichern und später einreichen. Wenn Sie eine Anfrage im Kalendermodus erstellen, müssen Sie angeben, dass die Anfrage sofort zur Überprüfung eingereicht werden soll.

  • Reservierungsmodus Mit dieser Property wird die Methode zum Reservieren von Ressourcen definiert. Sie muss für eine Anfrage im Kalendermodus auf CALENDAR festgelegt werden.

  • Name der Reservierung Der Name der Reservierung, die von Compute Engine automatisch erstellt wird, wenn Google Cloud Ihre Anfrage genehmigt.

  • Freigabetyp Mit dieser Property wird festgelegt, ob andere Projekte in Ihrer Organisation die automatisch erstellte Reservierung für Ihre genehmigte Anfrage nutzen können. Sie können eine der folgenden Optionen angeben:

    • Einzelnes Projekt Nur Ihr Projekt kann die reservierte Kapazität nutzen.

    • Freigegeben Sie können die reservierte Kapazität mit bis zu 100 anderen Projekten in Ihrer Organisation teilen. Wenn Sie diese Option angeben, müssen Sie die Projekte angeben, für die die automatisch erstellte Reservierung freigegeben werden soll. Weitere Informationen finden Sie unter Best Practices für freigegebene Reservierungen.

  • Reservierungszeitraum. Das Datum und die Uhrzeit, zu der Compute Engine die angeforderte Kapazität bereitstellt und Sie sie nutzen können. Der Reservierungszeitraum umfasst Folgendes:

    • Startzeit Wann Sie die reservierte Kapazität nutzen möchten. Je nach den von Ihnen reservierten Ressourcen muss die Startzeit mindestens einen der folgenden Werte ab dem Zeitpunkt haben, zu dem Sie eine Anfrage erstellen und senden:

      • Für GPU-VMs: 87 Stunden (3 Tage und 15 Stunden)

      • Für TPUs: 24 Stunden

    • Ende: Wenn die angeforderte Kapazität nicht mehr für Sie reserviert ist. Zu diesem Zeitpunkt löscht Compute Engine die automatisch erstellte Reservierung und beendet oder löscht alle VMs, die die Reservierung nutzen, basierend auf der Beendigungsaktion, die Sie für die VMs angegeben haben.

  • Ressourceneigenschaften Die Hardwareanforderungen der GPU-VMs oder TPUs, die Sie reservieren möchten. VMs können eine Reservierung nur verwenden, wenn ihre Attribute mit den Attributen der Reservierung übereinstimmen. Weitere Informationen finden Sie unter Anforderungen für die Nutzung von Reservierungen.

  • Arbeitslasttyp: Wenn Sie TPU v5e reservieren, müssen Sie angeben, wie die Kapazität basierend auf Ihrem Arbeitslasttyp reserviert werden soll:

    • Batch. Für Arbeitslasten, bei denen große Datenmengen in einzelnen oder mehreren Vorgängen verarbeitet werden, z. B. ML-Trainingsarbeitslasten (Machine Learning).

    • Bereit Für Arbeitslasten, die gleichzeitige Anfragen verarbeiten und eine minimale Netzwerklatenz erfordern, z. B. ML-Inferenzarbeitslasten.

  • Zone. Die Zone, in der Sie Kapazität reservieren möchten.

Überprüfungsprozess

Wenn Sie Kapazität mit einer zukünftigen Reservierungsanfrage im Kalendermodus reservieren möchten, müssen Sie die Anfrage erstellen und zur Prüfung an Google Cloud senden. Nachdem Sie eine Anfrage erstellt und gesendet haben, wird sie innerhalb einer Minute von Google Cloud überprüft. Dann passiert Folgendes:

  • Google Cloud genehmigt Ihre Anfrage: Compute Engine reserviert die angeforderten Ressourcen und erstellt innerhalb einer Minute nach der Genehmigung automatisch eine leere Reservierung. Zur Startzeit der Anfrage stellt Compute Engine die angeforderte Kapazität bereit, indem die Anzahl der TPUs in der Reservierung erhöht wird.

  • Es ist ein Fehler aufgetreten. Die Anfrage schlägt fehl, weil in der Zone der Anfrage nicht genügend Ressourcen vorhanden sind. Wir empfehlen Ihnen, die Verfügbarkeit zukünftiger Ressourcen noch einmal zu prüfen und dann eine neue Anfrage zur Überprüfung zu erstellen und einzureichen.

Lebenszyklus von Anfragen

Das folgende Diagramm zeigt die verschiedenen Status, die Compute Engine für eine Anfrage für eine zukünftige Reservierung im Kalendermodus festlegen kann:

Ein Flussdiagramm, das die verschiedenen Status zeigt, die eine Anfrage für eine zukünftige Reservierung im Kalendermodus durchlaufen kann.

Die im vorherigen Diagramm dargestellten Status und der Ereignisfluss sind wie folgt:

  • PENDING_APPROVAL: Sie haben eine Überprüfung beantragt. Innerhalb einer Minute Google Cloud genehmigt die Anfrage.

  • APPROVED: Google Cloud hat Ihre Anfrage genehmigt. Innerhalb einer Minute erstellt Compute Engine dann automatisch eine leere Reservierung und ändert den Anfragestatus in PROCURING.

  • PROCURING: Compute Engine plant die Bereitstellung Ihrer reservierten Ressourcen. Vor dem Startzeitpunkt der Anfrage ändert sich der Anfragestatus in PROVISIONING.

  • PROVISIONING: Compute Engine stellt Ihre reservierten Ressourcen bereit, indem die Anzahl der reservierten TPUs in der automatisch erstellten Reservierung erhöht wird. Zum Startzeitpunkt der Anfrage ändert sich der Anfragestatus in FULFILLED.

  • FULFILLED: Compute Engine hat Ihre reservierten Ressourcen bereitgestellt und Sie werden dafür in Rechnung gestellt. Sie können die automatisch erstellte Reservierung nutzen, indem Sie bis zur Endzeit der Anfrage VMs erstellen.

Zum Ende der Anfrage löscht Compute Engine die Anfrage und die automatisch erstellte Reservierung. Außerdem werden alle VMs, die die Reservierung nutzen, entsprechend der Beendigungsaktion, die Sie für die VMs angegeben haben, beendet oder gelöscht.

Bereitgestellte Kapazität nutzen

Nachdem Google Cloud eine Anfrage für eine zukünftige Reservierung im Kalendermodus genehmigt hat, erstellt Compute Engine automatisch eine Reservierung mit den folgenden Merkmalen:

  • Die automatisch erstellte Reservierung enthält keine reservierten GPU-VMs oder TPUs. Sie können sie noch nicht nutzen.

  • Die automatisch erstellte Reservierung übernimmt die in Ihrer Anfrage angegebenen VM- oder TPU-Attribute.

Zur Startzeit der Anfrage stellt Compute Engine die angeforderte Kapazität bereit, indem die Anzahl der GPU-VMs oder TPUs in der automatisch erstellten Reservierung erhöht wird. Sie können die Reservierung dann nutzen, indem Sie GPU- oder TPU-VMs erstellen, die alle folgenden Bedingungen erfüllen:

Sie können VMs erstellen, bis die Reservierung vollständig genutzt wurde oder bis zur Endzeit der Anfrage. Zur Endzeit der Anfrage löscht Compute Engine die automatisch erstellte Reservierung und beendet oder löscht alle VMs, die die Reservierung nutzen.

Kontingent

Für Anfragen für vorausschauende Reservierungen im Kalendermodus muss das reservierungsgebundene Bereitstellungsmodell verwendet werden. Für dieses Modell ist kein Compute Engine-Kontingent zum Reservieren von Ressourcen erforderlich. Bevor Sie eine Anfrage erstellen, sollten Sie jedoch prüfen, ob Sie ein ausreichendes Kontingent für alle Ressourcen haben, die beim Erstellen von VMs nicht Teil einer Reservierung sind, z. B. für Festplatten oder IP-Adressen.

Preise

Wenn Sie eine Anfrage für eine zukünftige Reservierung im Kalendermodus erstellen, fallen keine Gebühren an. Stattdessen fallen Kosten an, wenn Folgendes geschieht:

  • Compute Engine stellt die angeforderte Kapazität bereit. Wenn eine Anfrage den Status FULFILLED erreicht, werden Ihnen die bereitgestellten Ressourcen gemäß DWS-Preise in Rechnung gestellt. Bei diesem Preismodell erhalten Sie vCPUs, GPUs und TPUs zu einem reduzierten Preis.

  • Sie verwenden Ressourcen, die nicht durch die Reservierung abgedeckt sind. Wenn Sie VMs erstellen, die eine automatisch erstellte Reservierung nutzen, werden Ihnen die genutzten Ressourcen nicht noch einmal in Rechnung gestellt. Ihnen werden nur Ressourcen in Rechnung gestellt, die nicht Teil der Reservierung sind, z. B. Festplatten oder IP-Adressen.

Ab dem Endzeitpunkt der Anfrage fallen keine Gebühren mehr an. Zu diesem Zeitpunkt löscht Compute Engine die automatisch erstellte Reservierung und beendet oder löscht alle VMs, die die Reservierung nutzen.

Beschränkungen

In den folgenden Abschnitten werden die Einschränkungen für zukünftige Reservierungsanfragen im Kalendermodus erläutert.

Beschränkungen für alle Anfragen

Für alle Anfragen für zukünftige Reservierungen im Kalendermodus gelten die folgenden Einschränkungen:

  • Sie können Ressourcen für einen Zeitraum zwischen 1 und 90 Tagen reservieren.

  • Nachdem Sie eine Anfrage erstellt und eingereicht haben, können Sie sie nicht mehr stornieren, löschen oder ändern.

Einschränkungen für Anfragen für GPU-VMs

Sie können GPU-VMs nur so reservieren:

  • Sie können pro Anfrage zwischen 1 und 80 GPU-VMs reservieren.

  • Sie können die folgenden Maschinenserien reservieren:

  • Sie können GPU-VMs nur in bestimmten Zonen reservieren.

Einschränkungen für Anfragen für TPUs

TPUs können nur so reserviert werden:

  • Sie können pro Anfrage 1, 4, 8, 16, 32, 64, 128, 256, 512 oder 1.024 TPU-Chips reservieren.

  • Sie können die folgenden TPU-Versionen reservieren:

  • Sie können nur 1, 4 oder 8 TPU v5e-Chips für Arbeitslasttypen vom Typ „Serving“ (SERVING) reservieren.

  • Sie können TPUs nur in den folgenden Zonen reservieren:

    • Für TPU v6e:

      • asia-northeast1-b

      • us-east5-a

      • us-east5-b

    • Für TPU v5p:

      • us-east5-a
    • Für TPU v5e:

      • Für Batch-Arbeitslasttypen (BATCH): us-west4-b

      • Für Serving-Arbeitslasttypen (SERVING): us-central1-a

Einschränkungen für alle automatisch erstellten Reservierungen

Für automatisch erstellte Reservierungen für eine Anfrage gelten die folgenden Einschränkungen:

  • Sie können die Reservierung nur folgendermaßen ändern:

    • Sie können festlegen, ob Vertex AI-Jobs die Reservierung nutzen dürfen.

    • Nach der Startzeit der Reservierung.

  • Sie können keine Rabatte für zugesicherte Nutzung (CUDs) oder Rabatte für kontinuierliche Nutzung (SUDs) auf die Reservierung anwenden.

  • Sie können die Reservierung nicht löschen. Compute Engine löscht sie zum Endzeitpunkt der Reservierung.

Nächste Schritte