Nichtflüchtige Ressource neu starten

Sie können beliebige nichtflüchtige Ressourcen mit dem Status RUNNING oder ERROR neu starten. Durch den Neustart einer nichtflüchtigen Ressource können Sie Fehler beheben, die von der nichtflüchtigen Ressource nicht allein behoben werden können. Sie können auch eine nichtflüchtige Ressource neu starten, um manuell aktuellere Cluster abzurufen. Auf dieser Seite erfahren Sie, wie Sie eine nichtflüchtige Ressource mithilfe der Google Cloud Console und der REST API neu starten.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die Rolle Vertex AI Administrator (roles/aiplatform.admin) für Ihr Projekt zu gewähren, um die Berechtigung zum Neustarten einer nichtflüchtigen Ressource zu erhalten. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierte Rolle enthält die Berechtigung aiplatform.persistentResources.update, die zum Neustart einer nichtflüchtigen Ressource erforderlich ist.

Sie können diese Berechtigung auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Nichtflüchtige Ressource neu starten

Wählen Sie einen der folgenden Tabs aus, um zu erfahren, wie Sie eine nichtflüchtige Ressource neu starten. Achten Sie darauf, dass in der nichtflüchtigen Ressource keine Trainingsjobs ausgeführt werden.

Console

So starten Sie eine nichtflüchtige Ressource in der Google Cloud Console neu:

  1. Öffnen Sie in der Google Cloud Console die Seite Nichtflüchtige Ressourcen.

    Nichtflüchtige Ressourcen aufrufen

  2. Klicken Sie neben dem Namen der nichtflüchtigen Ressource, die Sie neu starten möchten, auf die vertikalen Ellipsen ().

  3. Klicken Sie auf Neu starten.

  4. Klicken Sie auf Bestätigen.

gcloud

Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:

  • PROJECT_ID: Projekt-ID der nichtflüchtigen Ressource, die Sie neu starten möchten.
  • LOCATION: Die Region der nichtflüchtigen Ressource, die Sie löschen möchten.
  • PERSISTENT_RESOURCE_ID: Die Region der nichtflüchtigen Ressource, die Sie neu starten möchten.

Führen Sie folgenden Befehl aus:

Linux, macOS oder Cloud Shell

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID \
    --project=PROJECT_ID \
    --region=LOCATION

Windows (PowerShell)

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID `
    --project=PROJECT_ID `
    --region=LOCATION

Windows (cmd.exe)

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ^
    --project=PROJECT_ID ^
    --region=LOCATION

Sie sollten eine Antwort ähnlich der folgenden erhalten:

Using endpoint [https://us-central1-aiplatform.googleapis.com/]
Request to reboot the PersistentResource [projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource] has been sent.

You may view the status of your persistent resource with the command

  $ gcloud ai persistent-resources describe projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • PROJECT_ID: Projekt-ID der nichtflüchtigen Ressource, die Sie neu starten möchten.
  • LOCATION: Die Region der nichtflüchtigen Ressource, die Sie löschen möchten.
  • PERSISTENT_RESOURCE_ID: Die Region der nichtflüchtigen Ressource, die Sie neu starten möchten.

HTTP-Methode und URL:

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

Sie sollten in etwa folgende JSON-Antwort erhalten:

response: 
  {
    "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789",
    "metadata": {
      "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata",
      "genericMetadata": {
        "createTime": "2024-03-18T17:31:54.955004Z",
        "updateTime": "2024-03-18T17:31:55.204817Z",
        "state": "RUNNING",
        "worksOn": [
          "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource"
        ]
      },
      "progressMessage": "Waiting for persistent resource shut down."
    }
  }

Der Neustart einer nichtflüchtigen Ressource ist ein lang andauernder Vorgang, während dem die nichtflüchtige Ressource nicht gelöscht werden kann. Der Vorgang enthält ein Feld progressMessage, das in einem Fehler-Fall einen Fehlerstatus enthält. Wenn der Vorgang "done: true" angibt, prüfen Sie den Status der nichtflüchtigen Ressource. Wenn die nichtflüchtige Ressource den Status RUNNING hat, war der Neustart erfolgreich und es kann Trainingsjobs ausgeführt werden.

Beschränkungen

Beim Neustart einer nichtflüchtigen Ressource gelten folgende Einschränkungen:

  • In einigen Fällen kann es vorkommen, dass beim Neustart einer nichtflüchtigen Ressource die Kapazitäten knapper Ressourcen aufgebraucht werden. Der vollständige Ressourcenerhalt ist nicht gesichert.
  • Ein Neustart ist in Ray on Vertex AI nicht verfügbar.
  • Nichtflüchtige Ressourcen mit automatisch skalierten Worker-Pools werden mit der minimalen Replikatanzahl neu gestartet.

Nächste Schritte