Dataproc-Cluster beenden und starten

Nachdem Sie einen Cluster erstellt haben, können Sie ihn beenden und bei Bedarf neu starten. Durch das Beenden eines inaktiven Clusters fallen keine Kosten an und es wird vermieden, dass ein inaktiver Cluster gelöscht wird. Erstellen Sie später einen Cluster mit derselben Konfiguration.

Hinweise:

  • Das Start-/Stopp-Feature des Clusters ist für Cluster verfügbar, die mit Images erstellt wurden, die am oder nach den folgenden Image-Versionen veröffentlicht wurden:
    • 1.4.35-debian10/ubuntu18
    • 1.5.10-debian10/ubuntu18
    • 2.0.0-RC6-debian10/ubuntu18
  • Das Beenden einzelner Clusterknoten wird nicht empfohlen, da der Status einer beendeten VM möglicherweise nicht mit dem Clusterstatus synchronisiert ist. Dies kann zu Fehlern führen.

Cluster anhalten

Durch das Anhalten eines Clusters werden alle Cluster von Compute Engine-VMs beendet. Sie bezahlen nicht für VMs, während sie beendet sind. Sie bezahlen jedoch weiterhin für alle zugehörigen Clusterressourcen wie nichtflüchtige Speicher.

Hinweise:

  • Laufende Vorgänge: Wenn ein Cluster Vorgänge ausführt, z. B. Aktualisierungs- oder Diagnosevorgänge, schlägt die Stoppanfrage fehl.
  • Ausgeführte Jobs: Wenn in einem Cluster Jobs ausgeführt werden, ist die Stoppanfrage erfolgreich, die VMs werden angehalten und laufende Jobs schlagen fehl.
  • Stop-Antwort: Wenn durch die Stoppanfrage ein Stoppvorgang zurückgegeben wird, hat der Cluster den Status STOPPING und es können keine weiteren Jobs mehr gesendet werden (SubmitJob-Anfragen schlagen fehl).
  • Autoscaling: Wenn Sie einen Cluster anhalten, für den Autoscaling aktiviert ist, wird der Cluster nicht mehr von Dataproc-Autoscaling skaliert. Nach einem Neustart des Clusters wird die Skalierung des Clusters fortgesetzt. Wenn Sie die automatische Skalierung für einen angehaltenen Cluster aktivieren, wird die Autoscaling-Richtlinie erst wirksam, nachdem der Cluster neu gestartet wurde.

Stoppvorgang überwachen

Sie können gcloud dataproc operations describe operation-id ausführen, um den lange laufenden Cluster-Stoppvorgang zu überwachen. Sie können auch den Befehl gcloud dataproc clusters describe cluster-name verwenden, um die Umstellung des Clusterstatus von RUNNING auf STOPPING zu STOPPED zu beobachten.

Beschränkungen

  • Folgendes können Sie nicht beenden:

  • Nachdem ein Cluster angehalten wurde, können Sie Folgendes nicht mehr tun:

    • Den Cluster aktualisieren
    • Jobs an den Cluster senden
    • Auf Notebooks, die im Cluster ausgeführt werden, mit dem Dataproc-Komponenten-Gateway zugreifen

Cluster starten

  • Wenn Sie einen angehaltenen Cluster neu starten, werden alle Initialisierungsaktionen nicht noch einmal ausgeführt. Initialisierungsaktionen werden nur auf Clusterknoten ausgeführt, wenn der Cluster erstellt wird oder wenn Knoten beim Hochskalieren hinzugefügt werden.

  • Nach Abschluss des Startvorgangs können Sie sofort Jobs an den Cluster senden. Die Ausführung der Jobs kann sich jedoch verzögern (ca. 30 Sekunden), bis HDFS und YARN betriebsbereit sind.

Cluster beenden und starten

Sie können einen Cluster mit der Google Cloud Console, der gcloud CLI oder der Dataproc API beenden und starten.

Google Cloud console

Klicken Sie in der Google Cloud console auf der Dataproc-Seite Cluster auf den Clusternamen und dann auf STOP, um den Cluster anzuhalten und auf START um zu starten.

gcloud-CLI

Cluster beenden

gcloud dataproc clusters stop CLUSTER_NAME \
    --region=REGION

Cluster starten

gcloud dataproc clusters start CLUSTER_NAME \
    --region=REGION

REST API

Cluster beenden

Senden Sie eine clusters.stop-Anfrage.

Cluster starten

Senden Sie eine clusters.start-Anfrage.