Dataproc-Cluster ohne Skalierung erstellen

In diesem Dokument wird beschrieben, wie Sie einen Dataproc-Cluster mit Zero-Scale erstellen.

Dataproc-Cluster ohne Worker sind eine kostengünstige Möglichkeit, Dataproc-Cluster zu verwenden. Im Gegensatz zu Standard-Dataproc-Clustern, für die mindestens zwei primäre Worker erforderlich sind, werden in Dataproc-Clustern mit Zero-Scale nur sekundäre Worker verwendet, die auf null skaliert werden können.

Dataproc-Cluster ohne Worker sind ideal für die Verwendung als Cluster mit langer Laufzeit, die Leerlaufzeiten haben, z. B. ein Cluster, auf dem ein Jupiter-Notebook gehostet wird. Sie bieten eine verbesserte Ressourcennutzung durch die Verwendung von Autoscaling-Richtlinien mit Nullskalierung.

Merkmale und Einschränkungen

Ein Dataproc-Cluster ohne Skalierung ähnelt einem Standardcluster, hat aber die folgenden besonderen Merkmale und Einschränkungen:

  • Erfordert die Image-Version 2.2.53 oder höher.
  • Unterstützt nur sekundäre Worker, nicht primäre Worker.
  • Enthält Dienste wie YARN, unterstützt aber das HDFS-Dateisystem nicht.

    • Wenn Sie Cloud Storage als Standarddateisystem verwenden möchten, legen Sie das Clusterattribut core:fs.defaultFS auf einen Cloud Storage-Bucket-Speicherort (gs://BUCKET_NAME) fest.
    • Wenn Sie eine Komponente während der Clustererstellung deaktivieren, deaktivieren Sie auch HDFS.
  • Kann nicht in einen Standardcluster konvertiert werden und umgekehrt.

  • Erfordert eine Autoscaling-Richtlinie für ZERO_SCALE-Clustertypen.

  • Erfordert die Auswahl von flexiblen VMs als Maschinentyp.

  • Unterstützt die Oozie-Komponente nicht.

  • Kann nicht über die Google Cloud -Konsole erstellt werden.

Optional: Autoscaling-Richtlinie konfigurieren

Sie können eine Autoscaling-Richtlinie konfigurieren, um die Skalierung sekundärer Worker für einen Cluster mit Zero-Scale zu definieren. Beachten Sie dabei Folgendes:

  • Legen Sie den Clustertyp auf ZERO_SCALE fest.
  • Konfigurieren Sie eine Autoscaling-Richtlinie nur für die Konfiguration des sekundären Workers.

Weitere Informationen finden Sie unter Autoscaling-Richtlinie erstellen.

Dataproc-Cluster mit Zero-Scale erstellen

Erstellen Sie einen Cluster mit null Knoten mit der gcloud CLI oder der Dataproc API.

gcloud

Führen Sie den gcloud dataproc clusters create-Befehl lokal in einem Terminalfenster oder in Cloud Shell aus.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    --secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
    ...other args

Ersetzen Sie Folgendes:

  • CLUSTER_NAME: Name des Dataproc-Clusters ohne Skalierung.
  • REGION: Eine verfügbare Compute Engine-Region.
  • AUTOSCALING_POLICY: Die ID oder der Ressourcen-URI der Autoscaling-Richtlinie.
  • BUCKET_NAME: Name Ihres Cloud Storage-Bucket.
  • MACHINE_TYPE: Ein bestimmter Compute Engine-Maschinentyp, z. B. n1-standard-4, e2-standard-8.
  • RANK: Definiert die Priorität einer Liste von Maschinentypen.

REST

Erstellen Sie einen Cluster mit null Knoten mit einer cluster.create-Anfrage der Dataproc REST API:

Nächste Schritte