Dataproc-Cluster mit der gcloud CLI erstellen
Auf dieser Seite wird erläutert, wie Sie mit der Google Cloud CLI gcloud einen Google Cloud Dataproc-Cluster erstellen, einen einfachen Apache Spark-Job im Cluster ausführen und dann die Anzahl der Worker im Cluster ändern.
Wie Sie dieselben oder ähnliche Aufgaben ausführen können, finden Sie in den Kurzanleitungen für den Start mit dem API Explorer, in der Google Cloud Console unter Dataproc-Cluster mit der Google Cloud Console erstellen und in den Clientbibliotheken unter Dataproc-Cluster mit Clientbibliotheken erstellen.
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Cluster erstellen
Führen Sie den folgenden Befehl aus, um einen Cluster namens example-cluster
zu erstellen.
Unter Verfügbare Regionen und Zonen finden Sie Informationen zur Auswahl einer Region. Sie können auch den Befehl gcloud compute regions list
ausführen, um eine Liste der verfügbaren Regionen aufzurufen.
Unter Regionale Endpunkte finden Sie weitere Informationen zu regionalen Endpunkten.
gcloud dataproc clusters create example-cluster --region=region
Die Erstellung des Clusters wird in der Befehlsausgabe bestätigt:
... Waiting for cluster creation operation...done. Created [... example-cluster]
Job senden
Um einen Spark-Beispieljob zu senden, der einen ungefähren PI-Wert berechnet, führen Sie den folgenden Befehl aus:
gcloud dataproc jobs submit spark --cluster example-cluster \ --region=region \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
Dieser Befehl gibt Folgendes an:
- Sie möchten einen
spark
-Job im Clusterexample-cluster
in der angegebenen Region ausführen - Die
class
mit der primären Methode für die Anwendung zur Berechnung des PI-Wertes - Den Speicherort der JAR-Datei, die den Code des Jobs enthält
- Alle Parameter, die Sie an den Job übergeben möchten – in diesem Fall die Anzahl der Aufgaben, also
1000
Die aktuelle und endgültige Ausgabe des Jobs wird im Terminal-Fenster angezeigt:
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
Cluster aktualisieren
Um die Anzahl der Worker im Cluster auf fünf zu ändern, führen Sie den folgenden Befehl aus:
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 5
Die Details des Clusters werden in der Ausgabe des Befehls angezeigt:
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
Sie können den gleichen Befehl verwenden, um die Anzahl der Worker-Knoten auf den ursprünglichen Wert zu reduzieren:
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 2
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:
- Zum Löschen des Beispielclusters führen Sie den Befehl
clusters delete
aus. Sie werden aufgefordert, das Löschen des Clusters zu bestätigen. Geben Siegcloud dataproc clusters delete example-cluster \ --region=region
y
ein, um den Löschvorgang abzuschließen.