Hier erfahren Sie, wie Sie mit Dataproc Serverless eine Batcharbeitslast in einer von Dataproc verwalteten Computing-Infrastruktur einreichen, die die Ressourcen nach Bedarf skaliert.
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Spark-Batcharbeitslast senden
Sie können die Google Cloud -Konsole, die Google Cloud CLI oder die Dataproc Serverless API verwenden, um eine Dataproc Serverless-Batch-Arbeitslast für Spark zu erstellen und einzureichen.
Console
Rufen Sie in der Google Cloud Console Dataproc-Batches auf.
Klicken Sie auf Erstellen.
Reichen Sie eine Spark-Batcharbeitslast ein, die den ungefähren Wert von Pi berechnet, indem Sie die folgenden Felder auswählen und ausfüllen:
- Batch-Informationen:
- Batch-ID: Geben Sie eine ID für die Batcharbeitslast an. Dieser Wert muss 4–63 Kleinbuchstaben enthalten. Gültige Zeichen sind
/[a-z][0-9]-/
. - Region: Wählen Sie eine Region aus, in der Ihre Arbeitslast ausgeführt werden soll.
- Batch-ID: Geben Sie eine ID für die Batcharbeitslast an. Dieser Wert muss 4–63 Kleinbuchstaben enthalten. Gültige Zeichen sind
- Container:
- Batchtyp: Spark.
- Laufzeitversion: Die Standardlaufzeitversion ist ausgewählt. Optional können Sie eine andere als die Standardlaufzeitversion von Dataproc Serverless angeben.
- Hauptklasse:
org.apache.spark.examples.SparkPi
- Jar-Dateien (diese Datei ist in der Dataproc Serverless Spark-Ausführungsumgebung vorinstalliert).
file:///usr/lib/spark/examples/jars/spark-examples.jar
- Argumente: 1.000.
- Ausführungskonfiguration:Sie können ein Dienstkonto angeben, das für die Ausführung Ihrer Arbeitslast verwendet werden soll. Wenn Sie kein Dienstkonto angeben, wird die Arbeitslast unter dem Compute Engine-Standarddienstkonto ausgeführt. Das Dienstkonto muss die Rolle Dataproc-Worker haben.
- Netzwerkkonfiguration:Wählen Sie in der Sitzungsregion ein Subnetzwerk aus. Mit Dataproc Serverless wird der private Google-Zugriff (Private Google Access, PGA) für das angegebene Subnetz aktiviert. Informationen zu den Anforderungen an die Netzwerkverbindung finden Sie unter Dataproc Serverless for Spark-Netzwerkkonfiguration.
- Properties (Eigenschaften): Geben Sie den
Key
(Property-Namen) und denValue
der unterstützten Spark-Properties ein, die für Ihre Spark-Batcharbeitslast festgelegt werden sollen. Hinweis: Im Gegensatz zu Clustereigenschaften von Dataproc in der Compute Engine enthalten Dataproc Serverless-Eigenschaften für Spark-Arbeitslasten kein Präfixspark:
. - Weitere Optionen:
- Sie können die Batcharbeitslast so konfigurieren, dass ein externer selbstverwalteter Hive Metastore verwendet wird.
- Sie können einen Persistent History Server (PHS) verwenden. Der PHS muss sich in der Region befinden, in der Sie Batch-Arbeitslasten ausführen.
- Batch-Informationen:
Klicken Sie auf Senden, um die Spark-Batcharbeitslast auszuführen.
gcloud
Wenn Sie eine Spark-Batch-Arbeitslast einreichen möchten, um den ungefähren Wert von pi
zu berechnen, führen Sie den folgenden gcloud-Befehl gcloud dataproc batches submit spark
lokal in einem Terminalfenster oder in Cloud Shell aus.
gcloud dataproc batches submit spark \ --region=REGION \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --class=org.apache.spark.examples.SparkPi \ -- 1000
Ersetzen Sie Folgendes:
- REGION: Geben Sie die Region an, in der Ihre Arbeitslast ausgeführt werden soll.
- Weitere Optionen:Sie können
gcloud dataproc batches submit spark
-Flags hinzufügen, um weitere Arbeitslastoptionen und Spark-Attribute anzugeben.--jars
: Die Beispiel-JAR-Datei ist in der Spark-Ausführungsumgebung vorinstalliert. Mit dem1000
-Befehlsargument, das an die SparkPi-Arbeitslast übergeben wird, werden 1.000 Iterationen der Pi-Schätzungslogik angegeben. Die Eingabeargumente für die Arbeitslast werden nach „--“ angegeben.--subnet
: Mit diesem Flag können Sie den Namen eines Subnetzes in der Sitzungsregion angeben. Wenn Sie kein Subnetz angeben, wählt Dataproc Serverless das Subnetzdefault
in der Sitzungsregion aus. Mit Dataproc Serverless wird der private Google-Zugriff (Private Google Access, PGA) für das Subnetz aktiviert. Informationen zu den Anforderungen an die Netzwerkverbindung finden Sie unter Dataproc Serverless for Spark-Netzwerkkonfiguration.--properties
: Mit diesem Flag können Sie unterstützte Spark-Properties für Ihre Spark-Batcharbeitslast eingeben.--deps-bucket
: Mit diesem Flag können Sie einen Cloud Storage-Bucket angeben, in den Dataproc Serverless Arbeitslastabhängigkeiten hochlädt. Dasgs://
-URI-Präfix des Buckets ist nicht erforderlich. Sie können den Bucket-Pfad oder den Bucket-Namen angeben. Dataproc Serverless for Spark lädt die lokalen Dateien in einen/dependencies
-Ordner im Bucket hoch, bevor die Batcharbeitslast ausgeführt wird. Hinweis:Dieses Flag ist erforderlich, wenn Ihre Batch-Arbeitslast auf Dateien auf Ihrem lokalen Computer verweist.--ttl
: Sie können das Flag--ttl
hinzufügen, um die Dauer der Batch-Lebensdauer anzugeben. Wenn die Arbeitslast diese Dauer überschreitet, wird sie bedingungslos beendet, ohne dass auf den Abschluss der laufenden Arbeit gewartet wird. Geben Sie die Dauer mit dem Suffixs
,m
,h
oderd
(Sekunden, Minuten, Stunden oder Tage) an. Der Mindestwert beträgt 10 Minuten (10m
) und der Maximalwert 14 Tage (14d
).- 1.1- oder 2.0-Laufzeit-Batches:Wenn
--ttl
für eine 1.1- oder 2.0-Laufzeit-Batch-Arbeitslast nicht angegeben ist, darf die Arbeitslast so lange ausgeführt werden, bis sie natürlich beendet wird (oder ewig, wenn sie nicht beendet wird). - Batches der Laufzeitversion 2.1 und höher:Wenn
--ttl
für eine Batch-Arbeitslast der Laufzeitversion 2.1 oder höher nicht angegeben ist, wird standardmäßig4h
verwendet.
- 1.1- oder 2.0-Laufzeit-Batches:Wenn
--service-account
: Sie können ein Dienstkonto angeben, das zum Ausführen Ihrer Arbeitslast verwendet werden soll. Wenn Sie kein Dienstkonto angeben, wird die Arbeitslast unter dem Compute Engine-Standarddienstkonto ausgeführt. Das Dienstkonto muss die Rolle Dataproc-Worker haben.- Hive-Metastore: Mit dem folgenden Befehl wird eine Batch-Arbeitslast für die Verwendung eines externen selbstverwalteten Hive-Metastores mit einer Standard-Spark-Konfiguration konfiguriert.
gcloud dataproc batches submit spark\ --properties=spark.sql.catalogImplementation=hive,spark.hive.metastore.uris=METASTORE_URI,spark.hive.metastore.warehouse.dir=WAREHOUSE_DIR> \ other args ...
- Persistent History Server:
- Mit dem folgenden Befehl wird ein PHS auf einem Dataproc-Cluster mit einem einzelnen Knoten erstellt. Der PHS muss sich in der Region befinden, in der Sie Batch-Arbeitslasten ausführen, und der Cloud Storage-bucket-name muss vorhanden sein.
gcloud dataproc clusters create PHS_CLUSTER_NAME \ --region=REGION \ --single-node \ --enable-component-gateway \ --properties=spark:spark.history.fs.logDirectory=gs://bucket-name/phs/*/spark-job-history
- Reichen Sie eine Batcharbeitslast ein und geben Sie dabei den laufenden Persistent History Server an.
gcloud dataproc batches submit spark \ --region=REGION \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --class=org.apache.spark.examples.SparkPi \ --history-server-cluster=projects/project-id/regions/region/clusters/PHS-cluster-name \ -- 1000
- Mit dem folgenden Befehl wird ein PHS auf einem Dataproc-Cluster mit einem einzelnen Knoten erstellt. Der PHS muss sich in der Region befinden, in der Sie Batch-Arbeitslasten ausführen, und der Cloud Storage-bucket-name muss vorhanden sein.
- Laufzeitversion: Mit dem Flag
--version
können Sie die Dataproc Serverless-Laufzeitversion für die Arbeitslast angeben.gcloud dataproc batches submit spark \ --region=REGION \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --class=org.apache.spark.examples.SparkPi \ --version=VERSION -- 1000
API
In diesem Abschnitt wird gezeigt, wie Sie mithilfe der Dataproc Serverless for Spark-API batches.create
eine Batcharbeitslast erstellen, um den ungefähren Wert von pi
zu berechnen.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- project-id: Eine Google Cloud Projekt-ID.
- region: Eine Compute Engine-Region, in der die Arbeitslast mit Dataproc Serverless ausgeführt wird.
- PROJECT_ID: Ihre Google Cloud -Projekt-ID Projekt-IDs sind im Bereich Projektinformationen im Google Cloud Console-Dashboard aufgeführt.
- REGION: Die Sitzungsregion.
Hinweise:
HTTP-Methode und URL:
POST https://dataproc.googleapis.com/v1/projects/project-id/locations/region/batches
JSON-Text anfordern:
{ "sparkBatch":{ "args":[ "1000" ], "jarFileUris":[ "file:///usr/lib/spark/examples/jars/spark-examples.jar" ], "mainClass":"org.apache.spark.examples.SparkPi" } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name":"projects/project-id/locations/region/batches/batch-id", "uuid":",uuid", "createTime":"2021-07-22T17:03:46.393957Z", "sparkBatch":{ "mainClass":"org.apache.spark.examples.SparkPi", "args":[ "1000" ], "jarFileUris":[ "file:///usr/lib/spark/examples/jars/spark-examples.jar" ] }, "runtimeInfo":{ "outputUri":"gs://dataproc-.../driveroutput" }, "state":"SUCCEEDED", "stateTime":"2021-07-22T17:06:30.301789Z", "creator":"account-email-address", "runtimeConfig":{ "properties":{ "spark:spark.executor.instances":"2", "spark:spark.driver.cores":"2", "spark:spark.executor.cores":"2", "spark:spark.app.name":"projects/project-id/locations/region/batches/batch-id" } }, "environmentConfig":{ "peripheralsConfig":{ "sparkHistoryServerConfig":{ } } }, "operation":"projects/project-id/regions/region/operation-id" }
Arbeitslastkosten schätzen
Dataproc Serverless für Spark-Arbeitslasten verbraucht Data Compute Units (DCU) und Shuffle-Speicherressourcen. Ein Beispiel für die Ausgabe von Dataproc-Nutzungsmesswerten zur Schätzung des Ressourcenverbrauchs und der Kosten der Arbeitslast finden Sie unter Dataproc Serverless-Preise.
Nächste Schritte
Hier erfahren Sie mehr über: