Diese Seite wurde von der Cloud Translation API übersetzt.

Dataproc Serverless – Übersicht

Mit Dataproc Serverless können Sie Spark-Arbeitslasten ausführen, ohne Ihren eigenen Dataproc-Cluster bereitstellen und verwalten zu müssen. Es gibt zwei Möglichkeiten, serverlose Dataproc-Arbeitslasten auszuführen:

Serverlose Dataproc-Batch-Arbeitslasten
Interaktive Dataproc Serverless-Sitzungen

Serverlose Dataproc-Batcharbeitslasten

Über dieGoogle Cloud Console, die Google Cloud CLI oder die Dataproc API eine Batch-Arbeitslast an den Dataproc Serverless-Dienst senden. Der Dienst führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Serverlose Dataproc-Gebühren gelten nur für den Zeitpunkt, an dem die Arbeitslast ausgeführt wird.

Informationen zum Einstieg finden Sie unter Apache Spark-Batcharbeitslast ausführen.

Interaktive Dataproc Serverless-Sitzungen

Sie können während einer interaktiven Dataproc Serverless for Spark-Sitzung Code in Jupyter-Notebooks schreiben und ausführen. So können Sie eine Notebooksitzung erstellen:

PySpark-Code in BigQuery Studio-Notebooks ausführen Verwenden Sie das BigQuery-Python-Notebook, um eine Spark-Connect-basierte interaktive Dataproc Serverless-Sitzung zu erstellen. Jedem BigQuery-Notebook kann nur eine aktive Dataproc Serverless-Sitzung zugeordnet werden.
Mit dem Dataproc JupyterLab-Plug-in können Sie mehrere Jupyter-Notebook-Sitzungen aus Vorlagen erstellen und verwalten, die Sie selbst erstellen. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Launcher-Seite verschiedene Karten angezeigt, die verschiedenen Spark-Kernelkonfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Dataproc Serverless-Notebooksitzung zu erstellen, und beginnen Sie dann, Ihren Code im Notebook zu schreiben und zu testen.

Mit dem Dataproc JupyterLab-Plug-in können Sie über die JupyterLab-Launcher-Seite auch die folgenden Aktionen ausführen:
- Dataproc in Compute Engine-Clustern erstellen
- Jobs an Dataproc in Compute Engine-Clustern senden
- Sehen Sie sich Google Cloud - und Spark-Logs an.

Dataproc Serverless im Vergleich zu Dataproc in der Compute Engine

Wenn Sie die Infrastruktur bereitstellen und verwalten und dann Arbeitslasten in Spark und anderen Open-Source-Verarbeitungs-Frameworks ausführen möchten, verwenden Sie Dataproc in der Compute Engine. In der folgenden Tabelle sind die wichtigsten Unterschiede zwischen Dataproc auf der Compute Engine und Dataproc Serverless aufgeführt.

Leistungsvermögen	Dataproc Serverless	Dataproc in Compute Engine
Verarbeitungsframeworks	Batcharbeitslasten: Spark 3.5 und frühere Versionen Interaktive Sitzungen: Spark 3.5 und frühere Versionen	Spark 3.5 und frühere Versionen Andere Open-Source-Frameworks wie Hive, Flink, Trino und Kafka
Serverlos	Ja	Nein
Startzeit	60 Sekunden	90er
Infrastruktursteuerung	Nein	Ja
Ressourcenverwaltung	Spark-basiert	YARN-basiert
GPU-Unterstützung	Ja	Ja
Interaktive Sitzungen	Ja	Nein
Benutzerdefinierte Container	Ja	Nein
VM-Zugriff (z. B. SSH)	Nein	Ja
Java-Versionen	Java 17, 11	Unterstützte vorherige Versionen
`OS Login` support *	Nein	Ja

Hinweise:

Eine Richtlinie für OS Login gilt nicht für Dataproc Serverless und wird von diesem Dienst nicht unterstützt. Wenn Ihre Organisation eine OS Login-Richtlinie erzwingt, schlagen die serverlosen Dataproc-Nutzlasten fehl.

Compliance bei der Sicherheit von Dataproc Serverless

Dataproc Serverless erfüllt alle Anforderungen an den Speicherort von Daten, CMEK, VPC-SC und andere Sicherheitsanforderungen, die auch für Dataproc gelten.

Funktionen für serverlose Dataproc-Batcharbeitslasten

Sie können die folgenden Arten von serverlosen Dataproc-Batcharbeitslasten ausführen:

PySpark
Spark SQL
Spark R
Spark (Java oder Scala)

Sie können Spark-Eigenschaften angeben, wenn Sie eine serverlose Dataproc-Batcharbeitslast einreichen.