Mit Dataproc Serverless können Sie Spark-Arbeitslasten ausführen, ohne Ihren eigenen Dataproc-Cluster bereitstellen und verwalten zu müssen. Es gibt zwei Möglichkeiten, serverlose Dataproc-Arbeitslasten auszuführen:
Serverlose Dataproc-Batcharbeitslasten
Über dieGoogle Cloud Console, die Google Cloud CLI oder die Dataproc API eine Batch-Arbeitslast an den Dataproc Serverless-Dienst senden. Der Dienst führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Serverlose Dataproc-Gebühren gelten nur für den Zeitpunkt, an dem die Arbeitslast ausgeführt wird.
Informationen zum Einstieg finden Sie unter Apache Spark-Batcharbeitslast ausführen.
Interaktive Dataproc Serverless-Sitzungen
Sie können während einer interaktiven Dataproc Serverless for Spark-Sitzung Code in Jupyter-Notebooks schreiben und ausführen. So können Sie eine Notebooksitzung erstellen:
PySpark-Code in BigQuery Studio-Notebooks ausführen Verwenden Sie das BigQuery-Python-Notebook, um eine Spark-Connect-basierte interaktive Dataproc Serverless-Sitzung zu erstellen. Jedem BigQuery-Notebook kann nur eine aktive Dataproc Serverless-Sitzung zugeordnet werden.
Mit dem Dataproc JupyterLab-Plug-in können Sie mehrere Jupyter-Notebook-Sitzungen aus Vorlagen erstellen und verwalten, die Sie selbst erstellen. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Launcher-Seite verschiedene Karten angezeigt, die verschiedenen Spark-Kernelkonfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Dataproc Serverless-Notebooksitzung zu erstellen, und beginnen Sie dann, Ihren Code im Notebook zu schreiben und zu testen.
Mit dem Dataproc JupyterLab-Plug-in können Sie über die JupyterLab-Launcher-Seite auch die folgenden Aktionen ausführen:
- Dataproc in Compute Engine-Clustern erstellen
- Jobs an Dataproc in Compute Engine-Clustern senden
- Sehen Sie sich Google Cloud - und Spark-Logs an.
Dataproc Serverless im Vergleich zu Dataproc in der Compute Engine
Wenn Sie die Infrastruktur bereitstellen und verwalten und dann Arbeitslasten in Spark und anderen Open-Source-Verarbeitungs-Frameworks ausführen möchten, verwenden Sie Dataproc in der Compute Engine. In der folgenden Tabelle sind die wichtigsten Unterschiede zwischen Dataproc auf der Compute Engine und Dataproc Serverless aufgeführt.
Leistungsvermögen | Dataproc Serverless | Dataproc in Compute Engine |
---|---|---|
Verarbeitungsframeworks | Batcharbeitslasten: Spark 3.5 und frühere Versionen Interaktive Sitzungen: Spark 3.5 und frühere Versionen |
Spark 3.5 und frühere Versionen Andere Open-Source-Frameworks wie Hive, Flink, Trino und Kafka |
Serverlos | Ja | Nein |
Startzeit | 60 Sekunden | 90er |
Infrastruktursteuerung | Nein | Ja |
Ressourcenverwaltung | Spark-basiert | YARN-basiert |
GPU-Unterstützung | Ja | Ja |
Interaktive Sitzungen | Ja | Nein |
Benutzerdefinierte Container | Ja | Nein |
VM-Zugriff (z. B. SSH) | Nein | Ja |
Java-Versionen | Java 17, 11 | Unterstützte vorherige Versionen |
OS Login
support * |
Nein | Ja |
Hinweise:
- Eine Richtlinie für OS Login gilt nicht für Dataproc Serverless und wird von diesem Dienst nicht unterstützt.
Wenn Ihre Organisation eine
OS Login
-Richtlinie erzwingt, schlagen die serverlosen Dataproc-Nutzlasten fehl.
Compliance bei der Sicherheit von Dataproc Serverless
Dataproc Serverless erfüllt alle Anforderungen an den Speicherort von Daten, CMEK, VPC-SC und andere Sicherheitsanforderungen, die auch für Dataproc gelten.
Funktionen für serverlose Dataproc-Batcharbeitslasten
Sie können die folgenden Arten von serverlosen Dataproc-Batcharbeitslasten ausführen:
- PySpark
- Spark SQL
- Spark R
- Spark (Java oder Scala)
Sie können Spark-Eigenschaften angeben, wenn Sie eine serverlose Dataproc-Batcharbeitslast einreichen.