Dataproc-Dokumentation
Dataproc ist ein verwalteter Apache Spark- und Apache Hadoop-Dienst, mit dem Sie Open-Source-Datentools für Batchverarbeitung, Abfragen, Streaming und maschinelles Lernen nutzen können. Mithilfe der Dataproc-Automatisierung lassen sich Cluster schnell erstellen, einfach verwalten und Kosten senken, weil Sie nicht mehr benötigte Cluster deaktivieren können. Außerdem haben Sie so die Möglichkeit sich stärker auf Jobs und Daten zu konzentrieren. Weitere Informationen
Proof of Concept mit einem Guthaben in Höhe von 300 $starten
- Zugriff auf Gemini 2.0 Flash Thinking erhalten
- Kostenlose monatliche Nutzung beliebter Produkte wie KI-APIs und BigQuery
- Keine automatischen Abbuchungen, keine Verpflichtung
Mehr als 20 Produkte immer kostenlos nutzen
Sie haben Zugriff auf mehr als 20 kostenlose Produkte für gängige Anwendungsfälle, darunter KI-APIs, VMs, Data Warehouses und mehr.
Dokumentationsressourcen
Leitfäden
-
Kurzanleitungen: Console, Befehlszeile, Clientbibliotheken, APIs Explorer – Cluster erstellen oder APIs Explorer – Spark-Job senden
Weitere Informationen
Spark-Job in Google Kubernetes Engine ausführen
Spark-Jobs über die Dataproc Jobs API an einen ausgeführten Google Kubernetes Engine-Cluster senden
Einführung in Cloud Dataproc: Hadoop und Spark in Google Cloud
Dieser Kurs enthält eine Kombination aus Vorträgen, Demos und praxisorientierten Labs zum Erstellen eines Dataproc-Clusters, zum Senden eines Spark-Jobs und zum anschließenden Herunterfahren des Clusters.
Maschinelles Lernen mit Spark in Dataproc
Dieser Kurs bietet eine Kombination aus Vorträgen, Demos und praxisorientierten Labs zur Implementierung der logistischen Regression mit einer ML-Bibliothek von Apache Spark, das in einem Dataproc-Cluster ausgeführt wird. So können Sie ein Modell für Daten aus einem multivariaten Dataset entwickeln.
Workflow-Planungslösungen
Workflows in Google Cloud planen
Lokale HDFS-Daten zu Google Cloud migrieren
Informationen zum Verschieben von Daten aus einem lokalen Hadoop Distributed File System (HDFS) zu Google Cloud.
Java- und Scala-Abhängigkeiten für Apache Spark verwalten
Empfohlene Ansätze zum Einbinden von Abhängigkeiten, wenn Sie einen Spark-Job an einen Dataproc-Cluster senden.
Python API-Beispiele
Dataproc-APIs aus Python aufrufen
Java API-Beispiele
Dataproc-APIs aus Java aufrufen
Node.js API-Beispiele
Dataproc-APIs über Node.js aufrufen
Go API-Beispiele
Dataproc-APIs über Go aufrufen