Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Dataproc ist ein verwalteter Spark- und Hadoop-Dienst, mit dem Sie Open-Source-Datentools für Batchverarbeitung, Abfragen, Streaming und maschinelles Lernen nutzen können.
Mithilfe der Dataproc-Automatisierung lassen sich Cluster schnell erstellen, einfach verwalten und Kosten senken, weil Sie nicht mehr benötigte Cluster deaktivieren können. Da Sie weniger Zeit und Geld für die Verwaltung aufwenden, können Sie sich besser auf Ihre Jobs und Daten konzentrieren.
Vorteile von Dataproc
Im Vergleich zu herkömmlichen lokalen Produkten und konkurrierenden Cloud-Diensten bietet Dataproc eine Reihe einzigartiger Vorteile für Cluster mit drei bis Hunderten von Knoten:
Kostengünstig – Bei Dataproc fallen zusätzlich zu den Gebühren für die anderen von Ihnen genutzten Cloud Platform-Ressourcen Kosten von lediglich 1 Cent pro virtueller CPU im Cluster pro Stunde an. Zusätzlich zu diesem niedrigen Preis können Dataproc-Cluster Instanzen auf Abruf mit niedrigeren Berechnungspreisen umfassen. Somit sind weitere Kosteneinsparungen möglich. Statt auf die nächste Stunde aufzurunden, berechnet Dataproc lediglich die tatsächliche Nutzung. Die Abrechnung erfolgt pro Sekunde bei einem Mindestzeitraum von einer Minute.
Super schnell – Ohne die Verwendung von Dataproc kann es zwischen fünf und 30 Minuten dauern, bis Spark- und Hadoop-Cluster vor Ort oder über IaaS-Anbieter erstellt werden. Im Vergleich dazu lassen sich Dataproc-Cluster schnell starten, skalieren und herunterfahren. Jeder dieser Vorgänge nimmt im Durchschnitt weniger als 90 Sekunden in Anspruch. Aufgrund der geringen Wartezeiten in Verbindung mit Cluster-Vorgängen haben Sie nun mehr Zeit für die Bearbeitung von Daten.
Eingebunden: Dataproc lässt sich in andere Dienste der Google Cloud Platform einbinden, z. B.
BigQuery,
Cloud Storage,
Cloud Bigtable,
Cloud Logging und
Cloud Monitoring. Sie haben also mehr als nur einen Spark- oder Hadoop-Cluster. Sie haben eine komplette Datenplattform. Sie können Dataproc beispielsweise dazu verwenden, um ETL-Terabyte von Log-Rohdaten mühelos und direkt in BigQuery für die Geschäftsberichterstattung zu importieren.
Verwaltet – Nutzen Sie Spark- und Hadoop-Cluster ohne die Unterstützung eines Administrators oder spezieller Software. Sie können ganz einfach mit Clustern und Spark- oder Hadoop-Jobs über die Google Cloud Console, das Cloud SDK oder die Dataproc REST API interagieren. Wenn Sie mit einem Cluster fertig sind, können Sie ihn einfach deaktivieren, sodass Sie kein Geld für einen inaktiven Cluster ausgeben. Sie müssen sich keine Sorgen über Datenverluste machen, da Dataproc in Cloud Storage, BigQuery und Cloud Bigtable eingebunden ist.
Einfach und vertraut: Sie müssen keine neuen Tools oder APIs erlernen, um Dataproc verwenden zu können. So können Sie vorhandene Projekte ganz einfach ohne Neuentwicklung in Dataproc verschieben. Spark, Hadoop, Pig und Hive werden häufig aktualisiert, sodass Sie schneller produktiv sein können.
Was ist in Dataproc enthalten?
Eine Liste der von Dataproc unterstützten Open-Source- (Hadoop, Spark, Hive und Pig) und Google Cloud
Connector-Versionen finden Sie in der Dataproc-Versionsliste.
Erste Schritte mit Dataproc
Informationen für einen schnellen Einstieg in Dataproc finden Sie in den Dataproc-Kurzanleitungen. Sie haben folgende Möglichkeiten, um auf Dataproc zuzugreifen:
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-08-22 (UTC)."],[[["\u003cp\u003eDataproc is a managed service for Spark and Hadoop that simplifies batch processing, querying, streaming, and machine learning with open-source tools.\u003c/p\u003e\n"],["\u003cp\u003eDataproc offers cost savings through low per-vCPU pricing, preemptible instances, and second-by-second billing, only charging for actual usage.\u003c/p\u003e\n"],["\u003cp\u003eClusters in Dataproc are created, scaled, and shut down quickly, often in 90 seconds or less, minimizing wait times and increasing efficiency.\u003c/p\u003e\n"],["\u003cp\u003eDataproc seamlessly integrates with other Google Cloud Platform services, forming a complete data platform that enables functionalities like ETL directly into BigQuery.\u003c/p\u003e\n"],["\u003cp\u003eDataproc provides a managed environment, eliminating the need for administrators or special software while offering easy interaction with clusters and jobs through the Google Cloud console, Cloud SDK, or REST API.\u003c/p\u003e\n"]]],[],null,["# Dataproc overview\n\nDataproc is a managed Spark and Hadoop service that lets you take advantage of open\nsource data tools for batch processing, querying, streaming, and machine learning.\nDataproc automation helps you create clusters quickly, manage them easily, and save\nmoney by turning clusters off when you don't need them. With less time and money spent on\nadministration, you can focus on your jobs and your data. \n\n### Advantages of Dataproc\n\nWhen compared to traditional, on-premises products and competing cloud\nservices, Dataproc has a number of unique advantages for clusters of\nthree to hundreds of nodes:\n\n- **Low cost** --- Dataproc is [priced](/dataproc/docs/resources/pricing) at only 1 cent per virtual CPU in your cluster per hour, on top of the other Cloud Platform resources you use. In addition to this low price, Dataproc clusters can include [preemptible instances](/preemptible-vms) that have lower compute prices, reducing your costs even further. Instead of rounding your usage up to the nearest hour, Dataproc charges you only for what you really use with second-by-second billing and a low, one-minute-minimum billing period.\n- **Super fast** --- Without using Dataproc, it can take from five to 30 minutes to create Spark and Hadoop clusters on-premises or through IaaS providers. By comparison, Dataproc clusters are quick to start, scale, and shutdown, with each of these operations taking 90 seconds or less, on average. This means you can spend less time waiting for clusters and more hands-on time working with your data.\n- **Integrated** --- Dataproc has built-in integration with other Google Cloud Platform services, such as [BigQuery](/bigquery), [Cloud Storage](/storage), [Cloud Bigtable](/bigtable), [Cloud Logging](/logging), and [Cloud Monitoring](/monitoring), so you have more than just a Spark or Hadoop cluster---you have a complete data platform. For example, you can use Dataproc to effortlessly ETL terabytes of raw log data directly into BigQuery for business reporting.\n- **Managed** --- Use Spark and Hadoop clusters without the assistance of an administrator or special software. You can easily interact with clusters and Spark or Hadoop jobs through the Google Cloud console, the Cloud SDK, or the Dataproc REST API. When you're done with a cluster, you can simply turn it off, so you don't spend money on an idle cluster. You won't need to worry about losing data, because Dataproc is integrated with [Cloud Storage](/storage), [BigQuery](/bigquery), and [Cloud Bigtable](/bigtable).\n- **Simple and familiar** --- You don't need to learn new tools or APIs to use Dataproc, making it easy to move existing projects into Dataproc without redevelopment. Spark, Hadoop, Pig, and Hive are frequently updated, so you can be productive faster.\n\n### What is included in Dataproc\n\nFor a list of the open source (Hadoop, Spark, Hive, and Pig) and Google Cloud\nconnector versions supported by\nDataproc, see the\n[Dataproc version list](/dataproc/docs/concepts/dataproc-versions).\n\n### Getting Started with Dataproc\n\nTo quickly get started with Dataproc, see the Dataproc\nquickstarts. You can access Dataproc in the following ways:\n\n- Through the [REST API](/dataproc/docs/quickstarts/create-cluster-template)\n- Using the [Cloud SDK](/dataproc/docs/quickstarts/create-cluster-gcloud)\n- Using the [Dataproc UI](/dataproc/docs/quickstarts/create-cluster-console)\n- Through the [Cloud Client Libraries](/dataproc/docs/quickstarts/create-cluster-client-libraries)"]]