Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Dataproc adalah layanan Spark dan Hadoop terkelola yang memungkinkan Anda memanfaatkan alat data open source untuk pemrosesan batch, pembuatan kueri, streaming, dan machine learning.
Otomatisasi Dataproc membantu Anda membuat cluster dengan cepat, mengelolanya dengan mudah, dan menghemat
uang dengan menonaktifkan cluster saat tidak diperlukan. Karena lebih sedikit waktu dan uang yang dihabiskan untuk
tugas administrasi, Anda dapat berfokus pada pekerjaan dan data Anda.
Keunggulan Dataproc
Jika dibandingkan dengan produk lokal tradisional dan layanan cloud
pesaing, Dataproc memiliki sejumlah keunggulan unik untuk cluster
tiga hingga ratusan node:
Biaya rendah — Dataproc
dihargai hanya 1 sen per CPU virtual di cluster Anda per jam, di samping
resource Cloud Platform lainnya yang Anda gunakan. Selain harga rendah ini, kluster Dataproc dapat menyertakan instance yang dapat dihentikan yang memiliki harga komputasi lebih rendah, sehingga mengurangi biaya Anda lebih lanjut. Dataproc hanya menagih Anda untuk penggunaan yang benar-benar Anda gunakan dengan penagihan detik demi detik dan periode penagihan minimum satu menit yang rendah, bukan membulatkan penggunaan Anda ke jam terdekat.
Super cepat — Tanpa menggunakan Dataproc, diperlukan waktu
sekitar lima hingga 30 menit untuk membuat cluster Spark dan Hadoop secara lokal
atau melalui penyedia IaaS. Sebagai perbandingan, cluster Dataproc dimulai, diskalakan, dan dimatikan dengan cepat. Setiap operasi ini rata-rata membutuhkan waktu 90 detik atau lebih cepat. Artinya, Anda dapat menghabiskan lebih sedikit waktu untuk menunggu cluster dan memiliki lebih banyak waktu untuk langsung bekerja dengan data.
Terintegrasi — Dataproc memiliki integrasi bawaan dengan
layanan Google Cloud Platform lainnya, seperti
BigQuery,
Cloud Storage,
Cloud Bigtable,
Cloud Logging, dan
Cloud Monitoring, sehingga Anda memiliki lebih dari sekadar
cluster Spark atau Hadoop—Anda memiliki platform data yang lengkap. Misalnya, Anda dapat menggunakan Dataproc untuk melakukan ETL data log mentah terabyte
secara langsung ke BigQuery untuk pelaporan bisnis dengan mudah.
Terkelola — Menggunakan cluster Spark dan Hadoop tanpa bantuan administrator atau software khusus. Anda dapat dengan mudah
berinteraksi dengan cluster dan tugas Spark atau Hadoop melalui
konsol Google Cloud , Cloud SDK, atau Dataproc REST
API. Setelah selesai menggunakan cluster, Anda dapat menonaktifkannya, sehingga tidak perlu membelanjakan uang untuk cluster yang tidak ada aktivitasnya. Anda tidak perlu khawatir kehilangan data, karena Dataproc terintegrasi dengan Cloud Storage, BigQuery, dan Cloud Bigtable.
Sederhana dan familier — Anda tidak perlu mempelajari alat atau API baru untuk menggunakan Dataproc, sehingga memudahkan Anda memindahkan project yang ada ke Dataproc tanpa perlu pengembangan ulang. Spark, Hadoop, Pig, dan Hive
sering diperbarui, sehingga Anda dapat lebih produktif.
Hal yang disertakan dalam Dataproc
Untuk daftar versi konektor open source (Hadoop, Spark, Hive, dan Pig) dan Google Cloud
yang didukung oleh
Dataproc, lihat
Daftar versi Dataproc.
Memulai Dataproc
Untuk mulai menggunakan Dataproc dengan cepat, lihat panduan memulai Dataproc. Anda dapat mengakses Dataproc dengan cara berikut:
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-08-22 UTC."],[[["\u003cp\u003eDataproc is a managed service for Spark and Hadoop that simplifies batch processing, querying, streaming, and machine learning with open-source tools.\u003c/p\u003e\n"],["\u003cp\u003eDataproc offers cost savings through low per-vCPU pricing, preemptible instances, and second-by-second billing, only charging for actual usage.\u003c/p\u003e\n"],["\u003cp\u003eClusters in Dataproc are created, scaled, and shut down quickly, often in 90 seconds or less, minimizing wait times and increasing efficiency.\u003c/p\u003e\n"],["\u003cp\u003eDataproc seamlessly integrates with other Google Cloud Platform services, forming a complete data platform that enables functionalities like ETL directly into BigQuery.\u003c/p\u003e\n"],["\u003cp\u003eDataproc provides a managed environment, eliminating the need for administrators or special software while offering easy interaction with clusters and jobs through the Google Cloud console, Cloud SDK, or REST API.\u003c/p\u003e\n"]]],[],null,["# Dataproc overview\n\nDataproc is a managed Spark and Hadoop service that lets you take advantage of open\nsource data tools for batch processing, querying, streaming, and machine learning.\nDataproc automation helps you create clusters quickly, manage them easily, and save\nmoney by turning clusters off when you don't need them. With less time and money spent on\nadministration, you can focus on your jobs and your data. \n\n### Advantages of Dataproc\n\nWhen compared to traditional, on-premises products and competing cloud\nservices, Dataproc has a number of unique advantages for clusters of\nthree to hundreds of nodes:\n\n- **Low cost** --- Dataproc is [priced](/dataproc/docs/resources/pricing) at only 1 cent per virtual CPU in your cluster per hour, on top of the other Cloud Platform resources you use. In addition to this low price, Dataproc clusters can include [preemptible instances](/preemptible-vms) that have lower compute prices, reducing your costs even further. Instead of rounding your usage up to the nearest hour, Dataproc charges you only for what you really use with second-by-second billing and a low, one-minute-minimum billing period.\n- **Super fast** --- Without using Dataproc, it can take from five to 30 minutes to create Spark and Hadoop clusters on-premises or through IaaS providers. By comparison, Dataproc clusters are quick to start, scale, and shutdown, with each of these operations taking 90 seconds or less, on average. This means you can spend less time waiting for clusters and more hands-on time working with your data.\n- **Integrated** --- Dataproc has built-in integration with other Google Cloud Platform services, such as [BigQuery](/bigquery), [Cloud Storage](/storage), [Cloud Bigtable](/bigtable), [Cloud Logging](/logging), and [Cloud Monitoring](/monitoring), so you have more than just a Spark or Hadoop cluster---you have a complete data platform. For example, you can use Dataproc to effortlessly ETL terabytes of raw log data directly into BigQuery for business reporting.\n- **Managed** --- Use Spark and Hadoop clusters without the assistance of an administrator or special software. You can easily interact with clusters and Spark or Hadoop jobs through the Google Cloud console, the Cloud SDK, or the Dataproc REST API. When you're done with a cluster, you can simply turn it off, so you don't spend money on an idle cluster. You won't need to worry about losing data, because Dataproc is integrated with [Cloud Storage](/storage), [BigQuery](/bigquery), and [Cloud Bigtable](/bigtable).\n- **Simple and familiar** --- You don't need to learn new tools or APIs to use Dataproc, making it easy to move existing projects into Dataproc without redevelopment. Spark, Hadoop, Pig, and Hive are frequently updated, so you can be productive faster.\n\n### What is included in Dataproc\n\nFor a list of the open source (Hadoop, Spark, Hive, and Pig) and Google Cloud\nconnector versions supported by\nDataproc, see the\n[Dataproc version list](/dataproc/docs/concepts/dataproc-versions).\n\n### Getting Started with Dataproc\n\nTo quickly get started with Dataproc, see the Dataproc\nquickstarts. You can access Dataproc in the following ways:\n\n- Through the [REST API](/dataproc/docs/quickstarts/create-cluster-template)\n- Using the [Cloud SDK](/dataproc/docs/quickstarts/create-cluster-gcloud)\n- Using the [Dataproc UI](/dataproc/docs/quickstarts/create-cluster-console)\n- Through the [Cloud Client Libraries](/dataproc/docs/quickstarts/create-cluster-client-libraries)"]]