Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O Dataproc é um serviço Spark e Hadoop gerenciado que permite aproveitar as ferramentas de dados de código aberto para processamento em lote, consultas, streaming e machine learning.
A automação do Dataproc ajuda a criar clusters rapidamente, gerenciá-los com facilidade e economizar dinheiro, desativando os clusters quando não são necessários. Com menos tempo e dinheiro gastos com administração, você pode se concentrar nas suas tarefas e dados.
Vantagens do Dataproc
Quando comparado com produtos tradicionais no local e serviços de nuvem da concorrência, o Dataproc tem diversas vantagens exclusivas para clusters de três a centenas de nodes:
Baixo custo: o preço do Dataproc é apenas um centavo por hora por CPU virtual no cluster, além dos outros recursos do Cloud Platform utilizados. Além do baixo preço, os clusters do Dataproc incluem instâncias preemptivas que têm preços mais baixos de computação, o que reduz os custos ainda mais. Em vez de arredondar o uso para a hora mais próxima, o Dataproc cobra apenas o que você realmente usa, com um faturamento por minuto e um período mínimo de um minuto.
Super-rápido: sem usar o Dataproc, pode levar de cinco a 30 minutos para os clusters do Spark e Hadoop serem criados no local ou por meio de provedores IaaS. Por comparação, os clusters do Dataproc são rápidos para iniciar, dimensionar e encerrar, com cada uma dessas operações levando, em média, até 90 segundos. Isso significa que você passa menos tempo esperando por clusters e mais tempo trabalhando com dados.
Integrado. O Dataproc tem integração integrada com outros serviços do Google Cloud Platform, como BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring, para que você tenha mais do que apenas um cluster do Spark ou do Hadoop, mas uma plataforma de dados completa. Por exemplo, você pode usar o Dataproc para extrair facilmente terabytes de dados de registro brutos diretamente no BigQuery para relatórios de negócios.
Gerenciado: use os clusters do Spark e Hadoop sem a ajuda de um administrador ou de software especial. É possível interagir facilmente com clusters e jobs do Spark ou do Hadoop pelo
console Google Cloud , o SDK do Cloud ou a API REST do
Dataproc. Quando você terminar de usar um cluster, basta desativá-lo para não gastar dinheiro em um cluster inativo. Não é preciso se preocupar com a perda de dados, porque o Dataproc está integrado ao Cloud Storage, ao BigQuery e ao Cloud Bigtable.
Simples e familiar: não é necessário aprender novas ferramentas ou APIs para usar o Dataproc, o que facilita mover os projetos existentes para o Dataproc sem que precisem ser desenvolvidos novamente. O Spark, Hadoop, Pig e Hive são atualizados com frequência, para aumentar a sua produtividade.
O que está incluído no Dataproc
Para conferir uma lista das versões de código aberto (Hadoop, Spark, Hive e Pig) e Google Cloud
do conector compatíveis com o
Dataproc, consulte a
lista de versões do Dataproc.
Primeiros passos com o Dataproc
Para começar a usar o Dataproc rapidamente, consulte os guias de início rápido do Dataproc. Você pode acessar o Dataproc das seguintes maneiras:
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-22 UTC."],[[["\u003cp\u003eDataproc is a managed service for Spark and Hadoop that simplifies batch processing, querying, streaming, and machine learning with open-source tools.\u003c/p\u003e\n"],["\u003cp\u003eDataproc offers cost savings through low per-vCPU pricing, preemptible instances, and second-by-second billing, only charging for actual usage.\u003c/p\u003e\n"],["\u003cp\u003eClusters in Dataproc are created, scaled, and shut down quickly, often in 90 seconds or less, minimizing wait times and increasing efficiency.\u003c/p\u003e\n"],["\u003cp\u003eDataproc seamlessly integrates with other Google Cloud Platform services, forming a complete data platform that enables functionalities like ETL directly into BigQuery.\u003c/p\u003e\n"],["\u003cp\u003eDataproc provides a managed environment, eliminating the need for administrators or special software while offering easy interaction with clusters and jobs through the Google Cloud console, Cloud SDK, or REST API.\u003c/p\u003e\n"]]],[],null,["# Dataproc overview\n\nDataproc is a managed Spark and Hadoop service that lets you take advantage of open\nsource data tools for batch processing, querying, streaming, and machine learning.\nDataproc automation helps you create clusters quickly, manage them easily, and save\nmoney by turning clusters off when you don't need them. With less time and money spent on\nadministration, you can focus on your jobs and your data. \n\n### Advantages of Dataproc\n\nWhen compared to traditional, on-premises products and competing cloud\nservices, Dataproc has a number of unique advantages for clusters of\nthree to hundreds of nodes:\n\n- **Low cost** --- Dataproc is [priced](/dataproc/docs/resources/pricing) at only 1 cent per virtual CPU in your cluster per hour, on top of the other Cloud Platform resources you use. In addition to this low price, Dataproc clusters can include [preemptible instances](/preemptible-vms) that have lower compute prices, reducing your costs even further. Instead of rounding your usage up to the nearest hour, Dataproc charges you only for what you really use with second-by-second billing and a low, one-minute-minimum billing period.\n- **Super fast** --- Without using Dataproc, it can take from five to 30 minutes to create Spark and Hadoop clusters on-premises or through IaaS providers. By comparison, Dataproc clusters are quick to start, scale, and shutdown, with each of these operations taking 90 seconds or less, on average. This means you can spend less time waiting for clusters and more hands-on time working with your data.\n- **Integrated** --- Dataproc has built-in integration with other Google Cloud Platform services, such as [BigQuery](/bigquery), [Cloud Storage](/storage), [Cloud Bigtable](/bigtable), [Cloud Logging](/logging), and [Cloud Monitoring](/monitoring), so you have more than just a Spark or Hadoop cluster---you have a complete data platform. For example, you can use Dataproc to effortlessly ETL terabytes of raw log data directly into BigQuery for business reporting.\n- **Managed** --- Use Spark and Hadoop clusters without the assistance of an administrator or special software. You can easily interact with clusters and Spark or Hadoop jobs through the Google Cloud console, the Cloud SDK, or the Dataproc REST API. When you're done with a cluster, you can simply turn it off, so you don't spend money on an idle cluster. You won't need to worry about losing data, because Dataproc is integrated with [Cloud Storage](/storage), [BigQuery](/bigquery), and [Cloud Bigtable](/bigtable).\n- **Simple and familiar** --- You don't need to learn new tools or APIs to use Dataproc, making it easy to move existing projects into Dataproc without redevelopment. Spark, Hadoop, Pig, and Hive are frequently updated, so you can be productive faster.\n\n### What is included in Dataproc\n\nFor a list of the open source (Hadoop, Spark, Hive, and Pig) and Google Cloud\nconnector versions supported by\nDataproc, see the\n[Dataproc version list](/dataproc/docs/concepts/dataproc-versions).\n\n### Getting Started with Dataproc\n\nTo quickly get started with Dataproc, see the Dataproc\nquickstarts. You can access Dataproc in the following ways:\n\n- Through the [REST API](/dataproc/docs/quickstarts/create-cluster-template)\n- Using the [Cloud SDK](/dataproc/docs/quickstarts/create-cluster-gcloud)\n- Using the [Dataproc UI](/dataproc/docs/quickstarts/create-cluster-console)\n- Through the [Cloud Client Libraries](/dataproc/docs/quickstarts/create-cluster-client-libraries)"]]