Dataproc 概览

Dataproc 是一项托管式 Spark 和 Hadoop 服务，可让您充分利用开源数据工具来执行批处理、查询、流式传输和机器学习。Dataproc 自动化功能可帮助您快速创建集群并轻松管理，以及在不需要集群时将其关闭以节省费用。由于在管理上花费的时间和费用更少，您可以将精力集中在作业和数据上。

Dataproc 的优势

与传统的本地产品和竞争性云服务相比，Dataproc 对于具有三个到数百个节点的集群提供许多独特优势：

费用低 - Dataproc 的计费方式是每小时只需为集群中的每个虚拟 CPU 支付 1 美分，低于您使用的其他 Cloud Platform 资源。除了价格低廉之外，Dataproc 集群还可以包含具有较低计算价格的抢占式实例，从而进一步降低您的费用。Dataproc 不会将您的使用量四舍五入为最接近的小时数，而是按照您的真实使用情况逐秒结算，结算周期低至一分钟。
超高速 - 在不使用 Dataproc 的情况下，可能需要 5 到 30 分钟才能在本地或通过 IaaS 提供商创建 Spark 和 Hadoop 集群。相比之下，Dataproc 集群可以快速启动、调节和关闭，平均每个操作需要 90 秒或更少的时间。这意味着，您可以花更少的时间来等待集群响应，并投入更多的时间来实际处理数据。
集成 — Dataproc 还内置了与其他 Google Cloud Platform 服务（例如 BigQuery、Cloud Storage、Cloud Bigtable、Cloud Logging 和 Cloud Monitoring）的集成，因此，您拥有的不仅仅是一个 Spark 或 Hadoop 集群，而是一个完整的数据平台。例如，您可以使用 Dataproc 轻松将数 TB 的原始日志数据直接 ETL 到 BigQuery 中，以便进行业务报告。
托管 - 无需借助管理员或特殊软件提供的帮助，即可使用 Spark 和 Hadoop 集群。您可以通过 Google Cloud 控制台、Cloud SDK 或 Dataproc REST API，轻松与集群及 Spark 或 Hadoop 作业进行交互。当您使用完一个集群时，只需将它关闭，这样您就不会为闲置的集群付费。您不必担心数据丢失，因为 Dataproc 已与 Cloud Storage、BigQuery 和 Cloud Bigtable 集成。
简单而熟悉 - 您无需学习新的工具或 API 即可使用 Dataproc，因此可以轻松地将现有项目迁移到 Dataproc（无需重新进行开发）。Spark、Hadoop、Pig 和 Hive 会频繁更新，因此您可以更快地提高工作效率。

Dataproc 包含哪些组件

如需查看 Dataproc 支持的开源组件（Hadoop、Spark、Hive 和 Pig）和 Google Cloud连接器版本的列表，请参阅 Dataproc 版本列表。

Dataproc 使用入门

如需快速开始使用 Dataproc，请参阅 Dataproc 快速入门。您可以通过以下方式访问 Dataproc：

通过 REST API
使用 Cloud SDK
使用 Dataproc 界面
通过 Cloud 客户端库

Dataproc 概览 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

Dataproc 的优势

Dataproc 包含哪些组件

Dataproc 使用入门

Dataproc 概览