Dataproc 文档

Cloud Dataproc 是一项托管式 Apache Spark 和 Apache Hadoop 服务,借助该服务,您可以充分利用开源数据工具来执行批处理、查询、流式传输和机器学习。Dataproc 自动化功能可帮助您快速创建集群并轻松管理,以及在不需要集群时将其关闭以节省费用。由于在管理上花费的时间和费用更少,您可以将精力集中在作业和数据上。了解详情

  • 体验 Gemini 2.0 Flash Thinking
  • 免费使用热门产品(包括 AI API 和 BigQuery)的每月用量
  • 不会自动收费,无需承诺

继续探索 20 多种提供“始终免费”用量的产品

使用适用于常见应用场景(包括 AI API、虚拟机、数据仓库等)的 20 多种免费产品。

探索自主培训、应用场景、参考架构和代码示例,并了解有关如何使用和连接 Google Cloud 服务的示例。
培训
培训和教程

从 Dataproc Jobs API 将 Spark 作业提交到正在运行的 Google Kubernetes Engine 集群。

培训
培训和教程

该课程包含讲座、演示和实操实验来创建 Dataproc 集群、提交 Spark 作业,然后关闭集群。

培训
培训和教程

本课程包含讲座、演示和实操实验,使用在 Dataproc 集群上运行的 Apache Spark 的机器学习库实现逻辑回归,从而针对多变量数据集中的数据开发模型。

使用场景
使用场景

在 Google Cloud 上安排工作流。

使用场景
使用场景

如何将数据从本地 Hadoop 分布式文件系统 (HDFS) 迁移到 Google Cloud。

使用场景
使用场景

向 Dataproc 集群提交 Spark 作业时添加这些依赖项的建议方法。

代码示例
代码示例

从 Python 调用 Dataproc API。

代码示例
代码示例

从 Java 调用 Dataproc API。

代码示例
代码示例

从 Node.js 调用 Dataproc API。

代码示例
代码示例

从 Go 调用 Dataproc API。

相关视频