使用 Apache Beam 构建流水线

Dataflow 基于开源 Apache Beam 项目构建。您可以使用 Apache Beam SDK 为 Dataflow 构建流水线。本文档列出了一些 Apache Beam 编程入门的资源。

开始使用

  • 安装 Apache Beam SDK:介绍如何安装 Apache Beam SDK,以便在 Dataflow 中运行流水线。

  • 创建 Java 流水线:介绍如何使用 Apache Beam Java SDK 创建流水线,并在 Dataflow 中运行该流水线。

  • 创建 Python 流水线:介绍如何使用 Apache Beam Python SDK 创建流水线,并在 Dataflow 中运行该流水线。

  • 创建 Go 流水线:介绍如何使用 Apache Beam Go SDK 创建流水线,并在 Dataflow 中运行该流水线。

了解 Apache Beam

您可以使用 Apache Beam 网站上的以下页面来了解 Apache Beam 编程。

  • Apache Beam 编程指南:提供有关使用 Apache Beam SDK 类构建和测试流水线的指导。

  • Apache Beam 导览:可用于熟悉 Apache Beam 的学习指南。学习单元随附代码示例,您可以运行和修改。

  • Apache Beam 园地:一个交互式环境,用于试用 Apache Beam 转换和示例,而无需在您的环境中安装 Apache Beam。

  • 创建流水线:介绍了 Apache Beam SDK 中的类的使用机制以及构建流水线所需的必要步骤。

开发流水线

代码示例

您可以使用 Apache Beam GitHub 中的以下示例开始构建流式流水线:

后续步骤