作业构建器界面概览

作业构建器是一个直观的界面，可用于在 Google Cloud 控制台中构建和运行 Dataflow 流水线，而无需编写代码。

下图显示了作业构建器界面中的详细信息。在此图片中，用户正在创建一个流水线以从 Pub/Sub 读取到 BigQuery：

作业构建器界面的屏幕截图

概览

作业构建器支持读取和写入以下类型的数据：

Pub/Sub 消息
BigQuery 表数据
Cloud Storage 中的 CSV 文件、JSON 文件和文本文件
PostgreSQL、MySQL、Oracle 和 SQL Server 表数据

作业构建器支持流水线转换，包括过滤、映射、SQL、分组依据、联接和分解（数组展平）。

借助作业构建器，您可以：

使用转换和窗口汇总从 Pub/Sub 流式传输到 BigQuery
将数据从 Cloud Storage 写入 BigQuery。
使用错误处理来过滤错误数据（死信队列）
使用 SQL 转换通过 SQL 操纵或汇总数据
使用映射转换添加、修改或删除数据中的字段
安排周期性批量作业

作业构建器还可以将流水线保存为 Apache Beam YAML 文件，并从 Beam YAML 文件加载流水线定义。借助此功能，您可以在作业构建器中设计流水线，然后将 YAML 文件存储在 Cloud Storage 或源代码控制存储库中以供重复使用。YAML 作业定义还可用于使用 gcloud CLI 启动作业。

在以下应用场景中，请考虑使用作业构建器：

您希望在不编写代码的情况下快速构建流水线。
您希望将流水线保存到 YAML 以供重复使用。
您可以使用支持的来源、接收器和转换来表示流水线。
没有 Google 提供的模板与您的应用场景相匹配。

运行示例作业

“字数统计”示例是一种批处理流水线，它可从 Cloud Storage 读取文本，将文本行标记化为一个个的词，并对每个词进行词频计数。

如果 Cloud Storage 存储桶位于服务边界外部，请创建一条允许访问该存储桶的出站流量规则。

如需运行“字数统计”流水线，请按以下步骤操作：

前往 Google Cloud 控制台中的作业页面。

转到作业
点击 基于模板创建作业。
在侧边栏中，点击 作业构建器。
点击加载蓝图。
点击字数统计。作业构建器会填充流水线的图形表示。

对于每个流水线步骤，作业构建器都会显示一个卡片，用于指定该步骤的配置参数。例如，第一步是从 Cloud Storage 读取文本文件。源数据的位置会预先填充到文本位置框中。

作业构建器的屏幕截图

找到标题为新建接收器的卡片。您可能需要滚动。
在文本位置框中，输入输出文本文件的 Cloud Storage 位置路径前缀。
点击运行作业。作业构建器会创建 Dataflow 作业，然后前往作业图。作业启动时，作业图会显示流水线的图形表示。此图表示法类似于作业构建器中显示的图表示法。随着流水线的每个步骤运行，作业图中的状态会更新。

作业信息面板会显示作业的整体状态。如果作业成功完成，作业状态字段会更新为 Succeeded。

后续步骤

使用 Dataflow 作业监控界面。
在作业构建器中创建自定义作业。
在作业构建器中保存和加载 YAML 作业定义。
详细了解 Beam YAML。

作业构建器界面概览 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

概览

运行示例作业

后续步骤

作业构建器界面概览