作业构建器是一个直观的界面,可用于在 Google Cloud 控制台中构建和运行 Dataflow 流水线,而无需编写代码。
下图显示了作业构建器界面中的详细信息。在此图片中,用户正在创建一个流水线,以便从 Pub/Sub 读取数据并将其写入 BigQuery:
概览
作业构建器支持读取和写入以下类型的数据:
- Pub/Sub 消息
- BigQuery 表数据
- Cloud Storage 中的 CSV 文件、JSON 文件和文本文件
- PostgreSQL、MySQL、Oracle 和 SQL Server 表数据
作业构建器支持流水线转换,包括过滤、映射、SQL、分组依据、联接和分解(数组展平)。
借助作业构建器,您可以:
- 使用转换和窗口化汇总从 Pub/Sub 流式传输到 BigQuery
- 将数据从 Cloud Storage 写入 BigQuery
- 使用错误处理过滤错误数据(死信队列)
- 使用 SQL 转换使用 SQL 操作或汇总数据
- 使用映射转换在数据中添加、修改或删除字段
- 安排周期性批量作业
作业构建器还可以将流水线保存为 Apache Beam YAML 文件,并从 Beam YAML 文件加载流水线定义。借助此功能,您可以在作业构建器中设计流水线,然后将 YAML 文件存储在 Cloud Storage 或源代码控制库中以供重复使用。YAML 作业定义还可用于使用 gcloud CLI 启动作业。
在以下应用场景中,请考虑使用作业构建器:
- 您希望在不编写代码的情况下快速构建流水线。
- 您想将流水线保存为 YAML 以供重复使用。
- 您可以使用支持的来源、接收器和转换来表示流水线。
- 没有 Google 提供的模板与您的应用场景相匹配。
运行示例作业
Word Count 示例是一种批处理流水线,它可从 Cloud Storage 读取文本,将文本行标记化为单个词,并对每个词进行词频计数。
如果 Cloud Storage 存储桶位于服务边界外部,请创建一条允许访问该存储桶的出站流量规则。
如需运行“Word Count”流水线,请按以下步骤操作:
前往 Google Cloud 控制台中的作业页面。
点击
基于模板创建作业。在侧边栏中,点击
Job Builder(作业构建器)。点击加载蓝图
。点击字数统计。作业构建器会填充流水线的图形表示。
对于每个流水线步骤,作业构建器都会显示一个卡片,用于指定该步骤的配置参数。例如,第一步是从 Cloud Storage 读取文本文件。源数据的位置会预先填充在文本位置框中。
找到标题为新建接收器的卡片。您可能需要滚动屏幕。
在 Text location(文本位置)框中,输入输出文本文件的 Cloud Storage 位置路径前缀。
点击运行作业。 作业构建器会创建 Dataflow 作业,然后前往作业图。作业启动时,作业图会显示流水线的图形表示。此图形表示类似于作业构建器中显示的图形表示。随着流水线的每个步骤运行,作业图中的状态也会更新。
作业信息面板会显示作业的整体状态。如果作业成功完成,作业状态字段会更新为 Succeeded
。
后续步骤
- 使用 Dataflow 作业监控界面。
- 在作业构建器中创建自定义作业。
- 在作业构建器中保存和加载 YAML 作业定义。
- 详细了解 Beam YAML。