作业构建器界面概览

作业构建器是一个直观的界面,可用于在 Google Cloud 控制台中构建和运行 Dataflow 流水线,而无需编写代码。

下图显示了作业构建器界面中的详细信息。在此图片中,用户正在创建一个流水线,以便从 Pub/Sub 读取数据并将其写入 BigQuery:

作业构建器界面的屏幕截图

概览

作业构建器支持读取和写入以下类型的数据:

  • Pub/Sub 消息
  • BigQuery 表数据
  • Cloud Storage 中的 CSV 文件、JSON 文件和文本文件
  • PostgreSQL、MySQL、Oracle 和 SQL Server 表数据

作业构建器支持流水线转换,包括过滤、映射、SQL、分组依据、联接和分解(数组展平)。

借助作业构建器,您可以:

  • 使用转换和窗口化汇总从 Pub/Sub 流式传输到 BigQuery
  • 将数据从 Cloud Storage 写入 BigQuery
  • 使用错误处理过滤错误数据(死信队列)
  • 使用 SQL 转换使用 SQL 操作或汇总数据
  • 使用映射转换在数据中添加、修改或删除字段
  • 安排周期性批量作业

作业构建器还可以将流水线保存为 Apache Beam YAML 文件,并从 Beam YAML 文件加载流水线定义。借助此功能,您可以在作业构建器中设计流水线,然后将 YAML 文件存储在 Cloud Storage 或源代码控制库中以供重复使用。YAML 作业定义还可用于使用 gcloud CLI 启动作业。

在以下应用场景中,请考虑使用作业构建器:

  • 您希望在不编写代码的情况下快速构建流水线。
  • 您想将流水线保存为 YAML 以供重复使用。
  • 您可以使用支持的来源、接收器和转换来表示流水线。
  • 没有 Google 提供的模板与您的应用场景相匹配。

运行示例作业

Word Count 示例是一种批处理流水线,它可从 Cloud Storage 读取文本,将文本行标记化为单个词,并对每个词进行词频计数。

如果 Cloud Storage 存储桶位于服务边界外部,请创建一条允许访问该存储桶的出站流量规则

如需运行“Word Count”流水线,请按以下步骤操作:

  1. 前往 Google Cloud 控制台中的作业页面。

    转到作业

  2. 点击 基于模板创建作业

  3. 在侧边栏中,点击 Job Builder(作业构建器)。

  4. 点击加载蓝图

  5. 点击字数统计。作业构建器会填充流水线的图形表示。

    对于每个流水线步骤,作业构建器都会显示一个卡片,用于指定该步骤的配置参数。例如,第一步是从 Cloud Storage 读取文本文件。源数据的位置会预先填充在文本位置框中。

作业构建器的屏幕截图

  1. 找到标题为新建接收器的卡片。您可能需要滚动屏幕。

  2. Text location(文本位置)框中,输入输出文本文件的 Cloud Storage 位置路径前缀。

  3. 点击运行作业。 作业构建器会创建 Dataflow 作业,然后前往作业图。作业启动时,作业图会显示流水线的图形表示。此图形表示类似于作业构建器中显示的图形表示。随着流水线的每个步骤运行,作业图中的状态也会更新。

作业信息面板会显示作业的整体状态。如果作业成功完成,作业状态字段会更新为 Succeeded

后续步骤