管理流水线

本文档介绍了如何管理 BigQuery 数据流,包括如何安排和删除数据流。

本文档还介绍了如何在 Dataplex 中查看和管理数据流元数据。

流水线由 Dataform 提供支持。

准备工作

  1. 创建 BigQuery 数据流
  2. 如需在 Dataplex 中管理数据流元数据,请确保已在您的 Google Cloud 项目中启用 Dataplex API

所需的角色

如需获得管理流水线所需的权限,请让您的管理员为您授予以下 IAM 角色:

  • 删除数据流水线:数据流水线的 Dataform Admin (roles/dataform.Admin)
  • 查看和运行流水线:项目的 Dataform Viewer (roles/dataform.Viewer)

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

如需在 Dataplex 中管理流水线元数据,请确保您拥有所需的 Dataplex 角色

如需详细了解 Dataform IAM,请参阅使用 IAM 控制访问权限

查看所有流水线

如需查看项目中所有流水线的列表,请执行以下操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,点击 展开流水线

查看过往的手动运行作业

如需查看所选流水线的过往手动运行情况,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

  3. 点击执行

  4. 可选:如需刷新过往运行情况的列表,请点击刷新

为流水线运行失败配置提醒

每个流水线都有一个对应的 Dataform 代码库 ID。每次 BigQuery 流水线运行都会使用相应的 Dataform 代码库 ID 记录在 Cloud Logging 中。您可以使用 Cloud Monitoring 观察 BigQuery 流水线运行的 Cloud Logging 日志中的趋势,并在出现描述的条件时通知您。

如需在 BigQuery 流水线运行失败时接收提醒,您可以为相应的 Dataform 代码库 ID 创建基于日志的提醒政策。如需了解相关说明,请参阅为失败的工作流调用配置提醒

如需查找流水线的 Dataform 仓库 ID,请执行以下操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

  3. 点击设置

    流水线的 Dataform 代码库 ID 显示在设置标签页底部。

删除流水线

如需永久删除某个流水线,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,展开您的项目和流水线文件夹。找到要删除的流水线。

  3. 点击流水线旁边的 查看操作,然后点击删除

  4. 点击删除

在 Dataplex 中管理元数据

借助 Dataplex,您可以存储和管理数据流的元数据。默认情况下,Dataplex 中会提供数据流,无需进行其他配置。

您可以使用 Dataplex 在所有流水线位置管理流水线。在 Dataplex 中管理数据流需遵守 Dataplex 配额和限制以及 Dataplex 价格

Dataplex 会自动从流水线中检索以下元数据:

  • 数据资产名称
  • 数据素材资源父级
  • 数据资产位置
  • 数据素材资源类型
  • 对应的 Google Cloud 项目

Dataplex 会将数据流水线作为条目记录在日志中,并包含以下条目值:

系统条目组
流水线的系统条目组@dataform。如需查看 Dataplex 中流水线条目的详细信息,您需要查看 dataform 系统条目组。如需了解如何查看条目组中所有条目的列表,请参阅 Dataplex 文档中的查看条目组的详细信息
系统条目类型
流水线的系统条目类型dataform-code-asset。如需查看数据流的详细信息,您需要查看 dataform-code-asset 系统条目类型,使用基于方面过滤器过滤结果,并dataform-code-asset 方面内的 type 字段设置为 WORKFLOW。然后,选择所选数据流的条目。 如需了解如何查看所选条目类型的详细信息,请参阅 Dataplex 文档中的查看条目类型的详细信息。如需了解如何查看所选条目的详细信息,请参阅 Dataplex 文档中的查看条目的详细信息
系统方面类型
流水线的系统方面类型dataform-code-asset。如需通过使用方面为数据流水线条目添加注释,从而为 Dataplex 中的流水线提供更多上下文信息,请查看 dataform-code-asset 方面类型,使用基于方面的过滤器过滤结果,并dataform-code-asset 方面内的 type 字段设置为 WORKFLOW。如需了解如何使用方面为条目添加注解,请参阅 Dataplex 文档中的管理方面并丰富元数据
类型
数据画布的类型为 WORKFLOW。借助此类型,您可以使用基于方面过滤器中的 aspect:dataplex-types.global.dataform-code-asset.type=WORKFLOW 查询过滤 dataform-code-asset 系统条目类型和 dataform-code-asset 方面类型中的渠道。

如需了解如何在 Dataplex 中搜索资产,请参阅 Dataplex 文档中的在 Dataplex 中搜索数据资产

后续步骤