数据沿袭简介

借助数据沿袭,您可以跟踪数据在系统中的移动方式:数据来自何处、传递到何处以及对其应用了哪些转换。

为什么需要数据谱系?

处理大数据集通常涉及将数据转换为根据特定项目需求量身定制的实体:文本文件、表格、报告、信息中心、模型。

例如,假设您经营着一家网店,并在一个 SQL 表中记录每次购买交易。为了让分析师更轻松地处理数据,您开始运行作业,从这个单个表中提取信息,并按地区、品牌或促销价生成较小的表。然后,您的分析师会开始执行相同的操作:他们会执行进一步的转换,将这些较小的表与其他数据源合并,以生成更多表。

这可能会成为利益相关方面临的一大挑战:

  • 数据使用者无法使用自助工具了解数据是否来自权威来源。
  • 由于缺乏可靠的方式来跟踪所有数据转换,数据工程师无法找出问题的根本原因。
  • 在修改或删除表之前,数据工程师和分析师无法全面评估可能产生的影响。
  • 数据治理者无法了解敏感数据在整个组织中的使用情况,也无法确保遵守监管要求。

数据源流是可通过以下实用方式实现的解决方案:

  • 借助沿袭图,了解数据的获取和转换方式。
  • 将与条目和数据操作相关的错误追溯到其根本原因。
  • 通过影响分析实现更好的更改管理:避免停机或意外错误、了解依赖项条目,以及与相关利益相关方协作。

数据沿袭信息模型

在基本形式下,谱系是指数据从来源转换为目标的记录。Data Lineage API 会收集这些信息,并使用进程、运行作业和事件的概念将其整理成分层数据模型。

流程

流程是对特定系统支持的数据转换操作的定义。在 BigQuery 谱系的上下文中,process受支持的作业类型之一。

运行

一次运行就是指流水线的一次执行。进程可以多次运行。 广告系列投放包含开始和结束时间、状态或其他属性等详细信息。如需了解详情,请参阅 run 资源参考文档

事件

事件表示数据转换操作发生的时间点,该操作会导致数据在源实体和目标实体之间移动。

事件包含一个链接列表,用于定义特定事件中的哪个条目是来源,哪个条目是目标。虽然事件用于计算谱系图,但不会直接在控制台中显示。 Google Cloud 您可以使用 Data Lineage API 创建、读取和删除(但不能更新)这些数据。

示例

请考虑以下在 BigQuery 表之间复制数据的示例:

示例会从名为 customer_year 和 customers 的表中提取数据,以派生出名为 top_customer 的表。
显示表格数据来源的图表示例。

谱系过程(在图表中用 BigQuery 谱系进程图标。 图标表示)描述了数据如何在表之间移动:它可以是 SQL CREATE TABLE AS SELECT 查询或 INSERT 语句。

该 SQL 语句的每次执行都将构成一次单独的运行。运行包含事件,用于记录哪些表用作来源,哪些表用作目标。在此示例中,表 customer_yearcustomers 都是目标 top_customer 表的来源

沿袭图

谱系图表示 Data Lineage API 为特定 BigQuery 通用目录条目收集的信息。沿袭图表会显示单个根条目的上游或下游沿袭。是指您要查看其谱系的条目。

示例图表显示了两个表中的数据如何转换为新表,并在底部显示了显示 SQL 代码的详细信息面板。
Dataplex 控制台中的沿袭图示示例 Google Cloud 。

Dataplex 与 Data Lineage API 搭配使用,可识别完全限定名称与数据沿袭所识别的实体匹配的条目。对于匹配的 Dataplex 条目,您可以访问其详情页面上的谱系标签页,然后查看图表。

沿袭图会显示两种类型的元素:

  • 宽矩形按钮,表示构建谱系信息的相关实体,即谱系事件的来源或目标

  • 较小的方形按钮,表示负责创建或更新源实体或目标实体的进程。流程按钮使用了向 Data Lineage API 报告它们的来源系统专有的图标。例如,BigQuery 作业使用 BigQuery 谱系进程图标。 图标。

沿袭路径可视化

沿袭路径可视化功能可帮助您了解两项选定资源之间的沿袭链接。(与沿袭图表形成对比,沿袭图表显示单个根条目的上游或下游沿袭,可能适用于多个来源或目标。)

您选择根资源和目标资源,Google Cloud 控制台会显示这两个资源之间的谱系链接。不在这两项资源之间的路径上的其他资源和进程会从路径可视化图中隐藏。

 Google Cloud 控制台中的沿袭路径可视化示例。
Google Cloud 控制台中的沿袭路径可视化示例。

谱系列表视图

谱系列表视图会在单个表格中显示实体的详细谱系信息。

与沿袭图表相比(沿袭图表更适合查看相对较小的沿袭图表),沿袭列表视图可让您查看具有许多连接的实体的沿袭信息。

下图显示了Google Cloud 控制台中的谱系列表视图示例。以下列表更详细地介绍了该图片。

 Google Cloud 控制台中的谱系列表视图示例。
Google Cloud Play 管理中心内谱系列表视图示例。
  • 表中的每一行都代表两个条目之间的单个谱系链接。在图中,这些名称显示为两个条目之间的沿袭链接,包括中间的所有进程节点。例如,SourceTarget 是资产节点,中间可能有多个进程节点。

  • 方向选项用于指定要显示在列表中的数据流部分(相对于根素材资源):

    • 上游:显示为所选条目提供数据源的条目的沿袭信息。在谱系图中,这些条目是显示在所选条目左侧的条目。

    • 下游:显示使用所选条目或从所选条目派生的条目的谱系信息。在谱系图中,这些条目是显示在所选条目右侧的条目。

  • 借助时间范围选项,您可以根据沿袭发生的时间过滤沿袭信息:

    • 开始时间:显示在相应开始时间之后发生的沿袭。

    • 结束时间:显示在结束时间之前发生的沿袭。

  • 深度是指源资源或派生资源与根资源之间的距离。列表视图最多可显示 1,000 个谱系链接,其中从根资源到派生资源的最大深度为 10 个谱系链接。如果有任何谱系超出此范围,系统会通知您。您可以通过在列表视图中选择其他实体的名称,查看此范围之外的谱系。

  • 详细信息面板会显示关联的来源、目标以及创建此关联的所有进程的信息。

  • 您可以自定义表格中显示的列并过滤结果。您还可以将结果导出为 CSV 文件。

自动跟踪数据沿袭

启用 Data Lineage API 后, Google Cloud 支持数据沿袭的系统会开始报告其数据移动情况。每个集成系统都可以为不同范围的数据源提交谱系信息。如需详细了解每款受支持的产品,请参阅以下部分。

BigQuery

在 BigQuery 项目中启用数据沿袭会导致 Dataplex 自动记录以下内容的沿袭信息:

BigQuery 复制、查询和加载作业表示为进程。如需查看进程详情,请点击谱系图中的 。每个进程中,最近一个 BigQuery 作业的 attributes 列表中都包含 BigQuery job_id

其他服务

数据源流支持与以下Google Cloud 服务集成:

自定义数据源的数据沿袭

您可以使用 Data Lineage API 为集成系统不支持的任何数据源手动记录谱系信息。

如果您使用与现有通用目录条目的完全限定名称匹配的 fullyQualifiedName,Dataplex 可以为手动记录的谱系创建谱系图。如果您想记录自定义数据源的谱系,请先创建自定义通用目录条目

自定义数据源的每个进程都可能在属性列表中包含 sql 键。此类键的值将用于在数据谱系图的详细信息面板中呈现代码突出显示。SQL 语句将按提供的形式显示。用户负责滤除敏感信息。键名称 sql 区分大小写。

OpenLineage

如果您已在使用 OpenLineage 从其他数据源收集谱系信息,则可以将 OpenLineage 事件导入 Dataplex,并在 Google Cloud 控制台中显示这些事件。如需了解详情,请参阅与 OpenLineage 集成

限制

  • 所有谱系信息在系统中仅保留 30 天
  • 移除其相关数据源后,谱系信息会保留。也就是说,如果您移除 BigQuery 表及其通用目录条目,您最多仍可在 30 天内使用 API 读取该表的谱系。

访问数据沿袭

如需详细了解如何访问数据沿袭,请参阅将数据沿袭与 Google Cloud 系统搭配使用以及 Data Lineage API

价格

  • Dataplex 使用高级处理 SKU 对数据沿袭进行计费。如需了解详情,请参阅价格

  • 如需在 Dataplex 高级处理 SKU 中将数据谱系费用与其他费用分开,请在 Cloud Billing 报告中使用标签 goog-dataplex-workload-type 和值 LINEAGE

  • 如果您使用 CUSTOM 以外的值调用 Data Lineage API Origin sourceType,则会产生额外费用。

后续步骤