跟踪 BigQuery 表的数据沿袭

借助数据沿袭,您可以跟踪数据在系统中的移动方式:数据来自何处、传递到何处以及对其应用了哪些转换。

了解如何开始跟踪 BigQuery 复制作业和查询作业的数据谱系:

  1. 从公开的 new_york_taxi_trips 数据集中复制两个表。

  2. 将这两个表中的出租车行程总数合并到一个新表中。

  3. 查看这三项操作的沿袭可视化图。

准备工作

设置项目:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Data Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Data Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

所需的角色

如需获得查看沿袭可视化图表所需的权限,请让管理员向您授予以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

向项目添加公共数据集

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,点击添加

  3. 添加窗格中,搜索 Public datasets,然后选择公共数据集结果。

  4. 市场窗格中,搜索 NYC TLC Trips,然后点击 NYC TLC Trips 结果。

  5. 点击查看数据集

这会将公共数据集的项目添加为引用,您可以在探索器窗格中查看该引用。详情窗格会显示数据集信息,包括数据集 ID数据位置上次修改日期等信息。

在项目中创建数据集

  1. 探索器窗格中,选择您要在其中创建数据集的项目。

  2. 点击 操作,然后点击创建数据集

  3. 创建数据集页面的数据集 ID 字段中,输入:data_lineage_demo。其他字段保留默认值。

  4. 点击创建数据集

  5. 浏览器窗格中,点击新添加的 data_lineage_demo

详情窗格会显示其数据集信息

将两个可公开访问的表复制到您的数据集

  1. 打开查询编辑器:在“详细信息”窗格中,点击名为 data_lineage_demo 的标签页旁边的 (编写新查询)。此步骤会创建一个名为 Untitled 的标签页。

  2. 在查询编辑器中,输入以下查询以复制第一个表格。将 PROJECT_ID 替换为您的项目标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. 点击 Run。此步骤会创建第一个表,名为 nyc_green_trips_2021

  4. 查询结果窗格中,点击转到表格。此步骤会显示第一个表格的内容。

  5. 在查询编辑器中,将上一个查询替换为以下查询,以复制第二个表格。将 PROJECT_ID 替换为您的项目标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. 点击 Run。此步骤会创建第二个表,名为 nyc_green_trips_2022

  7. 查询结果窗格中,点击转到表格。此步骤会显示第二个表格的内容。

将数据汇总到新表中

  1. 在查询编辑器中,输入以下查询。将 PROJECT_ID 替换为项目的标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. 点击 Run。此步骤会创建一个名为 total_green_trips_22_21 的组合表。

  3. 查询结果窗格中,点击转到表格。此步骤会显示合并的表格。

在 Dataplex 中查看沿袭图

  1. 在 Google Cloud 控制台中,前往 Dataplex 的搜索页面。

    前往“Dataplex 搜索”页面

  2. 对于选择搜索平台,请选择 Data Catalog 作为搜索模式。

  3. 搜索框中,输入 total_green_trips_22_21,然后点击搜索

  4. 在结果列表中,点击 total_green_trips_22_21。此步骤会显示 BigQuery 表的详细信息标签页。

  5. 点击沿袭标签页。

将“total_green_trips_22_21”表格与详细信息面板固定到底部。
图 1. 包含节点详细信息的数据沿袭

在谱系图中,每个矩形节点都代表一个表,可能是原始表、复制表或组合表。您可以执行以下操作:

  • 如需显示或隐藏表格的来源,请点击 +(展开)或 -(收起)。

  • 如需显示表格信息,请点击相应节点。此步骤会显示节点详情窗格。

  • 如需显示进程信息,请点击 查看谱系流程详情。此步骤会显示一个进程详情窗格,其中显示了将源表转换为目标表的作业。

中间显示了 nyc_green_trips_2021 表格,详细信息面板固定在底部。
图 2. 包含流程详细信息的数据沿袭

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

删除项目

为了避免产生费用,最简单的方法是删除您为本教程创建的项目。

要删除项目,请执行以下操作:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

删除数据集

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 浏览器窗格中,搜索您创建的 data_lineage_demo 数据集。

  3. 右键点击相应数据集,然后选择删除

  4. 确认删除操作。

后续步骤