跟踪 BigQuery 表的数据沿袭
借助数据沿袭,您可以跟踪数据在系统中的移动方式:数据来自何处、传递到何处以及对其应用了哪些转换。
了解如何开始跟踪 BigQuery 复制作业和查询作业的数据谱系:
从公开的
new_york_taxi_trips
数据集中复制两个表。将这两个表中的出租车行程总数合并到一个新表中。
查看这三项操作的沿袭可视化图。
准备工作
设置项目:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Data Catalog, BigQuery, and data lineage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Data Catalog, BigQuery, and data lineage APIs.
所需的角色
如需获得查看沿袭可视化图表所需的权限,请让管理员向您授予以下 IAM 角色:
-
针对 Data Catalog 资源项目的 Data Catalog Viewer (
roles/datacatalog.viewer
) -
针对您在其中使用 BigQuery 的项目的 Data Lineage Viewer (
roles/datalineage.viewer
) -
针对您使用 BigQuery 的项目的 BigQuery Data Viewer (
roles/bigquery.dataViewer
) 角色
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
向项目添加公共数据集
在 Google Cloud 控制台中,转到 BigQuery 页面。
在探索器窗格中,点击添加。
在添加窗格中,搜索
Public datasets
,然后选择公共数据集结果。在市场窗格中,搜索
NYC TLC Trips
,然后点击 NYC TLC Trips 结果。点击查看数据集。
这会将公共数据集的项目添加为引用,您可以在探索器窗格中查看该引用。详情窗格会显示数据集信息,包括数据集 ID、数据位置和上次修改日期等信息。
在项目中创建数据集
在探索器窗格中,选择您要在其中创建数据集的项目。
点击
操作,然后点击创建数据集。在创建数据集页面的数据集 ID 字段中,输入:
data_lineage_demo
。其他字段保留默认值。点击创建数据集。
在浏览器窗格中,点击新添加的
data_lineage_demo
。
详情窗格会显示其数据集信息。
将两个可公开访问的表复制到您的数据集
打开查询编辑器:在“详细信息”窗格中,点击名为
data_lineage_demo
的标签页旁边的 (编写新查询)。此步骤会创建一个名为Untitled
的标签页。在查询编辑器中,输入以下查询以复制第一个表格。将
PROJECT_ID
替换为您的项目标识符。CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
点击
Run。此步骤会创建第一个表,名为nyc_green_trips_2021
。在查询结果窗格中,点击转到表格。此步骤会显示第一个表格的内容。
在查询编辑器中,将上一个查询替换为以下查询,以复制第二个表格。将
PROJECT_ID
替换为您的项目标识符。CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
点击
Run。此步骤会创建第二个表,名为nyc_green_trips_2022
。在查询结果窗格中,点击转到表格。此步骤会显示第二个表格的内容。
将数据汇总到新表中
在查询编辑器中,输入以下查询。将
PROJECT_ID
替换为项目的标识符。CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
点击
Run。此步骤会创建一个名为total_green_trips_22_21
的组合表。在查询结果窗格中,点击转到表格。此步骤会显示合并的表格。
在 Dataplex 中查看沿袭图
在 Google Cloud 控制台中,前往 Dataplex 的搜索页面。
对于选择搜索平台,请选择 Data Catalog 作为搜索模式。
在搜索框中,输入
total_green_trips_22_21
,然后点击搜索。在结果列表中,点击
total_green_trips_22_21
。此步骤会显示 BigQuery 表的详细信息标签页。点击沿袭标签页。
在谱系图中,每个矩形节点都代表一个表,可能是原始表、复制表或组合表。您可以执行以下操作:
如需显示或隐藏表格的来源,请点击 +(展开)或 -(收起)。
如需显示表格信息,请点击相应节点。此步骤会显示节点详情窗格。
如需显示进程信息,请点击 。此步骤会显示一个进程详情窗格,其中显示了将源表转换为目标表的作业。
清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
删除项目
为了避免产生费用,最简单的方法是删除您为本教程创建的项目。
要删除项目,请执行以下操作:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
删除数据集
在 Google Cloud 控制台中,转到 BigQuery 页面。
在浏览器窗格中,搜索您创建的
data_lineage_demo
数据集。右键点击相应数据集,然后选择删除。
确认删除操作。
后续步骤
- 详细了解 Dataplex 和 数据沿袭。
- 了解如何运行 BigQuery 查询。
- 了解如何使用数据谱系和查看数据谱系图。
- 了解 Dataplex 价格和结算。