管理数据准备
本文档介绍了如何管理 BigQuery 中的数据准备,包括授予所需的 Identity and Access Management (IAM) 角色以及在 Dataplex Universal Catalog 中管理元数据。
数据准备是由 Dataform 提供支持的 BigQuery 资源。
准备工作
- 确保您已启用 Gemini for Google Cloud API。
- 如需在 Dataplex Universal Catalog 中管理数据准备元数据,请确保已在您的 Google Cloud 项目中启用 Dataplex API。
所需的角色
准备数据的用户和运行作业的 Dataform 服务账号需要通过以下 Identity and Access Management (IAM) 角色授予的权限。
获取数据准备的用户访问权限
如需获得在 BigQuery 中准备数据所需的权限,请让您的管理员为您授予以下 IAM 角色:
-
针对项目的 BigQuery Studio User (
roles/bigquery.studioUser
) -
针对项目的 Gemini for Google Cloud User (
roles/cloudaicompanion.user
) -
访问源表:针对表、数据集或项目的 BigQuery Data Viewer (
roles/bigquery.dataViewer
)
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
如需详细了解 BigQuery 中数据集的 IAM,请参阅授予对资源的访问权限。获取管理元数据的权限
如需获得在 Dataplex Universal Catalog 中管理数据准备元数据所需的权限,请确保您拥有所需的 Dataplex Universal Catalog 角色和 dataform.repositories.get
权限。
向 Dataform 服务账号授予访问权限
如需确保 Dataform 服务账号拥有在 BigQuery 中执行数据准备所需的权限,请让您的管理员为 Dataform 服务账号授予以下 IAM 角色:
-
访问源表:针对表、数据集或项目的 BigQuery Data Viewer (
roles/bigquery.dataViewer
) -
访问目标表:针对表、数据集或项目的 BigQuery Data Editor (
roles/bigquery.dataEditor
)
Dataform 服务账号可能需要额外的权限,具体取决于您的数据准备流水线。如需了解详情,请参阅授予 Dataform 所需的访问权限。
查看现有的数据准备
如需查看现有数据准备列表,请按照以下步骤操作:
- 在 BigQuery 页面上,前往探索器窗格。
- 展开您的项目。
- 展开数据准备列表。
通过逐步处理数据优化数据准备
如需配置将准备好的数据写入目标表的方式,请按照以下步骤操作。
在 Google Cloud 控制台中,前往 BigQuery 页面。
在探索器窗格中,选择您的数据准备。
在数据准备的工具栏中,选择更多 > 写入模式。
选择下列选项之一。如需了解详情,请参阅写入模式。
点击保存。
帮助改进建议功能
您可以与 Google 共享提交给预览版功能的提示数据,以帮助改进 Gemini 的建议功能。 若要共享提示数据,请按照以下步骤操作:
- 在 BigQuery 中打开数据准备编辑器。
- 在数据准备工具栏中,点击设置更多。
- 选择共享数据以改进 Gemini in BigQuery。
数据共享设置适用于整个项目,且只能由拥有 serviceusage.services.enable
和 serviceusage.services.list
IAM 权限的项目管理员设置。如需详细了解可信测试员计划中的数据使用方式,请参阅 Gemini for Google Cloud 可信测试员计划。
数据准备版本
您可以选择在仓库内部或外部创建数据准备。数据准备版本控制的处理方式因数据准备位置而异。
在仓库中对数据准备进行版本控制
仓库是位于 BigQuery 中或由第三方提供商提供的 Git 仓库。您可以使用仓库中的工作区对数据准备执行版本控制。如需了解详情,请参阅将版本控制用于文件。
在仓库外部对数据准备进行版本控制
不在仓库中的 BigQuery 数据准备不支持查看、比较或恢复数据准备版本。
如需按时间顺序列出数据准备版本,请按照以下步骤操作:
- 在 BigQuery 页面上,前往探索器窗格。
- 选择您的数据准备。
- 点击 版本历史记录。
下载数据准备
如需在 YAML 文件中下载数据准备,请按照以下步骤操作:
在 Google Cloud 控制台中,前往 BigQuery 页面。
在探索器窗格中,展开您的项目和数据准备文件夹。点击要下载的数据准备的名称。
点击下载。数据准备会保存为 YAML 文件格式,例如
NAME data preparation.dp.yaml
。
上传数据准备
如需从 YAML 文件上传数据准备,请按照以下步骤操作:
在 Google Cloud 控制台中,前往 BigQuery 页面。
在探索器面板中,展开您的项目。
前往数据准备文件夹,然后点击 more_vert 菜单 > 上传到数据准备。
在上传数据准备对话框中,选择要上传的文件,或输入数据准备的网址。
输入数据准备的名称。
选择用于管理和存储资源的数据准备位置。
点击上传。
在 Dataplex Universal Catalog 中管理元数据
借助 Dataplex Universal Catalog,您可以存储和管理数据准备的元数据。默认情况下,Dataplex Universal Catalog 中会提供数据准备,无需进行其他配置。
您可以使用 Dataplex Universal Catalog 在所有 BigQuery 位置管理数据准备。在 Dataplex Universal Catalog 中管理数据准备需遵循 Dataplex Universal Catalog 配额和限制以及 Dataplex Universal Catalog 价格。
Dataplex Universal Catalog 会自动从数据准备中检索以下元数据:
- 数据资产名称
- 数据素材资源父级
- 数据资产位置
- 数据素材资源类型
- 对应的 Google Cloud 项目
Dataplex Universal Catalog 会将数据准备作为条目记录在日志中,并包含以下条目值:
- 系统条目组
- 数据准备的系统条目组为
@dataform
。如需查看 Dataplex Universal Catalog 中数据准备条目的详细信息,您需要查看dataform
系统条目组。如需了解如何查看条目组中所有条目的列表,请参阅 Dataplex Universal Catalog 文档中的查看条目组的详细信息。 - 系统条目类型
- 数据准备的系统条目类型为
dataform-code-asset
。如需查看数据准备的详细信息,您需要查看dataform-code-asset
系统条目类型,使用基于切面过滤条件过滤结果,并将dataform-code-asset
切面内的type
字段设置为DATA_PREPARATION
。然后,选择所选数据准备的条目。如需了解如何查看所选条目类型的详细信息,请参阅 Dataplex Universal Catalog 文档中的查看条目类型的详细信息。如需了解如何查看所选条目的详细信息,请参阅 Dataplex Universal Catalog 文档中的查看条目的详细信息。 - 系统方面类型
- 数据准备的系统切面类型为
dataform-code-asset
。如需通过使用切面为数据准备条目添加注解,从而为 Dataplex Universal Catalog 中的数据准备提供更多上下文,请查看dataform-code-asset
切面类型,使用基于切面的过滤条件过滤结果,并将dataform-code-asset
切面内的type
字段设置为DATA_PREPARATION
。如需了解如何使用切面为条目添加注解,请参阅 Dataplex Universal Catalog 文档中的管理切面并丰富元数据。 - 类型
- 数据画布的类型为
DATA_PREPARATION
。借助此类型,您可以在基于切面的过滤条件中使用aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION
查询,以便在dataform-code-asset
系统条目类型和dataform-code-asset
切面类型中过滤数据准备。
如需了解如何搜索资产,请参阅 Dataplex Universal Catalog 文档中的在 Dataplex Universal Catalog 中搜索数据资产。
后续步骤
- 详细了解如何在 BigQuery 中准备数据。
- 了解如何手动或按计划运行数据准备。
- 了解如何创建数据准备。