管理数据湖中的数据资产

本页面介绍了如何将 Cloud Storage 存储桶和 BigQuery 数据集作为现有 Dataplex 区域中的资产进行添加、升级和移除。

概览

资产会映射到存储在 Cloud Storage 或 BigQuery 中的数据。您可以将存储在不同 Google Cloud 项目中的数据作为资产映射到数据湖内的单个区域。您可以附加现有的 Cloud Storage 存储桶或 BigQuery 数据集,以便在数据湖内进行管理。

准备工作

  • 创建数据湖并在该数据湖中创建区域(如果您尚未创建)。

  • 大多数 gcloud lakes 命令需要位置信息。您可以使用 --location 标志指定位置。

所需的角色

  • 如需移除资产,请授予具有 dataplex.lakes.deletedataplex.zones.deletedataplex.assets.delete IAM 权限的 IAM 角色。Dataplex 特有的 roles/dataplex.adminroles/dataplex.editor 角色可用于授予这些权限。

  • 如需添加资产,请授予具有 create - dataplex.lakes.createdataplex.zones.createdataplex.assets.create 权限的 IAM 角色。roles/dataplex.adminroles/dataplex.editor 角色可提供这些权限。

  • 您也可以使用 roles/ownerroles/editor 旧版角色向用户或群组授予权限。

  • 您必须为 Dataplex 服务授予对附加到 Dataplex 数据湖的资源的权限。系统会自动且隐式地授予对创建数据湖的项目中的资源的权限。对于其他项目,请明确授予 Dataplex 服务对资源的权限。

如需了解详情,请参阅 Dataplex IAM 和访问权限控制

针对 Cloud Storage 存储桶授予角色

如需将其他项目中的 Cloud Storage 存储桶附加到数据湖,您必须为 Dataplex 服务账号(service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com,可从控制台的数据湖详情页面中检索)授予包含该存储桶的项目的 Dataplex 服务账号角色 (roles/dataplex.serviceAgent)。此角色可为 Dataplex 服务提供存储桶的必要管理员级角色,以便对存储桶本身设置权限。

针对 BigQuery 数据集授予角色

如需将其他项目中的 BigQuery 数据集附加到数据湖,您必须为 Dataplex 服务账号授予该数据集的 BigQuery 管理员角色。

VPC Service Controls 注意事项

Dataplex 不会违反 VPC Service Controls 边界。在将资产添加到数据湖之前,请确保底层存储桶或数据集与数据湖位于同一 VPC Service Controls 网络中。

如需了解详情,请参阅将 VPC Service Controls 与 Dataplex 搭配使用

添加资产

如果 Dataplex 数据湖的区域与某个 Cloud Storage 存储桶的区域不重叠,则您无法将该存储桶添加到数据湖中的区域。

如需详细了解 Cloud Storage 资产的区域位置,以及 Dataplex 在创建发布数据集时如何处理存储桶的位置,请参阅区域级资源

如需添加资产,请按照以下步骤操作:

控制台

  1. 在 Google Cloud 控制台中,前往 Dataplex 页面。

    进入 Dataplex

  2. 管理页面上,点击您要向其添加 Cloud Storage 存储桶或 BigQuery 数据集的数据湖。系统会打开数据湖页面。

  3. 区域标签页上,点击您要向其添加资产的数据区域的名称。系统会打开该数据区域对应的数据区域页面。

  4. 资产标签页上,点击 + 添加资产。系统会打开添加资产页面。

  5. 点击添加资产

  6. 类型字段中,选择 BigQuery 数据集Cloud Storage 存储桶

  7. 显示名称字段中,输入新资产的名称。

  8. ID 字段中,输入该资产的唯一 ID。

  9. (可选)输入说明

  10. 数据集存储桶字段(根据资产的类型)中,点击浏览以找到并选择 Cloud Storage 存储桶或 BigQuery 数据集。

  11. 可选:如果资产类型是 Cloud Storage 存储桶,并且您希望 Dataplex 管理该资产,请选中升级为托管模式复选框。如果您选择此选项,则无需单独升级资产。此选项不适用于 BigQuery 数据集。

  12. 点击继续

  13. 选择其余参数值。如需详细了解安全设置,请参阅数据湖安全性

  14. 点击提交

  15. 验证您是否已返回数据区域页面,并且新资产显示在资产列表中。

REST

如需添加资产,请使用 lakes.zones.assets.create 方法。

添加成功后,数据区域会自动进入活跃状态。如果添加失败,则数据区域会回滚到之前的健康状态。

升级 Cloud Storage 存储桶资产

添加 Cloud Storage 存储桶类型的资产时,Dataplex 会自动为该资产中托管的表发布 BigQuery 外部表

升级 Cloud Storage 存储桶资产时,Dataplex 会移除附加的外部表并创建 BigLake 表。BigLake 表可提高精细安全性,包括行级、列级和动态数据遮盖。

如需升级 Cloud Storage 存储桶资产,请按照以下步骤操作:

控制台

  1. 在 Google Cloud 控制台中,前往 Dataplex 页面。

    进入 Dataplex

  2. 管理页面上,点击数据湖的名称。系统会打开数据湖页面。

  3. 区域标签页上,点击数据区域的名称。系统会打开数据区域页面。

  4. 资产标签页上,点击您要升级的资产的名称。

  5. 点击升级为托管模式

REST

如需升级存储桶资产,请使用 lakes.zones.assets.patch 方法。

降级 Cloud Storage 存储桶资产

降级 Cloud Storage 存储桶资产时,Dataplex 会移除附加的 BigLake 表并创建外部表。

控制台

  1. 在 Google Cloud 控制台中,前往 Dataplex 页面。

    进入 Dataplex

  2. 管理页面上,点击数据湖的名称。系统会打开数据湖页面。

  3. 区域标签页上,点击数据区域的名称。系统会打开数据区域页面。

  4. 资产标签页上,点击您要升级的资产的名称。

  5. 点击从托管模式降级

REST

如需降级存储桶资产,请使用 lakes.zones.assets.patch 方法。请确保将 ResourceSpec 中的 readAccessMode 字段设置为 DIRECT

移除资产

请先从数据区域或数据湖中移除资产,然后再将其附加到其他数据区域或数据湖。

如需移除资产,请按照以下步骤操作:

控制台

  1. 在 Google Cloud 控制台中,前往 Dataplex 页面。

    进入 Dataplex

  2. 管理页面上,点击您要从中移除 Cloud Storage 存储桶或 BigQuery 数据集的数据湖。系统会打开该数据湖对应的数据湖页面。

  3. 区域标签页上,点击您要从中移除 Cloud Storage 存储桶或 BigQuery 数据集的数据区域的名称。系统会打开该数据区域对应的数据区域页面。

  4. 资产标签页上,通过选中资产名称左侧的复选框来选择资产。

  5. 点击删除资产

  6. 在确认对话框中点击删除

REST

如需移除存储桶,请使用 lakes.zones,assets.delete 方法。

后续步骤