添加区域

本文档介绍了 Dataplex Universal Catalog 区域是什么,以及如何将其添加到 Dataplex Universal Catalog 数据湖。

概览

Dataplex Universal Catalog 区域是 Dataplex Universal Catalog 数据湖中的命名实体。它们是非结构化数据、半结构化数据和结构化数据的逻辑分组,包含多个资产,例如 Cloud Storage 存储分区、BigQuery 数据集和 BigQuery 表。

一个湖可以包含一个或多个区。虽然一个区只能属于一个湖,但它可能包含指向属于其父项目之外的项目中的资源的资产。

您可以在 Dataplex Universal Catalog 中为某个数据湖区选择配置。您可以选择两种类型的专区:原始专区和精选专区。

原始区域

原始区用于存储来自外部来源的结构化数据、半结构化数据(例如 CSV 文件和 JSON 文件)以及任何格式的非结构化数据。原始区域非常适合在执行任何转换之前暂存原始数据。数据可以存储在 Cloud Storage 存储分区或 BigQuery 数据集中。

原始区域支持存储桶级或数据集级读取和写入权限粒度。原始区域中可存储的数据类型不受限制。

精选区域

精选区存储结构化数据。数据可以存储在 Cloud Storage 存储分区或 BigQuery 数据集中。

Cloud Storage 存储分区支持的格式包括 Parquet、Avro 和 ORC。对于需要先处理才能用于分析的过渡数据,或已准备好用于分析的服务数据,精选区域非常有用。

对于 BigQuery 表,您必须具有明确定义的架构和 Hive 样式的分区。如果您在精选区域中为给定表提供架构,则数据应符合为该表定义的架构,而不会出现架构漂移。这意味着数据应与为表定义的架构兼容,并且新分区不应具有与表架构冲突的架构。

精选区支持 Cloud Storage 存储桶级或 BigQuery 数据集级读写权限粒度。

准备工作

您必须先创建数据湖,然后才能向其中添加区域。创建数据湖(如果您尚未创建)。

大多数 gcloud lake 命令需要位置信息。您可以通过设置 --location 参数来指定位置。

所需的角色

如需获得添加可用区所需的权限,请让您的管理员为您授予项目的 Dataplex Administrator (roles/dataplex.admin) IAM 角色。 如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

此预定义角色可提供 dataplex.lakes.create 权限,该权限是添加时区所必需的。

您也可以使用自定义角色或其他预定义角色来获取此权限。

添加区域

您可以向数据湖添加多个可用区。您可以一次添加一个区域,但仍可在创建区域期间使用数据湖。

如需向现有数据湖添加数据区,请按以下步骤操作:

控制台

  1. 在 Google Cloud 控制台中,前往 Dataplex Universal Catalog。

    进入 Dataplex

  2. 导航到管理视图。

  3. 管理视图中,点击要为其添加区域的数据湖的名称。

  4. 区域标签页中,点击 添加区域

  5. 输入区域的显示名称

  6. 点击类型菜单。选择原始区域精选区域。详细了解支持的可用区类型

  7. 可选:输入说明。

  8. 数据位置下,选择单区域多区域。您选择的位置一经设置便无法更改。单区域数据和多区域数据不能混合到同一可用区。

  9. 可选:启用元数据发现,以便 Dataplex Universal Catalog 自动扫描区域中的数据并从中提取元数据:

    1. 点击发现设置

    2. 确保已选择启用元数据发现

    3. 可选:在包含模式下,列出要包含在探索扫描中的文件。

    4. 可选:在排除模式下,列出要在探索扫描中排除的文件。如果您同时输入了包含模式和排除模式,系统会首先应用排除模式。

    5. 点击重复频率菜单,然后选择一个频率。如果您选择自定义,请在时间安排字段中输入作业时间安排。 否则,系统会自动为您填充时间安排值。

    6. 点击时区菜单,然后选择一个时区。

  10. 点击创建

REST

如需添加区域,请使用 lakes.zones.create 方法。

创建区域可能需要几分钟时间。

可用区创建成功后,会自动进入活跃状态。如果失败,则湖会回滚到之前的状态。

创建区域后,您可以将 Cloud Storage 存储分区和 BigQuery 数据集中存储的数据作为资产映射到您的区域。如需了解详情,请参阅添加资源

后续步骤