添加区域

本文档介绍了 Dataplex Universal Catalog 区域是什么，以及如何将其添加到 Dataplex Universal Catalog 数据湖。

概览

Dataplex Universal Catalog 区域是 Dataplex Universal Catalog 数据湖中的已命名实体。它们是非结构化数据、半结构化数据和结构化数据的逻辑分组，包含多个资产，例如 Cloud Storage 存储桶、BigQuery 数据集和 BigQuery 表。

一个数据湖可以包含一个或多个区域。虽然一个区域只能属于一个数据湖，但它可能包含指向属于其父项目之外的项目中的资源的资产。

您可以在 Dataplex Universal Catalog 中为区域选择配置。您可以选择两种类型的区域：原始区域和精选区域。

原始区域

原始区域用于存储来自外部来源的结构化数据、半结构化数据（例如 CSV 文件和 JSON 文件）以及任何格式的非结构化数据。原始区域可用于在执行任何转换之前暂存原始数据。数据可以存储在 Cloud Storage 存储桶或 BigQuery 数据集中。

原始区域支持存储桶级或数据集级读取和写入权限粒度。原始区域中可存储的数据类型不受限制。

精选区域

精选区存储结构化数据。数据可以存储在 Cloud Storage 存储桶或 BigQuery 数据集中。

Cloud Storage 存储桶支持的格式包括 Parquet、Avro 和 ORC。精选区域可用于暂存需要先处理才能用于分析的数据，或用于提供数据以进行分析。

对于 BigQuery 表，您必须有明确定义的架构和 Hive 样式的分区。如果您在精选区域中为给定表提供架构，则数据应符合为该表定义的架构，且不会出现架构偏移。这意味着数据应与为表定义的架构兼容，并且新分区不应具有与表架构冲突的架构。

精选区域支持 Cloud Storage 存储桶级或 BigQuery 数据集级读取和写入权限粒度。

准备工作

您必须先创建数据湖，然后才能向其中添加区域。创建数据湖（如果您尚未创建）。

大多数 gcloud lake 命令需要位置信息。您可以通过设置 --location 参数来指定位置。

所需的角色

如需获得添加区域所需的权限，请让您的管理员为您授予项目的 Dataplex Administrator (roles/dataplex.admin) IAM 角色。如需详细了解如何授予角色，请参阅管理对项目、文件夹和组织的访问权限。

此预定义角色可提供添加区域所需的 dataplex.lakes.create 权限。

您也可以使用自定义角色或其他预定义角色来获取此权限。

添加区域

您可以向数据湖添加多个区域。您可以一次添加一个区域，但仍可在创建区域期间使用数据湖。

如需向现有数据湖添加区域，请按照以下步骤操作：

控制台

在 Google Cloud 控制台中，前往 Dataplex Universal Catalog。

进入 Dataplex
导航到管理视图。
在管理视图中，点击您要向其添加区域的数据湖的名称。
在区域标签页中，点击 添加区域。
输入区域的显示名称。

注意：系统会自动为您生成区域 ID。您还可以提供自己的 ID。请选择一个有意义的 ID，因为该 ID 会用于创建数据集和数据库名称。
点击类型菜单。选择原始区域或精选区域。详细了解支持的区域类型。
可选：输入说明。
在数据位置下，选择单区域或多区域。您选择的位置一经设置便无法更改。单区域数据和多区域数据不能混合到同一区域。
可选：启用元数据发现，以便 Dataplex Universal Catalog 自动扫描区域中的数据并从中提取元数据：
1. 点击发现设置。
2. 确保已选择启用元数据发现。
3. 可选：在包含模式下，列出要包含在发现扫描中的文件。
4. 可选：在排除模式下，列出要在发现扫描中排除的文件。如果您同时输入了包含模式和排除模式，系统会首先应用排除模式。
5. 点击重复频率菜单，然后选择一个频率。如果您选择自定义，请在时间表字段中输入作业时间表。否则，系统会自动为您填充时间表值。
6. 点击时区菜单，然后选择一个时区。
点击创建。

REST

如需添加区域，请使用 lakes.zones.create 方法。

创建区域可能需要几分钟时间。

区域创建成功后，会自动进入活跃状态。如果失败，数据湖会回滚到之前的状态。

创建区域后，您可以将 Cloud Storage 存储桶和 BigQuery 数据集中存储的数据作为资产映射到区域。如需了解详情，请参阅添加资产。

后续步骤

了解如何管理存储桶。
了解如何创建数据湖。
详细了解 Cloud Audit Logs。

添加区域 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

概览

原始区域

精选区域

准备工作

所需的角色

添加区域

控制台

REST

后续步骤

添加区域