如果您使用的是 Data Catalog,可以按照本文档中所述的步骤将 Data Catalog 内容和使用情况转移到 Dataplex Universal Catalog。
如果您刚开始使用目录,请先将 Dataplex Universal Catalog 配置为默认目录体验。
本文档面向数据管理员和数据管理方。
Dataplex Universal Catalog 具有统一的网页界面和 API。通过转换到 Dataplex Universal Catalog,您的现有和未来的工作负载以及用户将能够受益于其增强的功能和特性。如需了解详情,请参阅 Dataplex Universal Catalog 中的数据目录管理简介。
如需比较 Dataplex Universal Catalog 和 Data Catalog,请参阅 Dataplex Universal Catalog 与 Data Catalog。
在开始转换之前,请查看 Dataplex Universal Catalog 不支持的元数据管理功能。
改用概览
Google Cloud 控制台中的管理到 Dataplex 的转换页面提供了一个集中的管理转换的入口点。
本部分介绍了各种转换场景,并概述了每种场景的转换过程。
如果您在 Data Catalog 中没有自定义元数据,或者您从未使用过 Data Catalog
如果您使用的是 Data Catalog,并且没有自定义元数据(例如标记、标记模板、自定义条目或条目组),或者您从未使用过 Data Catalog,请将默认目录界面体验设置为 Dataplex 通用目录,以完成转换。
如果您有 Data Catalog 自定义元数据或程序化工作负载
如果您将 Data Catalog 与自定义元数据(例如标记、标记模板、自定义条目或条目组)搭配使用,Dataplex Universal Catalog 可以自动将这些自定义元数据作为 read-only
导入。如需启用此功能,需要进行配置更改,如准备阶段中所述。
第二阶段是升级阶段,在此阶段,自定义元数据的有效状态 (read-write
) 会移至 Dataplex Universal Catalog。在此阶段,您还必须更新任何程序化工作负载(例如 API、客户端库、Terraform 模块和 Google Cloud CLI 命令),以便与 Dataplex 通用目录进行交互。
以下详细介绍了转换流程的各个阶段:
准备阶段:执行必要的配置任务,以便 Data Catalog 内容同时以
read-only
的形式在 Dataplex Universal Catalog 中提供。在此阶段,Data Catalog 仍是元数据内容的权威来源。准备阶段包括以下任务:
- 将 Data Catalog 专用标记模板更新为公开标记模板。
- 选择启用标记模板和标记,以便在 Dataplex Universal Catalog 中同时提供元数据。
- 为自定义元数据配置 Dataplex Universal Catalog IAM 权限。
如需了解详情,请参阅准备阶段。
升级阶段:将目录使用情况和自定义元数据的有效状态 (
read-write
) 移至 Dataplex Universal Catalog。升级阶段包括以下任务:
- 将默认目录界面体验设为 Dataplex Universal Catalog。
将 Data Catalog 自定义元数据升级到 Dataplex Universal Catalog。
选择启用标记模板和代码后,您必须至少等待 48 小时,然后才能升级自定义元数据。这段时间是内部处理所需的时间。
更新程序化工作负载。
完成升级阶段后,Dataplex Universal Catalog 将成为所有元数据的权威来源,您无需使用 Data Catalog。
如需了解详情,请参阅升级阶段。
所需的角色
如需获得从 Data Catalog 转换为 Dataplex Universal Catalog 所需的权限,请向资源授予以下 IAM 角色:
将私密标记模板更新为公开标记模板: Data Catalog TagTemplate Owner (
roles/datacatalog.tagTemplateOwner
)此预定义角色包含将非公开代码模板更新为公开所需的
datacatalog.tagTemplates.update
权限。选择启用公开标记模板和标记,以便在 Dataplex Universal Catalog 中同时提供元数据: DataCatalog Migration Config Admin (
roles/datacatalog.migrationConfigAdmin
)此预定义角色包含启用代码模板和代码所需的
datacatalog.migrationConfig.set
权限。将默认目录界面体验设为 Dataplex Universal Catalog: DataCatalog Migration Config Admin (
roles/datacatalog.migrationConfigAdmin
)此预定义角色包含设置默认目录界面体验所需的
datacatalog.migrationConfig.set
权限。将 Data Catalog 公开标记模板升级到 Dataplex Universal Catalog: Data Catalog TagTemplate Owner (
roles/datacatalog.tagTemplateOwner
)此预定义角色包含升级公开代码模板所需的
datacatalog.tagTemplates.update
权限。将数据目录条目组升级为 Dataplex Universal Catalog: DataCatalog EntryGroup Owner (
roles/datacatalog.entryGroupOwner
)此预定义角色包含升级条目组所需的
datacatalog.entryGroups.update
权限。
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
准备阶段
此阶段涉及的任务是使 Data Catalog 元数据内容在 read-only
模式下同时在 Dataplex Universal Catalog 中提供。
以下是准备阶段需要注意的要点:
- Data Catalog 仍然是自定义元数据的权威来源。
- Dataplex Universal Catalog 搜索页面默认指向 Data Catalog 搜索,后者仅包含 Data Catalog 元数据,不包含 Dataplex Universal Catalog 元数据。
- 在您完成准备阶段之前,Dataplex Universal Catalog 搜索可能不涵盖所有 Data Catalog 公开标记模板和标记。
详细了解 Data Catalog 元数据在 Dataplex Universal Catalog 中的同时可用性
Data Catalog 自定义条目组及其条目已作为 read-only
同时在 Dataplex Universal Catalog 中提供。在准备阶段选择启用公开标记模板和标记后,其内容将同时作为 read-only
同步到 Dataplex 通用目录中。
下表显示了在 Data Catalog 资源同时在 Dataplex Universal Catalog 中提供时,Data Catalog 资源与 Dataplex Universal Catalog 资源之间的映射:
Data Catalog 资源 | 相应的 Dataplex Universal Catalog 资源 | 说明 |
---|---|---|
标记模板 | 切面类型(全局) | Data Catalog 中的标记模板是区域性资源。选择启用标记模板后,其内容会同时作为全局切面类型在 Dataplex 通用目录中提供。这是为了保留标记和标记模板之间的跨区域引用。全局切面类型的定义将会复制到所有 Google Cloud 区域。
|
标记 | 可选切面 | 当您选择启用标记模板后,其标记会同时作为可选切面在 Dataplex Universal Catalog 中提供。如需了解详情,请参阅方面类别。 |
条目组 | 条目组 | 在 Dataplex Universal Catalog 中,系统条目的条目组是按项目和区域建立的。在 Data Catalog 中创建的条目组会同时显示在 Dataplex Universal Catalog 中。 |
自定义条目 | 自定义条目 | Data Catalog 中的所有自定义条目都会同时作为 GenericEntryType 的条目在 Dataplex Universal Catalog 中提供。如需了解详情,请参阅条目类型的类别。 |
系统条目 (Google Cloud) | 系统条目必需的方面 | 系统定义的切面类型的必需切面中会捕获描述系统条目的元数据,例如 BigQuery 表的 Schema 。 |
将 Data Catalog 专用标记模板更新为公开标记模板
Dataplex Universal Catalog 不支持专用切面的概念(与专用标记相对应)。因此,专用标记模板和标记都不会同步到 Dataplex Universal Catalog 中。如需在 Dataplex Universal Catalog 中传播专用标记模板和标记,您必须将其更新为公开标记。
在继续操作之前,请检查专用标记模板的结构,确保其结构和元数据与公开标记的公开范围一致。
如需将不公开的标记模板和标记更新为公开,请按以下步骤操作:
控制台
在 Google Cloud 控制台中,前往 Dataplex 通用目录 Catalog 页面。
点击管理到 Dataplex 的转换。
点击不公开的代码模板标签页。
点击管理代码模板。
在代码模板页面上,点击要更新的专用代码模板。
在模板详情页面上,点击修改。
在公开部分,选择公开。
点击更新。
REST
如需将专用标记模板更新为公开标记模板,请使用 tagTemplates.patch
方法。
启用公开标记模板和标记,以便在 Dataplex Universal Catalog 中同时提供元数据
选择启用标记模板迁移后, Google Cloud 组织或项目中的 Data Catalog 公开标记模板和标记的内容都将自动连续传播到 Dataplex Universal Catalog。Data Catalog 公开标记模板和标记会分别作为公开的切面类型和切面传播到 Dataplex Universal Catalog。全局切面类型的定义将会复制到所有 Google Cloud 区域。
如需启用公开标记模板和标记,请按以下步骤操作:
控制台
在 Google Cloud 控制台中,前往 Dataplex 通用目录 Catalog 页面。
点击管理到 Dataplex 的转换。
点击选择启用标签页。
点击选择启用。
在确认对话框中,输入显示的文字,然后点击确认。
REST
如需选择启用标记模板和标记,请使用 setConfig
方法。
对于 Google Cloud 组织和项目,您可以点击撤消选择启用,撤消原先提供的选择启用。停用标记模板迁移后,系统会停止将 Data Catalog 标记模板和标记传播到 Dataplex Universal Catalog。通过选择启用流程创建但未升级到 Dataplex Universal Catalog 的 Dataplex Universal Catalog 切面类型和切面将被删除。删除过程最长可能需要 12 小时。
为自定义元数据配置 Dataplex Universal Catalog IAM 权限
代表 Data Catalog 中的标记模板和条目组的 Dataplex Universal Catalog 切面类型和自定义条目组不会继承原始 Data Catalog IAM 权限。您必须手动为这些切面类型和自定义条目组配置 Dataplex Universal Catalog IAM 权限。
例如,如果您想使用传播的切面类型(表示 Data Catalog 标记模板)创建切面,则必须为该切面类型配置必要的 IAM 权限。同样,在注入自定义元数据时,如需在传播的自定义条目组中创建自定义条目,您必须为该条目组配置必要的 IAM 权限。
如需详细了解 Data Catalog 中的 IAM 权限与 Dataplex Universal Catalog 中的 IAM 权限之间的对应关系,请参阅 Data Catalog 与 Dataplex Universal Catalog 之间的 IAM 权限映射。
如需为切面类型和自定义条目组配置必要的 Dataplex Universal Catalog IAM 权限,请按以下步骤操作:
控制台
在 Google Cloud 控制台中,前往 Dataplex 通用目录 Catalog 页面。
点击管理到 Dataplex 的转换。
点击 Dataplex IAM 权限标签页。
如需为切面类型配置 Dataplex Universal Catalog IAM 权限,请点击切面类型和标记模板。
对于从 Data Catalog 传播的代码模板,请依次点击 > 权限。
点击添加主账号。
添加新主账号,并分配所需角色。
点击保存。
如需为条目组配置 Dataplex Universal Catalog IAM 权限,请点击条目组。
对于从 Data Catalog 传播的条目组,请依次点击 > 权限。
点击添加主账号。
添加新主账号,并分配所需角色。
点击保存。
REST
如需为切面类型配置 Dataplex Universal Catalog IAM 权限,请使用 aspectTypes.setIamPolicy
方法。
如需为条目组配置 Dataplex Universal Catalog IAM 权限,请使用 entryGroups.setIamPolicy
方法。
升级阶段
此阶段涉及将 Data Catalog 自定义元数据的有效状态 (read-write
) 移至 Dataplex Universal Catalog 的任务。
以下是升级阶段需要注意的要点:
- Dataplex Universal Catalog 搜索页面默认指向 Dataplex Universal Catalog 搜索功能。
- 您可以在 Dataplex Universal Catalog 中发现和读取 Data Catalog 和 Dataplex Universal Catalog 元数据。
- 如需在 Google Cloud 控制台中更新元数据,系统会将您重定向到其来源。例如,如果您要更新 Data Catalog 标记模板,系统会将您重定向到 Data Catalog 中的标记模板页面。
将默认目录界面体验设为 Dataplex Universal Catalog
将默认目录界面体验设为 Dataplex Universal Catalog 意味着:
当您前往Google Cloud 控制台中的 Dataplex Universal Catalog Search(搜索)页面时,系统会默认显示 Dataplex Universal Catalog(Dataplex Catalog)搜索。Dataplex Universal Catalog 搜索功能可在 Dataplex Universal Catalog 中运行,并查找您的所有元数据内容,包括在 Dataplex Universal Catalog 中创建的内容和从 Data Catalog 中引入的内容。
Data Catalog 搜索功能仅会查找 Data Catalog 内容,而不会查找 Dataplex Universal Catalog 内容。因此,我们建议您使用 Dataplex Universal Catalog 搜索功能。
网页界面会提示您在 Dataplex Universal Catalog(Dataplex Catalog)中创建新资源。例如,它默认显示的是创建切面类型,而不是创建标记模板,以及创建条目组 (Dataplex Catalog),而不是创建条目组 (Data Catalog)。
将默认目录界面体验设为 Dataplex Universal Catalog 通常是单向操作。不过,在特殊情况下,例如您想将默认目录界面体验切换回 Data Catalog 时,Dataplex Universal Catalog 允许您还原更改。如果您还原更改,将无法在 Data Catalog 网页界面中访问在 Dataplex 通用目录中创建的任何内容。
如需将默认目录界面体验设为 Dataplex Universal Catalog,请按以下步骤操作:
控制台
在 Google Cloud 控制台中,前往 Dataplex 通用目录 Catalog 页面。
点击管理到 Dataplex 的转换。
点击默认目录界面体验标签页。
点击将默认目录界面体验设为 Dataplex Catalog。
REST
如需将默认目录界面体验设为 Dataplex Universal Catalog,请使用 setConfig
方法。
将 Data Catalog 自定义元数据升级到 Dataplex Universal Catalog
您可以将已选择启用的 Data Catalog 公开标记模板和自定义条目组升级到 Dataplex 通用目录。请务必单独升级每个代码模板和自定义条目组。
以下是升级流程的摘要:
效果
- 将资源的有效状态从 Data Catalog 转移到 Dataplex Universal Catalog。升级后,若要修改资源或访问其当前状态,您必须使用 Dataplex 通用目录。
数据内容和数据流的更改
- 在 Data Catalog 中将资源标记为
read-only
。 - 在 Dataplex Universal Catalog 中将资源标记为
read-write
。 - 停止同时提供此资源。
- 在 Data Catalog 中将资源标记为
依赖项
- 升级标记模板也会升级使用该模板的所有标记。
- 升级条目组时,该组中的所有条目也会一并升级。
- 升级条目不会影响其标记和相应标记模板的升级状态。
在升级之前,如需修改条目的业务背景(例如 overview
、contacts
),您可以同时使用 Data Catalog API 和 Dataplex API。升级后,您必须仅使用 Dataplex API。
下文介绍了已标记的自定义 Data Catalog 条目允许执行哪些操作,具体取决于相关自定义条目组和标记模板的升级状态:
- 当标记模板在 Data Catalog 中处于有效状态时,您可以使用该标记模板创建标记。将标记模板升级到 Dataplex Universal Catalog 后,您将无法再使用该模板在 Data Catalog 中创建标记。
- 只有在升级标记模板后,您才能使用从 Data Catalog 标记模板传播的切面类型创建切面。
如需将 Data Catalog 标记模板和自定义条目组升级到 Dataplex Universal Catalog,请按以下步骤操作:
控制台
请确保在选择启用后至少等待 48 小时,然后再将 Data Catalog 标记模板升级到 Dataplex Universal Catalog。这段时间是必要的内部处理时间。
在 Google Cloud 控制台中,前往 Dataplex 通用目录 Catalog 页面。
点击管理到 Dataplex Universal Catalog 的转换。
点击升级到 Dataplex 标签页。
如需将 Data Catalog 标记模板升级到 Dataplex Universal Catalog,请点击查看切面类型和标记模板。
选择要升级的代码模板。
点击升级。
在确认对话框中,点击确认。
如需将 Data Catalog 自定义条目组升级到 Dataplex Universal Catalog,请点击查看条目组。
选择要升级的条目组。
点击升级。
在确认对话框中,点击确认。
REST
请确保在选择启用后至少等待 48 小时,然后再将 Data Catalog 标记模板升级到 Dataplex Universal Catalog。这段时间是必要的内部处理时间。
然后,如需将 Data Catalog 标记模板和自定义条目组升级到 Dataplex Universal Catalog,请使用 tagTemplates.patch
方法。
完成升级阶段后,Dataplex Universal Catalog 将成为所有元数据的权威来源,您无需使用 Data Catalog。
更新程序化工作负载
Dataplex Universal Catalog 附带新的 API、客户端库、Terraform 模块和 Google Cloud CLI 命令。因此,您必须将所有以程序化方式使用 Data Catalog 的现有工作负载更新为 Dataplex Universal Catalog。请参阅 Dataplex Universal Catalog 的代码示例。
请确保在更新程序化工作负载时,也更新依赖的资源(例如代码模板和自定义条目组)。这是必要的,因为升级会将资源的有效状态 (read-write
) 从 Data Catalog 移至 Dataplex Universal Catalog。
以下示例展示了更新程序化工作负载以与 Dataplex Universal Catalog 交互的顺序,并与升级依赖资源协调一致:
如果您的工作负载可以容忍最终一致性,请将工作负载的
read
操作移至 Dataplex Universal Catalog。将执行标记
write
操作的工作负载迁移到 Dataplex Universal Catalog,并协调升级相应的标记模板。将执行自定义提取
write
操作的工作负载迁移到 Dataplex Universal Catalog,并协调升级相应的自定义条目组。
如果您需要将更新工作负载与升级相应资源分离,请考虑在工作负载中实现逻辑,以便根据资源升级状态将 read-write
路由到 Data Catalog 或 Dataplex Universal Catalog。因此,工作负载将独立于相关资源的升级状态运行。
后续步骤
- 详细了解 Dataplex Universal Catalog 中的元数据管理。
- 了解如何在 Dataplex Universal Catalog 中搜索资源。
- 了解如何管理切面并丰富元数据。
- 了解如何管理条目和注入自定义来源。
- 请参阅 Dataplex API 参考文档。