托管式连接概览

本文档简要介绍了托管式连接流水线,您可以使用这些流水线将元数据从第三方来源导入 Dataplex 通用目录。

借助托管式连接,您可以大规模将元数据导入 Dataplex 通用目录。托管式连接流水线会从您的数据源提取元数据,然后将元数据导入 Dataplex 通用目录。如有必要,流水线还会在您的Google Cloud 项目中创建 Dataplex Universal Catalog 条目组。您可以编排工作流,并根据需要安排导入作业。

您可以构建自己的自定义连接器,以从第三方来源提取元数据。例如,您可以构建一个连接器,以从 MySQL、SQL Server、Oracle、Snowflake、Databricks 等来源提取元数据。如需了解构建自定义连接器示例的步骤,请参阅开发用于元数据导入的自定义连接器。您还可以使用适用于各种第三方来源的社区贡献的自定义连接器

如需了解运行托管式连接流水线的步骤,请参阅使用 Workflows 从自定义来源导入元数据

受管理的连接功能的运作方式

下图展示了一个托管连接流水线。

托管式连接流水线。

大致来说,受管理的连接方式如下所示:

  1. 您需要为数据源构建连接器

    连接器必须是一个可在 Dataproc Serverless 上运行的 Artifact Registry 映像。

  2. 您可以在编排平台 Workflows 中运行托管式连接流水线

  3. 托管式连接流水线会执行以下操作:

    1. 如果目标条目组尚不存在,则根据您的配置创建目标条目组。
    2. 运行连接器。连接器会从您的数据源提取元数据,并生成可导入到 Dataplex 通用目录的元数据导入文件。
    3. 监控元数据提取的进度。
    4. 运行元数据导入作业,将元数据导入到 Dataplex Universal Catalog。
    5. 监控元数据导入作业的进度。

托管式连接流水线使用 Dataproc Serverless 运行连接器,并使用 Dataplex 通用目录元数据导入 API 方法运行元数据导入作业。

您导入的元数据包括 Dataplex Universal Catalog 条目及其方面。如需详细了解 Dataplex Universal Catalog 元数据,请参阅 Dataplex Universal Catalog 中的数据目录管理简介

社区贡献的自定义连接器

如需从第三方来源导入元数据,您可以使用社区提供的自定义连接器。如需查看设置说明以及有关连接器的更多信息,请参阅每个连接器的自述文件。

数据源 代码库
MySQL mysql-connector
Oracle oracle-connector
PostgreSQL postgresql-connector
Snowflake snowflake-connector
SQL Server sql-server-connector

后续步骤