本文档简要介绍了托管式连接流水线,您可以使用这些流水线将元数据从第三方来源导入 Dataplex 通用目录。
借助托管式连接,您可以大规模将元数据导入 Dataplex 通用目录。托管式连接流水线会从您的数据源提取元数据,然后将元数据导入 Dataplex 通用目录。如有必要,流水线还会在您的Google Cloud 项目中创建 Dataplex Universal Catalog 条目组。您可以编排工作流,并根据需要安排导入作业。
您可以构建自己的自定义连接器,以从第三方来源提取元数据。例如,您可以构建一个连接器,以从 MySQL、SQL Server、Oracle、Snowflake、Databricks 等来源提取元数据。如需了解构建自定义连接器示例的步骤,请参阅开发用于元数据导入的自定义连接器。您还可以使用适用于各种第三方来源的社区贡献的自定义连接器。
如需了解运行托管式连接流水线的步骤,请参阅使用 Workflows 从自定义来源导入元数据。
受管理的连接功能的运作方式
下图展示了一个托管连接流水线。
大致来说,受管理的连接方式如下所示:
您需要为数据源构建连接器。
连接器必须是一个可在 Dataproc Serverless 上运行的 Artifact Registry 映像。
您可以在编排平台 Workflows 中运行托管式连接流水线。
托管式连接流水线会执行以下操作:
- 如果目标条目组尚不存在,则根据您的配置创建目标条目组。
- 运行连接器。连接器会从您的数据源提取元数据,并生成可导入到 Dataplex 通用目录的元数据导入文件。
- 监控元数据提取的进度。
- 运行元数据导入作业,将元数据导入到 Dataplex Universal Catalog。
- 监控元数据导入作业的进度。
托管式连接流水线使用 Dataproc Serverless 运行连接器,并使用 Dataplex 通用目录元数据导入 API 方法运行元数据导入作业。
您导入的元数据包括 Dataplex Universal Catalog 条目及其方面。如需详细了解 Dataplex Universal Catalog 元数据,请参阅 Dataplex Universal Catalog 中的数据目录管理简介。
社区贡献的自定义连接器
如需从第三方来源导入元数据,您可以使用社区提供的自定义连接器。如需查看设置说明以及有关连接器的更多信息,请参阅每个连接器的自述文件。
数据源 | 代码库 |
---|---|
MySQL | mysql-connector |
Oracle | oracle-connector |
PostgreSQL | postgresql-connector |
Snowflake | snowflake-connector |
SQL Server | sql-server-connector |