托管式连接概览

本文档简要介绍了托管式连接流水线,您可以使用这些流水线将元数据从第三方来源导入 Dataplex。

借助托管式连接,您可以大规模将元数据导入 Dataplex。托管式连接流水线会从数据源中提取元数据,然后将元数据导入 Dataplex。如果需要,该流水线还会在您的Google Cloud 项目中创建 BigQuery 通用目录条目组。您可以编排工作流,并根据需要安排导入作业。

您可以构建自己的自定义连接器,以从第三方来源提取元数据。例如,您可以构建连接器,以从 MySQL、SQL Server、Oracle、Snowflake、Databricks 等来源中提取元数据。如需了解构建自定义连接器示例的步骤,请参阅开发用于元数据导入的自定义连接器

如需了解运行托管式连接流水线的步骤,请参阅使用工作流从自定义来源导入元数据

受管理的网络连接的运作方式

下图展示了一个托管连接流水线。

托管式连接流水线。

大致来说,托管式连接的运作方式如下:

  1. 您需要为数据源构建连接器

    连接器必须是可以在 Dataproc Serverless 上运行的 Artifact Registry 映像。

  2. 您可以在编排平台 Workflows 中运行托管式连接流水线

  3. 托管式连接流水线会执行以下操作:

    1. 如果目标条目组尚不存在,则根据您的配置创建目标条目组。
    2. 运行连接器。连接器会从数据源中提取元数据,并生成可导入到通用目录的元数据导入文件。
    3. 监控元数据提取的进度。
    4. 运行元数据导入作业,将元数据导入到通用目录。
    5. 监控元数据导入作业的进度。

托管式连接流水线使用 Dataproc 无服务器运行连接器,并使用 Dataplex 元数据导入 API 方法运行元数据导入作业。

您导入的元数据包括通用目录条目及其方面。如需详细了解通用目录元数据,请参阅 BigQuery 通用目录概览

后续步骤