Visão geral da conectividade gerenciada

Este documento apresenta uma visão geral dos pipelines de conectividade gerenciada que podem ser usados para importar metadados de fontes de terceiros para o Dataplex Universal Catalog.

Com a conectividade gerenciada, é possível importar metadados para o Dataplex Universal Catalog em grande escala. Um pipeline de conectividade gerenciado extrai metadados das suas fontes de dados e os importa para o Dataplex Universal Catalog. Se necessário, o pipeline também cria grupos de entrada do Dataplex Universal Catalog no seu projetoGoogle Cloud . É possível orquestrar os fluxos de trabalho e programar os jobs de importação com base nos seus requisitos.

Você cria seus próprios conectores personalizados para extrair metadados de fontes de terceiros. Por exemplo, é possível criar um conector para extrair metadados de fontes como MySQL, SQL Server, Oracle, Snowflake, Databricks e outras. Para saber como criar um conector personalizado de exemplo, consulte Desenvolver um conector personalizado para importação de metadados. Também é possível usar os conectores personalizados enviados pela comunidade disponíveis para várias origens de terceiros.

Para saber como executar um pipeline de conectividade gerenciada, consulte Importar metadados de uma fonte personalizada usando fluxos de trabalho.

Como funciona a conectividade gerenciada

O diagrama a seguir mostra um pipeline de conectividade gerenciada.

Um pipeline de conectividade gerenciado.

De modo geral, a conectividade gerenciada funciona assim:

  1. Você cria um conector para sua fonte de dados.

    O conector precisa ser uma imagem do Artifact Registry que possa ser executada no Dataproc sem servidor.

  2. Execute o pipeline de conectividade gerenciada no Workflows, uma plataforma de orquestração.

  3. O pipeline de conectividade gerenciada faz o seguinte:

    1. Cria um grupo de entrada de destino com base na sua configuração, se ele ainda não existir.
    2. Executa o conector. O conector extrai os metadados da sua fonte de dados e gera um arquivo de importação de metadados que pode ser importado para o Dataplex Universal Catalog.
    3. Monitora o progresso da extração de metadados.
    4. Executa um job de importação de metadados para o Dataplex Universal Catalog.
    5. Monitora o progresso do job de importação de metadados.

O pipeline de conectividade gerenciada usa o Dataproc Serverless para executar o conector e os métodos da API de importação de metadados do Dataplex Universal Catalog para executar o job de importação de metadados.

Os metadados importados consistem em entradas do Dataplex Universal Catalog e aspectos delas. Para mais informações sobre os metadados do Dataplex Universal Catalog, consulte Sobre o gerenciamento de catálogo de dados no Dataplex Universal Catalog.

Conectores personalizados fornecidos pela comunidade

Para importar metadados de fontes externas, use conectores personalizados enviados pela comunidade. Consulte o arquivo README de cada conector para ver instruções de configuração e mais informações sobre ele.

Fonte de dados Repositório
MySQL mysql-connector
Oracle oracle-connector
PostgreSQL postgresql-connector
Snowflake snowflake-connector
SQL Server sql-server-connector

A seguir