Visão geral da conectividade gerenciada

Este documento apresenta uma visão geral dos pipelines de conectividade gerenciados que podem ser usados para importar metadados de fontes de terceiros para o Dataplex.

A conectividade gerenciada permite importar metadados para o Dataplex em grande escala. Um pipeline de conectividade gerenciado extrai metadados das suas fontes de dados e os importa para o Dataplex. Se necessário, o pipeline também cria grupos de entrada de catálogo universal do BigQuery no seu projetoGoogle Cloud . É possível orquestrar os fluxos de trabalho e programar os jobs de importação com base nos seus requisitos.

Você cria seus próprios conectores personalizados para extrair metadados de fontes de terceiros. Por exemplo, é possível criar um conector para extrair metadados de fontes como MySQL, SQL Server, Oracle, Snowflake, Databricks e outras. Para saber como criar um conector personalizado de exemplo, consulte Desenvolver um conector personalizado para importação de metadados.

Para saber como executar um pipeline de conectividade gerenciada, consulte Importar metadados de uma fonte personalizada usando fluxos de trabalho.

Como funciona a conectividade gerenciada

O diagrama a seguir mostra um pipeline de conectividade gerenciada.

Um pipeline de conectividade gerenciado.

De modo geral, a conectividade gerenciada funciona assim:

  1. Você cria um conector para sua fonte de dados.

    O conector precisa ser uma imagem do Artifact Registry que possa ser executada no Dataproc sem servidor.

  2. Execute o pipeline de conectividade gerenciada no Workflows, uma plataforma de orquestração.

  3. O pipeline de conectividade gerenciada faz o seguinte:

    1. Cria um grupo de entrada de destino com base na sua configuração, se ele ainda não existir.
    2. Executa o conector. O conector extrai os metadados da sua fonte de dados e gera um arquivo de importação de metadados que pode ser importado para o catálogo universal.
    3. Monitora o progresso da extração de metadados.
    4. Executa um job de importação de metadados para o catálogo universal.
    5. Monitora o progresso do job de importação de metadados.

O pipeline de conectividade gerenciada usa o Dataproc Serverless para executar o conector e os métodos da API de importação de metadados do Dataplex para executar o job de importação de metadados.

Os metadados importados consistem em entradas de catálogo universal e aspectos delas. Para mais informações sobre os metadados do catálogo universal, consulte Visão geral do catálogo universal do BigQuery.

A seguir