Présentation de la connectivité gérée

Ce document présente les pipelines de connectivité gérés que vous pouvez utiliser pour importer des métadonnées à partir de sources tierces dans le catalogue universel Dataplex.

La connectivité gérée vous permet d'importer des métadonnées dans le catalogue universel Dataplex à grande échelle. Un pipeline de connectivité géré extrait les métadonnées de vos sources de données, puis les importe dans le catalogue universel Dataplex. Si nécessaire, le pipeline crée également des groupes d'entrées dans le catalogue Dataplex Universal Catalog dans votre projetGoogle Cloud . Vous pouvez orchestrer les workflows et planifier les tâches d'importation en fonction de vos besoins.

Vous créez vos propres connecteurs personnalisés pour extraire des métadonnées à partir de sources tierces. Par exemple, vous pouvez créer un connecteur pour extraire des métadonnées à partir de sources telles que MySQL, SQL Server, Oracle, Snowflake, Databricks, etc. Pour découvrir comment créer un exemple de connecteur personnalisé, consultez la section Développer un connecteur personnalisé pour l'importation de métadonnées. Vous pouvez également utiliser les connecteurs personnalisés créés par la communauté disponibles pour diverses sources tierces.

Pour savoir comment exécuter un pipeline de connectivité géré, consultez la section Importer des métadonnées à partir d'une source personnalisée à l'aide de workflows.

Fonctionnement de la connectivité gérée

Le schéma suivant illustre un pipeline de connectivité géré.

Un pipeline de connectivité géré

Voici comment fonctionne la connectivité gérée dans les grandes lignes:

  1. Vous créez un connecteur pour votre source de données.

    Le connecteur doit être une image Artifact Registry pouvant s'exécuter sur Dataproc sans serveur.

  2. Vous exécutez le pipeline de connectivité gérée dans Workflows, une plate-forme d'orchestration.

  3. Le pipeline de connectivité gérée effectue les opérations suivantes:

    1. Crée un groupe d'entrées cible en fonction de votre configuration, si le groupe d'entrées n'existe pas encore.
    2. Exécute le connecteur. Le connecteur extrait les métadonnées de votre source de données et génère un fichier d'importation de métadonnées pouvant être importé dans Dataplex Universal Catalog.
    3. Surveille la progression de l'extraction des métadonnées.
    4. Exécute une tâche d'importation de métadonnées pour importer les métadonnées dans Dataplex Universal Catalog.
    5. Surveille la progression de la tâche d'importation des métadonnées.

Le pipeline de connectivité géré utilise Dataproc sans serveur pour exécuter le connecteur et les méthodes de l'API d'importation de métadonnées du catalogue universel Dataplex pour exécuter la tâche d'importation de métadonnées.

Les métadonnées que vous importez se composent d'entrées Dataplex Universal Catalog et de leurs aspects. Pour en savoir plus sur les métadonnées de Dataplex Universal Catalog, consultez la page À propos de la gestion du catalogue de données dans Dataplex Universal Catalog.

Connecteurs personnalisés issus de la communauté

Pour importer des métadonnées à partir de sources tierces, vous pouvez utiliser des connecteurs personnalisés fournis par la communauté. Consultez le fichier README de chaque connecteur pour obtenir des instructions de configuration et plus d'informations à son sujet.

Source de données Dépôt
MySQL mysql-connector
Oracle oracle-connector
PostgreSQL postgresql-connector
Snowflake snowflake-connector
SQL Server sql-server-connector

Étape suivante