En este documento se ofrece una descripción general de las canalizaciones de conectividad gestionadas que puede usar para importar metadatos de fuentes de terceros a Dataplex Universal Catalog.
La conectividad gestionada te permite importar metadatos a Dataplex Universal Catalog a gran escala. Una canalización de conectividad gestionada extrae metadatos de tus fuentes de datos y, a continuación, los importa a Dataplex Universal Catalog. Si es necesario, la canalización también crea grupos de entradas de Dataplex Universal Catalog en tuGoogle Cloud proyecto. Puedes orquestar los flujos de trabajo y programar las tareas de importación según tus requisitos.
Crea tus propios conectores personalizados para extraer metadatos de fuentes de terceros. Por ejemplo, puedes crear un conector para extraer metadatos de fuentes como MySQL, SQL Server, Oracle, Snowflake, Databricks y otras. Para conocer los pasos para crear un conector personalizado de ejemplo, consulta el artículo Desarrollar un conector personalizado para importar metadatos. También puedes usar los conectores personalizados aportados por la comunidad, que están disponibles para varias fuentes de terceros.
Para saber cómo ejecutar una canalización de conectividad gestionada, consulta el artículo Importar metadatos de una fuente personalizada con Workflows.
Cómo funciona la conectividad gestionada
En el siguiente diagrama se muestra una canalización de conectividad gestionada.
A grandes rasgos, la conectividad gestionada funciona de la siguiente manera:
Crea un conector para tu fuente de datos.
El conector debe ser una imagen de Artifact Registry que se pueda ejecutar en Dataproc Serverless.
Ejecuta la canalización de conectividad gestionada en Workflows, una plataforma de orquestación.
La canalización de conectividad gestionada hace lo siguiente:
- Crea un grupo de entradas de destino en función de tu configuración, si el grupo de entradas aún no existe.
- Ejecuta el conector. El conector extrae los metadatos de su fuente de datos y genera un archivo de importación de metadatos que se puede importar a Universal Catalog de Dataplex.
- Monitoriza el progreso de la extracción de metadatos.
- Ejecuta una tarea de importación de metadatos para importar los metadatos en Dataplex Universal Catalog.
- Monitoriza el progreso de la tarea de importación de metadatos.
La canalización de conectividad gestionada usa Dataproc Serverless para ejecutar el conector y los métodos de la API de importación de metadatos de Dataplex Universal Catalog para ejecutar el trabajo de importación de metadatos.
Los metadatos que importas constan de entradas de Dataplex Universal Catalog y sus aspectos. Para obtener más información sobre los metadatos de Dataplex Universal Catalog, consulta el artículo Acerca de la gestión de metadatos en Dataplex Universal Catalog.
Conectores personalizados aportados por la comunidad
Para importar metadatos de fuentes de terceros, puedes usar conectores personalizados que haya aportado la comunidad. Consulta el archivo README de cada conector para obtener instrucciones de configuración y más información sobre el conector.
Fuente de datos | Repositorio |
---|---|
MySQL | mysql-connector |
Oracle | oracle-connector |
PostgreSQL | postgresql-connector |
Snowflake | snowflake-connector |
SQL Server | sql-server-connector |
Siguientes pasos
- Importar metadatos de una fuente personalizada con Workflows
- Desarrollar un conector personalizado para importar metadatos
- Importar metadatos mediante una canalización personalizada