En este documento, se proporciona una descripción general de las canalizaciones de conectividad administradas que puedes usar para importar metadatos de fuentes de terceros al Catálogo universal de Dataplex.
La conectividad administrada te permite importar metadatos al catálogo universal de Dataplex a gran escala. Una canalización de conectividad administrada extrae metadatos de tus fuentes de datos y, luego, los importa al Catálogo universal de Dataplex. Si es necesario, la canalización también crea grupos de entradas de Dataplex Universal Catalog en tu proyectoGoogle Cloud . Puedes organizar los flujos de trabajo y programar las tareas de importación según tus requisitos.
Creas tus propios conectores personalizados para extraer metadatos de fuentes de terceros. Por ejemplo, puedes compilar un conector para extraer metadatos de fuentes como MySQL, SQL Server, Oracle, Snowflake, Databricks y otras. Si deseas obtener los pasos para compilar un conector personalizado de muestra, consulta Desarrolla un conector personalizado para la importación de metadatos. También puedes usar los conectores personalizados que la comunidad aportó y que están disponibles para una variedad de fuentes de terceros.
Si deseas conocer los pasos para ejecutar una canalización de conectividad administrada, consulta Cómo importar metadatos de una fuente personalizada con flujos de trabajo.
Cómo funciona la conectividad administrada
En el siguiente diagrama, se muestra una canalización de conectividad administrada.
En términos generales, la conectividad administrada funciona de la siguiente manera:
Compilas un conector para tu fuente de datos.
El conector debe ser una imagen de Artifact Registry que se pueda ejecutar en Dataproc Serverless.
Ejecutas la canalización de conectividad administrada en Workflows, una plataforma de orquestación.
La canalización de conectividad administrada realiza las siguientes acciones:
- Crea un grupo de entrada de destino según tu configuración, si el grupo de entrada aún no existe.
- Ejecuta el conector. El conector extrae los metadatos de tu fuente de datos y genera un archivo de importación de metadatos que se puede importar al Catálogo universal de Dataplex.
- Supervisa el progreso de la extracción de metadatos.
- Ejecuta un trabajo de importación de metadatos para importarlos al catálogo universal de Dataplex.
- Supervisa el progreso del trabajo de importación de metadatos.
La canalización de conectividad administrada usa Dataproc Serverless para ejecutar el conector y los métodos de la API de importación de metadatos del catálogo universal de Dataplex para ejecutar la tarea de importación de metadatos.
Los metadatos que importas consisten en entradas del catálogo universal de Dataplex y sus aspectos. Para obtener más información sobre los metadatos del catálogo universal de Dataplex, consulta Acerca de la administración del catálogo de datos en el catálogo universal de Dataplex.
Conectores personalizados que aporta la comunidad
Para importar metadatos de fuentes de terceros, puedes usar conectores personalizados que la comunidad comparte. Consulta el archivo readme de cada conector para obtener instrucciones de configuración y más información sobre el conector.
Fuente de datos | Repositorio |
---|---|
MySQL | mysql-connector |
Oracle | oracle-connector |
PostgreSQL | postgresql-connector |
Snowflake | snowflake-connector |
SQL Server | sql-server-connector |
¿Qué sigue?
- Cómo importar metadatos de una fuente personalizada con Workflows
- Desarrolla un conector personalizado para la importación de metadatos
- Importa metadatos con una canalización personalizada