Questo documento fornisce una panoramica delle pipeline di connettività gestita che puoi utilizzare per importare i metadati da origini di terze parti in Dataplex Universal Catalog.
La connettività gestita consente di importare i metadati in Dataplex Universal Catalog su larga scala. Una pipeline di connettività gestita estrae i metadati dalle origini dati e poi li importa in Dataplex Universal Catalog. Se necessario, la pipeline crea anche gruppi di voci di Dataplex Universal Catalog nel tuo progettoGoogle Cloud . Puoi orchestrare i flussi di lavoro e pianificare i job di importazione in base ai tuoi requisiti.
Crea connettori personalizzati per estrarre i metadati da origini di terze parti. Ad esempio, puoi creare un connettore per estrarre i metadati da origini come MySQL, SQL Server, Oracle, Snowflake, Databricks e altre. Per i passaggi per creare un connettore personalizzato di esempio, vedi Sviluppare un connettore personalizzato per l'importazione dei metadati. Puoi anche utilizzare i connettori personalizzati creati dalla community disponibili per una serie di origini di terze parti.
Per i passaggi per eseguire una pipeline di connettività gestita, consulta Importare i metadati da un'origine personalizzata utilizzando i flussi di lavoro.
Come funziona la connettività gestita
Il seguente diagramma mostra una pipeline di connettività gestita.
A livello generale, ecco come funziona la connettività gestita:
Crea un connettore per l'origine dati.
Il connettore deve essere un'immagine Artifact Registry che può essere eseguita su Dataproc Serverless.
Esegui la pipeline di connettività gestita in Workflows, una piattaforma di orchestrazione.
La pipeline di connettività gestita esegue le seguenti operazioni:
- Crea un gruppo di voci di destinazione in base alla configurazione, se il gruppo di voci non esiste ancora.
- Esegue il connettore. Il connettore estrae i metadati dall'origine dati e genera un file di importazione dei metadati che può essere importato in Dataplex Universal Catalog.
- Monitora l'avanzamento dell'estrazione dei metadati.
- Esegue un job di importazione dei metadati per importare i metadati in Dataplex Universal Catalog.
- Monitora l'avanzamento del job di importazione dei metadati.
La pipeline di connettività gestita utilizza Dataproc Serverless per eseguire il connettore e i metodi dell'API di importazione dei metadati del catalogo universale Dataplex per eseguire il job di importazione dei metadati.
I metadati che importi sono costituiti da voci di Dataplex Universal Catalog e dai relativi aspetti. Per saperne di più sui metadati di Dataplex Universal Catalog, consulta Informazioni sulla gestione dei metadati in Dataplex Universal Catalog.
Connettori personalizzati forniti dalla community
Per importare i metadati da fonti di terze parti, puoi utilizzare connettori personalizzati forniti dalla community. Consulta il file README di ciascun connettore per istruzioni di configurazione e ulteriori informazioni sul connettore.
Origine dati | Repository |
---|---|
MySQL | mysql-connector |
Oracle | oracle-connector |
PostgreSQL | postgresql-connector |
Snowflake | snowflake-connector |
SQL Server | sql-server-connector |
Passaggi successivi
- Importare metadati da un'origine personalizzata utilizzando Workflows
- Sviluppare un connettore personalizzato per l'importazione dei metadati
- Importare i metadati utilizzando una pipeline personalizzata