In diesem Dokument finden Sie einen Überblick über die verwalteten Konnektivitätspipelines, mit denen Sie Metadaten aus Drittanbieterquellen in den Dataplex Universal Catalog importieren können.
Mit einer verwalteten Verbindung können Sie Metadaten in großem Umfang in den Dataplex Universal Catalog importieren. Eine verwaltete Verbindungspipeline extrahiert Metadaten aus Ihren Datenquellen und importiert sie dann in den Dataplex Universal Catalog. Bei Bedarf werden in der Pipeline auch Dataplex Universal Catalog-Eintragsgruppen in IhremGoogle Cloud -Projekt erstellt. Sie können die Workflows orchestrieren und die Importjobs entsprechend Ihren Anforderungen planen.
Sie erstellen eigene benutzerdefinierte Connectors, um Metadaten aus Drittanbieterquellen zu extrahieren. Sie können beispielsweise einen Connector erstellen, um Metadaten aus Quellen wie MySQL, SQL Server, Oracle, Snowflake und Databricks zu extrahieren. Eine Anleitung zum Erstellen eines Beispiels für einen benutzerdefinierten Connector finden Sie unter Benutzerdefinierten Connector für den Metadatenimport entwickeln. Sie können auch die von der Community erstellten benutzerdefinierten Konnektoren verwenden, die für eine Vielzahl von Drittanbieterquellen verfügbar sind.
Eine Anleitung zum Ausführen einer verwalteten Konnektivitätspipeline finden Sie unter Metadaten mithilfe von Workflows aus einer benutzerdefinierten Quelle importieren.
So funktioniert die verwaltete Konnektivität
Das folgende Diagramm zeigt eine verwaltete Konnektivitätspipeline.
So funktioniert die verwaltete Konnektivität im Überblick:
Sie erstellen einen Connector für Ihre Datenquelle.
Der Connector muss ein Artifact Registry-Image sein, das auf Dataproc Serverless ausgeführt werden kann.
Sie führen die verwaltete Konnektivitätspipeline in Workflows aus, einer Orchestrierungsplattform.
Die Pipeline für die verwaltete Konnektivität führt folgende Aufgaben aus:
- Es wird eine Ziel-Eintragsgruppe basierend auf Ihrer Konfiguration erstellt, falls die Eintragsgruppe noch nicht vorhanden ist.
- Führt den Connector aus. Der Connector extrahiert die Metadaten aus Ihrer Datenquelle und generiert eine Metadatenimportdatei, die in den Dataplex Universal Catalog importiert werden kann.
- Hier wird der Fortschritt der Metadatenextraktion überwacht.
- Führt einen Metadatenimportjob aus, um die Metadaten in Dataplex Universal Catalog zu importieren.
- Hier wird der Fortschritt des Metadatenimportjobs überwacht.
In der verwalteten Verbindungspipeline wird Dataproc Serverless zum Ausführen des Connectors und die Dataplex Universal Catalog Metadata Import API-Methoden zum Ausführen des Metadatenimportjobs verwendet.
Die importierten Metadaten bestehen aus Einträgen im Dataplex Universal Catalog und ihren Aspekten. Weitere Informationen zu Dataplex Universal Catalog-Metadaten finden Sie unter Datenkatalogverwaltung im Dataplex Universal Catalog.
Von der Community erstellte benutzerdefinierte Connectors
Zum Importieren von Metadaten aus Drittanbieterquellen können Sie benutzerdefinierte Connectors verwenden, die von der Community bereitgestellt werden. In der README-Datei des jeweiligen Connectors finden Sie eine Anleitung zur Einrichtung und weitere Informationen zum Connector.
Datenquelle | Repository |
---|---|
MySQL | mysql-connector |
Oracle | oracle-connector |
PostgreSQL | postgresql-connector |
Snowflake | snowflake-connector |
SQL Server | sql-server-connector |
Nächste Schritte
- Metadaten mithilfe von Workflows aus einer benutzerdefinierten Quelle importieren
- Benutzerdefinierten Connector für den Metadatenimport entwickeln
- Metadaten mit einer benutzerdefinierten Pipeline importieren