In diesem Dokument wird beschrieben, wie Sie Dataproc Metastore-Metadaten mit Data Catalog synchronisieren.
Nachdem Sie die beiden Dienste synchronisiert haben, können Sie Data Catalog verwenden, um Ihre Dataproc Metastore-Metadaten zu verwalten. Mit Data Catalog können Sie beispielsweise bestimmte Dataproc Metastore-Ressourcen wie Datenbanken und Tabellen taggen und durchsuchen.
Was ist Data Catalog?
Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung. Es stellt einheitliche Ansichts- und Tagging-Mechanismen für technische und geschäftliche Metadaten bereit.
Weitere Informationen finden Sie in den folgenden Data Catalog-Featureleitfäden:
Hinweise
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Synchronisierte Dataproc Metastore-Einträge in Data Catalog ansehen (roles/metastore.metadataViewer
) für Ihr Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Synchronisieren von Dataproc Metastore-Metadaten mit Data Catalog benötigen.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierte Rolle enthält die Berechtigungen, die zum Synchronisieren von Dataproc Metastore-Metadaten mit Data Catalog erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um Dataproc Metastore-Metadaten mit Data Catalog zu synchronisieren:
-
So rufen Sie Dataproc Metastore-Datenbanken ab:
metastore.databases.get
-
So listen Sie Dataproc Metastore-Datenbanken auf:
metastore.databases.list
-
So rufen Sie Dataproc Metastore-Tabellen ab:
metastore.tables.get
-
So listen Sie Dataproc Metastore-Tabellen auf:
metastore.tables.list
Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Weitere Informationen zu bestimmten Dataproc Metastore-Rollen und -Berechtigungen finden Sie unter Zugriff mit IAM verwalten.Funktionsweise von Berechtigungen zwischen den Diensten
Data Catalog hält sich an die Berechtigungen auf Dataproc Metastore-Ebene. Für Metadaten, die von Dataproc Metastore mit Data Catalog synchronisiert werden, gelten die in Dataproc Metastore angegebenen IAM-Berechtigungen auch für die Metadaten in Data Catalog.
Data Catalog prüft die Berechtigungen für jede Metastore-Datenbank und -Tabelle zum Zeitpunkt des Zugriffs, sodass nur Nutzer mit Zugriff auf den Dataproc Metastore-Dienst die synchronisierten Dienstressourcen als Einträge in Data Catalog sehen können.
So funktioniert die Data Catalog-Synchronisierung mit Dataproc Metastore
Sie können die Synchronisierung des Dataproc Metastore-Dienstes mit Data Catalog aktivieren, wenn Sie einen Dataproc Metastore-Dienst mit der Google Cloud -Konsole erstellen oder aktualisieren. Sie können die Synchronisierung auf die gleiche Weise deaktivieren.
Nachdem Sie die Data Catalog-Synchronisierung aktiviert haben, werden Datenbank- und Tabellenmetadaten automatisch von Dataproc Metastore mit Data Catalog synchronisiert.
Data Catalog synchronisiert die folgenden Metadaten:
- Instances.
- Datenbanken, einschließlich Name und Beschreibung.
- Tabellen, einschließlich Name, Beschreibung und Schema (Spalten mit Beschreibungen).
In der folgenden Tabelle sehen Sie die Ressourcenzuordnung zwischen Dataproc Metastore und Data Catalog:
Dataproc Metastore-Ressource | Data Catalog-Ressource |
---|---|
Instanz | Eintragsgruppe Eintrag |
Datenbank | Entry |
Tabelle | Entry |
Spalte | Schema |
Hinweise
Es kann bis zu sechs Stunden dauern, bis die Metadaten Ihres Dataproc Metastore vollständig mit Data Catalog synchronisiert sind. Nach der ersten Synchronisierung werden inkrementelle Änderungen bei Bedarf synchronisiert, z. B. Tabellen- oder Datenbankaktualisierungen. Wenn eine On-Demand-Synchronisierung fehlschlägt, wird sie in einem Batch-Wiederholungslauf berücksichtigt, der alle 6 Stunden erfolgt.
Wenn Sie vermuten, dass ein Problem mit der Synchronisierung vorliegt, sehen Sie sich die Logs zur Veröffentlichung von Metadaten in Dataproc Metastore Cloud Logging mit dem Filter
textPayload=~".*Publish.*"
an. Weitere Informationen zum Zugriff auf Logs finden Sie unter Auf Joblogs in Logging zugreifen.Wenn Sie die Data Catalog-Synchronisierung deaktivieren, werden Ihre Metadaten nicht mehr von Dataproc Metastore mit Data Catalog synchronisiert. Metadaten, die bereits synchronisiert wurden, bleiben jedoch in Data Catalog erhalten.
Wenn Sie eine Dataproc Metastore-Instanz löschen, werden die entsprechenden Instanz-, Datenbank- und Tabelleneinträge auch aus Data Catalog entfernt.
Für in Data Catalog gespeicherte Dataproc Metastore-Metadaten gilt die standardmäßige Google Cloud Aufbewahrungsdauer.
Für die Aktivierung der Data Catalog-Synchronisierung für Dataproc Metastore fallen keine zusätzlichen Kosten an.
Dienst mit aktivierter Data Catalog-Synchronisierung erstellen
Die Data Catalog-Synchronisierung ist standardmäßig deaktiviert.
So aktivieren Sie die Data Catalog-Synchronisierung für einen neuen Dienst:
Console
Öffnen Sie in der Google Cloud Console- die Seite „Dataproc Metastore“:
Klicken Sie oben auf der Seite Dataproc Metastore auf Erstellen.
Die Seite Dienst erstellen wird geöffnet.
Wählen Sie die Version von Dataproc Metastore aus, die Sie verwenden möchten.
Klicken Sie unter Metadatenintegration auf Data Catalog-Synchronisierung.
Übernehmen Sie für die verbleibenden Optionen der Dienstkonfiguration die angegebenen Standardeinstellungen. Oder konfigurieren Sie Ihren Dienst nach Bedarf.
Klicken Sie auf Senden.
Data Catalog-Synchronisierung für einen vorhandenen Dienst aktivieren oder deaktivieren
So aktivieren oder deaktivieren Sie die Data Catalog-Synchronisierung für einen vorhandenen Dienst:
Console
Öffnen Sie in der Google Cloud Console- die Seite „Dataproc Metastore“:
Klicken Sie auf der Seite Dataproc Metastore auf den Dienst, den Sie aktualisieren möchten.
Die Seite Dienstdetails für diesen Dienst wird geöffnet.
Klicken Sie auf dem Tab Konfiguration auf Bearbeiten.
Die Seite Dienst bearbeiten wird geöffnet.
Aktivieren oder deaktivieren Sie unter Metadatenintegration die Option Data Catalog-Synchronisierung.
Klicken Sie auf Senden.
Suche mit Data Catalog
Sie können mit Data Catalog nach synchronisierten Dataproc Metastore-Metadaten suchen.
Obwohl es keine benutzerdefinierten Suchoptionen für Dataproc Metastore gibt, gibt es mehrere Möglichkeiten, nach verschiedenen Dataproc Metastore-Ressourcen zu suchen, darunter die folgenden:
- Dataproc Metastore-Instanz
- nach angezeigtem Namen
- Data Catalog-Standardfunktionen, z. B. mithilfe von Tags.
- Datenbank
- nach angezeigtem Namen
- Nach Beschreibung
- Nach Dataproc Metastore-Instanz
- Data Catalog-Standardfunktionen, z. B. mithilfe von Tags.
- Tabelle
- nach angezeigtem Namen
- Nach Beschreibung
- Nach Spaltenname
- Nach Spaltenbeschreibung
- Nach Datenbank
- Nach Dataproc Metastore-Instanz
- Data Catalog-Standardfunktionen, z. B. mithilfe von Tags.