Dataproc Metastore – Übersicht

Dataproc Metastore ist ein vollständig verwalteter Apache Hive-Metastore (HMS), der in Google Cloud ausgeführt wird. Ein HMS ist der etablierte Standard im Open-Source-Big-Data-System zum Verwalten technischer Metadaten wie Schemas, Partitionen und Spaltenstatistiken in einer relationalen Datenbank.

Dataproc Metastore ist hochverfügbar, serverlos und bietet eine automatische Reparatur. Mit ihm können Sie Data-Lake-Metadaten verwalten und Interoperabilität zwischen den verschiedenen von Ihnen verwendeten Datenverarbeitungs-Engines und Tools ermöglichen.

Funktionsweise von Dataproc Metastore

Sie können einen Dataproc Metastore-Dienst verwenden, indem Sie ihn mit einem Dataproc-Cluster verbinden. Ein Dataproc-Cluster enthält Komponenten, die für die Abfrageplanung und ‑ausführung auf ein HMS angewiesen sind.

Mit dieser Integration können Sie Ihre Tabelleninformationen zwischen Jobs beibehalten oder Metadaten für andere Cluster und andere Verarbeitungs-Engines verfügbar machen.

Mit einem Metastore können Sie beispielsweise angeben, dass ein Teil Ihrer Dateien Umsatzdaten enthält, anstatt die Dateinamen manuell zu erfassen. In diesem Fall können Sie eine Tabelle für diese Dateien definieren und die Metadaten in Dataproc Metastore speichern. Anschließend können Sie eine Verbindung zu einem Dataproc-Cluster herstellen und die Tabelle mit Hive, Spark SQL oder anderen Abfragediensten abfragen.

Dataproc Metastore-Versionen

Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst verwenden.

  • Dataproc Metastore 2 ist die neue Generation des Dienstes, die zusätzlich zu den Funktionen von Dataproc Metastore 1 horizontale Skalierbarkeit bietet. Weitere Informationen finden Sie unter Funktionen und Vorteile.

  • Dataproc Metastore 2 hat ein anderes Preismodell als Dataproc Metastore. Weitere Informationen finden Sie unter Preismodelle und Skalierungskonfigurationen.

Gängige Anwendungsfälle

Sofern nicht anders angegeben, werden alle in diesem Abschnitt aufgeführten Anwendungsfälle von Dataproc Metastore 2 und Dataproc Metastore 1 unterstützt.

  • Weisen Sie Ihren Daten einen Sinn zu. Erstellen Sie ein zentrales Metadaten-Repository, das von vielen sitzungsspezifischen Dataproc-Clustern gemeinsam verwendet wird. Verwenden Sie verschiedene Open-Source-Software-Engines wie [Apache Hive](https://hive.apache.org), Apache Spark und Presto.

  • Erstellen Sie eine einheitliche Ansicht Ihrer Daten. Sie können die Interoperabilität zwischen Google Cloud-Diensten wie Dataproc, Dataplex und BigQuery sicherstellen oder andere Open-Source-basierte Partnerangebote in Google Cloud verwenden.

Features und Vorteile

Sofern nicht anders angegeben, werden alle in diesem Abschnitt aufgeführten Funktionen von Dataproc Metastore 2 und Dataproc Metastore 1 unterstützt.

  • OSS-Kompatibilität Sie können eine Verbindung zu Ihren vorhandenen Datenverarbeitungs-Engines wie Apache Hive, Apache Spark und Presto herstellen.

  • Verwaltung Sie können innerhalb weniger Minuten einen Metastore erstellen oder aktualisieren, einschließlich vollständig konfigurierter Monitoring- und Betriebsaufgaben.

  • Integration. Einbindung in andere Google Cloud-Produkte, z. B. BigQuery als Metadatenquelle für einen Dataproc-Cluster.

  • Integrierte Sicherheit Verwenden Sie etablierte Google Cloud-Sicherheitsprotokolle wie Identity and Access Management (IAM) und Kerberos-Authentifizierung.

  • Einfacher Import Vorhandene Metadaten, die in einem externen Hive-Metastore gespeichert sind, in einen Dataproc Metastore-Dienst importieren.

  • Automatische Sicherungen Konfigurieren Sie automatische Metastore-Sicherungen, um Datenverluste zu vermeiden.

  • Leistungsüberwachung: Legen Sie Leistungsstufen fest, um dynamisch auf hochintensive Arbeitslasten und Spitzen zu reagieren, ohne Vorwärmen oder Caching.

  • Hochverfügbarkeit (HA)

    • Dataproc Metastore 2. Bietet zonale Hochverfügbarkeit (HA) ohne spezielle Konfiguration oder fortlaufende Verwaltung. Dazu werden Back-End-Datenbanken und HMS-Server automatisch in mehreren Zonen in der von Ihnen ausgewählten Region repliziert. Neben der zonalen Hochverfügbarkeit unterstützt Dataproc Metastore 2 auch die regionale Hochverfügbarkeit und Notfallwiederherstellung (Disaster Recovery, DR).
    • Dataproc Metastore 1 Bietet standardmäßig zonale Hochverfügbarkeit (HA) ohne spezielle Konfiguration oder fortlaufende Verwaltung. Dazu werden Back-End-Datenbanken und HMS-Server automatisch in mehreren Zonen in der von Ihnen ausgewählten Region repliziert.
  • Skalierbarkeit:

    • Dataproc Metastore 2. Mit einem horizontalen Skalierungsfaktor können Sie festlegen, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwenden muss. Der Skalierungsfaktor kann manuell gesteuert oder bei Bedarf auf automatische Skalierung gesetzt werden.
    • Dataproc Metastore 1 Wählen Sie beim Einrichten Ihres Dienstes zwischen einer Entwickler- oder einer Unternehmensstufe aus. Anhand dieser Stufe wird festgelegt, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt nutzen muss.
  • Support Sie profitieren von den standardmäßigen Google Cloud-SLAs und -Supportkanälen.

Integrationen mit Google Cloud

Alle in diesem Abschnitt aufgeführten Integrationen werden von Dataproc Metastore 1 und Dataproc Metastore 2 unterstützt, sofern nicht anders angegeben.

  • Dataproc Sie können eine Verbindung zu einem Dataproc-Cluster herstellen, um Metadaten für OSS-Big-Data-Arbeitslasten bereitzustellen.
  • BigQuery BigQuery-Datasets in Ihren Dataproc-Arbeitslasten abfragen
  • Dataplex Strukturierte und semistrukturierte Daten abfragen, die in einem Dataplex-Data Lake gefunden wurden
  • Data Catalog Synchronisieren Sie Dataproc Metastore mit Data Catalog, um die Suche und Entdeckung von Metadaten zu ermöglichen.
  • Logging und Monitoring Dataproc Metastore in Cloud Monitoring- und Logging-Produkte einbinden
  • Authentifizierung und IAM Es wird die standardmäßige OAuth-Authentifizierung verwendet, die auch von anderen Google Cloud-Produkten verwendet wird. Außerdem werden detaillierte Identitäts- und Zugriffsverwaltungsrollen unterstützt, um die Zugriffssteuerung für einzelne Ressourcen zu ermöglichen.

Nächste Schritte