Grundlegende Konzepte von Dataproc Metastore

Die folgenden Konzepte sollen Ihnen helfen, die Funktionsweise von Dataproc Metastore und die verschiedenen Funktionen zu verstehen, die Sie mit Ihrem Dienst verwenden können.

Dataproc Metastore-Versionen

Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst verwenden.

Dataproc Metastore 2

In Dataproc Metastore 2 wird ein Skalierungsfaktor verwendet, um zu bestimmen, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt nutzt. Nachdem Sie einen Dataproc Metastore 2 erstellt haben, können Sie den Dienst skalieren, indem Sie den Skalierungsfaktor ändern.

  • Dataproc Metastore 2 ist die neue Generation des Dienstes, der zusätzlich zu den Dataproc Metastore-Funktionen auch horizontale Skalierbarkeit bietet. Weitere Informationen finden Sie unter Funktionen und Vorteile.

  • Dataproc Metastore 2 hat ein anderes Preismodell als Dataproc Metastore. Weitere Informationen finden Sie unter Preismodelle und Skalierungskonfigurationen.

Dataproc Metastore 1

In Dataproc Metastore 1 wird anhand von Dienststufen ermittelt, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwendet. Service-Stufen bieten eine vorhersehbare, vorab festgelegte Menge an Ressourcen.

Dataproc Metastore-Version prüfen

Sie können in derGoogle Cloud Console nachsehen, welche Version von Dataproc Metastore Sie verwenden.

  • Dataproc Metastore 2: Die Konfigurationstabelle enthält den folgenden Wert: Edition Enterprise – Single Region.
  • Dataproc Metastore 1: Die Konfigurationstabelle enthält einen der folgenden Werte: Tier: DEVELOPER oder Tier: ENTERPRISE.

Häufig verwendete Dataproc Metastore-Begriffe

Die folgenden Begriffe werden häufig im gesamten Dataproc Metastore-Ökosystem und in der Dokumentation verwendet.

Dienste

  • Apache Hive Hive ist ein beliebtes Open-Source-Data-Warehouse-System auf der Grundlage von Apache Hadoop. Hive umfasst eine SQL-ähnliche Abfragesprache namens HiveQL, mit der große strukturierte Datasets analysiert werden.
  • Apache Hive-Metastore. Der Hive-Metaspeicher enthält Metadaten zu Hive-Tabellen, z. B. dem Schema und Speicherort.
  • Dataproc. Dataproc ist ein schneller, nutzerfreundlicher, vollständig verwalteter Dienst auf Google Cloud , über den Sie Apache Spark- und Apache Hadoop-Arbeitslasten einfach und kostengünstig ausführen können. Nachdem Sie einen Dataproc Metastore erstellt haben, können Sie von einem Dataproc-Cluster aus eine Verbindung zu ihm herstellen.
  • Dataproc-Cluster. Nachdem Sie einen Dataproc Metastore-Dienst erstellt haben, können Sie von einem Dataproc-Cluster aus eine Verbindung zu ihm herstellen. Sie können Dataproc Metastore auch mit verschiedenen anderen Clustern verwenden, z. B. mit selbstverwalteten Apache Hive-, Apache Spark- oder Presto-Clustern.
  • Dataproc Metastore-Dienst Der Name der Metastore-Instanz, die Sie in Google Clouderstellen. Sie können einen oder mehrere verschiedene Metastore-Dienste in Ihrer Implementierung haben.
  • Private Service Connect Mit Private Service Connect können Sie eine private Verbindung zu Dataproc Metastore-Metadaten über VPC-Netzwerke hinweg einrichten. Sie können es für die Vernetzung als Alternative zum VPC-Peering verwenden.
  • VPC Service Controls. Mit VPC Service Controls können Sie das Risiko der Daten-Exfiltration aus Google Cloud -Diensten verringern, indem Sie Perimeter erstellen, die die Ressourcen und Daten der von Ihnen explizit angegebenen Dienste schützen.

Konzepte

  • Tabellen Alle Hive-Anwendungen haben verwaltete interne oder nicht verwaltete externe Tabellen, in denen Ihre Daten gespeichert werden.
  • Hive-Warehouse-Verzeichnis: Der Standardspeicherort für Daten verwalteter Tabellen.
  • Artefakt-Bucket: Ein Cloud Storage-Bucket, der in Ihrem Projekt automatisch mit jedem von Ihnen erstellten Metastore-Dienst erstellt wird. In diesem Bucket können Sie Ihre Dienstartefakte speichern, z. B. exportierte Metadaten und verwaltete Tabellendaten. Standardmäßig wird im Artefakt-Bucket das Standard-Warehouse-Verzeichnis Ihres Dataproc Metastore-Dienstes gespeichert.
  • Endpunkte Ein Dataproc Metastore-Dienst bietet Clients über einen oder mehrere Netzwerkendpunkte Zugriff auf die gespeicherten Hive Metastore-Metadaten. Dataproc Metastore stellt URIs für diese Endpunkte bereit.
  • Endpunktprotokolle Das Netzwerkprotokoll, das für die Kommunikation zwischen Dataproc Metastore und Hive Metastore-Clients verwendet wird. Dataproc Metastore unterstützt Apache Thrift- und gRPC-Endpunkte.
  • Metadata Federation (Metadatenverbund). Eine Funktion, mit der Sie auf Metadaten zugreifen können, die in mehreren Dataproc Metastore-Instanzen gespeichert sind.
  • Zusatzversionen Eine Funktion, mit der Sie mehrere Hive-Clientversionen mit demselben Dataproc Metastore-Dienst verbinden können.

Hive-Metastore-Konzepte

Für die Verwendung eines Dataproc Metastore-Dienstes sind grundlegende Kenntnisse der Hive-Metastore-Konzepte erforderlich. Weitere Informationen finden Sie unter Hive-Metastore.

Netzwerkanforderungen

Der Dataproc Metastore-Dienst erfordert Netzwerkzugriff, um ordnungsgemäß zu funktionieren. Weitere Informationen finden Sie unter Netzwerkanforderungen konfigurieren.

Projektkonfigurationen

Bei der Bereitstellung eines Dataproc-Clusters und eines Dataproc Metastore-Dienstes sind verschiedene Projektkonfigurationen möglich. Weitere Informationen finden Sie unter Projektübergreifende Bereitstellung.

Nächste Schritte