Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Die folgenden Konzepte sollen Ihnen helfen, die Funktionsweise von Dataproc Metastore und die verschiedenen Funktionen zu verstehen, die Sie mit Ihrem Dienst verwenden können.
Dataproc Metastore-Versionen
Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst verwenden.
Dataproc Metastore 2
In Dataproc Metastore 2 wird ein Skalierungsfaktor verwendet, um zu bestimmen, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt nutzt. Nachdem Sie einen Dataproc Metastore 2 erstellt haben, können Sie den Dienst skalieren, indem Sie den Skalierungsfaktor ändern.
Dataproc Metastore 2 ist die neue Generation des Dienstes, der zusätzlich zu den Dataproc Metastore-Funktionen auch horizontale Skalierbarkeit bietet.
Weitere Informationen finden Sie unter Funktionen und Vorteile.
In Dataproc Metastore 1 wird anhand von Dienststufen ermittelt, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwendet. Service-Stufen bieten eine vorhersehbare, vorab festgelegte Menge an Ressourcen.
Dataproc Metastore-Version prüfen
Sie können in derGoogle Cloud Console nachsehen, welche Version von Dataproc Metastore Sie verwenden.
Dataproc Metastore 2: Die Konfigurationstabelle enthält den folgenden Wert: Edition Enterprise – Single Region.
Dataproc Metastore 1: Die Konfigurationstabelle enthält einen der folgenden Werte: Tier: DEVELOPER oder Tier: ENTERPRISE.
Häufig verwendete Dataproc Metastore-Begriffe
Die folgenden Begriffe werden häufig im gesamten Dataproc Metastore-Ökosystem und in der Dokumentation verwendet.
Dienste
Apache Hive Hive ist ein beliebtes Open-Source-Data-Warehouse-System auf der Grundlage von Apache Hadoop. Hive umfasst eine SQL-ähnliche Abfragesprache namens HiveQL, mit der große strukturierte Datasets analysiert werden.
Apache Hive-Metastore. Der Hive-Metaspeicher enthält Metadaten zu Hive-Tabellen, z. B. dem Schema und Speicherort.
Dataproc. Dataproc ist ein schneller, nutzerfreundlicher, vollständig verwalteter Dienst auf Google Cloud , über den Sie Apache Spark- und Apache Hadoop-Arbeitslasten einfach und kostengünstig ausführen können. Nachdem Sie einen Dataproc Metastore erstellt haben, können Sie von einem Dataproc-Cluster aus eine Verbindung zu ihm herstellen.
Dataproc-Cluster. Nachdem Sie einen Dataproc Metastore-Dienst erstellt haben, können Sie von einem Dataproc-Cluster aus eine Verbindung zu ihm herstellen. Sie können Dataproc Metastore auch mit verschiedenen anderen Clustern verwenden, z. B. mit selbstverwalteten Apache Hive-, Apache Spark- oder Presto-Clustern.
Dataproc Metastore-Dienst Der Name der Metastore-Instanz, die Sie in Google Clouderstellen. Sie können einen oder mehrere verschiedene Metastore-Dienste in Ihrer Implementierung haben.
Private Service Connect Mit Private Service Connect können Sie eine private Verbindung zu Dataproc Metastore-Metadaten über VPC-Netzwerke hinweg einrichten. Sie können es für die Vernetzung als Alternative zum VPC-Peering verwenden.
VPC Service Controls. Mit VPC Service Controls können Sie das Risiko der Daten-Exfiltration aus Google Cloud -Diensten verringern, indem Sie Perimeter erstellen, die die Ressourcen und Daten der von Ihnen explizit angegebenen Dienste schützen.
Konzepte
Tabellen Alle Hive-Anwendungen haben verwaltete interne oder nicht verwaltete externe Tabellen, in denen Ihre Daten gespeichert werden.
Hive-Warehouse-Verzeichnis: Der Standardspeicherort für Daten verwalteter Tabellen.
Artefakt-Bucket: Ein Cloud Storage-Bucket, der in Ihrem Projekt automatisch mit jedem von Ihnen erstellten Metastore-Dienst erstellt wird. In diesem Bucket können Sie Ihre Dienstartefakte speichern, z. B. exportierte Metadaten und verwaltete Tabellendaten. Standardmäßig wird im Artefakt-Bucket das Standard-Warehouse-Verzeichnis Ihres Dataproc Metastore-Dienstes gespeichert.
Endpunkte Ein Dataproc Metastore-Dienst bietet Clients über einen oder mehrere Netzwerkendpunkte Zugriff auf die gespeicherten Hive Metastore-Metadaten. Dataproc Metastore stellt URIs für diese Endpunkte bereit.
Endpunktprotokolle Das Netzwerkprotokoll, das für die Kommunikation zwischen Dataproc Metastore und Hive Metastore-Clients verwendet wird. Dataproc Metastore unterstützt Apache Thrift- und gRPC-Endpunkte.
Metadata Federation (Metadatenverbund). Eine Funktion, mit der Sie auf Metadaten zugreifen können, die in mehreren Dataproc Metastore-Instanzen gespeichert sind.
Zusatzversionen Eine Funktion, mit der Sie mehrere Hive-Clientversionen mit demselben Dataproc Metastore-Dienst verbinden können.
Hive-Metastore-Konzepte
Für die Verwendung eines Dataproc Metastore-Dienstes sind grundlegende Kenntnisse der Hive-Metastore-Konzepte erforderlich. Weitere Informationen finden Sie unter Hive-Metastore.
Netzwerkanforderungen
Der Dataproc Metastore-Dienst erfordert Netzwerkzugriff, um ordnungsgemäß zu funktionieren. Weitere Informationen finden Sie unter Netzwerkanforderungen konfigurieren.
Projektkonfigurationen
Bei der Bereitstellung eines Dataproc-Clusters und eines Dataproc Metastore-Dienstes sind verschiedene Projektkonfigurationen möglich.
Weitere Informationen finden Sie unter Projektübergreifende Bereitstellung.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-08-27 (UTC)."],[[["\u003cp\u003eDataproc Metastore offers two service versions: Dataproc Metastore 1, which uses service tiers for resource allocation, and Dataproc Metastore 2, which uses a scaling factor for dynamic resource scaling.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore 2 provides horizontal scalability and has a different pricing plan compared to Dataproc Metastore 1.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore uses common terms like Apache Hive, Apache Hive metastore, Dataproc cluster, and Private Service Connect to describe its features and ecosystem.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore stores metadata about Hive tables, offers options for networking like Private Service Connect and VPC Service Controls, and uses a Cloud Storage bucket for service artifacts.\u003c/p\u003e\n"],["\u003cp\u003eThe Dataproc Metastore has services to create, update, delete and import metadata into it, to aid in the management of the metastore.\u003c/p\u003e\n"]]],[],null,["# Dataproc Metastore core concepts\n\nUse the following concepts to help you understand how\nDataproc Metastore works and the different features you can use\nwith your service.\n\nDataproc Metastore versions\n---------------------------\n\nWhen you create a Dataproc Metastore service, you can choose to use\na *Dataproc Metastore 2 service* or a *Dataproc Metastore 1\nservice*.\n\n### Dataproc Metastore 2\n\nDataproc Metastore 2 uses a scaling factor to determine how\nmany resources your service uses at a given time. After you create a\nDataproc Metastore 2, you can scale the service up or down by modifying\nthe scaling factor.\n\n- Dataproc Metastore 2 is the new generation of the service that offers\n horizontal scalability in addition to Dataproc Metastore features.\n For more information, see [features and benefits](/dataproc-metastore/docs/overview#why-use-Dataproc%20Metastore).\n\n- Dataproc Metastore 2 has a different pricing plan than\n Dataproc Metastore. For more information, see [pricing plans and scaling configurations](/dataproc-metastore/pricing).\n\n### Dataproc Metastore 1\n\nDataproc Metastore 1 uses service tiers to determine how many\nresources your service uses at a given time. Service tiers provide a predictable,\npredetermined amount of resources.\n\n### Check your Dataproc Metastore version\n\nYou can check what version of Dataproc Metastore you're using in the\nGoogle Cloud console.\n\n- **Dataproc Metastore 2** : The configuration table contains the following value: **Edition Enterprise - Single Region**.\n- **Dataproc Metastore 1** : The configuration table contains one of the following values: **Tier: DEVELOPER** or **Tier: ENTERPRISE**.\n\nCommon Dataproc Metastore terms\n-------------------------------\n\nThe following terms are used commonly throughout the Dataproc Metastore\necosystem and documentation.\n\n#### Services\n\n- **Apache Hive**. Hive is a popular open source data warehouse system built on Apache Hadoop. Hive offers a SQL-like query language called HiveQL, which is used to analyze large, structured datasets.\n- **Apache Hive metastore**. The Hive metastore holds metadata about Hive tables, such as their schema and location.\n- **Dataproc**. Dataproc is a fast, easy-to-use, fully managed service on Google Cloud for running Apache Spark and Apache Hadoop workloads in a simple, cost-efficient way. After you create a Dataproc Metastore, you can connect to it from a Dataproc cluster.\n- **Dataproc cluster**. After you create a Dataproc Metastore service, you can connect to it from a Dataproc cluster. You can also use Dataproc Metastore with various other clusters, such as self-managed Apache Hive, Apache Spark, or Presto clusters.\n- **Dataproc Metastore service**. The name of the metastore instance you create in Google Cloud. You can have one or many different metastore services in your implementation.\n- **Private Service Connect**. Private Service Connect lets you set up a private connection to Dataproc Metastore metadata across VPC networks. You can use it for networking as an alternative to VPC peering.\n- **VPC Service Controls**. VPC Service Controls improves your ability to mitigate the risk of data exfiltration from Google Cloud services by allowing you to create perimeters that protect the resources and data of services that you explicitly specify.\n\n#### Concepts\n\n- **Tables**. All Hive applications have managed internal or unmanaged external tables that store your data.\n- **Hive warehouse directory**. The default location where managed table data is stored.\n- **Artifacts bucket**. A Cloud Storage bucket that is created in your project automatically with every metastore service that you create. This bucket can be used to store your service artifacts, such as exported metadata and managed table data. By default, the artifacts bucket stores the default warehouse directory of your Dataproc Metastore service.\n- **Endpoints**. A Dataproc Metastore service provides clients access to the stored Hive Metastore metadata through one or more network endpoints. Dataproc Metastore provides URIs for these endpoints.\n- **Endpoint protocols**. The over-the-wire network protocol used for communication between Dataproc Metastore and Hive Metastore clients. Dataproc Metastore supports Apache Thrift and gRPC endpoints.\n- **Metadata Federation**. A feature that lets you access metadata that is stored in multiple Dataproc Metastore instances.\n- **Auxiliary versions**. A feature that lets you connect multiple Hive client versions to the same Dataproc Metastore service.\n\nHive metastore concepts\n-----------------------\n\nUsing a Dataproc Metastore service requires that you understand\nbasic Hive metastore concepts. For more information, see [Hive Metastore](/dataproc-metastore/docs/hive-metastore).\n\nNetwork Requirements\n--------------------\n\nThe Dataproc Metastore service requires networking access to work\ncorrectly. For more information, see [Configure network requirements](/dataproc-metastore/docs/access-service).\n\nProject configurations\n----------------------\n\nThere are a number of possible project configurations you can use when deploying a\nDataproc cluster and a Dataproc Metastore service.\nFor more information, see [cross-project deployment](/dataproc-metastore/docs/cross-project-deployment).\n\nWhat's next\n-----------\n\n- [Create a service](/dataproc-metastore/docs/create-service)\n- [Update and delete a service](/dataproc-metastore/docs/manage-service)\n- [Import metadata into a service](/dataproc-metastore/docs/import-metadata)"]]