Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Dataproc Metastore ist ein vollständig verwalteter Apache Hive-Metastore (HMS), der auf Google Cloudausgeführt wird.
Ein (HMS) ist der etablierte Standard in der Open-Source-Big-Data-Umgebung zum Verwalten technischer Metadaten wie Schemas, Partitionen und Spaltenstatistiken in einer relationalen Datenbank.
Dataproc Metastore ist hochverfügbar, bietet automatische Reparatur und ist serverlos.
Damit können Sie Data Lake-Metadaten verwalten und die Interoperabilität zwischen den verschiedenen Datenverarbeitungs-Engines und Tools, die Sie verwenden, sicherstellen.
Funktionsweise von Dataproc Metastore
Sie können einen Dataproc Metastore-Dienst verwenden, indem Sie ihn mit einem Dataproc-Cluster verbinden. Ein Dataproc-Cluster enthält Komponenten, die für die Abfrageplanung und -ausführung auf ein HMS angewiesen sind.
Durch diese Integration können Sie Tabelleninformationen zwischen Jobs beibehalten oder Metadaten für andere Cluster und andere Verarbeitungs-Engines verfügbar machen.
Wenn Sie beispielsweise einen Metastore implementieren, können Sie festlegen, dass eine Teilmenge Ihrer Dateien Umsatzdaten enthält, anstatt die Dateinamen manuell zu verfolgen.
In diesem Fall können Sie eine Tabelle für diese Dateien definieren und die Metadaten in Dataproc Metastore speichern. Anschließend können Sie die Tabelle mit einem Dataproc-Cluster verbinden und sie mit Hive, Spark SQL oder anderen Abfragediensten abfragen.
Dataproc Metastore-Versionen
Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst verwenden.
Dataproc Metastore 2 ist die neue Generation des Dienstes, der zusätzlich zu den Funktionen von Dataproc Metastore 1 auch horizontale Skalierbarkeit bietet.
Weitere Informationen finden Sie unter Funktionen und Vorteile.
Alle in diesem Abschnitt aufgeführten Anwendungsfälle werden von Dataproc Metastore 2 und Dataproc Metastore 1 unterstützt, sofern nicht anders angegeben.
Daten interpretieren Ein zentralisiertes Metadaten-Repository erstellen, das von vielen sitzungsspezifischen Dataproc-Clustern gemeinsam verwendet wird. Verwenden Sie verschiedene Open-Source-Software-Engines (OSS), z. B. Apache Hive, Apache Spark und Presto.
Einheitliche Ansicht Ihrer Daten erstellen Interoperabilität zwischenGoogle Cloud -Diensten wie Dataproc, Dataplex Universal Catalog und BigQuery bereitstellen oder andere Open-Source-basierte Partnerangebote aufGoogle Cloudverwenden.
Features und Vorteile
Alle in diesem Abschnitt aufgeführten Funktionen werden von Dataproc Metastore 2 und Dataproc Metastore 1 unterstützt, sofern nicht anders angegeben.
OSS-Kompatibilität: Verbinden Sie sich mit Ihren vorhandenen Datenverarbeitungs-Engines wie Apache Hive, Apache Spark und Presto.
Verwaltung Erstellen oder aktualisieren Sie einen Metastore innerhalb von Minuten, komplett mit vollständig konfigurierten Monitoring- und Betriebsaufgaben.
Integration. Integration in andere Produkte, z. B. BigQuery als Quelle für Metadaten für einen Dataproc-Cluster. Google Cloud
Einfacher Import: Importieren Sie vorhandene Metadaten, die in einem externen Hive-Metastore gespeichert sind, in einen Dataproc Metastore-Dienst.
Automatische Back-ups Konfigurieren Sie automatische Metastore-Sicherungen, um Datenverlust zu vermeiden.
Leistungsüberwachung: Leistungsstufen so festlegen, dass sie dynamisch auf hochintensive Arbeitslasten und Spitzen reagieren, ohne Vorbereitung oder Caching.
Hochverfügbarkeit (HA):
Dataproc Metastore 2 Bietet zonale Hochverfügbarkeit (HA), ohne dass eine spezielle Konfiguration oder laufende Verwaltung erforderlich ist. Dies wird erreicht, indem Backend-Datenbanken und HMS-Server automatisch über mehrere Zonen in der von Ihnen ausgewählten Region repliziert werden. Zusätzlich zur zonalen Hochverfügbarkeit unterstützt Dataproc Metastore 2 die regionale Hochverfügbarkeit und die Notfallwiederherstellung.
Dataproc Metastore 1 Standardmäßig wird zonale Hochverfügbarkeit (HA) bereitgestellt, ohne dass eine spezielle Konfiguration oder laufende Verwaltung erforderlich ist. Dies wird durch die automatische Replikation von Backend-Datenbanken und HMS-Servern in mehreren Zonen in der von Ihnen ausgewählten Region erreicht.
Weitere Informationen zu regionsspezifischen Aspekten finden Sie unter Geografie und Regionen.
Skalierbarkeit:
Dataproc Metastore 2 Mit einem horizontalen Skalierungsfaktor können Sie festlegen, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwenden muss.
Der Skalierungsfaktor kann manuell gesteuert oder bei Bedarf auf „Automatische Skalierung“ festgelegt werden.
Dataproc Metastore 1 Wählen Sie beim Einrichten Ihres Dienstes zwischen einer Entwickler- und einer Unternehmensstufe. Diese Stufe bestimmt, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwenden muss.
Support Profitieren Sie von Standard- Google Cloud SLAs und Supportkanälen.
Einbindung in Google Cloud
Alle in diesem Abschnitt aufgeführten Integrationen werden von Dataproc Metastore 1 und Dataproc Metastore 2 unterstützt, sofern nicht anders angegeben.
Dataproc Verbinden Sie sich mit einem Dataproc-Cluster, um Metadaten für OSS-Big-Data-Arbeitslasten bereitzustellen.
BigQuery. BigQuery-Datasets in Ihren Dataproc-Arbeitslasten abfragen
Dataplex Universal Catalog Abfragen von strukturierten und semistrukturierten Daten, die in einem Dataplex Universal Catalog-Lake ermittelt wurden.
Data Catalog Synchronisieren Sie Dataproc Metastore mit Data Catalog, um die Suche und Ermittlung von Metadaten zu ermöglichen.
Logging und Monitoring: Dataproc Metastore in Cloud Monitoring- und Cloud Logging-Produkte einbinden
Authentifizierung und IAM: Verwenden Sie die standardmäßige OAuth-Authentifizierung, die von anderenGoogle Cloud -Produkten verwendet wird. Sie unterstützt die Verwendung detaillierter IAM-Rollen (Identity and Access Management), um die Zugriffssteuerung für einzelne Ressourcen zu ermöglichen.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-08-27 (UTC)."],[[["\u003cp\u003eDataproc Metastore is a fully managed, highly available, and serverless Apache Hive metastore (HMS) on Google Cloud, designed for managing data lake metadata.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore integrates with Dataproc clusters and other Google Cloud services like BigQuery and Dataplex, enabling interoperability and a unified data view across various open-source engines.\u003c/p\u003e\n"],["\u003cp\u003eIt supports two versions, Dataproc Metastore 1 and the newer Dataproc Metastore 2, with the latter offering horizontal scalability and zonal, regional high availability (HA), and Disaster Recovery (DR).\u003c/p\u003e\n"],["\u003cp\u003eKey features include OSS compatibility, built-in security, simple metadata import, automatic backups, and performance monitoring to manage the storage of table information between jobs.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore allows for centralized metadata repositories, enabling users to assign meaning to data and make it available across multiple ephemeral Dataproc clusters using different open source software (OSS) engines.\u003c/p\u003e\n"]]],[],null,["# Dataproc Metastore overview\n\n\u003cbr /\u003e\n\nDataproc Metastore is a fully managed [Apache Hive metastore](https://cwiki.apache.org/confluence/display/Hive/Design#Design-Metastore) (HMS) that runs on Google Cloud.\nAn (HMS) is the established standard in the open source big data\necosystem for managing technical metadata, such as schemas, partitions, and column\nstatistics in a relational database.\n\nDataproc Metastore is highly available, autohealing, and serverless.\nUse it to manage [data lake](https://cloud.google.com/learn/what-is-a-data-lake)\nmetadata and provide interoperability between the various data processing engines\nand tools that you're using.\n\nHow Dataproc Metastore works\n----------------------------\n\nYou can use a Dataproc Metastore service by connecting it to\na Dataproc cluster. A Dataproc cluster includes\ncomponents that rely on an HMS to drive query planning and execution.\n\nThis integration lets you keep your table information between jobs or make\nmetadata available to other clusters and other processing engines.\n\nFor example, implementing a metastore might help you designate that a subset\nof your files contains revenue data, as opposed to manually tracking the filenames.\nIn this case, you can define a table for those files and store the metadata in\nDataproc Metastore. After, you can connect it to a\nDataproc cluster and query the table for information using Hive,\nSpark SQL, or other query services.\n\n**Dataproc Metastore versions**\n\nWhen you create a Dataproc Metastore service, you can choose to use\na *Dataproc Metastore 2 service* or a *Dataproc Metastore 1\nservice*.\n\n- Dataproc Metastore 2 is the new generation of the service that offers\n horizontal scalability in addition to Dataproc Metastore 1 features.\n For more information, see [features and benefits](#Dataproc%20Metastore-features).\n\n- Dataproc Metastore 2 has a different pricing plan than\n Dataproc Metastore. For more information, see [pricing plans and scaling configurations](/dataproc-metastore/pricing).\n\n### Common use cases\n\nAll use cases listed in this section are supported by Dataproc Metastore\n2 and Dataproc Metastore 1, unless otherwise noted.\n\n- **Assign meaning to your data.** Create a centralized metadata repository\n that's shared among many ephemeral Dataproc clusters. Use\n different open source software (OSS) engines, such as [Apache Hive](https://hive.apache.org)\n , [Apache Spark](https://spark.apache.org/), and [Presto](https://prestodb.io/).\n\n- **Build a unified view of your data.** Provide interoperability between\n Google Cloud services, such as Dataproc, Dataplex Universal Catalog,\n and BigQuery, or use other open source-based partner offerings on\n Google Cloud.\n\n### Features and benefits\n\nAll features listed in this section are supported by Dataproc Metastore\n2 and Dataproc Metastore 1, unless otherwise noted.\n\n- **OSS compatibility**. Connect to your existing data processing engines,\n such as Apache Hive, Apache Spark, and Presto.\n\n- **Management**. Create or update a metastore within minutes, complete with\n fully configured monitoring and operation tasks.\n\n- **Integration**. Integrate with other Google Cloud products, such as\n using BigQuery as the source of metadata for a Dataproc\n cluster.\n\n- **Built-in security** . Use established Google Cloud security protocols,\n such as [Identity and Access Management (IAM)](/dataproc-metastore/docs/iam-and-access-control)\n and [Kerberos authentication](/dataproc-metastore/docs/configure-kerberos).\n\n- **Simple import**. Import existing metadata stored in an external Hive Metastore\n metastore into a Dataproc Metastore service.\n\n- **Automatic Backups**. Configure automatic metastore backups to help avoid\n data loss.\n\n- **Performance monitoring**. Set performance tiers to dynamically respond to\n highly intensive workloads and spikes, without pre-warming or caching.\n\n- **High availability (HA)**.\n\n - **Dataproc Metastore 2.** Provides zonal high availability (HA) without requiring any specific configuration or on-going management. This is accomplished by automatically replicating backend databases and HMS servers across multiple zones in the region you choose. In addition to Zonal HA, Dataproc Metastore 2 supports regional HA and Disaster Recovery (DR).\n - **Dataproc Metastore 1.** By default, provides zonal high availability (HA) without requiring any specific configuration or on-going management. This is accomplished by automatically replicating backend databases and HMS servers across multiple zones in the region you choose.\n\n\n For more information about region-specific considerations, see\n [Geography and regions](/docs/geography-and-regions#regions_and_zones).\n- **Scalability**.\n\n - **Dataproc Metastore 2.** Use a horizontal scaling factor to determine how many resources your service needs to use at a given time. The scaling factor can be manually controlled or set to autoscale when needed.\n - **Dataproc Metastore 1.** Choose between a developer tier or enterprise tier when you set up your service. This tier determines how many resources your service needs to use at a given time.\n- **Support**. Benefit from standard Google Cloud SLAs and support channels.\n\nIntegrations with Google Cloud\n------------------------------\n\nAll integrations listed in this section are supported by Dataproc Metastore\n1 and Dataproc Metastore 2, unless otherwise noted.\n\n- **Dataproc.** Connect to a Dataproc cluster, so you can serve metadata for OSS big data workloads.\n- **BigQuery.** Query BigQuery datasets in your Dataproc workloads.\n- **Dataplex Universal Catalog.** Query structured and semi-structured data discovered in a Dataplex Universal Catalog lake.\n- **Data Catalog.** Sync Dataproc Metastore with Data Catalog to enable search and discovery of metadata.\n- **Logging and Monitoring.** Integrate Dataproc Metastore with Cloud Monitoring and Logging products.\n- **Authentication and IAM.** Rely on standard OAuth authentication used by other Google Cloud products, which supports using granular Identity and Access Management roles to enable access control for individual resources.\n\nNext steps\n----------\n\n- Get started with the quickstart guide, [Deploying a Dataproc Metastore service](/dataproc-metastore/docs/create-service-cluster).\n- Understand [Dataproc Metastore pricing](/dataproc-metastore/pricing).\n- Understand [quotas and limits for Dataproc Metastore](/dataproc-metastore/docs/quotas).\n- Read the [Dataproc Metastore release notes](/dataproc-metastore/docs/release-notes).\n- Access Dataproc Metastore using the [Google Cloud console](https://console.cloud.google.com/dataproc/metastore), the [Google Cloud CLI](/sdk/gcloud/reference/metastore) or with the [Dataproc Metastore API](/dataproc-metastore/docs/reference/rest)."]]