Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Dataproc Metastore adalah metastore Apache Hive (HMS) yang terkelola sepenuhnya dan berjalan di Google Cloud.
HMS adalah standar yang ditetapkan dalam ekosistem big data open source untuk mengelola metadata teknis, seperti skema, partisi, dan statistik kolom dalam database relasional.
Dataproc Metastore sangat tersedia, autohealing, dan tanpa server.
Gunakan untuk mengelola metadata data lake dan menyediakan interoperabilitas antara berbagai mesin dan alat pemrosesan data yang Anda gunakan.
Cara kerja Dataproc Metastore
Anda dapat menggunakan layanan Dataproc Metastore dengan menghubungkannya ke
cluster Dataproc. Cluster Dataproc mencakup komponen yang mengandalkan HMS untuk mendorong perencanaan dan eksekusi kueri.
Integrasi ini memungkinkan Anda menyimpan informasi tabel di antara tugas atau membuat metadata tersedia untuk cluster dan mesin pemrosesan lainnya.
Misalnya, menerapkan metastore dapat membantu Anda menetapkan bahwa subset file Anda berisi data pendapatan, bukan melacak nama file secara manual.
Dalam hal ini, Anda dapat menentukan tabel untuk file tersebut dan menyimpan metadata di
Dataproc Metastore. Setelah itu, Anda dapat menghubungkannya ke
cluster Dataproc dan membuat kueri tabel untuk mendapatkan informasi menggunakan Hive,
Spark SQL, atau layanan kueri lainnya.
Versi Dataproc Metastore
Saat membuat layanan Dataproc Metastore, Anda dapat memilih untuk menggunakan
layanan Dataproc Metastore 2 atau layanan Dataproc Metastore 1.
Dataproc Metastore 2 adalah layanan generasi baru yang menawarkan skalabilitas horizontal selain fitur Dataproc Metastore 1.
Untuk mengetahui informasi selengkapnya, lihat fitur dan manfaat.
Dataproc Metastore 2 memiliki paket harga yang berbeda dengan
Dataproc Metastore. Untuk mengetahui informasi selengkapnya, lihat paket harga dan konfigurasi penskalaan.
Kasus penggunaan umum
Semua kasus penggunaan yang tercantum di bagian ini didukung oleh Dataproc Metastore 2 dan Dataproc Metastore 1, kecuali jika dinyatakan lain.
Tetapkan arti pada data Anda. Buat repositori metadata terpusat yang dibagikan di antara banyak cluster Dataproc efemeral. Gunakan
berbagai mesin software open source (OSS), seperti Apache Hive
, Apache Spark, dan Presto.
Buat tampilan terpadu untuk data Anda. Menyediakan interoperabilitas antara
Google Cloud layanan, seperti Dataproc, Dataplex Universal Catalog, dan BigQuery, atau menggunakan penawaran partner berbasis open source lainnya di
Google Cloud.
Fitur dan manfaat
Semua fitur yang tercantum di bagian ini didukung oleh Dataproc Metastore 2 dan Dataproc Metastore 1, kecuali dinyatakan lain.
Kompatibilitas OSS. Hubungkan ke mesin pemrosesan data yang ada, seperti Apache Hive, Apache Spark, dan Presto.
Pengelolaan. Buat atau perbarui metastore dalam hitungan menit, lengkap dengan
tugas pemantauan dan operasi yang dikonfigurasi sepenuhnya.
Integrasi. Terintegrasi dengan produk lain, seperti menggunakan BigQuery sebagai sumber metadata untuk cluster Dataproc. Google Cloud
Impor sederhana. Mengimpor metadata yang ada yang disimpan di metastore Hive Metastore eksternal ke layanan Dataproc Metastore.
Pencadangan Otomatis. Konfigurasi pencadangan metastore otomatis untuk membantu menghindari kehilangan data.
Pemantauan performa. Tetapkan tingkat performa untuk merespons secara dinamis workload dan lonjakan yang sangat intensif, tanpa prapenyiapan atau caching.
Ketersediaan tinggi (HA).
Dataproc Metastore 2. Menyediakan ketersediaan tinggi (HA) di zona
tanpa memerlukan konfigurasi tertentu atau pengelolaan berkelanjutan. Hal ini
dicapai dengan mereplikasi database backend dan server HMS secara otomatis
di beberapa zona dalam region yang Anda pilih. Selain HA Zonal, Dataproc Metastore 2 mendukung HA regional dan Pemulihan dari Bencana (DR).
Dataproc Metastore 1. Secara default, menyediakan ketersediaan tinggi (HA) zonal tanpa memerlukan konfigurasi tertentu atau pengelolaan berkelanjutan. Hal ini dilakukan dengan mereplikasi database backend
dan server HMS secara otomatis di beberapa zona dalam region yang Anda pilih.
Untuk mengetahui informasi selengkapnya tentang pertimbangan khusus wilayah, lihat
Geografi dan wilayah.
Skalabilitas.
Dataproc Metastore 2. Gunakan faktor penskalaan horizontal untuk
menentukan jumlah resource yang perlu digunakan layanan Anda pada waktu tertentu.
Faktor penskalaan dapat dikontrol secara manual atau disetel ke penskalaan otomatis jika diperlukan.
Dataproc Metastore 1. Pilih antara tingkat developer atau tingkat perusahaan saat Anda menyiapkan layanan. Tingkatan ini menentukan jumlah resource yang perlu digunakan layanan Anda pada waktu tertentu.
Dukungan. Manfaatkan SLA dan saluran dukungan standar Google Cloud .
Integrasi dengan Google Cloud
Semua integrasi yang tercantum di bagian ini didukung oleh Dataproc Metastore
1 dan Dataproc Metastore 2, kecuali dinyatakan lain.
Dataproc. Hubungkan ke cluster Dataproc, sehingga Anda dapat menyajikan metadata untuk beban kerja big data OSS.
BigQuery. Kueri set data BigQuery di beban kerja Dataproc Anda.
Dataplex Universal Catalog. Buat kueri data terstruktur dan semi-terstruktur yang ditemukan di data lake Katalog Universal Dataplex.
Data Catalog. Menyinkronkan Dataproc Metastore dengan Data Catalog
untuk mengaktifkan penelusuran dan penemuan metadata.
Logging dan Pemantauan. Mengintegrasikan Dataproc Metastore dengan produk Cloud Monitoring dan Logging.
Autentikasi dan IAM. Mengandalkan autentikasi OAuth standar yang digunakan oleh produk
Google Cloud lainnya, yang mendukung penggunaan peran Identity and Access Management terperinci untuk
mengaktifkan kontrol akses untuk setiap resource.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-08-27 UTC."],[[["\u003cp\u003eDataproc Metastore is a fully managed, highly available, and serverless Apache Hive metastore (HMS) on Google Cloud, designed for managing data lake metadata.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore integrates with Dataproc clusters and other Google Cloud services like BigQuery and Dataplex, enabling interoperability and a unified data view across various open-source engines.\u003c/p\u003e\n"],["\u003cp\u003eIt supports two versions, Dataproc Metastore 1 and the newer Dataproc Metastore 2, with the latter offering horizontal scalability and zonal, regional high availability (HA), and Disaster Recovery (DR).\u003c/p\u003e\n"],["\u003cp\u003eKey features include OSS compatibility, built-in security, simple metadata import, automatic backups, and performance monitoring to manage the storage of table information between jobs.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore allows for centralized metadata repositories, enabling users to assign meaning to data and make it available across multiple ephemeral Dataproc clusters using different open source software (OSS) engines.\u003c/p\u003e\n"]]],[],null,["# Dataproc Metastore overview\n\n\u003cbr /\u003e\n\nDataproc Metastore is a fully managed [Apache Hive metastore](https://cwiki.apache.org/confluence/display/Hive/Design#Design-Metastore) (HMS) that runs on Google Cloud.\nAn (HMS) is the established standard in the open source big data\necosystem for managing technical metadata, such as schemas, partitions, and column\nstatistics in a relational database.\n\nDataproc Metastore is highly available, autohealing, and serverless.\nUse it to manage [data lake](https://cloud.google.com/learn/what-is-a-data-lake)\nmetadata and provide interoperability between the various data processing engines\nand tools that you're using.\n\nHow Dataproc Metastore works\n----------------------------\n\nYou can use a Dataproc Metastore service by connecting it to\na Dataproc cluster. A Dataproc cluster includes\ncomponents that rely on an HMS to drive query planning and execution.\n\nThis integration lets you keep your table information between jobs or make\nmetadata available to other clusters and other processing engines.\n\nFor example, implementing a metastore might help you designate that a subset\nof your files contains revenue data, as opposed to manually tracking the filenames.\nIn this case, you can define a table for those files and store the metadata in\nDataproc Metastore. After, you can connect it to a\nDataproc cluster and query the table for information using Hive,\nSpark SQL, or other query services.\n\n**Dataproc Metastore versions**\n\nWhen you create a Dataproc Metastore service, you can choose to use\na *Dataproc Metastore 2 service* or a *Dataproc Metastore 1\nservice*.\n\n- Dataproc Metastore 2 is the new generation of the service that offers\n horizontal scalability in addition to Dataproc Metastore 1 features.\n For more information, see [features and benefits](#Dataproc%20Metastore-features).\n\n- Dataproc Metastore 2 has a different pricing plan than\n Dataproc Metastore. For more information, see [pricing plans and scaling configurations](/dataproc-metastore/pricing).\n\n### Common use cases\n\nAll use cases listed in this section are supported by Dataproc Metastore\n2 and Dataproc Metastore 1, unless otherwise noted.\n\n- **Assign meaning to your data.** Create a centralized metadata repository\n that's shared among many ephemeral Dataproc clusters. Use\n different open source software (OSS) engines, such as [Apache Hive](https://hive.apache.org)\n , [Apache Spark](https://spark.apache.org/), and [Presto](https://prestodb.io/).\n\n- **Build a unified view of your data.** Provide interoperability between\n Google Cloud services, such as Dataproc, Dataplex Universal Catalog,\n and BigQuery, or use other open source-based partner offerings on\n Google Cloud.\n\n### Features and benefits\n\nAll features listed in this section are supported by Dataproc Metastore\n2 and Dataproc Metastore 1, unless otherwise noted.\n\n- **OSS compatibility**. Connect to your existing data processing engines,\n such as Apache Hive, Apache Spark, and Presto.\n\n- **Management**. Create or update a metastore within minutes, complete with\n fully configured monitoring and operation tasks.\n\n- **Integration**. Integrate with other Google Cloud products, such as\n using BigQuery as the source of metadata for a Dataproc\n cluster.\n\n- **Built-in security** . Use established Google Cloud security protocols,\n such as [Identity and Access Management (IAM)](/dataproc-metastore/docs/iam-and-access-control)\n and [Kerberos authentication](/dataproc-metastore/docs/configure-kerberos).\n\n- **Simple import**. Import existing metadata stored in an external Hive Metastore\n metastore into a Dataproc Metastore service.\n\n- **Automatic Backups**. Configure automatic metastore backups to help avoid\n data loss.\n\n- **Performance monitoring**. Set performance tiers to dynamically respond to\n highly intensive workloads and spikes, without pre-warming or caching.\n\n- **High availability (HA)**.\n\n - **Dataproc Metastore 2.** Provides zonal high availability (HA) without requiring any specific configuration or on-going management. This is accomplished by automatically replicating backend databases and HMS servers across multiple zones in the region you choose. In addition to Zonal HA, Dataproc Metastore 2 supports regional HA and Disaster Recovery (DR).\n - **Dataproc Metastore 1.** By default, provides zonal high availability (HA) without requiring any specific configuration or on-going management. This is accomplished by automatically replicating backend databases and HMS servers across multiple zones in the region you choose.\n\n\n For more information about region-specific considerations, see\n [Geography and regions](/docs/geography-and-regions#regions_and_zones).\n- **Scalability**.\n\n - **Dataproc Metastore 2.** Use a horizontal scaling factor to determine how many resources your service needs to use at a given time. The scaling factor can be manually controlled or set to autoscale when needed.\n - **Dataproc Metastore 1.** Choose between a developer tier or enterprise tier when you set up your service. This tier determines how many resources your service needs to use at a given time.\n- **Support**. Benefit from standard Google Cloud SLAs and support channels.\n\nIntegrations with Google Cloud\n------------------------------\n\nAll integrations listed in this section are supported by Dataproc Metastore\n1 and Dataproc Metastore 2, unless otherwise noted.\n\n- **Dataproc.** Connect to a Dataproc cluster, so you can serve metadata for OSS big data workloads.\n- **BigQuery.** Query BigQuery datasets in your Dataproc workloads.\n- **Dataplex Universal Catalog.** Query structured and semi-structured data discovered in a Dataplex Universal Catalog lake.\n- **Data Catalog.** Sync Dataproc Metastore with Data Catalog to enable search and discovery of metadata.\n- **Logging and Monitoring.** Integrate Dataproc Metastore with Cloud Monitoring and Logging products.\n- **Authentication and IAM.** Rely on standard OAuth authentication used by other Google Cloud products, which supports using granular Identity and Access Management roles to enable access control for individual resources.\n\nNext steps\n----------\n\n- Get started with the quickstart guide, [Deploying a Dataproc Metastore service](/dataproc-metastore/docs/create-service-cluster).\n- Understand [Dataproc Metastore pricing](/dataproc-metastore/pricing).\n- Understand [quotas and limits for Dataproc Metastore](/dataproc-metastore/docs/quotas).\n- Read the [Dataproc Metastore release notes](/dataproc-metastore/docs/release-notes).\n- Access Dataproc Metastore using the [Google Cloud console](https://console.cloud.google.com/dataproc/metastore), the [Google Cloud CLI](/sdk/gcloud/reference/metastore) or with the [Dataproc Metastore API](/dataproc-metastore/docs/reference/rest)."]]