Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Gunakan konsep berikut untuk membantu Anda memahami cara kerja Dataproc Metastore dan berbagai fitur yang dapat Anda gunakan dengan layanan Anda.
Versi Dataproc Metastore
Saat membuat layanan Dataproc Metastore, Anda dapat memilih untuk menggunakan
layanan Dataproc Metastore 2 atau layanan Dataproc Metastore 1.
Dataproc Metastore 2
Dataproc Metastore 2 menggunakan faktor penskalaan untuk menentukan jumlah resource yang digunakan layanan Anda pada waktu tertentu. Setelah membuat
Dataproc Metastore 2, Anda dapat meningkatkan atau menurunkan skala layanan dengan mengubah
faktor penskalaan.
Dataproc Metastore 2 adalah layanan generasi baru yang menawarkan
skalabilitas horizontal selain fitur Dataproc Metastore.
Untuk mengetahui informasi selengkapnya, lihat fitur dan manfaat.
Dataproc Metastore 2 memiliki paket harga yang berbeda dengan
Dataproc Metastore. Untuk mengetahui informasi selengkapnya, lihat paket harga dan konfigurasi penskalaan.
Dataproc Metastore 1
Dataproc Metastore 1 menggunakan paket layanan untuk menentukan jumlah
resource yang digunakan layanan Anda pada waktu tertentu. Paket layanan menyediakan jumlah resource yang dapat diprediksi dan telah ditentukan sebelumnya.
Memeriksa versi Dataproc Metastore Anda
Anda dapat memeriksa versi Dataproc Metastore yang Anda gunakan di
konsolGoogle Cloud .
Dataproc Metastore 2: Tabel konfigurasi berisi
nilai berikut: Edition Enterprise - Single Region.
Dataproc Metastore 1: Tabel konfigurasi berisi salah satu
nilai berikut: Tier: DEVELOPER atau Tier: ENTERPRISE.
Istilah umum Dataproc Metastore
Istilah berikut umum digunakan di seluruh ekosistem dan dokumentasi Dataproc Metastore.
Layanan
Apache Hive. Hive adalah sistem data warehouse open source populer yang dibangun di atas Apache Hadoop. Hive menawarkan bahasa kueri seperti SQL yang disebut HiveQL, yang digunakan untuk menganalisis set data terstruktur yang besar.
Metastore Apache Hive. Metastore Hive menyimpan metadata tentang tabel Hive, seperti skema dan lokasinya.
Dataproc. Dataproc adalah layanan yang cepat, mudah digunakan, dan terkelola sepenuhnya di Google Cloud untuk menjalankan workload Apache Spark dan Apache Hadoop dengan cara yang sederhana dan hemat biaya. Setelah membuat
Dataproc Metastore, Anda dapat terhubung ke Dataproc Metastore dari
cluster Dataproc.
Cluster Dataproc. Setelah membuat layanan Dataproc Metastore, Anda dapat terhubung ke layanan tersebut dari cluster Dataproc. Anda juga dapat menggunakan Dataproc Metastore dengan berbagai cluster lain, seperti cluster Apache Hive, Apache Spark, atau Presto yang dikelola sendiri.
Layanan Dataproc Metastore. Nama instance metastore yang Anda buat di Google Cloud. Anda dapat memiliki satu atau beberapa layanan metastore yang berbeda dalam penerapan Anda.
Private Service Connect. Private Service Connect memungkinkan Anda menyiapkan koneksi pribadi ke metadata Dataproc Metastore di seluruh jaringan VPC. Anda dapat menggunakannya untuk jaringan sebagai alternatif untuk peering VPC.
Kontrol Layanan VPC. Kontrol Layanan VPC meningkatkan kemampuan Anda untuk mengurangi risiko pemindahan data yang tidak sah dari layanan Google Cloud dengan memungkinkan Anda membuat perimeter yang melindungi resource dan data layanan yang Anda tentukan secara eksplisit.
Konsep
Tabel. Semua aplikasi Hive memiliki tabel eksternal terkelola internal atau tidak terkelola yang menyimpan data Anda.
Direktori gudang Hive. Lokasi default tempat data tabel terkelola disimpan.
Bucket artefak. Bucket Cloud Storage yang dibuat di project Anda secara otomatis dengan setiap layanan metastore yang Anda buat. Bucket ini dapat digunakan untuk menyimpan artefak layanan Anda, seperti metadata yang diekspor dan data tabel terkelola. Secara default, bucket artefak menyimpan direktori warehouse default layanan Dataproc Metastore Anda.
Endpoints. Layanan Dataproc Metastore memberi klien akses ke metadata Hive Metastore yang disimpan melalui satu atau beberapa endpoint jaringan. Dataproc Metastore menyediakan URI untuk
endpoint ini.
Protokol endpoint. Protokol jaringan over-the-wire yang digunakan untuk
komunikasi antara klien Dataproc Metastore dan Hive Metastore. Dataproc Metastore mendukung endpoint Apache Thrift dan gRPC.
Federasi Metadata. Fitur yang memungkinkan Anda mengakses metadata yang disimpan di beberapa instance Dataproc Metastore.
Versi tambahan. Fitur yang memungkinkan Anda menghubungkan beberapa versi klien Hive ke layanan Dataproc Metastore yang sama.
Konsep metastore Hive
Penggunaan layanan Dataproc Metastore mengharuskan Anda memahami konsep dasar Hive metastore. Untuk mengetahui informasi selengkapnya, lihat Hive Metastore.
Persyaratan Jaringan
Layanan Dataproc Metastore memerlukan akses jaringan agar dapat berfungsi dengan benar. Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi persyaratan jaringan.
Konfigurasi project
Ada sejumlah kemungkinan konfigurasi project yang dapat Anda gunakan saat men-deploy cluster Dataproc dan layanan Dataproc Metastore.
Untuk mengetahui informasi selengkapnya, lihat deployment lintas project.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-08-27 UTC."],[[["\u003cp\u003eDataproc Metastore offers two service versions: Dataproc Metastore 1, which uses service tiers for resource allocation, and Dataproc Metastore 2, which uses a scaling factor for dynamic resource scaling.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore 2 provides horizontal scalability and has a different pricing plan compared to Dataproc Metastore 1.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore uses common terms like Apache Hive, Apache Hive metastore, Dataproc cluster, and Private Service Connect to describe its features and ecosystem.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore stores metadata about Hive tables, offers options for networking like Private Service Connect and VPC Service Controls, and uses a Cloud Storage bucket for service artifacts.\u003c/p\u003e\n"],["\u003cp\u003eThe Dataproc Metastore has services to create, update, delete and import metadata into it, to aid in the management of the metastore.\u003c/p\u003e\n"]]],[],null,["# Dataproc Metastore core concepts\n\nUse the following concepts to help you understand how\nDataproc Metastore works and the different features you can use\nwith your service.\n\nDataproc Metastore versions\n---------------------------\n\nWhen you create a Dataproc Metastore service, you can choose to use\na *Dataproc Metastore 2 service* or a *Dataproc Metastore 1\nservice*.\n\n### Dataproc Metastore 2\n\nDataproc Metastore 2 uses a scaling factor to determine how\nmany resources your service uses at a given time. After you create a\nDataproc Metastore 2, you can scale the service up or down by modifying\nthe scaling factor.\n\n- Dataproc Metastore 2 is the new generation of the service that offers\n horizontal scalability in addition to Dataproc Metastore features.\n For more information, see [features and benefits](/dataproc-metastore/docs/overview#why-use-Dataproc%20Metastore).\n\n- Dataproc Metastore 2 has a different pricing plan than\n Dataproc Metastore. For more information, see [pricing plans and scaling configurations](/dataproc-metastore/pricing).\n\n### Dataproc Metastore 1\n\nDataproc Metastore 1 uses service tiers to determine how many\nresources your service uses at a given time. Service tiers provide a predictable,\npredetermined amount of resources.\n\n### Check your Dataproc Metastore version\n\nYou can check what version of Dataproc Metastore you're using in the\nGoogle Cloud console.\n\n- **Dataproc Metastore 2** : The configuration table contains the following value: **Edition Enterprise - Single Region**.\n- **Dataproc Metastore 1** : The configuration table contains one of the following values: **Tier: DEVELOPER** or **Tier: ENTERPRISE**.\n\nCommon Dataproc Metastore terms\n-------------------------------\n\nThe following terms are used commonly throughout the Dataproc Metastore\necosystem and documentation.\n\n#### Services\n\n- **Apache Hive**. Hive is a popular open source data warehouse system built on Apache Hadoop. Hive offers a SQL-like query language called HiveQL, which is used to analyze large, structured datasets.\n- **Apache Hive metastore**. The Hive metastore holds metadata about Hive tables, such as their schema and location.\n- **Dataproc**. Dataproc is a fast, easy-to-use, fully managed service on Google Cloud for running Apache Spark and Apache Hadoop workloads in a simple, cost-efficient way. After you create a Dataproc Metastore, you can connect to it from a Dataproc cluster.\n- **Dataproc cluster**. After you create a Dataproc Metastore service, you can connect to it from a Dataproc cluster. You can also use Dataproc Metastore with various other clusters, such as self-managed Apache Hive, Apache Spark, or Presto clusters.\n- **Dataproc Metastore service**. The name of the metastore instance you create in Google Cloud. You can have one or many different metastore services in your implementation.\n- **Private Service Connect**. Private Service Connect lets you set up a private connection to Dataproc Metastore metadata across VPC networks. You can use it for networking as an alternative to VPC peering.\n- **VPC Service Controls**. VPC Service Controls improves your ability to mitigate the risk of data exfiltration from Google Cloud services by allowing you to create perimeters that protect the resources and data of services that you explicitly specify.\n\n#### Concepts\n\n- **Tables**. All Hive applications have managed internal or unmanaged external tables that store your data.\n- **Hive warehouse directory**. The default location where managed table data is stored.\n- **Artifacts bucket**. A Cloud Storage bucket that is created in your project automatically with every metastore service that you create. This bucket can be used to store your service artifacts, such as exported metadata and managed table data. By default, the artifacts bucket stores the default warehouse directory of your Dataproc Metastore service.\n- **Endpoints**. A Dataproc Metastore service provides clients access to the stored Hive Metastore metadata through one or more network endpoints. Dataproc Metastore provides URIs for these endpoints.\n- **Endpoint protocols**. The over-the-wire network protocol used for communication between Dataproc Metastore and Hive Metastore clients. Dataproc Metastore supports Apache Thrift and gRPC endpoints.\n- **Metadata Federation**. A feature that lets you access metadata that is stored in multiple Dataproc Metastore instances.\n- **Auxiliary versions**. A feature that lets you connect multiple Hive client versions to the same Dataproc Metastore service.\n\nHive metastore concepts\n-----------------------\n\nUsing a Dataproc Metastore service requires that you understand\nbasic Hive metastore concepts. For more information, see [Hive Metastore](/dataproc-metastore/docs/hive-metastore).\n\nNetwork Requirements\n--------------------\n\nThe Dataproc Metastore service requires networking access to work\ncorrectly. For more information, see [Configure network requirements](/dataproc-metastore/docs/access-service).\n\nProject configurations\n----------------------\n\nThere are a number of possible project configurations you can use when deploying a\nDataproc cluster and a Dataproc Metastore service.\nFor more information, see [cross-project deployment](/dataproc-metastore/docs/cross-project-deployment).\n\nWhat's next\n-----------\n\n- [Create a service](/dataproc-metastore/docs/create-service)\n- [Update and delete a service](/dataproc-metastore/docs/manage-service)\n- [Import metadata into a service](/dataproc-metastore/docs/import-metadata)"]]