Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O Dataproc Metastore é um metastore Apache Hive (HMS) totalmente gerenciado que é executado no Google Cloud.
Um HMS é o padrão estabelecido no ecossistema de big data de código aberto para gerenciar metadados técnicos, como esquemas, partições e estatísticas de colunas em um banco de dados relacional.
O metastore do Dataproc é altamente disponível, com recuperação automática e sem servidor.
Use-o para gerenciar metadados do data lake e fornecer interoperabilidade entre os vários mecanismos e ferramentas de processamento de dados que você usa.
Como o metastore do Dataproc funciona
É possível usar um serviço do metastore do Dataproc conectando-o a um cluster do Dataproc. Um cluster do Dataproc inclui componentes que dependem de um HMS para impulsionar o planejamento e a execução de consultas.
Com essa integração, você pode manter as informações da tabela entre jobs ou disponibilizar metadados para outros clusters e mecanismos de processamento.
Por exemplo, a implementação de um metastore pode ajudar você a designar que um subconjunto
dos seus arquivos contém dados de receita, em vez de rastrear manualmente os nomes dos arquivos.
Nesse caso, é possível definir uma tabela para esses arquivos e armazenar os metadados no metastore do Dataproc. Depois, é possível conectá-lo a um cluster do Dataproc e consultar a tabela para obter informações usando o Hive, o Spark SQL ou outros serviços de consulta.
Versões do metastore do Dataproc
Ao criar um serviço do metastore do Dataproc, é possível usar um serviço do metastore do Dataproc 2 ou um serviço do metastore do Dataproc 1.
O Metastore do Dataproc 2 é a nova geração do serviço que oferece escalonabilidade horizontal, além dos recursos do Metastore do Dataproc 1.
Para mais informações, consulte recursos e benefícios.
Todos os casos de uso listados nesta seção são compatíveis com o metastore do Dataproc 2 e o metastore do Dataproc 1, salvo indicação em contrário.
Atribua significado aos seus dados. Crie um repositório de metadados centralizado
que seja compartilhado entre vários clusters temporários do Dataproc. Use diferentes mecanismos de software de código aberto (OSS, na sigla em inglês), como Apache Hive, Apache Spark e Presto.
Crie uma visualização unificada dos seus dados. Oferecer interoperabilidade entre
serviços doGoogle Cloud , como Dataproc, Dataplex Universal Catalog
e BigQuery, ou usar outras ofertas de parceiros com base em código aberto no
Google Cloud.
Recursos e benefícios
Todos os recursos listados nesta seção são compatíveis com o metastore do Dataproc 2 e o metastore do Dataproc 1, salvo indicação em contrário.
Compatibilidade com OSS. Conecte-se aos mecanismos de processamento de dados atuais, como Apache Hive, Apache Spark e Presto.
Gerenciamento. Crie ou atualize um metastore em minutos com tarefas de monitoramento e operação totalmente configuradas.
Integração. Integrar com outros produtos do Google Cloud , como usar o BigQuery como a fonte de metadados para um cluster do Dataproc.
Importação simples. Importe metadados armazenados em um metastore externo do Hive para um serviço do metastore do Dataproc.
Backups automáticos. Configure backups automáticos do metastore para evitar a perda de dados.
Monitoramento de desempenho. Defina níveis de desempenho para responder dinamicamente a cargas de trabalho e picos altamente intensivos, sem pré-aquecimento ou armazenamento em cache.
Alta disponibilidade (HA).
Dataproc Metastore 2 Oferece alta disponibilidade (HA) zonal sem exigir configuração específica ou gerenciamento contínuo. Isso é feito replicando automaticamente bancos de dados de back-end e servidores HMS em várias zonas na região escolhida. Além da HA zonal, o metastore do Dataproc 2 é compatível com HA regional e recuperação de desastres (DR, na sigla em inglês).
Dataproc Metastore 1. Por padrão, oferece alta disponibilidade (HA) zonal sem exigir configuração específica ou gerenciamento contínuo. Isso é feito replicando automaticamente os bancos de dados de back-end
e os servidores HMS em várias zonas na região escolhida.
Para mais informações sobre considerações específicas de cada região, consulte
Geografia e regiões.
Dimensionamento.
Dataproc Metastore 2 Use um fator de escalonamento horizontal para
determinar quantos recursos seu serviço precisa usar em um determinado momento.
O fator de escalonamento pode ser controlado manualmente ou definido como escalonamento automático quando necessário.
Dataproc Metastore 1. Escolha entre um nível de desenvolvedor ou
empresarial ao configurar seu serviço. Esse nível determina quantos recursos seu serviço precisa usar em um determinado momento.
Suporte. Aproveite os SLAs e canais de suporte padrão Google Cloud .
Integrações com Google Cloud
Todas as integrações listadas nesta seção são compatíveis com o metastore do Dataproc 1 e o metastore do Dataproc 2, salvo indicação em contrário.
Dataproc. Conecte-se a um cluster do Dataproc para veicular metadados de cargas de trabalho de Big Data do OSS.
BigQuery. Consultar conjuntos de dados do BigQuery nas suas cargas de trabalho do Dataproc.
Dataplex Universal Catalog. Consultar dados estruturados e semiestruturados descobertos em um lake do Dataplex Universal Catalog.
Data Catalog. Sincronize o metastore do Dataproc com o Data Catalog
para ativar a pesquisa e a descoberta de metadados.
Geração de registros e monitoramento. Integre o metastore do Dataproc aos produtos do Cloud Monitoring e do Cloud Logging.
Autenticação e IAM. Use a autenticação OAuth padrão usada por outros
produtos doGoogle Cloud , que permite usar papéis granulares do Identity and Access Management para
ativar o controle de acesso de recursos individuais.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-27 UTC."],[[["\u003cp\u003eDataproc Metastore is a fully managed, highly available, and serverless Apache Hive metastore (HMS) on Google Cloud, designed for managing data lake metadata.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore integrates with Dataproc clusters and other Google Cloud services like BigQuery and Dataplex, enabling interoperability and a unified data view across various open-source engines.\u003c/p\u003e\n"],["\u003cp\u003eIt supports two versions, Dataproc Metastore 1 and the newer Dataproc Metastore 2, with the latter offering horizontal scalability and zonal, regional high availability (HA), and Disaster Recovery (DR).\u003c/p\u003e\n"],["\u003cp\u003eKey features include OSS compatibility, built-in security, simple metadata import, automatic backups, and performance monitoring to manage the storage of table information between jobs.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore allows for centralized metadata repositories, enabling users to assign meaning to data and make it available across multiple ephemeral Dataproc clusters using different open source software (OSS) engines.\u003c/p\u003e\n"]]],[],null,["# Dataproc Metastore overview\n\n\u003cbr /\u003e\n\nDataproc Metastore is a fully managed [Apache Hive metastore](https://cwiki.apache.org/confluence/display/Hive/Design#Design-Metastore) (HMS) that runs on Google Cloud.\nAn (HMS) is the established standard in the open source big data\necosystem for managing technical metadata, such as schemas, partitions, and column\nstatistics in a relational database.\n\nDataproc Metastore is highly available, autohealing, and serverless.\nUse it to manage [data lake](https://cloud.google.com/learn/what-is-a-data-lake)\nmetadata and provide interoperability between the various data processing engines\nand tools that you're using.\n\nHow Dataproc Metastore works\n----------------------------\n\nYou can use a Dataproc Metastore service by connecting it to\na Dataproc cluster. A Dataproc cluster includes\ncomponents that rely on an HMS to drive query planning and execution.\n\nThis integration lets you keep your table information between jobs or make\nmetadata available to other clusters and other processing engines.\n\nFor example, implementing a metastore might help you designate that a subset\nof your files contains revenue data, as opposed to manually tracking the filenames.\nIn this case, you can define a table for those files and store the metadata in\nDataproc Metastore. After, you can connect it to a\nDataproc cluster and query the table for information using Hive,\nSpark SQL, or other query services.\n\n**Dataproc Metastore versions**\n\nWhen you create a Dataproc Metastore service, you can choose to use\na *Dataproc Metastore 2 service* or a *Dataproc Metastore 1\nservice*.\n\n- Dataproc Metastore 2 is the new generation of the service that offers\n horizontal scalability in addition to Dataproc Metastore 1 features.\n For more information, see [features and benefits](#Dataproc%20Metastore-features).\n\n- Dataproc Metastore 2 has a different pricing plan than\n Dataproc Metastore. For more information, see [pricing plans and scaling configurations](/dataproc-metastore/pricing).\n\n### Common use cases\n\nAll use cases listed in this section are supported by Dataproc Metastore\n2 and Dataproc Metastore 1, unless otherwise noted.\n\n- **Assign meaning to your data.** Create a centralized metadata repository\n that's shared among many ephemeral Dataproc clusters. Use\n different open source software (OSS) engines, such as [Apache Hive](https://hive.apache.org)\n , [Apache Spark](https://spark.apache.org/), and [Presto](https://prestodb.io/).\n\n- **Build a unified view of your data.** Provide interoperability between\n Google Cloud services, such as Dataproc, Dataplex Universal Catalog,\n and BigQuery, or use other open source-based partner offerings on\n Google Cloud.\n\n### Features and benefits\n\nAll features listed in this section are supported by Dataproc Metastore\n2 and Dataproc Metastore 1, unless otherwise noted.\n\n- **OSS compatibility**. Connect to your existing data processing engines,\n such as Apache Hive, Apache Spark, and Presto.\n\n- **Management**. Create or update a metastore within minutes, complete with\n fully configured monitoring and operation tasks.\n\n- **Integration**. Integrate with other Google Cloud products, such as\n using BigQuery as the source of metadata for a Dataproc\n cluster.\n\n- **Built-in security** . Use established Google Cloud security protocols,\n such as [Identity and Access Management (IAM)](/dataproc-metastore/docs/iam-and-access-control)\n and [Kerberos authentication](/dataproc-metastore/docs/configure-kerberos).\n\n- **Simple import**. Import existing metadata stored in an external Hive Metastore\n metastore into a Dataproc Metastore service.\n\n- **Automatic Backups**. Configure automatic metastore backups to help avoid\n data loss.\n\n- **Performance monitoring**. Set performance tiers to dynamically respond to\n highly intensive workloads and spikes, without pre-warming or caching.\n\n- **High availability (HA)**.\n\n - **Dataproc Metastore 2.** Provides zonal high availability (HA) without requiring any specific configuration or on-going management. This is accomplished by automatically replicating backend databases and HMS servers across multiple zones in the region you choose. In addition to Zonal HA, Dataproc Metastore 2 supports regional HA and Disaster Recovery (DR).\n - **Dataproc Metastore 1.** By default, provides zonal high availability (HA) without requiring any specific configuration or on-going management. This is accomplished by automatically replicating backend databases and HMS servers across multiple zones in the region you choose.\n\n\n For more information about region-specific considerations, see\n [Geography and regions](/docs/geography-and-regions#regions_and_zones).\n- **Scalability**.\n\n - **Dataproc Metastore 2.** Use a horizontal scaling factor to determine how many resources your service needs to use at a given time. The scaling factor can be manually controlled or set to autoscale when needed.\n - **Dataproc Metastore 1.** Choose between a developer tier or enterprise tier when you set up your service. This tier determines how many resources your service needs to use at a given time.\n- **Support**. Benefit from standard Google Cloud SLAs and support channels.\n\nIntegrations with Google Cloud\n------------------------------\n\nAll integrations listed in this section are supported by Dataproc Metastore\n1 and Dataproc Metastore 2, unless otherwise noted.\n\n- **Dataproc.** Connect to a Dataproc cluster, so you can serve metadata for OSS big data workloads.\n- **BigQuery.** Query BigQuery datasets in your Dataproc workloads.\n- **Dataplex Universal Catalog.** Query structured and semi-structured data discovered in a Dataplex Universal Catalog lake.\n- **Data Catalog.** Sync Dataproc Metastore with Data Catalog to enable search and discovery of metadata.\n- **Logging and Monitoring.** Integrate Dataproc Metastore with Cloud Monitoring and Logging products.\n- **Authentication and IAM.** Rely on standard OAuth authentication used by other Google Cloud products, which supports using granular Identity and Access Management roles to enable access control for individual resources.\n\nNext steps\n----------\n\n- Get started with the quickstart guide, [Deploying a Dataproc Metastore service](/dataproc-metastore/docs/create-service-cluster).\n- Understand [Dataproc Metastore pricing](/dataproc-metastore/pricing).\n- Understand [quotas and limits for Dataproc Metastore](/dataproc-metastore/docs/quotas).\n- Read the [Dataproc Metastore release notes](/dataproc-metastore/docs/release-notes).\n- Access Dataproc Metastore using the [Google Cloud console](https://console.cloud.google.com/dataproc/metastore), the [Google Cloud CLI](/sdk/gcloud/reference/metastore) or with the [Dataproc Metastore API](/dataproc-metastore/docs/reference/rest)."]]