Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Use os conceitos a seguir para entender como o metastore do Dataproc funciona e os diferentes recursos que podem ser usados com seu serviço.
Versões do metastore do Dataproc
Ao criar um serviço do metastore do Dataproc, é possível usar um serviço do metastore do Dataproc 2 ou um serviço do metastore do Dataproc 1.
Dataproc Metastore 2
O metastore do Dataproc 2 usa um fator de escalonamento para determinar quantos recursos seu serviço usa em um determinado momento. Depois de criar um
Metastore do Dataproc 2, é possível aumentar ou diminuir a escala do serviço modificando
o fator de escalonamento.
O metastore do Dataproc 2 é a nova geração do serviço que oferece escalonabilidade horizontal, além dos recursos do metastore do Dataproc.
Para mais informações, consulte recursos e benefícios.
O metastore do Dataproc 1 usa níveis de serviço para determinar quantos recursos seu serviço usa em um determinado momento. Os níveis de serviço oferecem uma quantidade previsível e predeterminada de recursos.
Verificar a versão do metastore do Dataproc
É possível verificar qual versão do metastore do Dataproc você está usando no
consoleGoogle Cloud .
Metastore do Dataproc 2: a tabela de configuração contém o seguinte valor: Enterprise Edition - Single Region.
Dataproc Metastore 1: a tabela de configuração contém um dos seguintes valores: Tier: DEVELOPER ou Tier: ENTERPRISE.
Termos comuns do metastore do Dataproc
Os termos a seguir são usados com frequência no ecossistema e na documentação do Dataproc Metastore.
Serviços
Apache Hive. O Hive é um conhecido sistema de data warehouse de código aberto, desenvolvido no Apache Hadoop. O Hive oferece uma linguagem de consulta do tipo SQL, chamada HiveQL, usada para analisar conjuntos de dados grandes e estruturados.
Metastore do Apache Hive. O metastore do Hive contém metadados sobre as tabelas do Hive, como o esquema e a localização delas.
Dataproc. O Dataproc é um serviço rápido, fácil de usar e totalmente gerenciado no Google Cloud para executar cargas de trabalho do Apache Spark e do Apache Hadoop de maneira simples e econômica. Depois de criar um metastore do Dataproc, é possível se conectar a ele de um cluster do Dataproc.
Cluster do Dataproc. Depois de criar um serviço do metastore do Dataproc, é possível se conectar a ele de um cluster do Dataproc. Também é possível usar o metastore do Dataproc com vários outros clusters, como os autogerenciados do Apache Hive, Apache Spark ou Presto.
Serviço metastore do Dataproc. O nome da instância do metastore
que você cria em Google Cloud. Você pode ter um ou vários serviços de metastore diferentes na sua implementação.
Private Service Connect. Com o Private Service Connect, é possível configurar uma conexão particular com os metadados do metastore do Dataproc em redes VPC. É possível usar para rede como alternativa ao peering de VPC.
VPC Service Controls. O VPC Service Controls melhora sua capacidade de reduzir o risco de exfiltração de dados dos serviços do Google Cloud . Ele permite criar perímetros que protegem os recursos e dados dos serviços especificados explicitamente.
Conceitos
Tabelas. Todos os aplicativos Hive têm tabelas internas gerenciadas ou externas não gerenciadas que armazenam seus dados.
Diretório de armazenamento do Hive. O local padrão em que os dados da tabela gerenciada são armazenados.
Bucket de artefatos. Um bucket do Cloud Storage criado automaticamente no seu projeto com cada serviço de metastore criado. Esse bucket pode ser usado para armazenar artefatos de serviço, como metadados exportados e dados de tabelas gerenciadas. Por padrão, o bucket de artefatos armazena o diretório de armazenamento padrão do serviço Metastore do Dataproc.
Endpoints. Um serviço do metastore do Dataproc oferece aos clientes
acesso aos metadados armazenados do metastore do Hive por um ou mais endpoints
de rede. O metastore do Dataproc fornece URIs para esses endpoints.
Protocolos de endpoint. O protocolo de rede usado para
comunicação entre o metastore do Dataproc e os clientes do
metastore do Hive. O metastore do Dataproc é compatível com endpoints do Apache Thrift e
gRPC.
Federação de metadados. Um recurso que permite acessar metadados armazenados em várias instâncias do metastore do Dataproc.
Versões auxiliares. Um recurso que permite conectar várias versões de cliente do Hive ao mesmo serviço do metastore do Dataproc.
Conceitos do metastore do Hive
Para usar um serviço do metastore do Dataproc, é necessário entender
os conceitos básicos do metastore do Hive. Para mais informações, consulte Metastore do Hive.
Requisitos de rede
O serviço Metastore do Dataproc requer acesso à rede para funcionar corretamente. Para mais informações, consulte Configurar requisitos de rede.
Configurações do projeto
Há várias configurações de projeto possíveis que podem ser usadas ao implantar um cluster do Dataproc e um serviço metastore do Dataproc.
Para mais informações, consulte implantação entre projetos.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-02 UTC."],[[["\u003cp\u003eDataproc Metastore offers two service versions: Dataproc Metastore 1, which uses service tiers for resource allocation, and Dataproc Metastore 2, which uses a scaling factor for dynamic resource scaling.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore 2 provides horizontal scalability and has a different pricing plan compared to Dataproc Metastore 1.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore uses common terms like Apache Hive, Apache Hive metastore, Dataproc cluster, and Private Service Connect to describe its features and ecosystem.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore stores metadata about Hive tables, offers options for networking like Private Service Connect and VPC Service Controls, and uses a Cloud Storage bucket for service artifacts.\u003c/p\u003e\n"],["\u003cp\u003eThe Dataproc Metastore has services to create, update, delete and import metadata into it, to aid in the management of the metastore.\u003c/p\u003e\n"]]],[],null,["# Dataproc Metastore core concepts\n\nUse the following concepts to help you understand how\nDataproc Metastore works and the different features you can use\nwith your service.\n\nDataproc Metastore versions\n---------------------------\n\nWhen you create a Dataproc Metastore service, you can choose to use\na *Dataproc Metastore 2 service* or a *Dataproc Metastore 1\nservice*.\n\n### Dataproc Metastore 2\n\nDataproc Metastore 2 uses a scaling factor to determine how\nmany resources your service uses at a given time. After you create a\nDataproc Metastore 2, you can scale the service up or down by modifying\nthe scaling factor.\n\n- Dataproc Metastore 2 is the new generation of the service that offers\n horizontal scalability in addition to Dataproc Metastore features.\n For more information, see [features and benefits](/dataproc-metastore/docs/overview#why-use-Dataproc%20Metastore).\n\n- Dataproc Metastore 2 has a different pricing plan than\n Dataproc Metastore. For more information, see [pricing plans and scaling configurations](/dataproc-metastore/pricing).\n\n### Dataproc Metastore 1\n\nDataproc Metastore 1 uses service tiers to determine how many\nresources your service uses at a given time. Service tiers provide a predictable,\npredetermined amount of resources.\n\n### Check your Dataproc Metastore version\n\nYou can check what version of Dataproc Metastore you're using in the\nGoogle Cloud console.\n\n- **Dataproc Metastore 2** : The configuration table contains the following value: **Edition Enterprise - Single Region**.\n- **Dataproc Metastore 1** : The configuration table contains one of the following values: **Tier: DEVELOPER** or **Tier: ENTERPRISE**.\n\nCommon Dataproc Metastore terms\n-------------------------------\n\nThe following terms are used commonly throughout the Dataproc Metastore\necosystem and documentation.\n\n#### Services\n\n- **Apache Hive**. Hive is a popular open source data warehouse system built on Apache Hadoop. Hive offers a SQL-like query language called HiveQL, which is used to analyze large, structured datasets.\n- **Apache Hive metastore**. The Hive metastore holds metadata about Hive tables, such as their schema and location.\n- **Dataproc**. Dataproc is a fast, easy-to-use, fully managed service on Google Cloud for running Apache Spark and Apache Hadoop workloads in a simple, cost-efficient way. After you create a Dataproc Metastore, you can connect to it from a Dataproc cluster.\n- **Dataproc cluster**. After you create a Dataproc Metastore service, you can connect to it from a Dataproc cluster. You can also use Dataproc Metastore with various other clusters, such as self-managed Apache Hive, Apache Spark, or Presto clusters.\n- **Dataproc Metastore service**. The name of the metastore instance you create in Google Cloud. You can have one or many different metastore services in your implementation.\n- **Private Service Connect**. Private Service Connect lets you set up a private connection to Dataproc Metastore metadata across VPC networks. You can use it for networking as an alternative to VPC peering.\n- **VPC Service Controls**. VPC Service Controls improves your ability to mitigate the risk of data exfiltration from Google Cloud services by allowing you to create perimeters that protect the resources and data of services that you explicitly specify.\n\n#### Concepts\n\n- **Tables**. All Hive applications have managed internal or unmanaged external tables that store your data.\n- **Hive warehouse directory**. The default location where managed table data is stored.\n- **Artifacts bucket**. A Cloud Storage bucket that is created in your project automatically with every metastore service that you create. This bucket can be used to store your service artifacts, such as exported metadata and managed table data. By default, the artifacts bucket stores the default warehouse directory of your Dataproc Metastore service.\n- **Endpoints**. A Dataproc Metastore service provides clients access to the stored Hive Metastore metadata through one or more network endpoints. Dataproc Metastore provides URIs for these endpoints.\n- **Endpoint protocols**. The over-the-wire network protocol used for communication between Dataproc Metastore and Hive Metastore clients. Dataproc Metastore supports Apache Thrift and gRPC endpoints.\n- **Metadata Federation**. A feature that lets you access metadata that is stored in multiple Dataproc Metastore instances.\n- **Auxiliary versions**. A feature that lets you connect multiple Hive client versions to the same Dataproc Metastore service.\n\nHive metastore concepts\n-----------------------\n\nUsing a Dataproc Metastore service requires that you understand\nbasic Hive metastore concepts. For more information, see [Hive Metastore](/dataproc-metastore/docs/hive-metastore).\n\nNetwork Requirements\n--------------------\n\nThe Dataproc Metastore service requires networking access to work\ncorrectly. For more information, see [Configure network requirements](/dataproc-metastore/docs/access-service).\n\nProject configurations\n----------------------\n\nThere are a number of possible project configurations you can use when deploying a\nDataproc cluster and a Dataproc Metastore service.\nFor more information, see [cross-project deployment](/dataproc-metastore/docs/cross-project-deployment).\n\nWhat's next\n-----------\n\n- [Create a service](/dataproc-metastore/docs/create-service)\n- [Update and delete a service](/dataproc-metastore/docs/manage-service)\n- [Import metadata into a service](/dataproc-metastore/docs/import-metadata)"]]