Dataproc Metastore 核心概念

借助以下概念,您可以了解 Dataproc Metastore 的运作方式以及可用于服务的不同功能。

Dataproc Metastore 版本

创建 Dataproc Metastore 服务时,您可以选择使用 Dataproc Metastore 2 服务Dataproc Metastore 1 服务

Dataproc Metastore 2

Dataproc Metastore 2 使用缩放比例来确定服务在给定时间使用的资源量。创建 Dataproc Metastore 2 后,您可以通过修改缩放比例来向上或向下扩缩服务。

  • Dataproc Metastore 2 是新一代服务,除了 Dataproc Metastore 功能之外,还提供横向可伸缩性功能。如需了解详情,请参阅功能和优势

  • Dataproc Metastore 2 的定价方案与 Dataproc Metastore 不同。如需了解详情,请参阅价格方案和伸缩配置

Dataproc Metastore 1

Dataproc Metastore 1 使用服务层级来确定您的服务在给定时间使用的资源数量。服务层级可提供可预测的预定资源量。

检查 Dataproc Metastore 版本

您可以在Google Cloud 控制台中查看您使用的 Dataproc Metastore 版本。

  • Dataproc Metastore 2:配置表包含以下值:Edition Enterprise - Single Region
  • Dataproc Metastore 1:配置表包含以下值之一:Tier: DEVELOPERTier: ENTERPRISE

常见 Dataproc Metastore 术语

以下术语在整个 Dataproc Metastore 生态系统和文档中都很常用。

服务

  • Apache Hive。Hive 是一种基于 Apache Hadoop 的主流开源数据仓库系统。Hive 提供了一种类似于 SQL 的查询语言,名为 HiveQL,用于分析大型结构化数据集。
  • Apache Hive metastore。Hive Metastore 保存有关 Hive 表的元数据,例如其架构和位置。
  • Dataproc。Dataproc 是 Google Cloud 上的一项快速、易用的全代管式服务,让您能够以简单、经济实惠的方式运行 Apache Spark 和 Apache Hadoop 工作负载。创建 Dataproc Metastore 后,您可以从 Dataproc 集群连接到该 Metastore。
  • Dataproc 集群。创建 Dataproc Metastore 服务后,您可以从 Dataproc 集群连接到该服务。您还可以将 Dataproc Metastore 与各种其他集群搭配使用,例如自行管理的 Apache Hive、Apache Spark 或 Presto 集群。
  • Dataproc Metastore 服务。您在 Google Cloud中创建的元存储区实例的名称。您的实现中可以有一个或多个不同的元数据存储区服务。
  • Private Service Connect。Private Service Connect 可让您跨 VPC 网络与 Dataproc Metastore 元数据建立专用连接。您可以将其用于联网,作为 VPC 对等互连的替代方案。
  • VPC Service Controls。VPC Service Controls 可帮助您降低 Google Cloud 服务中发生数据渗漏的风险,您可以通过创建边界来保护明确指定的服务的资源和数据。

概念

  • 表格。所有 Hive 应用都拥有代管式内部表或非代管式外部表,用于存储您的数据。
  • Hive 仓库目录。存储受管理表数据的默认位置。
  • 工件存储桶。在您的项目中自动创建的 Cloud Storage 存储桶,与您创建的每个 Metastore 服务相关联。此存储桶可用于存储服务工件,例如导出的元数据和受管理表数据。默认情况下,工件存储桶会存储 Dataproc Metastore 服务的默认仓库目录。
  • 端点。Dataproc Metastore 服务通过一个或多个网络端点为客户端提供对存储的 Hive Metastore 元数据的访问权限。Dataproc Metastore 会为这些端点提供 URI。
  • 端点协议。用于在 Dataproc Metastore 和 Hive Metastore 客户端之间进行通信的线上传输网络协议。Dataproc Metastore 支持 Apache Thrift 和 gRPC 端点。
  • 元数据联合。一项功能,可让您访问存储在多个 Dataproc Metastore 实例中的元数据。
  • 辅助版本。一项功能,可让您将多个 Hive 客户端版本连接到同一 Dataproc Metastore 服务。

Hive Metastore 概念

使用 Dataproc Metastore 服务需要您了解基本的 Hive Metastore 概念。如需了解详情,请参阅 Hive Metastore

网络要求

Dataproc Metastore 服务需要网络访问权限才能正常运行。如需了解详情,请参阅配置网络要求

项目配置

部署 Dataproc 集群和 Dataproc Metastore 服务时,您可以采用多种可能的项目配置。如需了解详情,请参阅跨项目部署

后续步骤