Dataproc Metastore 概览

Dataproc Metastore 是在 Google Cloud上运行的全代管式 Apache Hive metastore (HMS)。(HMS) 是开源大数据生态系统中用于管理关系型数据库中的架构、分区和列统计信息等技术元数据的既定标准。

Dataproc Metastore 具有高可用性、自动修复和无服务器功能。使用它来管理数据湖元数据,并在您使用的各种数据处理引擎和工具之间提供互操作性。

Dataproc Metastore 的工作原理

您可以通过将 Dataproc Metastore 服务连接到 Dataproc 集群来使用该服务。Dataproc 集群包含依赖于 HMS 来驱动查询规划和执行的组件。

通过此集成,您可以在作业之间保留表信息,或使元数据可供其他集群和其他处理引擎使用。

例如,实现元数据存储区可能有助于您指定部分文件包含收入数据,而无需手动跟踪文件名。在这种情况下,您可以为这些文件定义一个表,并将元数据存储在 Dataproc Metastore 中。之后,您可以将其连接到 Dataproc 集群,并使用 Hive、Spark SQL 或其他查询服务查询表中的信息。

Dataproc Metastore 版本

创建 Dataproc Metastore 服务时,您可以选择使用 Dataproc Metastore 2 服务Dataproc Metastore 1 服务

  • Dataproc Metastore 2 是新一代服务,除了 Dataproc Metastore 1 的功能之外,还提供横向可伸缩性功能。如需了解详情,请参阅功能和优势

  • Dataproc Metastore 2 的定价方案与 Dataproc Metastore 不同。如需了解详情,请参阅价格方案和伸缩配置

常见使用场景

除非另有说明,否则 Dataproc Metastore 2 和 Dataproc Metastore 1 均支持本部分中列出的所有使用场景。

  • 为数据赋予意义。创建可在多个临时 Dataproc 集群之间共享的集中式元数据存储库。使用不同的开源软件 (OSS) 引擎,例如 Apache HiveApache SparkPresto

  • 构建统一的数据视图。在Google Cloud 服务(例如 Dataproc、Dataplex Universal Catalog 和 BigQuery)之间提供互操作性,或在Google Cloud上使用其他基于开源的合作伙伴产品。

特性和优势

除非另有说明,否则 Dataproc Metastore 2 和 Dataproc Metastore 1 均支持本部分中列出的所有功能。

  • OSS 兼容性。连接到您现有的数据处理引擎,例如 Apache Hive、Apache Spark 和 Presto。

  • 管理。借助经过全面配置的监控和操作任务,您可以在几分钟内创建或更新元数据存储区。

  • 集成。与其他 Google Cloud 产品集成,例如将 BigQuery 用作 Dataproc 集群的元数据来源。

  • 内置安全性。使用既定的 Google Cloud 安全协议,例如 Identity and Access Management (IAM)Kerberos 身份验证

  • 简单导入。将存储在外部 Hive Metastore 中的现有元数据导入 Dataproc Metastore 服务。

  • 自动备份。配置自动 Metastore 备份,以帮助避免数据丢失。

  • 效果监控。设置性能层级,以动态响应高强度工作负载和峰值,而无需预热或缓存。

  • 高可用性 (HA)

    • Dataproc Metastore 2. 提供可用区级高可用性 (HA),无需进行任何特定配置或持续管理。这是通过在所选区域的多个可用区中自动复制后端数据库和 HMS 服务器来实现的。除了可用区级 HA 之外,Dataproc Metastore 2 还支持区域级 HA 和灾难恢复 (DR)。
    • Dataproc Metastore 1. 默认情况下,提供可用区级高可用性 (HA),无需任何特定配置或持续管理。这是通过在您选择的区域中的多个可用区自动复制后端数据库和 HMS 服务器来实现的。

    如需详细了解特定于区域的注意事项,请参阅地理位置和区域

  • 可伸缩性

    • Dataproc Metastore 2. 使用横向扩缩比例来确定服务在给定时间需要使用的资源数量。 您可以手动控制缩放比例,也可以根据需要将其设置为自动缩放。
    • Dataproc Metastore 1. 设置服务时,您可以选择开发者层级或企业层级。此层级决定了您的服务在给定时间需要使用的资源数量。
  • 支持。享受标准 Google Cloud 服务等级协议 (SLA) 和支持渠道。

与 Google Cloud集成

除非另有说明,否则 Dataproc Metastore 1 和 Dataproc Metastore 2 均支持本部分中列出的所有集成。

  • Dataproc。连接到 Dataproc 集群,以便为 OSS 大数据工作负载提供元数据。
  • BigQuery。在 Dataproc 工作负载中查询 BigQuery 数据集。
  • Dataplex Universal Catalog。查询在 Dataplex Universal Catalog 数据湖中发现的结构化数据和半结构化数据。
  • Data Catalog。将 Dataproc Metastore 与 Data Catalog 同步,以启用元数据搜索和发现功能。
  • 日志记录和监控。将 Dataproc Metastore 与 Cloud Monitoring 和 Logging 产品集成。
  • 身份验证和 IAM。依赖其他Google Cloud 产品使用的标准 OAuth 身份验证,该身份验证支持使用精细的 Identity and Access Management 角色来对个别资源进行访问权限控制。

后续步骤