Dataproc Metastore 概览

Dataproc Metastore 是在 Google Cloud 上运行的全代管式 Apache Hive Metastore (HMS)。(HMS) 是开源大数据生态系统中已建立的标准,用于管理关系型数据库中的技术元数据,例如架构、分区和列统计信息。

Dataproc Metastore 具有高可用性、自动修复功能和无服务器架构。您可以使用它来管理数据湖元数据,并在您使用的各种数据处理引擎和工具之间提供互操作性。

Dataproc Metastore 的运作方式

您可以将 Dataproc Metastore 服务连接到 Dataproc 集群,以便使用该服务。Dataproc 集群包含依赖于 HMS 来驱动查询规划和执行的组件。

通过此集成,您可以在作业之间保留表信息,或将元数据提供给其他集群和其他处理引擎。

例如,实现元存储库可以帮助您指定部分文件包含收入数据,而不是手动跟踪文件名。在这种情况下,您可以为这些文件定义一个表,并将元数据存储在 Dataproc Metastore 中。然后,您可以将其连接到 Dataproc 集群,并使用 Hive、Spark SQL 或其他查询服务查询表中的信息。

Dataproc Metastore 版本

创建 Dataproc Metastore 服务时,您可以选择使用 Dataproc Metastore 2 服务Dataproc Metastore 1 服务

  • Dataproc Metastore 2 是新一代服务,除了提供 Dataproc Metastore 1 功能之外,还支持横向可伸缩性。如需了解详情,请参阅功能和优势

  • Dataproc Metastore 2 的定价方案不同于 Dataproc Metastore。如需了解详情,请参阅定价方案和伸缩配置

常见使用场景

除非另有说明,否则本部分列出的所有使用情形均受 Dataproc Metastore 2 和 Dataproc Metastore 1 支持。

  • 为数据赋予意义。创建一个集中的元数据仓库,供多个临时 Dataproc 集群共享。使用不同的开源软件 (OSS) 引擎,例如 [Apache Hive](https://hive.apache.org、Apache SparkPresto

  • 构建数据的统一视图。在 Google Cloud 服务(例如 Dataproc、Dataplex 和 BigQuery)之间实现互操作性,或在 Google Cloud 上使用其他基于开源的合作伙伴产品。

特性和优势

除非另有说明,否则 Dataproc Metastore 2 和 Dataproc Metastore 1 都支持本部分列出的所有功能。

  • OSS 兼容性。连接到现有的数据处理引擎,例如 Apache Hive、Apache Spark 和 Presto。

  • 管理。借助经过全面配置的监控和操作任务,您可以在几分钟内创建或更新元存储。

  • 集成。与其他 Google Cloud 产品集成,例如使用 BigQuery 作为 Dataproc 集群的元数据源。

  • 内置安全功能。使用已建立的 Google Cloud 安全协议,例如 Identity and Access Management (IAM)Kerberos 身份验证

  • 简单导入。将存储在外部 Hive Metastore 元存储中的现有元数据导入 Dataproc Metastore 服务。

  • 自动备份。配置自动 Metastore 备份,以帮助避免数据丢失。

  • 性能监控。设置性能层级,以便动态响应高强度工作负载和峰值,而无需预热或缓存。

  • 高可用性 (HA)

    • Dataproc Metastore 2. 提供可用区高可用性 (HA),无需进行任何特定配置或持续管理。为此,系统会自动在您选择的区域中的多个可用区复制后端数据库和 HMS 服务器。除了区域级 HA 之外,Dataproc Metastore 2 还支持区域级 HA 和灾难恢复 (DR)。
    • Dataproc Metastore 1。默认情况下,可提供可用区级高可用性 (HA),无需任何特定配置或持续管理。为此,系统会自动在您选择的区域中的多个可用区复制后端数据库和 HMS 服务器。
  • 可伸缩性

    • Dataproc Metastore 2. 使用横向扩缩因子确定您的服务在给定时间需要使用多少资源。您可以手动控制缩放比例,也可以根据需要将其设为自动缩放。
    • Dataproc Metastore 1。在设置服务时,您可以选择开发者层级或企业层级。此层级决定了您的服务在给定时间需要使用多少资源。
  • 支持。获享标准 Google Cloud SLA 和支持渠道。

与 Google Cloud 集成

除非另有说明,否则 Dataproc Metastore 1 和 Dataproc Metastore 2 都支持本部分列出的所有集成。

  • Dataproc。连接到 Dataproc 集群,以便为 OSS 大数据工作负载提供元数据。
  • BigQuery。在 Dataproc 工作负载中查询 BigQuery 数据集。
  • Dataplex。查询在 Dataplex 数据湖中发现的结构化和半结构化数据。
  • Data Catalog。将 Dataproc Metastore 与 Data Catalog 同步,以便搜索和发现元数据。
  • 日志记录和监控。将 Dataproc Metastore 与 Cloud Monitoring 和 Logging 产品集成。
  • 身份验证和 IAM。依赖其他 Google Cloud 产品使用的标准 OAuth 身份验证,该身份验证支持使用精细的 Identity and Access Management 角色来实现对个别资源的访问权限控制。

后续步骤