Dataproc Metastore 是在 Google Cloud 上运行的全代管式 Apache Hive Metastore (HMS)。(HMS) 是开源大数据生态系统中已建立的标准,用于管理关系型数据库中的技术元数据,例如架构、分区和列统计信息。
Dataproc Metastore 具有高可用性、自动修复功能和无服务器架构。您可以使用它来管理数据湖元数据,并在您使用的各种数据处理引擎和工具之间提供互操作性。
Dataproc Metastore 的运作方式
您可以将 Dataproc Metastore 服务连接到 Dataproc 集群,以便使用该服务。Dataproc 集群包含依赖于 HMS 来驱动查询规划和执行的组件。
通过此集成,您可以在作业之间保留表信息,或将元数据提供给其他集群和其他处理引擎。
例如,实现元存储库可以帮助您指定部分文件包含收入数据,而不是手动跟踪文件名。在这种情况下,您可以为这些文件定义一个表,并将元数据存储在 Dataproc Metastore 中。然后,您可以将其连接到 Dataproc 集群,并使用 Hive、Spark SQL 或其他查询服务查询表中的信息。
Dataproc Metastore 版本
创建 Dataproc Metastore 服务时,您可以选择使用 Dataproc Metastore 2 服务或 Dataproc Metastore 1 服务。
Dataproc Metastore 2 是新一代服务,除了提供 Dataproc Metastore 1 功能之外,还支持横向可伸缩性。如需了解详情,请参阅功能和优势。
Dataproc Metastore 2 的定价方案不同于 Dataproc Metastore。如需了解详情,请参阅定价方案和伸缩配置。
常见使用场景
除非另有说明,否则本部分列出的所有使用情形均受 Dataproc Metastore 2 和 Dataproc Metastore 1 支持。
为数据赋予意义。创建一个集中的元数据仓库,供多个临时 Dataproc 集群共享。使用不同的开源软件 (OSS) 引擎,例如 [Apache Hive](https://hive.apache.org、Apache Spark 和 Presto。
构建数据的统一视图。在 Google Cloud 服务(例如 Dataproc、Dataplex 和 BigQuery)之间实现互操作性,或在 Google Cloud 上使用其他基于开源的合作伙伴产品。
特性和优势
除非另有说明,否则 Dataproc Metastore 2 和 Dataproc Metastore 1 都支持本部分列出的所有功能。
OSS 兼容性。连接到现有的数据处理引擎,例如 Apache Hive、Apache Spark 和 Presto。
管理。借助经过全面配置的监控和操作任务,您可以在几分钟内创建或更新元存储。
集成。与其他 Google Cloud 产品集成,例如使用 BigQuery 作为 Dataproc 集群的元数据源。
内置安全功能。使用已建立的 Google Cloud 安全协议,例如 Identity and Access Management (IAM) 和 Kerberos 身份验证。
简单导入。将存储在外部 Hive Metastore 元存储中的现有元数据导入 Dataproc Metastore 服务。
自动备份。配置自动 Metastore 备份,以帮助避免数据丢失。
性能监控。设置性能层级,以便动态响应高强度工作负载和峰值,而无需预热或缓存。
高可用性 (HA)。
- Dataproc Metastore 2. 提供可用区高可用性 (HA),无需进行任何特定配置或持续管理。为此,系统会自动在您选择的区域中的多个可用区复制后端数据库和 HMS 服务器。除了区域级 HA 之外,Dataproc Metastore 2 还支持区域级 HA 和灾难恢复 (DR)。
- Dataproc Metastore 1。默认情况下,可提供可用区级高可用性 (HA),无需任何特定配置或持续管理。为此,系统会自动在您选择的区域中的多个可用区复制后端数据库和 HMS 服务器。
可伸缩性。
- Dataproc Metastore 2. 使用横向扩缩因子确定您的服务在给定时间需要使用多少资源。您可以手动控制缩放比例,也可以根据需要将其设为自动缩放。
- Dataproc Metastore 1。在设置服务时,您可以选择开发者层级或企业层级。此层级决定了您的服务在给定时间需要使用多少资源。
支持。获享标准 Google Cloud SLA 和支持渠道。
与 Google Cloud 集成
除非另有说明,否则 Dataproc Metastore 1 和 Dataproc Metastore 2 都支持本部分列出的所有集成。
- Dataproc。连接到 Dataproc 集群,以便为 OSS 大数据工作负载提供元数据。
- BigQuery。在 Dataproc 工作负载中查询 BigQuery 数据集。
- Dataplex。查询在 Dataplex 数据湖中发现的结构化和半结构化数据。
- Data Catalog。将 Dataproc Metastore 与 Data Catalog 同步,以便搜索和发现元数据。
- 日志记录和监控。将 Dataproc Metastore 与 Cloud Monitoring 和 Logging 产品集成。
- 身份验证和 IAM。依赖其他 Google Cloud 产品使用的标准 OAuth 身份验证,该身份验证支持使用精细的 Identity and Access Management 角色来实现对个别资源的访问权限控制。
后续步骤
- 请参阅快速入门指南 部署 Dataproc Metastore 服务,开始使用。
- 了解 Dataproc Metastore 价格。
- 了解 Dataproc Metastore 的配额和限制。
- 阅读 Dataproc Metastore 版本说明。
- 使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc Metastore API 访问 Dataproc Metastore。