Dataproc 服务

本页面列出了 Dataproc 映像版本在 Dataproc 集群节点上运行的服务。

所有节点

以下服务在集群中的所有节点上运行。

节点类型 服务 映像版本 说明
所有节点 google-dataproc-agent 全部 从 Dataproc 接收作业并启动作业驱动程序
google-fluentd 全部 收集日志并将其推送到 Logging

Standard 集群

以下服务在标准集群上运行。

节点类型 服务 映像版本 说明
所有节点 hadoop-hdfs-namenode 全部 管理 HDFS 文件系统
hadoop-hdfs-secondarynamenode 全部 对 NameNode 进行检查点检查
hadoop-mapreduce-historyserver 全部 提供 MapReduce 应用历史记录信息
hadoop-yarn-resourcemanager 全部 调度和管理 YARN 应用
hadoop-yarn-timelineserver 1.3+ 提供 YARN 应用历史记录信息
hive-metastore 全部 管理 Hive 表元数据。默认情况下,使用主节点上的本地 mariadb(映像版本低于 1.5)或 mysql(映像版本 1.5 及更高版本)数据库作为 Hive 表元数据存储区。 不建议使用默认数据库,因为这些数据库与集群的生命周期相关联。请改为使用以下任一项作为 Hive Metastore 数据库(推荐顺序):
  1. Dataproc Metastore
  2. Cloud SQL 实例
hive-server2 全部 针对 Hive 处理来自客户端(主要是 beeline shell 查询)的查询
mariadb < 1.5 在版本低于 1.5 的 Dataproc 映像中,用作 Hive Metastore 的默认底层数据库的关系型数据库
mysql 1.5+ 在 Dataproc 1.5 及更高版本映像中,用作 Hive Metastore 的默认底层数据库的关系型数据库
nfs-kernel-server < 1.3 NFS 是网络文件系统。
spark-history-server 全部 提供 Spark 应用历史记录信息
所有工作器 hadoop-yarn-nodemanager 全部 启动和管理 YARN 容器
仅限主要工作器 hadoop-hdfs-datanode 全部 存储 HDFS 块

高可用性集群

在 Dataproc 高可用性 (HA) 集群中,不同的服务在不同的主节点上运行,如下所示。HA 集群工作节点服务与标准集群中列出的服务相同。

节点类型 服务 映像版本 说明
所有主要节点 hadoop-hdfs-journalnode 全部 日志节点的共识机制会维护 HDFS 命名空间修改的编辑日志。如果发生故障切换,备用名称节点会读取编辑日志,并从主名称节点接管控制权。
hadoop-yarn-resourcemanager 全部 调度和管理 YARN 应用
hive-metastore 全部 管理 Hive 表元数据。默认情况下,使用主节点上的本地 mariadb(映像版本低于 1.5)或 mysql(映像版本 1.5 及更高版本)数据库作为 Hive 表元数据存储区。 不建议使用默认数据库,因为这些数据库与集群的生命周期相关联。请改为使用以下任一项作为 Hive Metastore 数据库(推荐顺序):
  1. Dataproc Metastore
  2. Cloud SQL 实例
hive-server2 全部 针对 Hive 处理来自客户端(主要是 beeline shell 查询)的查询
zookeeper-server 全部 ZooKeeper 共识机制用于分布式协调。在高可用性 (HA) 集群中,它用于 HDFS NameNodeYARN 资源管理器主副本选举。
仅主节点 0 和 1 hadoop-hdfs-namenode 全部 管理 HDFS 文件系统
hadoop-hdfs-zkfc 全部 ZKFC 是 ZKFailoverController 进程,与 HDFS 名称节点一起运行。它会监控 NameNode 的运行状况,并在发生故障切换时通过 ZooKeeper 管理主副本选举。
仅主节点 0 hadoop-mapreduce-historyserver 全部 提供 MapReduce 应用历史记录信息
hadoop-yarn-timelineserver 1.3+ 提供 YARN 应用历史记录信息
mariadb < 1.5 在版本低于 1.5 的 Dataproc 映像中,用作 Hive Metastore 的默认底层数据库的关系型数据库
mysql 1.5+ 在 Dataproc 1.5 及更高版本映像中,用作 Hive Metastore 的默认底层数据库的关系型数据库
nfs-kernel-server < 1.3 NFS 是网络文件系统。
spark-history-server 全部 提供 Spark 应用历史记录信息