简介
Dataproc 是一项具有高度可伸缩性的全托管式服务,用于运行 Apache Hadoop、Apache Spark、Apache Flink 和 Trino 等开源分布式处理平台。您可以使用以下部分中讨论的文件和工具来排查问题并监控 Dataproc 集群和作业。
开源网页界面
许多 Dataproc 集群开源组件(例如 Apache Hadoop 和 Apache Spark)都提供了网页界面。这些接口可用于监控集群资源和作业的性能。例如,您可以使用 YARN Resource Manager 界面查看 Dataproc 集群上的 YARN 应用资源分配情况。
Persistent History Server
在集群运行时,在集群上运行的开源网页界面可供使用,但在您删除集群时会终止。如需在集群删除后查看集群和作业数据,您可以创建 Persistent History Server (PHS)。
示例:您遇到了要分析的作业错误或速度变慢问题。您可以停止或删除作业集群,然后使用 PHS 查看和分析作业历史记录数据。
创建 PHS 后,您可以在创建 Dataproc 集群或提交批量工作负载时在 Dataproc 集群或 Dataproc Serverless 批量工作负载上启用 PHS。PHS 可以访问在多个集群上运行的作业的记录数据,让您能够监控项目中的作业,而不是监控在不同集群上运行的单独界面。
Dataproc 日志
Dataproc 会收集由 Apache Hadoop、Spark、Hive、Zookeeper 以及在集群上运行的其他开源系统生成的日志,并将这些日志发送到 Logging。这些日志会根据来源进行分组,您可以选择并查看感兴趣的日志。例如,在集群上生成的 YARN NodeManager 和 Spark Executor 日志会被分别标记。如需详细了解 Dataproc 日志内容和选项,请参阅 Dataproc 日志。
Cloud Logging
Logging 是一个全托管式实时日志管理系统。它为从 Google Cloud 服务提取的日志提供了存储空间,并提供了用于大规模搜索、过滤和分析日志的工具。Dataproc 集群会生成多个日志,包括 Dataproc 服务代理日志、集群启动日志和 OSS 组件日志,例如 YARN NodeManager 日志。
默认情况下,Dataproc 集群和 Dataproc Serverless 批处理工作负载会启用日志记录。日志会定期导出到 Logging,并在集群删除或工作负载完成后继续保留。
Dataproc 指标
Dataproc 集群和作业指标(前缀为 dataproc.googleapis.com/
)由时序数据组成,提供有关集群性能的见解,例如 CPU 利用率或作业状态。以 custom.googleapis.com/
为前缀的 Dataproc 自定义指标,包括集群上运行的开源系统生成的指标,例如 YARN running applications
指标。深入了解 Dataproc 指标可帮助您高效地配置集群。设置基于指标的提醒可帮助您快速识别问题并做出响应。
默认情况下,Dataproc 集群和作业指标是免费收集的。系统会向客户收取收集自定义指标的费用。您可以在创建集群时启用自定义指标收集。在 Spark 批量工作负载上,Dataproc Serverless Spark 指标的收集默认处于启用状态。
Cloud Monitoring
监控使用集群元数据和指标(包括 HDFS、YARN、作业和操作指标),以便了解 Dataproc 集群和作业的健康状况、性能和可用性。您可以使用 Monitoring 探索指标、添加图表、构建信息中心和创建提醒。
Metrics Explorer
您可以使用 Metrics Explorer 查看 Dataproc 指标。Dataproc 集群、作业和 Serverless 批处理指标列在 Cloud Dataproc Cluster
、Cloud Dataproc Job
和 Cloud Dataproc Batch
资源下。Dataproc 自定义指标列在 VM Instances
资源的 Custom
类别下。
图表
您可以使用 Metrics Explorer 创建图表来直观呈现 Dataproc 指标。
示例:您创建了一个图表,用于查看在集群上运行的活跃 Yarn 应用的数量,然后添加过滤条件,按集群名称或区域选择可视化的指标。
信息中心
您可以构建信息中心,以使用来自多个项目和不同 Google Cloud 产品的指标来监控 Dataproc 集群和作业。您可以通过 Google Cloud 控制台中的信息中心概览页面,在 Metrics Explorer 页面中点击、创建并保存图表,从而构建信息中心。
提醒
您可以创建 Dataproc 指标提醒,以便及时收到集群或作业问题的通知。
了解详情
如需获得更多指导,请参阅