排查作业延迟问题

本页面列出了 Dataproc 作业调度延迟的常见原因，并提供了一些有助于您避免这些问题的信息。

概览

以下是导致 Dataproc 作业延迟（被限制）的常见原因：

运行的作业过多
系统内存用量较高
可用内存不足
超出速率限制

通常，作业延迟消息会采用以下格式发出：

Awaiting execution [SCHEDULER_MESSAGE]"

以下部分针对特定作业延迟情形提供了可能的原因和解决方案。

运行的作业过多

调度器消息：

Throttling job ### (and maybe others): Too many running jobs (current=xx max=xx)

原因：

已超出基于主虚拟机内存的并发作业数上限（作业驱动程序在 Dataproc 集群主虚拟机上运行）。默认情况下，Dataproc 会为应用预留 3.5 GB 的内存，并允许每 GB 运行 1 个作业。

示例：n1-standard-4 机器类型具有 15GB 内存。在为开销预留 3.5GB 后，还剩 11.5GB。向下舍入为整数后，11GB 最多可用于 11 个并发作业。

解决方案：

监控 CPU 用量和内存等日志指标，以估计作业要求。
创建作业集群时：
1. 为集群主虚拟机使用内存更大的机器类型。
2. 如果每个作业的 1GB 超出所需量，请将 dataproc:dataproc.scheduler.driver-size-mb 集群属性设置为小于 1024。
3. 将 dataproc:dataproc.scheduler.max-concurrent-jobs 集群属性设置为适合您的作业要求的值。

系统内存偏高或可用内存不足

调度器消息：

Throttling job xxx_____JOBID_____xxx (and maybe others): High system memory usage (current=xx%)

Throttling job xxx_____JOBID_____xxx (and maybe others): Not enough free memory (current=xx min=xx)

原因：

默认情况下，当内存用量达到 90% (0.9)）时，Dataproc 代理会限制作业提交。达到此限制后，无法调度新作业。

在集群上调度其他作业所需的可用内存量不足。

解决方案：

创建集群时：
1. 增加 dataproc:dataproc.scheduler.max-memory-used 集群属性的值。例如，将其设置为高于 0.90 默认值 0.95。
  将值设置为 1.0 会停用主节点内存利用率作业限制。
2. 增加 dataproc.scheduler.min-free-memory.mb 集群属性的值。默认值为 256 MB。

已超出作业速率限制

调度器消息：

Throttling job xxx__JOBID___xxx (and maybe others): Rate limit

原因：

Dataproc 代理已达到作业提交速率限制。

解决方案：

默认情况下，Dataproc 代理作业提交速率限制为 1.0 QPS，您可以在使用 dataproc:dataproc.scheduler.job-submission-rate 集群属性创建集群时将其设置为其他值。

查看作业状态

如需查看作业状态和详细信息，请参阅作业监控和调试。

排查作业延迟问题 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

概览

运行的作业过多

系统内存偏高或可用内存不足

已超出作业速率限制

查看作业状态

排查作业延迟问题