排查 Dataflow 中的瓶颈问题

当某个步骤、阶段或工作器减慢整个作业的速度时，就会出现瓶颈。瓶颈可能会导致工作器空闲和延迟时间增加。

如果 Dataflow 检测到瓶颈，作业图会显示提醒，并且步骤信息面板会列出瓶颈的种类和原因（如果已知）。Dataflow 还会将瓶颈检测信息导出到一个 Stackdriver 指标，该指标以时序的形式呈现数据。这使您可以查看一段时间内或过去存在的瓶颈。

了解瓶颈

当 Dataflow 运行流处理流水线时，作业由一系列组件组成，例如流处理 shuffle、用户定义的函数 (DoFn) 处理线程和持久状态检查点。为了促进数据流动，Dataflow 使用队列来连接这些组件。数据会从上游推送到下游。

在许多流水线中，整体吞吐量容量受单个组件的限制，从而在流水线中形成瓶颈。数据通过瓶颈的速率限制了流水线接受和处理输入数据的速度。

例如，假设某个流水线中，DoFn 处理在流处理 Shuffle 的下游进行。它们之间有一个队列，用于缓冲执行了 shuffle 操作但未进行处理的数据。如果 DoFn 处理使用数据的速度低于流处理 Shuffle 生成数据的速度，则队列会增长。长时间存在的瓶颈可能会导致队列达到容量上限。此时，系统会暂停后续的 shuffle 操作，并将积压向上游传播。更上游的队列也会累积积压，最终导致速度减慢并蔓延到数据源，这意味着整个流水线无法跟上输入的速度。

出现瓶颈时，流水线的大部分内容可能看起来健康状况不佳，即使只是流水线中的单个点导致了积压也是如此。此行为可能会导致难以调试瓶颈。瓶颈检测的目标是确定精确位置和原因，从而消除猜测，以便您可以修复根本原因。

当延迟超过 5 分钟的阈值时，Dataflow 会检测到瓶颈。如果延迟未超过此阈值，Dataflow 不会检测到瓶颈。

瓶颈检测并不总是需要您采取行动，具体取决于您的应用场景。在出现超过 5 分钟的暂时性延迟的情况下，流水线仍可正常运行。如果您的应用场景可以接受这种情况，您可能无需解决指明的瓶颈。

瓶颈的种类

当 Dataflow 检测到瓶颈时，监控界面会指明问题的严重程度。瓶颈分为以下几个类别：

处理卡住，没有任何进展: 流水线的进度在此步骤中完全停止。
正在进行处理，但进度落后。: 流水线处理传入数据的速度低于数据到达的速度。因此，积压越来越多。
正在进行处理，但一直存在积压: 流水线正在取得进展，处理速率与输入速率相当。处理速度足够快，积压不会增加，但累积的积压也不会明显减少。
正在进行处理，且积压正在减少: 积压在减少，但当前瓶颈阻止了流水线更快地清理积压。如果您启动的流水线存在积压，则此状态可能属于正常情况，无需进行任何干预。请监控进度，看看积压是否继续减少。

瓶颈的原因

本部分列出了可以检测到的瓶颈原因。请使用此信息来解决问题。在某些情况下，可能存在多种原因，并且这些原因可能相关。例如，如果工作器预配不足，vCPU 利用率可能会很高。vCPU 利用率过高可能会导致操作变慢，进而造成队列延迟时间增加。可能原因分析也许会将所有这些因素显示为瓶颈的原因。

处理时间较长的操作

计算的处理时间较长。每当输入包发送到执行 DoFn 的工作器，并且在很长时间内没有获得结果时，会发生这种情况。

这通常是用户代码中单个长时间运行的操作造成的。其他问题也可能会表现为处理时间较长的操作。例如，DoFn 内抛出并重试的错误、长时间的重试或因内存不足等因素导致的工作器执行崩溃，都可能会导致处理时间较长。

如果受影响的计算位于用户代码中，请寻找优化代码或限制执行时间的方法。为了帮助进行调试，工作器日志会显示卡住时间超过 5 分钟的任何操作的堆栈轨迹。

持久状态读取速度较慢

计算在执行 DoFn 时花费了大量时间来读取持久状态。这可能是持久状态过大或读取次数过多造成的。请考虑减小持久状态大小或减少读取频率。这也可能是底层持久状态速度较慢造成的暂时性问题。

持久状态写入速度较慢

计算在提交处理结果期间花费了大量时间来写入持久状态。这可能是持久状态过大造成的。请考虑减小持久状态的大小。这也可能是底层持久状态速度较慢造成的暂时性问题。

提交被拒绝

数据处理由于无效而无法提交到持久状态。这通常是因为超出某项操作限制。如需了解详情，请查看日志，或与支持团队联系。

Apache Kafka 来源分区不足

Apache Kafka 来源计算的分区不足。如需解决此问题，请尝试执行以下操作：

增加 Kafka 分区的数量。
使用 Redistribute 转换更高效地重新分布数据并实现数据并行化。

如需了解详情，请参阅从 Apache Kafka 读取到 Dataflow 页面中的并行度。

来源并行度不足

来源计算的并行度不足。如果可能，请增加来源中的并行度。如果您无法提高并行度，并且作业使用“至少一次”模式，请尝试向流水线添加 Redistribute 转换。

热键，或键并行度不足

作业存在热键或键并行度不足。

对于每个分片键，Dataflow 会按顺序处理消息。当 Dataflow 正在处理给定键的一批消息时，该键的其他传入消息会排队等待，直到当前批次处理完毕。

如果 Dataflow 无法并行处理足够多的不同键，则可能会导致瓶颈。例如，数据的不同键过少，或者某些键可能在数据中过度表示（“热键”）。如需了解详情，请参阅排查流处理作业缓慢或卡住的问题。

vCPU 预配不足

作业的工作器 vCPU 不足。当作业已扩容到最大规模、vCPU 利用率较高且仍有积压时，就会出现这种情况。您可能需要增加为此作业预配的工作器数量上限。例如，您可以通过更新自动扩缩范围来增加此数量。或者，您也可以尝试通过更改流水线代码或工作负载来降低 vCPU 使用率。您可以使用 Cloud Profiler 来寻找优化机会。

vCPU 利用率高，正在等待扩容

作业的 vCPU 利用率较高，但仍有扩容空间。在可以进行扩容之前，此情况很可能是暂时性的。您可以监控自动扩缩，以查看自动扩缩决策。如果此情况持续很长时间或频繁发生，您可能需要通过设置不同的工作器利用率提示来更改自动扩缩配置，以便作业能够更主动地进行扩容。

与工作器通信时出现问题

Dataflow 无法与所有工作器虚拟机通信。请检查作业的工作器虚拟机的状态。可能的原因包括：

工作器虚拟机的配置存在问题。
工作器虚拟机池在作业运行期间被删除。
网络问题。

Pub/Sub 来源存在拉取错误。

从 Pub/Sub 来源拉取数据时出错。请检查所需的主题和订阅是否存在，并验证配额和配置。您还可以检查日志中是否存在错误。

Pub/Sub 来源的并行度不足

Pub/Sub 来源计算的 Pub/Sub 键数量不足。如果您看到此警告，请与支持团队联系。

Pub/Sub 来源因未知原因而受到限制

从 Pub/Sub 读取数据时，Pub/Sub 来源计算因未知原因而受到限制。此问题可能是暂时性的。请检查是否存在 Pub/Sub 配置问题、IAM 权限缺失或配额限制。不过，如果上述任何方面都不是根本原因，并且问题仍然存在，请与支持团队联系。

Pub/Sub 接收器发布速度缓慢或卡住

Pub/Sub 接收器计算速度缓慢或卡住。此问题可能是由配置问题或配额限制导致的。

工作队列时间较长

由于键数量较多以及键处理速率较慢，符合条件的最早工作存在时间较长。在这种情况下，每次操作的时间长度可能并无异常，但总体排队延迟时间较长。

Dataflow 会为每个分片键使用单个处理线程，并且处理线程的数量有限。排队延迟时间大致等于键数与线程数的比率，再乘以一个键的每个处理包的线程内延迟时间：

(key count / total harness threads) * latency per bundle

请尝试以下补救措施：

增加工作器数量。请参阅流式自动扩缩功能。
增加工作器执行线程数量。设置 numberOfWorkerHarnessThreads/number_of_worker_harness_threads 流水线选项。
减少键数量。
缩短操作延迟时间。

Streaming Engine 后端存在暂时性问题

Streaming Engine 后端存在配置或运行问题。此问题可能是暂时性的。如果问题仍然存在，请与支持团队联系。

无法确定的原因

我们无法确定积压的原因。此问题可能是暂时性的。如果问题仍然存在，请与支持团队联系。

排查 Dataflow 中的瓶颈问题 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

了解瓶颈

瓶颈的种类

瓶颈的原因

后续步骤

排查 Dataflow 中的瓶颈问题