Dataflow 基于网络的监控界面包含一个信息中心,用于在项目级层监控您的 Dataflow 作业。这些图表显示了一个项目中所有作业的数据。
信息中心可帮助您完成以下任务:
- 检测并确定配额错误的来源。
- 检测作业中的异常横向自动扩缩功能。
- 识别流式作业运行缓慢或卡住。
信息中心使用 Cloud Monitoring 访问 Dataflow 作业指标。如需自定义图表中显示的信息,请使用 Metrics Explorer。
功能
信息中心包括以下功能:
- 使用正则表达式选择信息中心中显示的作业。
- 从各个图表访问作业详情页面。
- 自定义信息中心微件和图表。
所需的角色
如需获得查看图表数据所需的权限,请让管理员向您授予 Monitoring Viewer (roles/monitoring.viewer
) IAM 角色。
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
此预定义角色包含查看图表数据所需的 monitoring.timeSeries.list
权限。
访问信息中心
要访问信息中心,请按以下步骤操作:
- 登录 Google Cloud 控制台。
- 选择您的 Google Cloud 项目。
- 打开导航菜单。
- 在 Analytics 中,点击 Dataflow。
在 Dataflow 导航菜单中,点击 Monitoring。
信息中心指标
默认情况下,信息中心内会显示以下时间序列图表。如需详细了解显示的指标,请参阅作业指标。
以下图表适用于批量作业和流式处理作业:
- 运行作业。显示项目中正在运行的活跃作业数量。此图表显示了项目中随时间变化的整体 Dataflow 活动。
- 每个作业的工作器数量(前 25 个)。显示 25 个并行度最高的作业的当前工作器数。此图表有助于了解资源分配情况和识别高工作负载作业。您还可以查看作业是否出现意外的扩缩行为。
- vCPU 总数。显示项目中所有作业正在使用的虚拟 CPU (vCPU) 总数。vCPU 总数会影响 Compute Engine 配额。
- 每个作业的 vCPU 数量(前 25 个)。显示占用 vCPU 资源最多的 25 项作业。此图表突出显示了可能耗费较多资源的作业。
- vCPU 总数。显示项目级别的总体使用量。此图表概要介绍了您的作业所消耗的 Compute Engine 资源。
- “已超出配额”错误。报告已达到 Dataflow 配额或 Compute Engine 配额的所有实例。此图表可帮助您发现潜在的作业失败或扩缩缓慢问题。
以下图表适用于流式作业:
- 平均系统延迟时间。显示平均系统延迟时间,反映数据在通过来源阶段时遇到的典型延迟。此图表可以指明潜在的输入瓶颈。使用此图表可以识别数据出现在源中和写入所有接收器之间存在异常延迟的流式作业。
- 按系统延迟时间排序的前 25 个作业。显示系统延迟时间(即数据在处理或等待处理时所用时间)最长的 25 个流式处理流水线。此图表可以指明潜在的实时处理瓶颈。
- 各阶段数据水印延迟时间(新鲜度)前 25 个作业。显示水印延迟时间最长的 25 个流作业。阶段的水印滞后是指该阶段收到的最新事件时间与水印之间的差值。此图表可指明每个阶段的潜在瓶颈。使用此图表查找速度可能较慢或卡住的流式作业。如需了解详情,请参阅排查作业缓慢或卡住的问题。
- 按 SECU 用量排序的前 25 个作业。显示消耗 Streaming Engine 计算单元最多的 25 个流作业。使用此图表可衡量使用基于资源的结算模式的流式作业的费用和强度。
- 按用户处理延迟时间(按阶段)排序的前 25 个作业。显示处理阶段中用户定义的代码耗时最长的 25 个流作业。您可以使用此图表来查找应用逻辑中的潜在性能瓶颈。
- 最大积压字节数(前 25 个)。显示在任意阶段等待处理的数据量最大的 25 个流式作业。此图表可能表示输入过载或处理速度缓慢。
如需详细了解如何使用图表,请参阅探索绘制成图表的数据。
自定义信息中心
您可以自定义信息中心内容和图表中显示的信息。修改信息中心时,系统会创建一个新的自定义信息中心。
信息中心使用 Cloud Monitoring 访问 Dataflow 作业指标。使用 Cloud Monitoring 工具自定义图表。
- 打开信息中心,然后点击自定义信息中心。
- 修改信息中心。
- 如需过滤信息中心上显示的作业,请参阅向临时信息中心添加临时过滤条件和向自定义信息中心添加永久过滤条件。
- 如需修改或移除微件,请参阅管理信息中心微件。
- 如需修改图表的内容,请参阅为信息中心上的图表选择指标。
- 如需将图表添加到信息中心,请参阅将图表和表格添加到自定义信息中心。
- 点击保存,然后点击查看自定义信息中心。
创建自定义信息中心后,要返回默认信息中心,请在信息中心菜单中选择预定义。
如需查看向信息中心添加自定义指标图表的示例,请参阅自定义 Dataflow 监控信息中心。
问题排查
本部分介绍如何排查常见问题
无可用数据
打开信息中心时,一个或多个图表会显示以下消息:
No data is available for the selected time frame.
当图表涵盖的时间段没有任何数据时,会显示此消息。如需解决此问题,请更改或扩大时间范围。
如需更改显示的时间范围,请点击图表上的探索数据,然后使用时间范围选择器。
无法恢复已删除的微件
从信息中心中移除微件时,您可以创建自定义信息中心。创建自定义信息中心后,要返回默认信息中心,请在信息中心菜单中选择预定义。
无法查看图表
如需查看图表数据,您需要拥有 monitoring.timeSeries.list
权限。如需了解详情,请参阅必需的角色。
后续步骤
- 详细了解各个作业指标。
- 使用 Cloud Monitoring 探索指标。
- 排查作业缓慢或卡住的问题。