管理基于 SQL 的提醒政策的突发事件

突发事件是满足提醒政策条件时生成的记录。通常,当满足提醒政策的条件时,Cloud Monitoring 会开启突发事件并发送通知。不过,在以下情况下,系统不会创建突发事件:

  • 政策已延后或停用。
  • 提醒政策或突发事件数量超出了现有的提醒方面的限制

对于每个突发事件,Monitoring 都会创建一个突发事件详细信息页面,以便您管理突发事件,并报告可帮助您排查失败问题的突发事件信息。例如,突发事件详细信息页面会显示 SQL 查询结果摘要和相关突发事件的列表。

本文档介绍如何查找您的突发事件。还介绍了如何使用突发事件详细信息页面管理基于 SQL 的提醒政策的突发事件,这些政策会评估针对来自一组日志条目的数据运行 SQL 查询的结果。

此功能仅适用于 Google Cloud 项目。对于 App Hub 配置,请选择 App Hub 宿主项目或已启用应用的文件夹的管理项目。

准备工作

如需获得使用 Google Cloud 控制台查看和管理突发事件所需的权限,请让您的管理员为您授予项目的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

如需详细了解 Cloud Monitoring 角色,请参阅使用 Identity and Access Management 控制访问权限

查找突发事件

如需查看 Google Cloud 项目中的突发事件列表,请执行以下操作:

  1. 在 Google Cloud 控制台中,前往  提醒页面:

    进入提醒

    如果您使用搜索栏查找此页面,请选择子标题为监控的结果。

  2. 在 Google Cloud 控制台的工具栏中,选择您的 Google Cloud 项目。对于 App Hub 配置,请选择 App Hub 宿主项目或已启用应用的文件夹的管理项目。

    提醒页面会显示有关提醒政策、延后和突发事件的信息:

    • 摘要窗格列出了未结突发事件的数量。
    • 突发事件窗格会显示最近的未结突发事件。如需在表中列出最新突发事件(包括已关闭的突发事件),请点击显示已关闭的突发事件
  3. 如需查看特定突发事件的详细信息,请在列表中选择相应突发事件。

    系统会打开突发事件详细信息页面。如需详细了解突发事件详细信息页面,请参阅本页面中的调查突发事件部分。

查找较早的突发事件

提醒页面上的突发事件窗格显示最近未结的突发事件。要查找较早的突发事件,请执行以下任一操作:

  • 如需分页浏览突发事件表中的条目,请点击 较新 较早

  • 要导航到突发事件页面,请点击查看所有突发事件。在突发事件页面中,您可以执行以下操作:

    • 显示已关闭的突发事件:如需在表中列出所有突发事件,请点击显示已关闭的突发事件
    • 过滤突发事件:如需了解如何添加过滤条件,请参阅过滤突发事件
    • 确认或关闭突发事件,或是延后其提醒政策。如需访问这些选项,请在突发事件行中点击 更多选项,然后从菜单中选择所需的选项。如需了解详情,请参阅管理突发事件

过滤突发事件

当您在过滤栏中输入值时,只有与过滤条件匹配的突发事件会列在突发事件表中。如果您添加了多个过滤条件,则只有在满足所有过滤条件的情况下,系统才会显示突发事件。

如需添加突发事件表的过滤条件,请执行以下操作:

  1. 突发事件页面上,点击  过滤表,然后选择过滤条件属性。过滤条件属性包括以下所有内容:

    • 突发事件的状态
    • 提醒政策的名称
    • 突发事件打开或关闭的时间
  2. 从二级菜单中选择一个值,或在过滤栏中输入一个值。

调查突发事件

突发事件详细信息页面包含的信息可能会帮助您找出突发事件的原因。

探索查询结果

每天使用的总槽时间窗格显示在过去 24 小时内,您的预留 BigQuery 槽为运行用于提醒政策的 SQL 查询所花费的时间量。

SQL 查询结果窗格会显示每次 Log Analytics 通过提醒政策条件运行 SQL 查询时生成的查询结果摘要的列表。默认情况下,系统会过滤该列表,以便仅显示与提醒政策条件匹配的查询。

  • 如需查看查询以及 Log Analytics 运行查询的特定时间的查询结果表,请点击查询运行时间列中的某个值。
  • 如需在仅显示与提醒政策条件匹配的查询结果与 Log Analytics 通过提醒政策运行的所有查询之间切换,请点击仅显示与提醒条件匹配的查询

查看补充信息

文档部分显示您在创建提醒政策时提供的通知的文档模板。此信息可能包括对提醒政策监控内容的说明,以及关于应对措施的提示。如需了解详情,请参阅使用用户定义的文档为通知添加注解

如果您没有为提醒政策配置文档,则文档窗格会显示“未配置任何文档”。

如需帮助您发现应用中的潜在问题,您可以探索与其他提醒政策条件相关的突发事件。

相关突发事件部分会显示在满足提醒政策的条件时创建的其他突发事件的列表。

管理突发事件

突发事件具有以下状态之一:

  • 未结:已满足基于 SQL 的提醒政策的条件,并且突发事件仍处于未结状态。如果再次满足相同条件,并且已存在未结突发事件,则不会开启新的突发事件。

  • 已确认:该突发事件为未结状态,并被标记为已确认。通常,此状态表示正在调查突发事件。

  • 已关闭:您已手动关闭突发事件,或突发事件已在自动关闭期限到期后自动关闭。

确认突发事件

我们建议您在开始调查突发事件的原因时将突发事件标记为已确认。

如需将突发事件标记为已确认,请执行以下操作:

  1. 提醒页面的突发事件窗格中,点击查看所有突发事件
  2. 突发事件页面上,找到要确认的突发事件,然后执行以下操作之一:

    • 点击  更多选项,然后选择确认
    • 打开突发事件的详细信息页面,然后点击确认突发事件

延后提醒政策

如需防止 Monitoring 在特定时间段内创建突发事件并发送通知,请延后相关提醒政策。当您延后提醒政策时,与提醒政策相关的突发事件会保持未结状态,但不会触发进一步的通知。突发事件会根据提醒政策的自动关闭时长来关闭。

如需为您正在查看的突发事件创建延后,请执行以下操作:

  1. 突发事件详细信息页面上,点击延后政策

  2. 选择延后时长。选择延后时长后,延后会立即开始。

您也可以在突发事件页面上延后提醒政策,方法是找到要延后的突发事件,点击 更多选项,然后选择延后。您可以在服务中断期间延后提醒政策,以避免在问题排查过程中收到进一步的通知。

关闭突发事件

您可以让 Monitoring 为您结束突发事件,或者您自己结束突发事件。

当提醒政策的自动关闭期限到期后,Monitoring 会自动结束突发事件。默认情况下,自动关闭时长为 7 天。自动关闭时长下限为 30 分钟。

自动关闭时长指定在突发事件关闭之前,必须经过的时间(在此期间,突发事件的原因不会重复发生)。因此,当突发事件处于未结状态且其原因再次发生时,该突发事件的未结状态可持续时间超过自动关闭时长。

如需结束突发事件,请执行以下操作:

  1. 提醒页面的突发事件窗格中,点击查看所有突发事件
  2. 突发事件页面上,找到要结束的突发事件,然后执行以下操作之一:

    • 点击 查看更多,然后选择关闭突发事件
    • 打开该突发事件的突发事件详细信息页面,然后点击关闭突发事件

如果您看到 Unable to close incident 消息,请过几分钟后重试。您无法立即关闭新突发事件,因为导致突发事件的条件仍被提醒系统视为有效。

数据保留和限制

如需了解突发事件的限制和保留期限,请参阅提醒方面的限制

后续步骤