此页面由 Cloud Translation API 翻译。

基于指标的提醒政策的突发事件

突发事件是满足提醒政策条件时生成的记录。如果提醒政策包含多个条件，则提醒政策会指定满足一个条件是否足以导致创建突发事件。通常，当满足条件时，Cloud Monitoring 会开启突发事件并发送通知。不过，在以下情况下，系统不会创建突发事件：

政策已延后或停用。
提醒政策或突发事件数量超出了现有的提醒方面的限制。

对于每个突发事件，Monitoring 都会创建一个突发事件详细信息页面，以便您管理突发事件，并报告可帮助您排查失败问题的突发事件信息。例如，突发事件详细信息页面会显示突发事件时间轴以及显示所监控指标数据的图表。您还可以找到指向相关突发事件和日志条目的链接。

本文档介绍如何查找您的突发事件。还介绍如何使用突发事件详细信息页面管理基于指标的提醒政策的突发事件，这些政策会评估 Cloud Monitoring 存储的时间序列数据。

此功能仅适用于 Google Cloud 项目。对于 App Hub 配置，请选择 App Hub 宿主项目或已启用应用的文件夹的管理项目。

准备工作

如需获得使用 Google Cloud 控制台查看和管理突发事件所需的权限，请让您的管理员为您授予项目的以下 IAM 角色：

使用 Google Cloud 控制台查看突发事件：
- Monitoring Cloud Console Incident Viewer (roles/monitoring.cloudConsoleIncidentViewer)
- Stackdriver Accounts Viewer (roles/stackdriver.accounts.viewer)
使用 Google Cloud 控制台管理突发事件：
- Monitoring Cloud Console Incident Editor (roles/monitoring.cloudConsoleIncidentEditor)
- Stackdriver Accounts Viewer (roles/stackdriver.accounts.viewer)

如需详细了解如何授予角色，请参阅管理对项目、文件夹和组织的访问权限。

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

如需详细了解 Cloud Monitoring 角色，请参阅使用 Identity and Access Management 控制访问权限。

查找突发事件

如需查看 Google Cloud 项目中的突发事件列表，请执行以下操作：

在 Google Cloud 控制台中，前往提醒页面：
进入提醒

如果您使用搜索栏查找此页面，请选择子标题为监控的结果。
在 Google Cloud 控制台的工具栏中，选择您的 Google Cloud 项目。对于 App Hub 配置，请选择 App Hub 宿主项目或已启用应用的文件夹的管理项目。

提醒页面会显示有关提醒政策、延后和突发事件的信息：
- 摘要窗格列出了未结突发事件的数量。
- 突发事件窗格会显示最近的未结突发事件。如需在表中列出最新突发事件（包括已关闭的突发事件），请点击显示已关闭的突发事件。
如需查看特定突发事件的详细信息，请在列表中选择相应突发事件。

系统会打开突发事件详细信息页面。如需详细了解突发事件详细信息页面，请参阅本页面中的调查突发事件部分。

查找较早的突发事件

提醒页面上的突发事件窗格显示最近未结的突发事件。要查找较早的突发事件，请执行以下任一操作：

如需分页浏览突发事件表中的条目，请点击较新或较早。
要导航到突发事件页面，请点击查看所有突发事件。在突发事件页面中，您可以执行以下操作：
- 显示已关闭的突发事件：如需在表中列出所有突发事件，请点击显示已关闭的突发事件。
- 过滤突发事件：如需了解如何添加过滤条件，请参阅过滤突发事件。
- 确认或关闭突发事件，或是延后其提醒政策。如需访问这些选项，请在突发事件行中点击 更多选项，然后从菜单中选择所需的选项。如需了解详情，请参阅管理突发事件。

过滤突发事件

当您在过滤栏中输入值时，只有与过滤条件匹配的突发事件会列在突发事件表中。如果您添加了多个过滤条件，则只有在满足所有过滤条件的情况下，系统才会显示突发事件。

如需添加突发事件表的过滤条件，请执行以下操作：

在突发事件页面上，点击 过滤表，然后选择过滤条件属性。过滤条件属性包括以下所有内容：
- 突发事件的状态
- 提醒政策的名称
- 突发事件打开或关闭的时间
- 指标类型
- 资源类型
从二级菜单中选择一个值，或在过滤条件栏中输入一个值。
例如，如果您选择指标类型并输入 usage_time，则只能在二级菜单中看到以下选项：
```
agent.googleapis.com/cpu/usage_time
compute.googleapis.com/guest/container/cpu/usage_time
container.googleapis.com/container/cpu/usage_time
```

调查突发事件

突发事件详细信息页面包含的信息可能会帮助您找出突发事件的原因。

探索指标数据

如需分析突发事件发生前后的指标状态，请使用提醒指标图表。此图表显示了时间轴以及导致提醒政策条件满足的时间序列。

您可以调整时间轴的范围，以查看与突发事件相关的指标数据中的趋势和模式：

如需在仅显示导致满足条件的时间序列与显示条件评估的所有时间序列之间切换，请点击 显示所有时间序列。
如需更改图表显示的时间范围，您可以使用工具栏中的时间范围选择器，也可以使用指针突出显示图表上的时间范围。

您还可以在 Metrics Explorer 中查看指标数据，来更详细地分析指标数据。为此，请前往提醒指标图表，然后点击 探索数据。默认情况下，Metrics Explorer 会汇总和过滤指标数据，以便指标图表与提醒指标时间轴上显示的时间序列保持一致。

探索日志条目

突发事件详细信息页面上的日志窗格会显示与指标的受监控资源的资源类型和标签匹配的日志条目。您可以分析这些日志条目，以查找可能有助于排查突发事件的其他信息。

如需在 Logs Explorer 中查看日志条目，请点击在日志浏览器中查看，然后选择一个范围项目。 Logs Explorer 提供了其他工具来分析日志条目数据，例如相关日志条目创建时间的时间轴。
如需在 Metrics Explorer 中查看和修改用于过滤日志条目的查询，请点击 探索数据。

查看应用信息

如需了解与 App Hub 应用关联的提醒政策，请参阅与应用关联部分。此部分中的一项条目会列出应用 ID，并链接到显示应用相关信息的信息中心。第二个条目列出工作负载或服务，并链接到信息中心。

查看补充信息

标签部分显示了导致突发事件的时间序列的受监控资源和指标的标签和值，以及提醒政策中定义的用户标签。此信息可帮助您识别导致突发事件的特定受监控的资源。如需了解详情，请参阅使用标签为突发事件添加注解。

文档部分显示您在创建提醒政策时提供的通知的文档模板。此信息可能包括对提醒政策监控内容的说明，以及关于应对措施的提示。如需了解详情，请参阅使用用户定义的文档为通知添加注解。

如果您没有为提醒政策配置文档，则文档窗格会显示“未配置任何文档”。

如需帮助您发现应用中的潜在问题，您可以探索与其他提醒政策条件相关的突发事件。

相关突发事件部分会显示符合以下情况之一的突发事件列表：

在满足同一提醒政策的条件时创建了突发事件。
突发事件与“突发事件详细信息”页面上显示的突发事件共享一个标签。

管理突发事件

突发事件具有以下状态之一：

未结：该提醒政策的条件集已得到满足，或者没有数据表明不再满足该条件。如果提醒政策包含多个条件，则突发事件是否处于未结状态取决于这些条件的组合方式。如需了解详情，请参阅具有多个条件的政策。
已确认：该突发事件为未结状态，并被标记为已确认。通常，此状态表示正在调查突发事件。
已结束：系统观察到条件不再满足，您已结束突发事件，或者在 7 天内没有观察结果表明条件仍得到满足。

配置提醒政策时，请确保稳定状态在一切正常时提供信号。只有这样才能确保确定无错误状态或关闭突发事件（如果突发事件处于打开状态）。如果没有信号指明错误条件已经停止，突发事件一旦打开，便会在提醒政策触发 7 天内保持未结状态。

例如，如果您创建了一项提醒政策以在错误数量超过 0 时通知您，请确保该政策在没有任何错误时生成的错误计数为 0。如果提醒政策在无错误状态下返回 null 或为空，则没有信号指明错误停止的时间。在某些情况下，Monitoring Query Language (MQL) 支持指定在没有测量值可用时的默认值。如需查看示例，请参阅使用比率。

确认突发事件

我们建议您在开始调查突发事件的原因时将突发事件标记为已确认。

如需将突发事件标记为已确认，请执行以下操作：

在提醒页面的突发事件窗格中，点击查看所有突发事件。
在突发事件页面上，找到要确认的突发事件，然后执行以下操作之一：
- 点击 更多选项，然后选择确认。
- 打开突发事件的详细信息页面，然后点击确认突发事件。

如果您的提醒政策配置为发送重复通知，那么确认突发事件不会停止发送通知。如需停止通知，请执行以下操作之一：

为提醒政策创建稍后提醒。
停用提醒政策。

延后提醒政策

如需防止 Monitoring 在特定时间段内创建突发事件并发送通知，请延后相关提醒政策。当您延后提醒政策时，Monitoring 也会关闭与提醒政策相关的所有突发事件。

如需为您正在查看的突发事件创建延后，请执行以下操作：

在突发事件详细信息页面上，点击延后政策。
选择延后时长。选择延后时长后，延后会立即开始。

您也可以在突发事件页面上延后提醒政策，方法是找到要延后的突发事件，点击 更多选项，然后选择延后。您可以在服务中断期间延后提醒政策，以避免在问题排查过程中收到进一步的通知。

关闭突发事件

您可以让 Monitoring 为您关闭突发事件，也可以在停止收到观察结果后关闭事件。如果您关闭一个突发事件，然后收到数据表明条件已满足，则会创建一个新的突发事件。当您关闭一个突发事件时，该操作不会关闭因相同条件而未结的任何其他突发事件。如果您延后提醒政策，则未结突发事件会在延后开始时关闭。

当发生以下任一情况时，Monitoring 会自动结束突发事件：

指标阈值条件：
- 收到观察结果，表明未违反阈值。
- 未收到观察结果，条件配置为在停止收到观察结果时关闭突发事件，并且底层资源的状态为未知或未停用。
  
  注意：如果资源的状态已知处于已停用状态，则在停止收到数据时，突发事件不会关闭。不过，您可以手动关闭突发事件。如果资源包含 metadata.system_labels.state 标签且提醒政策未使用 Monitoring Query Language 编写，Monitoring 可以确定资源的状态。如需了解详情，请参阅停止收到数据时，突发事件未关闭。
- 在提醒政策的自动关闭时长内未收到观察结果，并且条件未配置为在停止收到观察结果时自动关闭突发事件。如需配置自动关闭时长，您可以使用 Google Cloud 控制台或 Cloud Monitoring API。默认情况下，自动关闭时长为 7 天。自动关闭时长下限为 30 分钟。
指标缺失条件：
- 进行观察。
- 在提醒政策的自动关闭时长到期后 24 小时内未收到任何观察结果。如需配置自动关闭时长，您可以使用 Google Cloud 控制台或 Cloud Monitoring API。默认情况下，自动关闭时长为 7 天。
预测条件：
- 系统会生成预测结果，并预测时间序列在预测窗口内不会违反阈值。
- 10 分钟内未收到观察结果，条件配置为在停止收到观察结果时关闭突发事件，并且底层资源的状态未知或未停用。
  
  注意：如果资源的状态已知处于已停用状态，则在停止收到数据时，突发事件不会关闭。不过，您可以手动关闭突发事件。如果资源包含 metadata.system_labels.state 标签且提醒政策未使用 Monitoring Query Language 编写，Monitoring 可以确定资源的状态。如需了解详情，请参阅停止收到数据时，突发事件未关闭。
- 在提醒政策的自动关闭时长内未收到观察结果，并且条件未配置为在停止收到观察结果时自动关闭突发事件。

例如，由于 HTTP 响应延迟时间超过 2 秒且持续 10 分钟，提醒政策生成了突发事件。如果 HTTP 响应延迟时间的下一次测量结果少于或等于 2 秒，则突发事件结束。同样，如果 7 天内未收到任何数据，则突发事件结束。

如需结束突发事件，请执行以下操作：

在提醒页面的突发事件窗格中，点击查看所有突发事件。
在突发事件页面上，找到要结束的突发事件，然后执行以下操作之一：
- 点击 查看更多，然后选择关闭突发事件。
- 打开该突发事件的突发事件详细信息页面，然后点击关闭突发事件。

如果您看到消息 Unable to close incident with active conditions，则无法关闭突发事件，因为系统在最近提醒期内已收到数据。

如果您看到消息 Unable to close incident. Please try again in a few minutes.，则表示由于内部错误，突发事件无法关闭。

数据保留和限制

如需了解突发事件的限制和保留期限，请参阅提醒方面的限制。

后续步骤

如需使用 Cloud Monitoring API 或命令行创建和管理提醒政策，请参阅使用 API 管理提醒政策。

如需详细了解关于提醒政策的概念性论述，请参阅基于指标的提醒政策的行为。