使用标签为突发事件添加注释

本文档介绍了如何为突发事件分配用户定义的标签,以便对其进行整理和排优先级。这些标签是在提醒政策中配置的,并会在提醒政策和突发事件中列出。在某些通知中,系统也会列出标签,具体取决于您的配置。

标签简介

标签是键值对,用于将信息附加到时间序列、提醒政策、突发事件或通知。例如,时序上的标签可以标识收集数据的特定虚拟机 (VM) 实例。标签可以是用户定义的,也可以是预定义的。

用户指定的标签

用户定义的标签包含您指定的信息。这些标签可以具有静态值或动态值:

标签必须以小写字母开头。标签键和标签值只能包含小写字母、数字、下划线和短划线。

预定义标签

资源描述符中包含预定义标签;在写入时间序列数据时,必须填充这些标签。这些标签会显示有关所收集指标或指标所写入资源的信息。例如,时序中的标签可以标识虚拟机 (VM)、可用区、Google Cloud 项目和设备类型。当 Monitoring 基于该时序创建突发事件时,突发事件会继承这些标签。

如何查看标签

您可以在突发事件的详情页面提醒政策的详情页面以及某些通知中查看提醒政策或突发事件的标签。

  • 提醒政策:静态用户定义的标签列在用户标签部分中。动态用户定义的标签和预定义标签不可见。
  • 突发事件:静态用户定义的标签列在政策标签部分,动态用户定义的标签列在指标标签部分。受监控资源标签指标标签部分列出了预定义标签。
  • 通知:以下通知类型列出了预定义标签和用户定义的标签:

    • 电子邮件
    • Google Chat
    • PagerDuty
    • Pub/Sub
    • 网络钩子

示例:添加具有动态值的用户定义标签

您可以使用 MQL 配置标签,使其值根据时间序列数据动态变化。例如,您希望将 criticality 标签添加到您的突发事件中,并使其值根据所监控的 CPU 利用率指标的值而变化:

fetch gce_instance
| metric 'compute.googleapis.com/instance/cpu/utilization'
| group_by sliding(5m), [value_utilization_mean: mean(value.utilization)]
| map
    add[
      criticality:
        if(val() >= 90 '%', 'CRITICAL',
          if(val() >= 80 '%', 'WARNING',
            if(val() >= 70 '%', 'INFO', 'GOOD')))
    ]
| condition val() >= 70 '%'

下图说明了使用 MQL 查询的提醒政策如何处理其监控的时间序列数据:

插图:提醒政策如何处理其监控的时序。

政策处理脚本会处理 CPU 使用率数据,并输出一个时序,用于指示何时满足条件。在上例中,当 CPU 使用率至少达到 70% 时,则满足此条件。对于每个输入时序,政策处理程序可以生成以下四种时序之一:

输出时序名称 满足条件 说明
“GOOD” 此时序的标签与输入时序的标签相同。没有严重性标签。
"CRITICAL" CPU 利用率至少为 90%。输出时序与“良好”时序具有相同的标签,以及一个值为“严重”的严重性标签。
“WARNING” CPU 利用率至少为 80%,但低于 90%。输出时序与“良好”时序具有相同的标签,以及一个值为“警告”的严重性标签。
“INFO” CPU 利用率至少为 70%,但低于 80%。输出时序与“良好”时序具有相同的标签,以及一个值为“INFO”的严重性标签。

政策处理程序生成的时间序列数据是突发事件管理器的输入,该管理器决定何时创建和关闭突发事件。突发事件管理器会使用 durationevaluationMissingDataautoClose 字段的值来确定何时关闭突发事件。

最佳做法

若要确保在您创建值由系统动态设置的标签时,系统一次最多只会打开一个支持请求,请执行以下操作:

  • MetricThreshold 对象中,替换以下字段的默认值:

    • duration 字段:设置为非零值。
    • evaluationMissingData 字段:设置此字段可在停止接收数据时关闭突发事件。使用 Cloud Monitoring API 时,请将此字段设置为 EVALUATION_MISSING_DATA_INACTIVE。使用 Google Cloud 控制台时,请将此字段设置为“将缺失的数据点视为不违反政策条件的值”。
  • AlertStrategy 对象中,将 autoClose 字段设置为最小值 30 分钟。使用 Cloud Monitoring API 时,请将此字段设置为 30m

如需了解详情,请参阅部分指标数据

突发事件流程

假设在创建提醒政策时,CPU 利用率测算值低于 70%。以下序列展示了如何打开和关闭突发事件:

  1. 由于 CPU 利用率测算值低于 70%,因此政策处理程序会生成“良好”时序,并且不会打开任何突发事件。

  2. 接下来,假设 CPU 利用率上升到 93%。政策处理程序会停止生成“良好”时序数据,并开始为“严重”时序生成数据。

    突发事件管理员会看到满足条件的新“严重”时序,然后打开突发事件。通知包含值为 CRITICAL 的严重性标签。

  3. 假设 CPU 利用率降至 75%。政策处理程序会停止生成“CRITICAL”时序,并开始生成“INFO”时序。

    突发事件管理员会看到满足条件的新“INFO”时序,然后打开突发事件。通知包含值为 INFO 的严重性标签。

    突发事件管理员发现“CRITICAL”时序没有收到任何数据,并且系统为该时序创建了一个突发事件。由于政策配置为在数据停止传入时关闭突发事件,因此突发事件管理器会关闭与“严重”时序关联的突发事件。因此,只有严重性标签值为 INFO 的突发事件仍未解决。

  4. 最后,假设 CPU 利用率降至 45%。此值低于所有阈值,因此政策处理程序会停止生成“INFO”时序,并开始生成“GOOD”时序。

    突发事件管理员发现“INFO”时序没有收到任何数据,并且系统为该时序创建了一个突发事件。由于该政策使用的是推荐设置,因此我们已关闭此支持请求。

如果您未为 evaluationMissingData 字段使用建议的值,那么当数据停止传入时,系统不会立即关闭打开的突发事件。因此,您可能会看到针对同一输入时序的多个未解决问题。如需了解详情,请参阅部分指标数据

后续步骤