排查 Managed Service for Prometheus 的问题

本文档介绍了使用 Google Cloud Managed Service for Prometheus 时可能遇到的一些问题，并提供了有关诊断和解决问题的信息。

您配置了 Managed Service for Prometheus，但在 Grafana 或 Prometheus 界面中没有看到任何指标数据。概括来讲，原因可能是以下其中一种：

查询端出现问题，因此无法读取数据。查询端问题通常是由于服务账号读取数据的权限不正确或 Grafana 配置错误导致的。
注入端出现问题，未发送任何数据。注入端问题可能是由服务账号、收集器或规则评估的配置问题引起的。

如需确定问题在于注入端还是查询端，请尝试使用 Google Cloud 控制台中的 Metrics Explorer PromQL 标签页来查询数据。此页面可保证读取权限或 Grafana 设置不存在任何问题。

如需查看此页面，请执行以下操作：

使用 Google Cloud 控制台项目选择器选择看不到其数据的项目。
在 Google Cloud 控制台中，前往 Metrics Explorer 页面：
进入 Metrics Explorer

如果您使用搜索栏查找此页面，请选择子标题为监控的结果。
在查询构建器窗格的工具栏中，选择名为 MQL 或 PromQL 的按钮。
验证已在PromQL 切换开关中选择 PromQL。语言切换开关位于同一工具栏中，用于设置查询的格式。
在编辑器中输入以下查询，然后点击运行查询：
```
up
```

如果您查询 up 指标并看到结果，则问题在于查询端。如需了解如何解决这些问题，请参阅查询端问题。

如果您查询 up 指标时没有看到任何结果，则问题在于注入端。如需了解如何解决这些问题，请参阅注入端问题。

防火墙也可能导致注入和查询问题；如需了解详情，请参阅防火墙。

Cloud Monitoring 指标管理页面提供的信息可帮助您控制在收费指标上支出的金额，而不会影响可观测性。指标管理页面报告以下信息：

针对指标网域中基于字节和基于样本的结算以及各个指标的注入量。
有关标签和指标基数的数据。
每个指标的读取次数。
指标在提醒政策和自定义信息中心内的使用。
指标写入错误率。

您还可以使用指标管理来排除不需要的指标，从而免除注入这些指标的费用。

如需查看指标管理页面，请执行以下操作：

在 Google Cloud 控制台中，前往 指标管理页面：
进入指标管理

如果您使用搜索栏查找此页面，请选择子标题为监控的结果。
在工具栏中，选择时间窗口。默认情况下，指标管理页面会显示有关前一天收集的指标的信息。

如需详细了解指标管理页面，请参阅查看和管理指标使用情况。

查询端问题

大多数查询端问题是由以下某种原因造成的：

服务账号的权限或凭据不正确。
Workload Identity Federation for GKE 配置错误（如果您的集群已启用此功能）。如需了解详情，请参阅为 Workload Identity Federation for GKE 配置服务账号。

首先，请执行以下操作：

根据查询设置说明仔细检查您的配置。
如果您使用的是 Workload Identity Federation for GKE，请通过执行以下操作来验证您的服务账号是否具有正确的权限：
1. 在 Google Cloud 控制台中，前往 IAM 页面：
  前往 IAM
  
  如果您使用搜索栏查找此页面，请选择子标题为 IAM 和管理的结果。
2. 确认主账号列表中的服务账号名称。确认服务账号的名称拼写是否正确。然后，点击修改。
3. 选择角色字段，然后点击当前使用并搜索 Monitoring Viewer 角色。如果服务账号没有此角色，请立即添加。

如果问题仍然存在，请考虑以下可能性：

Secret 配置错误或输入错误

如果您看到以下任何情况，则说明 Secret 可能缺失或输入错误：

Grafana 或 Prometheus 界面中的以下“禁止”错误之一：
- “警告：提取服务器时间时出现意外响应状态：禁止”
- “警告：提取指标列表时出错：提取指标名称时出现意外响应状态：禁止”
日志中类似以下内容的消息：
“无法读取凭据文件：打开 /gmp/key.json：无此类文件或目录”

如果您使用数据源同步器对 Grafana 进行身份验证和配置，请尝试以下操作来解决这些错误：

确认您选择了正确的 Grafana API 端点、Grafana 数据源 UID 和 Grafana API 令牌。您可以通过运行 kubectl describe cronjob datasource-syncer 命令来检查 CronJob 中的变量。
确认您已将数据源同步器的项目 ID 设置为您的服务账号具有凭据的同一指标范围或项目。
验证您的 Grafana 服务账号具有“Admin”角色，并且您的 API 令牌未过期。
验证您的服务账号具有所选项目 ID 的 Monitoring Viewer 角色。
通过运行 kubectl logs job.batch/datasource-syncer-init 验证数据源同步器作业的日志中没有错误。此命令必须在应用 datasource-syncer.yaml 文件后立即运行。
如果使用 Workload Identity Federation for GKE，请核实您没有输错账号密钥或凭据，并核实已将其绑定到正确的命名空间。

如果您使用的是旧版前端界面代理，请尝试以下操作来解决这些错误：

确认您已将前端界面的项目 ID 设置为您的服务账号具有凭据的同一指标范围或项目。
验证您为任何 --query.project-id 标志指定的项目 ID。
验证您的服务账号具有所选项目 ID 的 Monitoring Viewer 角色。
验证您在部署前端界面时是否设置了正确的项目 ID，并且未将其设置为字面量字符串 PROJECT_ID。
如果使用 Workload Identity，请核实您没有输错账号密钥或凭据，并核实已将其绑定到正确的命名空间。
如果要装载您自己的 Secret，请确保存在该 Secret：
```
kubectl get secret gmp-test-sa -o json | jq '.data | keys'
```

验证 Secret 是否已正确装载：

kubectl get deploy frontend -o json | jq .spec.template.spec.volumes

kubectl get deploy frontend -o json | jq .spec.template.spec.containers[].volumeMounts

确保 Secret 已正确传递给容器：

kubectl get deploy frontend -o json | jq .spec.template.spec.containers[].args

Grafana 的 HTTP 方法不正确

如果您看到 Grafana 中出现以下 API 错误，则表示 Grafana 配置为发送 POST 请求，而不是 GET 请求：

“{"status":"error","errorType":"bad_data","error":"no match[] parameter provided"}%”

如需解决此问题，请按照配置数据源中的说明将 Grafana 配置为使用 GET 请求。

大型或长时间运行的查询超时

如果您在 Grafana 中看到以下错误，则表示您的默认查询超时过短：

“Post "http://frontend.NAMESPACE_NAME.svc:9090/api/v1/query_range": net/http: timeout awaiting response headers”（发布“http://frontend.NAMESPACE_NAME.svc:9090/api/v1/query_range”：net/http：等待响应标头超时）

Managed Service for Prometheus 不会在查询超过 120 秒之前超时，而 Grafana 默认在 30 秒后超时。如需解决此问题，请按照配置数据源中的说明将 Grafana 中的超时增加到 120 秒。

标签验证错误

如果您在 Grafana 中看到以下错误之一，则表示您可能使用了不受支持的端点：

“验证：尚不支持名称以外的标签”
“创建 [作业] 模板：更新选项时出错：尚不支持名称以外的标签。”

Managed Service for Prometheus 仅针对 __name__ 标签支持 /api/v1/$label/values 端点。此限制会导致 Grafana 中使用 label_values($label) 变量的查询失败。

请改用 label_values($metric, $label) 表单。建议使用此查询，因为它会按指标限制返回的标签值，这样可以避免检索与信息中心内容无关的值。此查询会调用 Prometheus 支持的端点。

如需详细了解支持的端点，请参阅 API 兼容性。

超出配额

如果您看到以下错误，则表示已超出 Cloud Monitoring API 的读取配额：

“429：RESOURCE_EXHAUSTED：配额指标‘时序查询’和使用方‘project_number：...’的服务‘monitoring.googleapis.com’的限制‘每分钟的时序查询数’已超出配额。”

要解决此问题，请提交增加 Monitoring API 读取配额的申请。如需帮助，请与Google Cloud 支持团队联系。如需详细了解配额，请参阅 Cloud 配额文档。

多个项目的指标

如果您要查看多个 Google Cloud 项目中的指标，则无需配置多个数据源同步器或在 Grafana 中创建多个数据源。

请改为在包含要监控的项目的Google Cloud 项目（范围限定项目）中创建 Cloud Monitoring 指标范围。使用范围限定项目配置 Grafana 数据源时，您可以访问指标范围内所有项目的数据。如需了解详情，请参阅查询和指标范围。

未指定受监控的资源类型

如果您看到以下错误，则需要在使用 PromQL 查询Google Cloud 系统指标时指定受监控的资源类型：

“指标配置为与多个受监控的资源类型一起使用；系列选择器必须在受监控的资源名称上指定标签匹配器”

您可以使用 monitored_resource 标签进行过滤来指定受监控的资源类型。如需详细了解如何识别和选择有效的受监控资源类型，请参阅指定受监控的资源类型。

收集器界面和 Google Cloud 控制台之间的计数器、直方图和摘要原始值不匹配

在查询累计 Prometheus 指标（包括计数器、直方图和摘要）的原始值时，您可能会注意到本地收集器 Prometheus 界面和 Google Cloud Google Cloud 控制台中的值之间存在差异。这是预期行为。

Monarch 需要开始时间戳，但 Prometheus 没有开始时间戳。Managed Service for Prometheus 会跳过任何时序中的第一个注入点并将其转换为开始时间戳，从而生成开始时间戳。后续点的值会从初始跳过点的值中减去，以确保费率正确无误。这会导致这些点的原始值存在永久性缺陷。

收集器界面中的数字与Google Cloud 控制台中的数字之差等于收集器界面中记录的第一个值，这是预期现象，因为系统跳过了该初始值，并从后续点中减去该值。

这是可以接受的做法，因为在生产环境中不需要针对累计指标的原始值运行查询。所有有用查询都需要 rate() 函数或类似函数，在这种情况下，两个界面之间的任何时间范围内的差异都是相同的。累积指标只会增加，因此您无法对原始查询设置提醒，因为时序只会达到阈值一次。所有有用的提醒和图表都会查看值的变化或值的变化率。

收集器仅在本地保存大约 10 分钟的数据。由于在 10 分钟范围之前发生了重置，因此也可能出现原始累积值差异。为了消除这种可能性，在将收集器界面与 Google Cloud 控制台进行比较时，请尝试仅设置 10 分钟的查询回溯期。

引起差异的原因也可能是应用中有多个工作器线程，每个线程具有 /metrics 端点。如果您的应用启动多个线程，您必须将 Prometheus 客户端库置于多进程模式。如需了解详情，请参阅有关在 Prometheus 的 Python 客户端库中使用多进程模式的文档。

计数器数据丢失或直方图损坏

此问题最常见的信号是在查询普通计数器指标（例如，metric_name_foo 的 PromQL 查询）时看不到数据或看到数据间隙。如果在向查询添加 rate 函数（例如 rate(metric_name_foo[5m])）后出现数据，您可以确认这一点。

您可能还会注意到，注入的样本数量急剧增加，并且爬取量没有发生显著变化，或者在 Cloud Monitoring 中创建带有“未知”或“未知：计数器”后缀的新指标。

您可能还会注意到直方图操作（例如 quantile() 函数）无法按预期工作。

如果收集指标时没有 Prometheus 指标 TYPE，则会出现这些问题。由于 Monarch 是强类型，因此 Managed Service for Prometheus 会将无类型指标的后缀视为“未知”，并将其注入两次，一次用于采样平均值，一次用于计数器。然后，查询引擎会根据您使用的查询函数来选择是查询底层仪表盘指标还是计数器指标。

虽然这种启发式方法通常效果很好，但它可能会导致问题，例如在查询原始“未知：计数器”指标时出现奇怪的结果。此外，由于直方图是 Monarch 中的具体类型对象，因此提取三个必需的直方图指标作为单个计数器指标会导致直方图函数不起作用。由于“未知”类型的指标会被注入两次，因此不设置 TYPE 会使注入的样本加倍。

未设置 TYPE 的常见原因包括：

意外将 Managed Service for Prometheus 收集器配置为联合服务器。使用 Managed Service for Prometheus 时不支持联合功能。由于联合功能会有意地丢弃 TYPE 信息，因此实现联合功能会导致“未知”类型的指标。
在注入流水线中的任何时间点使用 Prometheus 远程写入。此协议还会有意删除 TYPE 信息。
使用修改指标名称的重新添加标规则。这会导致重命名的指标与原始指标名称的关联 TYPE 信息解除关联。
导出器没有为每个指标发出 TYPE。
一个暂时性问题，收集器首次启动时 TYPE 会被丢弃。

如需解决此问题，请执行以下操作：

停止将联合与 Managed Service for Prometheus 搭配使用。如果您希望在将数据发送到 Monarch 之前“汇总”数据，以降低基数和费用，请参阅配置局部聚合。
停止在集合路径中使用 Prometheus 远程写入。
通过访问 /metrics 端点，确认每个指标都存在 # TYPE 字段。
删除任何修改指标名称的重新添加标签规则。
通过调用 DeleteMetricDescriptor 删除具有“未知”或“未知：计数器”后缀的所有冲突指标。
或者始终使用 rate 或其他计数器处理函数查询计数器。

您还可以在指标管理中创建指标排除规则，以使用正则表达式 prometheus.googleapis.com/.+/unknown.* 来防止注入任何以“unknown”为后缀的指标。如果您在安装此规则之前未解决根本问题，可能会导致所需的指标数据无法注入。

pod 重启后 Grafana 数据未保留

如果您的数据在 pod 重启后似乎从 Grafana 消失，但却显示在 Cloud Monitoring 中，则说明您在使用 Grafana 查询本地 Prometheus 实例，而不是 Managed Service for Prometheus。

如需了解如何配置 Grafana，以将托管式服务用作数据源，请参阅 Grafana。

不一致的查询或提醒规则结果会自动自行修正

您可能会发现一个模式，即针对最近窗口的查询（例如通过记录或提醒规则运行的查询）会返回无法解释的数据峰值。当您在 Grafana 或 Metrics Explorer 中运行查询以调查峰值时，可能会发现峰值已消失，数据看起来又恢复正常。

如果存在以下任一情况，这种行为可能会更频繁地发生：

您可能正在通过使用规则来持续并行运行许多非常相似的查询。这些查询可能仅在单个属性上有所不同。例如，您可能正在运行 50 条记录规则，这些规则仅在过滤条件 {foo="VALUE"} 的 VALUE 上有所不同，或者仅在 rate 函数的 [duration] 值上有所不同。
您正在 time=now 运行查询，且没有缓冲区。
您正在运行即时查询，例如提醒或记录规则。如果您使用的是记录规则，可能会注意到保存的输出存在峰值，但在对原始数据运行查询时找不到峰值。
您要查询两个指标以创建比率。如果分子或分母查询中的时序数较少，则峰值会更明显。
您的指标数据位于较大的 Google Cloud 区域，例如 us-central1 或 us-east4。

导致这类查询暂时性峰值的原因可能有以下几种：

（最常见的原因）您的类似并行查询都从同一组 Monarch 节点请求数据，从而导致每个节点上总共消耗大量内存。当 Monarch 在某个云区域拥有足够的可用资源时，您的查询便可正常运行。当 Monarch 在某个云区域面临资源压力时，每个节点都会限制查询，优先限制在每个节点上消耗内存最多的用户。当 Monarch 再次拥有足够的资源时，您的查询会再次正常运行。这些查询可能是通过 Sloth 等工具自动生成的 SLI。
您有延迟到达的数据，而您的查询不容忍这种情况。新写入的数据大约需要 3-7 秒才能可查询，不包括网络延迟以及环境中资源压力导致的任何延迟。如果您的查询没有内置延迟或偏移来考虑延迟数据，那么您可能会在不知不觉中查询只有部分数据的某个时间段。数据到达后，查询结果会恢复正常。
在将数据保存到不同的副本时，Monarch 可能会存在一些细微的不一致。查询引擎会尝试选择“最佳质量”副本，但如果不同的查询选择的数据集略有不同的副本，则查询结果可能会略有不同。这是系统的预期行为，您的提醒应容忍这些细微差异。
整个 Monarch 区域可能会暂时不可用。如果某个区域不可访问，查询引擎会将该区域视为从未存在。该区域恢复可用后，查询结果会继续返回该区域的数据。

为了考虑这些可能的根本原因，您应确保查询、规则和提醒遵循以下最佳实践：

将类似的规则和提醒合并为一条按标签汇总的规则，而不是为每个标签值的排列方式设置单独的规则。如果这些是提醒规则，您可以使用基于标签的通知来从汇总规则中路由提醒，而不是为每个提醒配置单独的路由规则。

例如，如果您有一个标签 foo，其值为 bar、baz 和 qux，那么您可以使用一个规则汇总该标签，并可选择过滤到您关注的标签值（例如 sum by (foo) metric{foo=~"bar|baz|qux"}），而不是为每个标签值单独设置规则（一个使用查询 sum(metric{foo="bar"})，一个使用查询 sum(metric{foo="baz"})，一个使用查询 sum(metric{foo="qux"})）。

如果您的指标有 2 个标签，每个标签均有 50 个值，且每个标签值组合都有一条单独的规则，并且规则查询是按比例的，那么在每个周期中，您会发出 50 x 50 x 2 = 5,000 个并行 Monarch 查询，每个查询都会命中同一组 Monarch 节点。总体而言，这 5,000 个并行查询会在每个 Monarch 节点上消耗大量内存，这会增加 Monarch 区域在资源压力下被限制的风险。

如果您改为使用汇总将这些规则合并为一个比例规则，那么每个周期您只需发出 2 个并行 Monarch 查询。这 2 个并行查询的总内存消耗远低于 5,000 个并行查询，并且遭遇节流的风险也低得多。
如果您的规则回溯时间超过 1 天，则运行频率将低于每分钟。访问 25 小时之前的数据的查询会转到 Monarch 磁盘上的数据库。与查询更近期数据相比，这些存储库查询速度更慢，内存消耗更大，这会加剧并行记录规则的内存消耗问题。

考虑每小时运行一次此类查询，而不是每分钟运行一次。每分钟运行一次全天查询，每段时间结果只会发生 1/1440 = 0.07% 的变化，这是一个微不足道的变化。每小时运行一次全天查询，则每段时间结果变化为 60/1440 = 4%，这是一个更相关的信号大小。如果您需要在近期数据发生变化时收到提醒，则可以每分钟运行一次不同的规则，并设置较短的回溯时间（例如 5 分钟）。
您可以使用规则中的 for: 字段来容忍暂时异常的结果。除非提醒条件至少满足配置的时长，否则 for: 字段会停止触发提醒。将此字段设置为规则评估间隔时间的两倍或更长。

使用 for: 字段会有所帮助，因为暂时性问题通常会自行解决，也就是说，它们不会在连续的提醒周期中发生。如果您看到峰值，并且该峰值在多个时间戳和多个提醒周期内持续存在，那么可以更有信心地认为这是一个真正的峰值，而不是暂时性问题。
使用 PromQL 中的 offset 修饰符延迟查询评估，以免在最近一段时间的数据上运行。查看采样间隔和规则评估间隔，并确定两者中哪个更长。理想情况下，您的查询偏移量应至少是较长间隔时间的两倍。例如，如果您每 15 秒发送一次数据，每 30 秒运行一次规则，则应将查询偏移至少 1 分钟。1 分钟的偏移会导致规则使用至少 60 秒的结束时间戳，这会在规则运行之前构建一个缓冲区，以便延迟到达的数据。

这既是 Cloud Monitoring 最佳实践（所有托管式 PromQL 提醒至少有 1 分钟的偏移），也是 Prometheus 最佳实践。
按 location 标签对结果进行分组，以隔离可能无法使用的区域问题。在某些系统指标中，具有 Google Cloud 区域的标签可能会称为 zone 或 region。

如果您未按区域分组，并且某个区域不可用，那么您的结果看起来会突然下降，而且您可能还会看到历史结果也下降。如果您按区域进行分组，并且某个区域不可用，那么您不会收到来自该区域的任何结果，但来自其他区域的结果不受影响。
如果您的比率是成功率（例如 2xx 响应数/总响应数），请考虑将其改为错误率（例如 4xx+5xx 响应数/总响应数）。错误率对不一致的数据更具容忍度，因为数据暂时下降会导致查询结果低于阈值，因此不会导致触发提醒。
尽可能将比率查询或记录规则拆分为单独的分子查询和分母查询。这是 Prometheus 最佳实践。使用比率是有效的，但由于分子中的查询与分母中的查询独立执行，因此使用比率可能会放大暂时性问题的影响：
- 如果 Monarch 限制了分子查询但未限制分母查询，那么您可能会看到意外较低的结果。如果 Monarch 限制了分母查询但未限制分子查询，那么您可能会看到意外较高的结果。
- 如果您查询的是最近的时间段，并且有延迟到达的数据，则该比率中的一个查询可能会在数据到达之前执行，而该比率中的另一个查询则会在数据到达之后执行。
- 如果比率的任一侧包含的时序相对较少，则任何错误都会被放大。如果您的分子和分母各有 100 个时序，并且 Monarch 未在分子查询中返回 1 个时序，那么您可能会注意到 1% 的差异。如果分子和分母各有 100 百万个时序，并且 Monarch 未在分子查询中返回 1 个时序，您不太可能注意到 0.0001% 的差异。
如果数据稀疏，请在查询中使用更长的速率时长。如果您的数据每 10 分钟到达一次，并且您的查询使用 rate(metric[1m])，那么您的查询只会回溯 1 分钟来查找数据，并且有时会得到空白结果。一般来说，请将 [duration] 设置为至少为抓取间隔的 4 倍。

默认情况下，衡量查询会回溯 5 分钟以获取数据。如需让它们回溯更远，请使用任何有效的 x_over_time 函数，例如 last_over_time。

如果您在查询近期数据时看到不一致的查询结果，这些建议大多是相关的。如果您在查询超过 25 小时的数据时遇到此问题，则 Monarch 可能存在技术问题。如果出现这种情况，请与 Cloud Customer Care 联系，以便我们进行调查。

导入 Grafana 信息中心

如需了解如何使用信息中心导入程序并进行问题排查，请参阅将 Grafana 信息中心导入 Cloud Monitoring。

如需了解信息中心内容转换方面的问题，请参阅导入程序的 README 文件。

注入端问题

注入端问题可能与收集或规则评估有关。首先查看代管式收集的错误日志。您可以运行以下命令：

kubectl logs -f -n gmp-system -lapp.kubernetes.io/part-of=gmp

kubectl logs -f -n gmp-system -lapp.kubernetes.io/name=collector -c prometheus

在 GKE Autopilot 集群上，您可以运行以下命令：

kubectl logs -f -n gke-gmp-system -lapp.kubernetes.io/part-of=gmp

kubectl logs -f -n gke-gmp-system -lapp.kubernetes.io/name=collector -c prometheus

目标状态功能可帮助您调试爬取目标。如需了解详情，请参阅目标状态信息。

端点状态缺失或太旧

如果您启用了目标状态功能，但一个或多个 PodMonitoring 或 ClusterPodMonitoring 资源缺少 Status.Endpoint Statuses 字段或值，则可能有以下某个问题：

Managed Service for Prometheus 无法访问您的某个端点所在节点上的收集器。
您的一个或多个 PodMonitoring 或 ClusterPodMonitoring 配置没有产生有效目标。

类似问题还可能会导致 Status.Endpoint Statuses.Last Update Time 字段的值早几分钟加上抓取时间间隔。

如需解决此问题，请先检查与爬取端点关联的 Kubernetes pod 是否正在运行。如果您的 Kubernetes pod 正在运行，则标签选择器会匹配，并且您可以手动访问爬取端点（通常是通过访问 /metrics 端点），然后检查 Managed Service for Prometheus 收集器是否正在运行。

收集器比例小于 1

如果您启用了目标状态功能，则会收到您资源的状态信息。PodMonitoring 或 ClusterPodMonitoring 资源的 Status.Endpoint Statuses.Collectors Fraction 值表示可访问的收集器的比例（从 0 到 1）。例如，值 0.5 表示 50% 的收集器可访问，而值 1 表示 100% 的收集器可访问。

如果 Collectors Fraction 字段的值不是 1，则表示一个或多个收集器无法访问，并且这些节点中的指标可能不会被爬取。确保所有收集器都正在运行并且可通过集群网络访问。您可以使用以下命令查看收集器 Pod 的状态：

kubectl -n gmp-system get pods --selector="app.kubernetes.io/name=collector"

在 GKE Autopilot 集群上，此命令看起来略有不同：

kubectl -n gke-gmp-system get pods --selector="app.kubernetes.io/name=collector"

您可以使用以下命令调查各个收集器 pod（例如名为 collector-12345 的收集器 pod）：

kubectl -n gmp-system describe pods/collector-12345

在 GKE Autopilot 集群上，运行以下命令：

kubectl -n gke-gmp-system describe pods/collector-12345

如果收集器健康状况不佳，请参阅 GKE 工作负载问题排查。

如果收集器运行状况良好，请检查操作者日志。要检查操作者日志，请先运行以下命令以查找操作者 pod 名称：

kubectl -n gmp-system get pods --selector="app.kubernetes.io/name=gmp-collector"

在 GKE Autopilot 集群上，运行以下命令：

kubectl -n gke-gmp-system get pods --selector="app.kubernetes.io/name=gmp-collector"

然后，使用以下命令检查操作者日志（例如名为 gmp-operator-12345 的操作者 pod）：

kubectl -n gmp-system logs pods/gmp-operator-12345

在 GKE Autopilot 集群上，运行以下命令：

kubectl -n gke-gmp-system logs pods/gmp-operator-12345

目标健康状况不佳

如果您启用了目标状态功能，但一个或多个 PodMonitoring 或 ClusterPodMonitoring 资源的 Status.Endpoint Statuses.Unhealthy Targets 字段值不是 0，则收集器无法爬取一个或多个目标。

查看 Sample Groups 字段，该字段按错误消息对目标进行分组，并找到 Last Error 字段。Last Error 字段来自 Prometheus，并告知您无法爬取目标的原因。要解决此问题，请使用示例目标作为参考，并检查爬取端点是否正在运行。

未经授权的爬取端点

如果您看到以下错误之一并且爬取目标需要授权，则说明您的收集器未设置为使用正确的授权类型，或者使用了错误的授权载荷：

server returned HTTP status 401 Unauthorized
x509: certificate signed by unknown authority

如需解决此问题，请参阅配置授权的爬取端点。

超出配额

如果您看到以下错误，则表示您已超出 Cloud Monitoring API 的注入配额：

“429：配额指标‘时序注入请求’和使用方‘project_number：PROJECT_NUMBER’的服务‘monitoring.googleapis.com’的限制‘每分钟的时序注入请求数’已超出配额，rateLimitExceeded”

此错误最常发生在首次启动托管式服务时。默认配额（每秒注入 10 万个样本）将用完。

要解决此问题，请提交增加 Monitoring API 注入配额的申请。如需帮助，请与Google Cloud 支持团队联系。如需详细了解配额，请参阅 Cloud 配额文档。

节点的默认服务账号缺少权限

如果您看到以下错误之一，则表示节点上的默认服务账号可能缺少权限：

“执行查询：查询 Prometheus 时出错：client_error：客户端错误：403”
“就绪性探测失败：HTTP 探测失败并显示状态代码：503”
“查询 Prometheus 实例时出错”

Managed Service for Prometheus 中的代管式收集和代管式规则评估器都使用节点上的默认服务账号。此账号在创建时拥有所有必要的权限，但客户有时会手动移除 Monitoring 权限。此移除操作会导致收集和规则评估失败。

如需验证服务账号的权限，请执行以下操作之一：

确定底层 Compute Engine 节点名称，然后运行以下命令：
```
gcloud compute instances describe NODE_NAME --format="json" | jq .serviceAccounts
```
查找字符串 https://www.googleapis.com/auth/monitoring。如有必要，请按照服务账号配置错误中的说明添加 Monitoring。
转到集群中的底层虚拟机并检查节点的服务账号的配置：
1. 在 Google Cloud 控制台中，前往 Kubernetes 集群页面：
  转到 Kubernetes 集群
  
  如果您使用搜索栏查找此页面，请选择子标题为 Kubernetes Engine 的结果。
2. 选择节点，然后点击节点表中的节点的名称。
3. 点击详细信息。
4. 点击虚拟机实例链接。
5. 找到 API 和身份管理窗格，然后点击显示详细信息。
6. 查找具有完整访问权限的 Stackdriver Monitoring API。

数据源同步器或 Prometheus 界面也可能被配置为查看错误的项目。如需了解如何验证您在查询预期的指标范围，请参阅更改查询的项目。

服务账号配置错误

如果您看到以下错误消息之一，则表示收集器使用的服务账号没有正确的权限：

“code = PermissionDenied desc = Permission monitoring.timeSeries.create denied（或资源可能不存在）”
“Google：找不到默认凭据。如需了解详情，请参阅 https://developers.google.com/accounts/docs/application-default-credentials。”

如需验证您的服务账号是否具有正确的权限，请执行以下操作：

在 Google Cloud 控制台中，前往 IAM 页面：
前往 IAM

如果您使用搜索栏查找此页面，请选择子标题为 IAM 和管理的结果。
确认主账号列表中的服务账号名称。确认服务账号的名称拼写是否正确。然后，点击修改。
选择角色字段，然后点击目前使用的角色并搜索 Monitoring Metric Writer 或 Monitoring Editor 角色。如果服务账号不具有上述任一角色，则为服务账号授予 Monitoring Metric Writer (roles/monitoring.metricWriter) 角色。

如果您在非 GKE Kubernetes 上运行，则必须将凭据明确传递给收集器和规则评估器。您必须在 rules 和 collection 部分中重复凭据。如需了解详情，请参阅明确提供凭据（针对收集）或明确提供凭据（针对规则）。

服务账号的范围通常限定为单个 Google Cloud 项目。使用一个服务账号写入多个项目的指标数据（例如，一个代管式规则评估器查询多项目指标范围时）可能会导致此权限错误。如果您使用的是默认服务账号，请考虑配置专用服务账号，以便您可以安全地为多个项目添加 monitoring.timeSeries.create 权限。如果您无法授予此权限，则可以使用指标重标记来将 project_id 标签重写为其他名称。之后，项目 ID 会默认为 Prometheus 服务器或规则评估器在其中运行的 Google Cloud 项目。

爬取配置无效

如果您看到以下错误，则表示您的 PodMonitoring 或 ClusterPodMonitoring 格式不正确：

“发生内部错误：调用网络钩子失败：‘validate.podmonitorings.gmp-operator.gmp-system.monitoring.googleapis.com": Post "https://gmp-operator.gmp-system.svc:443/validate/monitoring.googleapis.com/v1/podmonitorings?timeout=10s’：EOF”

要解决此问题，请确保您的自定义资源根据规范设置了正确的格式。

无法解析的准入网络钩子或无效的 HTTP 客户端配置

在低于 0.12 版的 Managed Service for Prometheus 版本中，您可能会看到类似于以下内容的错误，这与非默认命名空间中的 Secret 注入有关：

“admission webhook ‘validate.podmonitorings.gmp-operator.gmp-system.monitoring.googleapis.com’拒绝了请求：端点的无效定义（索引为 0）：无法解析或无效的 Prometheus HTTP 客户端配置：必须使用命名空间“my-custom-namespace”，但得到的是“default””

要解决此问题，请升级到 0.12 版或更高版本。

爬取间隔和超时问题

使用 Managed Service for Prometheus 时，爬取超时不能大于爬取间隔。如需检查日志是否存在此问题，请运行以下命令：

kubectl -n gmp-system logs ds/collector prometheus

在 GKE Autopilot 集群上，运行以下命令：

kubectl -n gke-gmp-system logs ds/collector prometheus

查找以下消息：

“作业名称为‘PodMonitoring/gmp-system/example-app/go-metrics’的爬取配置的爬取超时大于爬取间隔”

如需解决此问题，请将爬取间隔的值设置为等于或大于爬取超时值。

指标上缺少 TYPE

如果您看到以下错误，则表示指标缺少类型信息：

“未找到指标名称‘{metric_name}’的元数据”

如需验证缺少类型信息是否是问题所在，请检查导出应用的 /metrics 输出。如果没有如下所示的行，则表示缺少类型信息：

# TYPE {metric_name} <type>

某些库（例如来自 VictoriaMetrics 1.28.0 之前版本的库）会有意删除类型信息。Managed Service for Prometheus 不支持这些库。

时序冲突

如果您看到以下错误之一，则表示可能有多个收集器尝试写入同一时序：

“无法写入一个或多个时序：一个或多个点的写入频率高于为指标配置的最大采样周期。”
“无法写入一个或多个时序：点必须按顺序写入。指定的一个或多个点的结束时间早于最近的点。”

最常见的原因和解决方案如下：

使用高可用性对。Managed Service for Prometheus 不支持传统的高可用性收集。使用此配置可能会创建多个收集器以尝试将数据写入同一时间序列，从而导致此错误。

如需解决此问题，请将副本数减少到 1 来停用副本收集器，或使用受支持的高可用性方法。
使用重标记规则，尤其是对作业或实例进行操作的规则。Managed Service for Prometheus 通过 {project_id, location, cluster, namespace, job, instance} 标签组合部分标识唯一时间序列。使用重标记规则丢弃这些标签（尤其是 job 和 instance 标签）通常会导致冲突。建议不要重写这些标签。

如需解决此问题，请删除导致问题的规则；这通常可以通过使用 labeldrop 操作的 metricRelabeling 规则来实现。您可以通过注释掉所有重新添加标签规则并一次恢复一条规则来识别有问题的规则，直到错误再次出现。

导致时序冲突的不太常见的原因是爬取间隔短于 5 秒。Managed Service for Prometheus 支持的最小爬取间隔为 5 秒。

超出标签数的限制

如果您看到以下错误，则表示您可能为某个指标定义了过多标签：

“无法写入一个或多个时序：新标签会导致指标 prometheus.googleapis.com/METRIC_NAME 超过 PER_PROJECT_LIMIT 个标签”。

如果您频繁更改指标的定义，使得某个指标名称在指标的整个生命周期内具有多组独立的标签键，则通常会发生此错误。Cloud Monitoring 对每个指标的标签数设定了限制；如需了解详情，请参阅用户定义的指标的限制。

解决此问题有三个步骤：

确定给定指标具有过多标签或频繁更改的标签的原因。
- 您可以使用 metricDescriptors.list 页面上的 APIs Explorer 微件来调用该方法。如需了解详情，请参阅 APIs Explorer。如需查看示例，请参阅列出指标和资源类型。
解决问题的来源，这可能涉及调整 PodMonitoring 的重新添加标签规则、更改导出器或修复插桩。
删除此指标的指标描述符（这会导致数据丢失），以便使用更小、更稳定的标签集重新创建指标描述符。您可以使用 metricDescriptors.delete 方法来执行此操作。

最常见的问题来源包括：

从对指标附加了动态标签的导出程序或应用收集指标。例如，具有其他容器标签和环境变量的自行部署 cAdvisor 或注入动态注解的 DataDog 代理。

如需解决此问题，您可以在 PodMonitoring 上使用 metricRelabeling 部分来保留或丢弃标签。某些应用和导出器还支持更改导出的指标的配置。例如，cAdvisor 具有许多高级运行时设置，可动态添加标签。使用托管式收集时，我们建议您使用内置自动 kubelet 收集。
使用重新添加标签规则（尤其是动态附加标签名称的规则），可能会导致标签数超出预期。

如需解决此问题，请删除导致问题的规则条目。

有关创建和更新指标及标签的速率限制

如果您看到以下错误，则表示已达到创建新指标并将新指标标签添加到现有指标的每分钟速率限制：

“请求受到限制。您已经达到每个项目每分钟的指标定义或标签定义更改次数限制。”

此速率限制通常仅在首次与 Managed Service for Prometheus 集成时才会达到，例如，迁移现有的成熟 Prometheus 部署以使用自部署收集。这不是注入数据点的速率限制。此速率限制仅在创建全新指标或向现有指标添加新标签时适用。

此配额是固定的，但在新指标和指标标签的创建达到每分钟限制时，任何问题都会自动解决。

有关指标描述符数量的限制

如果您看到以下错误，则表示已达到单个Google Cloud 项目中的指标描述符数量配额限制：

“您的指标描述符配额已用尽。”

默认情况下，此限制设置为 25,000。虽然如果您的指标格式正确，则可以根据请求提升此配额，但达到此上限的可能性极大，因为您会将格式错误的指标名称注入到系统中。

Prometheus 具有一个维度数据模型，该模型应将集群或命名空间名称等信息编码为标签值。当维度信息嵌入到度量名称本身中时，度量描述符的数量就会无限增加。此外，由于在这种情况下标签没有得到正确使用，跨集群、命名空间或服务查询和聚合数据变得更加困难。

Cloud Monitoring 和 Managed Service for Prometheus 均不支持非维度指标，例如为 StatsD 或 Graphite 设置格式的指标。虽然大多数 Prometheus 导出器都可以开箱即用正确配置，但某些导出工具（如 StatsD 导出器、Vault 导出器或 Istio 附带的 Envoy 代理）必须明确配置为使用标签而不是将信息嵌入指标名称中。格式错误的指标名称示例包括：

request_path_____path_to_a_resource____istio_request_duration_milliseconds
envoy_cluster_grpc_method_name_failure
envoy_cluster_clustername_upstream_cx_connect_ms_bucket
vault_rollback_attempt_path_name_1700683024
service__________________________________________latency_bucket

如需确认此问题，请执行以下操作：

在 Google Cloud 控制台中，选择与错误关联的 Google Cloud 项目。
在 Google Cloud 控制台中，前往 指标管理页面：
进入指标管理

如果您使用搜索栏查找此页面，请选择子标题为监控的结果。
确认“活跃”和“非活跃”指标的总和超过 25,000。在大多数情况下，您应该会看到大量非活跃指标。
在“快速过滤条件”面板中选择“非活跃”，浏览列表，并查找模式。
在“快速过滤条件”面板中选择“活跃”，按计费样本数降序排序，浏览列表，并查找模式。
按计费样本数升序排序，浏览列表，并查找模式。

或者，您可以使用 Metrics Explorer 确认此问题：

在 Google Cloud 控制台中，选择与错误关联的 Google Cloud 项目。
在 Google Cloud 控制台中，前往 Metrics Explorer 页面：
进入 Metrics Explorer

如果您使用搜索栏查找此页面，请选择子标题为监控的结果。
在查询构建器中，点击一个指标，然后清除“有效”复选框。
在搜索栏中输入“prometheus”。
查找指标名称中的任何模式。

确定指示指标格式错误的模式后，您可以通过在来源处修复导出器，然后删除违规指标描述符来缓解问题。

为防止再次出现此问题，您必须先配置相关导出器，使其不再发出格式错误的指标。我们建议您查看导出器的相关帮助文档。您可以通过手动访问 /metrics 端点并检查导出的指标名称来确认问题已解决。

然后，您可以使用 projects.metricDescriptors.delete 方法删除格式错误的指标来释放配额。为了更轻松地遍历格式错误的指标列表，我们提供了您可以使用的 Golang 脚本。此脚本接受可识别格式错误指标的正则表达式，并删除与模式匹配的任何指标描述符。由于指标删除操作是不可逆转的，因此我们强烈建议您先使用试运行模式运行脚本。

短时间运行的目标缺失某些指标

Google Cloud Managed Service for Prometheus 已部署，并且没有配置错误；但是缺失某些指标。

确定生成部分缺失指标的部署。如果部署是 Google Kubernetes Engine 的 CronJob，则确定作业通常运行多长时间：

查找 Cron 作业部署 yaml 文件，并查找状态（会在文件末尾列出）。以下示例中的状态显示作业运行了一分钟：
```
  status:
    lastScheduleTime: "2024-04-03T16:20:00Z"
    lastSuccessfulTime: "2024-04-03T16:21:07Z"
```
如果运行时间少于五分钟，则作业运行的时间不够长，无法持续爬取指标数据。

如需解决此问题，请尝试以下操作：
- 配置作业，以确保它在作业启动后至少五分钟内不会退出。
- 配置作业以检测在退出之前是否爬取了指标。此功能需要库支持。
- 考虑创建一个基于日志的分布值指标，而不是收集指标数据。如果数据以低速率发布，建议使用此方法。如需了解详情，请参阅基于日志的指标。
如果运行时间超过五分钟或或是运行时间不一致，请参阅本文档的目标健康状况不佳部分。

导出工具中的收集问题

如果导出工具中的指标未被注入，请进行如下检查：

使用 kubectl port-forward 命令验证导出工具是否正常运行并能够导出指标。

例如，如需检查命名空间 test 中设置有 app.kubernetes.io/name=redis 选择器的 Pod 是否在端口 9121 上的 /metrics 端点发出指标，您可以通过输入以下命令来执行端口转发：
```
kubectl port-forward "$(kubectl get pods -l app.kubernetes.io/name=redis -n test -o jsonpath='{.items[0].metadata.name}')" 9121
```
使用浏览器或另一个终端会话中的 curl 访问端点 localhost:9121/metrics，以验证导出工具是否公开了指标以供抓取。
检查您是否可以在 Google Cloud 控制台中查询指标，但不能在 Grafana 中查询指标。如果是这样，则问题出在 Grafana，而不是指标收集功能。
通过检查收集器公开的 Prometheus 网页界面，验证代管式收集器是否能够抓取导出工具中的内容。
1. 确定在运行导出工具的同一节点上运行的代管式收集器。例如，如果您的导出工具在命名空间 test 中的 Pod 上运行，并且这些 Pod 带有 app.kubernetes.io/name=redis 标签，则可通过以下命令确定在同一节点上运行的代管式收集器：
```
kubectl get pods -l app=managed-prometheus-collector --field-selector="spec.nodeName=$(kubectl get pods -l app.kubernetes.io/name=redis -n test -o jsonpath='{.items[0].spec.nodeName}')" -n gmp-system -o jsonpath='{.items[0].metadata.name}'
```
2. 从代管式收集器的端口 19090 设置端口转发：
```
kubectl port-forward POD_NAME -n gmp-system 19090
```
3. 导航到 localhost:19090/targets 网址以访问网页界面。如果导出工具列为目标之一，则表示您的代管式收集器能够成功抓取导出工具中的内容。

收集器内存不足 (OOM) 错误

如果您使用的是受管理集合，并且在收集器上遇到内存不足 (OOM) 错误，请考虑启用 Pod 纵向自动扩缩。

Operator 内存不足 (OOM) 错误

如果您使用的是托管式收集，并且在运算符上遇到内存不足 (OOM) 错误，请考虑停用目标状态功能。目标状态功能可能会导致较大集群中的运算符性能问题。

时序过多或 503 响应和已超出上下文截止期限错误增加，尤其是在峰值负载期间

如果您看到以下错误消息，也可能会遇到此问题：

“受监控的资源 (abcdefg) 的时序过多（prometheus 指标）”

“已超出上下文截止期限”是 Monarch 针对没有特定原因的任何注入端问题返回的通用 503 错误。在正常使用系统时，预计会出现极少量的“已超出上下文截止期限”错误。

但是，您可能会发现一个模式，即“已超出上下文截止期限”错误会增加并对数据注入产生重大影响。一个潜在的根本原因是，您可能目标标签设置不正确。如果以下几点成立，则更有可能发生这种情况：

“已超出上下文截止期限”错误呈现周期性模式，即在您负载较高或由 location 标签指定的 Google Cloud 区域负载较高期间，该错误会增加。
随着您向服务添加更多指标，您会看到更多错误。
您使用的是 Prometheus 的 statsd_exporter、Envoy for Istio、SNMP 导出器、Prometheus Pushgateway、kube-state-metrics，或者您使用的是类似的导出器，该导出器会代表在您的环境中运行的其他资源中间传递和报告指标。此问题仅会发生在由此类导出器发出的指标中。
您注意到，受影响的指标的 instance 标签值中往往包含字符串 localhost，或者 instance 标签值非常少。
如果您有权访问集群内 Prometheus 收集器查询界面，则可以看到指标已成功收集。

如果上述几点成立，则表明导出器可能错误地配置了资源标签，这与 Monarch 的要求相冲突。

Monarch 通过在目标中存储相关数据来实现扩缩。Managed Service for Prometheus 的目标由 prometheus_target 资源类型以及 project_id、location、cluster、namespace、job 和 instance 标签定义。如需详细了解这些标签和默认行为，请参阅在托管式收集中预留的标签或在自行部署的收集中预留的标签。

在这些标签中，instance 是最低级层目标字段，因此正确设置此字段非常重要。在 Monarch 中高效存储和查询指标需要相对较小且多样的目标，理想情况下，目标大小应与典型虚拟机或容器的大小大致相同。在典型场景中运行 Managed Service for Prometheus 时，收集器内置的开源默认行为通常会为 job 和 instance 标签选择合适的值，因此本文档的其他部分未涵盖此主题。

但是，如果您运行的导出器代表集群中的其他资源报告指标（例如 statsd_exporter），则默认逻辑可能会失败。instance 的值不是设置为发出指标的资源的 IP:端口，而是设置为 statsd_exporter 本身的 IP:端口。job 标签可能会加剧此问题，因为它与指标包或服务无关，并且设置为 statsd-exporter 后，还会缺乏多样性。

发生这种情况时，给定集群和命名空间中来自此导出器的所有指标都会写入同一 Monarch 目标中。随着此目标变大，写入操作开始失败，您会看到“已超出上下文截止期限”503 错误增加。

您可以与 Cloud Customer Care 联系，让他们检查“Monarch Quarantiner 住院治疗日志”，以验证您是否遇到此问题。在您的工单中添加六个预留标签的任何已知值。请务必报告发送数据的 Google Cloud 项目，而不是指标范围的 Google Cloud 项目。

如需解决此问题，您必须更改收集流水线，以使用更多样化的目标标签。一些潜在的策略（按有效性顺序列出）包括：

您可以为每个虚拟机运行单独的导出器作为节点代理，也可以将导出器部署为 Kubernetes Daemonset，而不是运行一个代表所有虚拟机或节点报告指标的中央导出器。为避免将 instance 标签设置为 localhost，请勿在与收集器相同的节点上运行导出器。
- 如果在对导出器进行分片后，您仍需要更高程度的目标多样性，请在每个虚拟机上运行多个导出器，并在逻辑上为每个导出器分配不同的指标集。然后，为每组逻辑指标使用不同的作业名称，而不是使用静态名称 statsd-exporter 来发现作业。job 值不同的实例会被分配给 Monarch 中的不同目标。
- 如果您使用的是 kube-state-metrics，请使用内置的水平分片来创建更高程度的目标多样性。其他导出器可能具有类似的功能。
如果您使用的是 OpenTelemetry 或自行部署的收集功能，请使用重新添加标签规则将 instance 的值从导出器的 IP:端口或名称更改为生成指标的资源的 IP:端口或唯一名称。您很可能已经捕获了来源资源的 IP:端口或名称作为指标标签。您还必须将 Prometheus 或 OpenTelemetry 配置中的 honor_labels 字段设置为 true。
如果您使用的是 OpenTelemetry 或自行部署的收集功能，请将重新添加标签规则与 hashmod 函数结合使用，针对同一导出器运行多个抓取作业，并确保为每个抓取配置选择不同的实例标签。

无错误，无指标

如果您使用的是代管式收集，则不会看到任何错误，但数据未显示在 Cloud Monitoring 中，最可能的原因是指标导出器或爬取配置未正确配置。除非您先应用有效的爬取配置，否则 Managed Service for Prometheus 不会发送任何时序数据。

如需确定这是否是原因，请尝试部署示例应用和示例 PodMonitoring 资源。现在，如果您看到 up 指标（可能需要几分钟时间），则表示爬取配置或导出器存在问题。

根本原因可能是存在任意数量的内容。我们建议您检查以下各项：

PodMonitoring 是否引用了有效端口。
导出器的 Deployment 规范是否具有正确命名的端口。
选择器（最常见的是 app）是否与 Deployment 和 PodMonitoring 资源匹配。
您是否可以通过手动访问预期端点和端口来查看其数据。
您已将 PodMonitoring 资源安装在要抓取的应用所在的命名空间中。请勿在 gmp-system 或 gke-gmp-system 命名空间中安装任何自定义资源或应用。
指标和标签名称是否与 Prometheus 的验证正则表达式匹配。Managed Service for Prometheus 不支持以 _ 字符开头的标签名称。
您使用的不是一组导致所有数据被过滤掉的过滤条件。在 OperatorConfig 资源中使用 collection 过滤条件时要特别注意过滤条件没有冲突。
如果在 Google Cloud外部运行，则 project 或 project-id 是否设置为有效的 Google Cloud 项目，且 location 是否设置为有效的 Google Cloud 区域。您不能将 global 用作 location 的值。
您的指标是四种 Prometheus 指标类型之一。某些库（例如 Kube State Metrics）公开了 Info、Stateset 和 GaugeHistogram 等 OpenMetrics 指标类型，但这些指标类型不受 Managed Service for Prometheus 支持并且会被静默删除。

防火墙

防火墙可能会导致注入和查询问题。您必须将防火墙配置为允许 POST 和 GET 请求发送到 Monitoring API 服务 monitoring.googleapis.com，以允许注入和查询。

关于并发修改的错误

“对项目配置执行的并发修改过多”错误消息通常是暂时的，几分钟后会解决。此错误通常是由于移除了影响许多不同指标的重新添加标签规则而导致的。移除操作会导致形成对项目中指标描述符的更新队列。处理队列后，该错误会消失。

如需了解详情，请参阅有关创建和更新指标及标签的限制。

由 Monarch 阻止和取消的查询

如果您看到以下错误，则表示已达到可针对任何给定项目运行的并发查询数量的内部限制：

"internal: expanding series: generic::aborted: invalid status monarch::220: Cancelled due to the number of queries whose evaluation is blocked waiting for memory is 501, which is equal to or greater than the limit of 500."

为防止滥用，系统会对 Monarch 中可并发运行的来自一个项目的查询数施加硬性限制。在典型的 Prometheus 使用情况下，查询应该很快，并且绝不应达到此限制。

如果您发出大量并发查询，且这些查询的运行时间超出预期，则可能会达到此限制。与请求不到 25 小时数据的查询相比，请求超过 25 小时数据的查询的执行速度通常较慢；查询回溯时间越长，查询的速度预计就越慢。

通常，此问题是由于以低效的方式运行大量长时间回溯规则而触发的。例如，您可以设置很多规则，让它们每分钟运行一次并请求 4 周的速率。如果这些规则中的每条规则都需要很长时间才能运行，最终可能会导致查询备份等待为您的项目运行，从而导致 Monarch 限制查询。

如需解决此问题，您需要增加长时间回溯规则的评估间隔时间，使其不每 1 分钟运行一次。每 1 分钟运行一次（4 周速率）查询是不必要的；4 周有 40,320 分钟，因此每分钟几乎不会给您提供额外的信号（您的数据最多会变化 1/40,320）。对于请求 4 周速率的查询，使用 1 小时的评估间隔时间应该就足够了。

解决因执行低效的长时间运行查询过于频繁而导致的瓶颈后，此问题应该会自行解决。

不兼容的值类型

如果您在注入或查询时看到以下错误，则表示您的指标存在值类型不兼容问题：

“指标 prometheus.googleapis.com/metric_name/gauge 的值类型必须为 INT64，但为 DOUBLE”
“指标 prometheus.googleapis.com/metric_name/gauge 的值类型必须为 DOUBLE，但为 INT64”
“无法写入一个或多个时序：指标 prometheus.googleapis.com/target_info/gauge 的值类型与现有值类型 (INT64) 冲突”

您可能会在提取时看到此错误，因为 Monarch 不支持将 DOUBLE 类型的数据写入 INT64 类型的指标，也不支持将 INT64 类型的数据写入 DOUBLE 类型的指标。使用多项目指标范围查询时，您也可能会看到此错误，因为 Monarch 无法将一个项目中的 DOUBLE 类型指标与另一个项目中的 INT64 类型指标进行合并。

只有在 OpenTelemetry 收集器报告数据时才会发生此错误，如果您同时使用 OpenTelemetry（使用 googlemanagedprometheus 导出器）和 Prometheus 报告同一指标的数据，则更有可能发生此错误，这在 target_info 指标中很常见。

原因可能是以下任一情况：

您正在收集 OTLP 指标，而 OTLP 指标库将其值类型从 DOUBLE 更改为 INT64，就像 OpenTelemetry 的 Java 指标一样。新版指标库现在与旧版指标库创建的指标值类型不兼容。
您同时使用 Prometheus 和 OpenTelemetry 收集 target_info 指标。Prometheus 会将此指标收集为 DOUBLE，而 OpenTelemetry 会将此指标收集为 INT64。现在，您的收集器会将两种值类型写入同一项目中的同一指标，并且只有首先创建指标描述符的收集器会成功。
您在一个项目中使用 OpenTelemetry 作为 INT64 收集 target_info，而在另一个项目中使用 Prometheus 作为 DOUBLE 收集 target_info。将这两个指标添加到同一指标范围，然后通过指标范围查询该指标，会导致不兼容的指标值类型之间的联合无效。

可以通过执行以下操作，强制所有指标值类型为 DOUBLE 来解决此问题：

重新配置 OpenTelemetry 收集器，以通过启用 feature-gate exporter.googlemanagedprometheus.intToDouble 标志强制所有指标为 DOUBLE。
删除所有 INT64 指标描述符，并将其重新创建为 DOUBLE。您可以使用 delete_metric_descriptors.go 脚本来自动执行此操作。

按照这些步骤操作会删除存储为 INT64 指标的所有数据。除了删除 INT64 指标之外，没有其他方法可以完全解决此问题。

排查 Managed Service for Prometheus 的问题 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

查询端问题

Secret 配置错误或输入错误

Grafana 的 HTTP 方法不正确

大型或长时间运行的查询超时

标签验证错误

超出配额

多个项目的指标

未指定受监控的资源类型

收集器界面和 Google Cloud 控制台之间的计数器、直方图和摘要原始值不匹配

计数器数据丢失或直方图损坏

pod 重启后 Grafana 数据未保留

不一致的查询或提醒规则结果会自动自行修正

导入 Grafana 信息中心

注入端问题

端点状态缺失或太旧

收集器比例小于 1

目标健康状况不佳

未经授权的爬取端点

超出配额

节点的默认服务账号缺少权限

服务账号配置错误

爬取配置无效

无法解析的准入网络钩子或无效的 HTTP 客户端配置

爬取间隔和超时问题

指标上缺少 TYPE

时序冲突

超出标签数的限制

有关创建和更新指标及标签的速率限制

有关指标描述符数量的限制

短时间运行的目标缺失某些指标

导出工具中的收集问题

收集器内存不足 (OOM) 错误

Operator 内存不足 (OOM) 错误

时序过多或 503 响应和已超出上下文截止期限错误增加，尤其是在峰值负载期间

无错误，无指标

防火墙

关于并发修改的错误

由 Monarch 阻止和取消的查询

不兼容的值类型

排查 Managed Service for Prometheus 的问题