使用可观测性功能检测潜在故障

Last reviewed 2024-12-30 UTC

Google Cloud 架构完善框架的可靠性支柱中的这一原则提供了一些建议,可帮助您主动识别可能发生错误和故障的领域。

此原则与可靠性的观测 重点领域相关。

原则概览

为了在Google Cloud中保持和提高工作负载的可靠性,您需要使用指标、日志和轨迹来实现有效的可观测性。

  • 指标是指您希望在特定时间间隔内跟踪的应用活动的数值衡量结果。例如,您可能需要跟踪请求率和错误率等技术指标,这些指标可用作服务等级指标 (SLI)。您可能还需要跟踪特定于应用的业务指标,例如已下单数量和已收款项。
  • 日志是应用或系统内发生的离散事件的时间戳记录。该事件可能是故障、错误或状态变化。日志可能包含指标,您还可以将日志用于 SLI。
  • 轨迹表示单个用户或交易在多个单独的应用或应用组件中的历程。例如,这些组件可以是微服务。轨迹可帮助您跟踪旅程中使用的组件、存在的瓶颈以及旅程所花费的时间。

借助指标、日志和跟踪记录,您可以持续监控系统。 全面的监控有助于您找出错误发生的位置和原因。您还可以在发生错误之前检测到潜在的故障。

建议

如需高效检测潜在故障,请考虑以下各子部分中的建议。

获取全面的数据洞见

如需跟踪响应时间和错误率等关键指标,请使用 Cloud MonitoringCloud Logging。 这些工具还有助于确保指标始终满足工作负载的需求。

如需做出以数据为依据的决策,请分析默认服务指标,了解组件依赖关系及其对整体工作负载性能的影响。

如需自定义监控策略,请使用 Google Cloud SDK 创建并发布自己的指标。

主动排查问题

在 Google Cloud中实现强大的错误处理功能,并为工作负载的所有组件启用日志记录。启用 Cloud Storage 访问日志VPC 流日志等日志。

配置日志记录时,请考虑相关费用。 为了控制日志记录费用,您可以在日志接收器上配置排除项过滤条件,以排除某些日志,使其不被存储。

优化资源利用率

监控 CPU 消耗量、网络 I/O 指标和磁盘 I/O 指标,以检测 GKE、Compute Engine 和 Dataproc 等服务中资源配置不足和过度配置的情况。如需查看受支持服务的完整列表,请参阅 Cloud Monitoring 概览

确定提醒的优先级

对于提醒,请重点关注关键指标,设置适当的阈值以最大限度减少提醒疲劳,并确保及时响应重大问题。这种有针对性的方法可让您主动维护工作负载可靠性。如需了解详情,请参阅提醒概览