良好架构框架:费用优化支柱

Last reviewed 2025-02-14 UTC

Google Cloud Well-Architected Framework 中的“费用优化”支柱描述了用于优化 Google Cloud中工作负载费用的原则和建议。

目标受众群体包括:

  • 负责战略性成本管理的 CTO、CIO、CFO 和其他高管。
  • 在组织云采用历程的各个阶段做出影响成本的决策的架构师、开发者、管理员和运维人员。

本地工作负载和云端工作负载的费用模式差异很大。本地 IT 成本包括资本支出 (CapEx) 和运营支出 (OpEx)。本地硬件和软件资产的购置成本会在资产的运营期内折旧。在云端,大多数云资源的费用都视为运营支出 (OpEx),即在消耗云资源时产生费用。这一根本区别凸显了以下费用优化核心原则的重要性。

如需了解专门针对 AI 和机器学习工作负载的费用优化原则和建议,请参阅 Well-Architected Framework 中的 AI 和机器学习视角:费用优化

核心原则

Well-Architected Framework 的费用优化支柱中的建议与以下核心原则相对应:

  • 使云支出与业务价值保持一致:通过使 IT 支出与业务目标保持一致,确保云资源可带来可衡量的业务价值。
  • 培养成本意识文化:确保组织中的每个人在做出决策和开展活动时都会考虑成本影响,并确保他们能够获取做出明智决策所需的成本信息。
  • 优化资源使用情况:仅预配所需的资源,并且只需为使用的资源付费。
  • 持续优化:持续监控云资源使用情况和费用,并根据需要主动进行调整,以优化支出。这种方法涉及在潜在的成本低效问题变得严重之前发现并解决它们。

这些原则与云 FinOps 的核心原则密切相关。 无论组织在云中的规模或成熟程度如何,FinOps 都适用于任何组织。通过采纳这些原则并遵循相关建议,您可以在整个上云过程中控制和优化费用。

贡献者

作者:Nicolas Pintaux | 客户工程师,应用现代化改造专家

其他贡献者:

使云支出与业务价值保持一致

Google Cloud 架构完善框架的成本优化支柱中的这一原则提供了相关建议,可帮助您根据组织的业务目标调整 Google Cloud 资源的使用方式。

原则概览

为了有效管理云费用,您需要最大限度地提高云资源提供的业务价值,并最大限度地降低总拥有成本 (TCO)。在评估云工作负载的资源选项时,不仅要考虑资源预配和使用成本,还要考虑资源管理成本。例如,Compute Engine 上的虚拟机 (VM) 可能是托管应用的经济实惠之选。不过,考虑到维护、修补和扩缩虚拟机的开销,总拥有成本可能会增加。另一方面,Cloud Run 等无服务器服务可以提供更高的商业价值。较低的运营开销可让您的团队专注于核心活动,并有助于提高敏捷性。

为确保云资源发挥最佳价值,请评估以下因素:

  • 预配和使用费用:购买、预配或使用资源时产生的费用。
  • 管理费用:运营和维护资源的经常性支出,包括修补、监控和伸缩等任务。
  • 间接费用:您可能需要支付的用于管理停机、数据丢失或安全违规等问题的费用。
  • 业务影响:资源带来的潜在益处,例如收入增加、客户满意度提高和产品上市时间缩短。

通过将云支出与业务价值保持一致,您可以获得以下好处:

  • 以价值为导向的决策:鼓励团队优先考虑可带来最大业务价值的解决方案,并同时考虑短期和长期成本影响。
  • 明智的资源选择:您的团队拥有评估各种部署方案的业务价值和总拥有成本所需的信息和知识,因此他们可以选择经济实惠的资源。
  • 跨团队协调一致:业务、财务和技术团队之间的跨职能协作可确保云决策与组织的总体目标保持一致。

建议

为了使云支出与业务目标保持一致,请考虑以下建议。

优先考虑托管式服务和无服务器产品

尽可能选择托管式服务和无服务器产品,以减少运营开销和维护成本。这样,您的团队就可以专注于核心业务活动。它们可以加快新功能和新功能的交付速度,并有助于推动创新和价值创造。

以下示例说明了如何实现此建议:

在成本效益与业务敏捷性之间取得平衡

控制成本和优化资源利用率是非常重要的目标。不过,您必须在实现这些目标的同时,兼顾对灵活基础设施的需求,以便快速创新、快速应对变化并更快地创造价值。以下示例说明了如何实现这种平衡:

  • 采用 DORA 指标来衡量软件交付绩效。更改失败率 (CFR)、检测时间 (TTD) 和恢复时间 (TTR) 等指标有助于识别和修复开发和部署流程中的瓶颈。通过减少停机时间和加快交付速度,您可以同时实现运营效率和业务敏捷性。
  • 遵循站点可靠性工程 (SRE) 实践,以提高运营可靠性。SRE 专注于自动化、可观测性和事件响应,有助于减少停机时间、缩短恢复时间并提高客户满意度。通过最大限度地缩短停机时间并提高运营可靠性,您可以避免收入损失,并避免因需要过度预配资源来应对中断而造成的浪费。

启用自助优化

为团队提供自助式费用优化工具、可观测性工具和资源管理平台,鼓励团队培养实验和探索文化。使他们能够自主预配、管理和优化云资源。这种方法有助于培养主人翁意识、加快创新速度,并确保团队能够快速响应不断变化的需求,同时注意成本效益。

采用和实现 FinOps

采用 FinOps 来打造协作式环境,让每个人都能做出明智的决策,在成本和价值之间取得平衡。FinOps 有助于培养财务责任感,并促进云端有效的费用优化。

树立以价值为导向且注重总拥有成本的思维模式

鼓励团队成员以整体视角看待云支出,重点关注总拥有成本,而不仅仅是前期成本。使用价值流映射等技术,直观呈现并分析软件交付流程中的价值流,找出需要改进的方面。为应用和服务实施单位价格,以便精细了解费用驱动因素,并发现可优化费用的机会。如需了解详情,请参阅借助 Cloud FinOps 最大限度地提高业务价值

培养费用意识文化

Google Cloud 架构完善框架的“费用优化”支柱中的这一原则提供了相关建议,可帮助您在整个组织内提高费用意识,并确保团队成员拥有做出明智决策所需的费用信息。

按照惯例,成本管理责任可能集中在少数选定的利益相关者身上,并且主要侧重于初始项目架构决策。不过,无论团队成员担任哪种云用户角色(分析师、架构师、开发者或管理员),都可以帮助降低Google Cloud中的资源费用。通过适当分享费用数据,您可以帮助团队成员在整个开发和部署过程中做出具有成本效益的决策。

原则概览

各种角色的利益相关者(产品负责人、开发者、部署工程师、管理员和财务分析师)都需要了解相关费用数据及其与业务价值的关系。在预配和管理云资源时,他们需要以下数据:

  • 预计资源费用:设计和部署时的费用估算值。
  • 实时资源使用费用:可用于持续监控和预算验证的最新费用数据。
  • 与业务指标对应的费用:深入了解云支出如何影响关键绩效指标 (KPI),以便团队确定经济高效的策略。

并非所有人都需要访问原始费用数据。不过,在所有角色中提高成本意识至关重要,因为个人决策可能会影响成本。

通过提高费用透明度并明确费用管理实践的所有权,您可以确保每个人都了解其选择的财务影响,并积极为组织实现费用优化目标做出贡献。无论是通过集中式 FinOps 团队还是分布式模型,建立责任制对于有效的费用优化工作都至关重要。

建议

为了提高成本意识并确保团队成员拥有做出明智决策所需的成本信息,请考虑以下建议。

提供组织范围内的费用可见性

为实现组织范围内的费用透明度,负责费用管理的团队可以采取以下措施:

  • 标准化费用计算和预算编制:使用一致的方法来确定云资源的全部费用,同时考虑折扣和分摊费用。制定清晰且标准化的预算编制流程,使其与组织的目标保持一致,并实现主动的成本管理。
  • 使用标准化的费用管理和可视化工具:使用可实时洞悉云支出的适当工具,并定期(例如每周)生成费用进展快照。借助这些工具,您可以主动规划预算、预测效果并发现优化机会。这些工具可以是云提供商工具(例如 Google Cloud 结算信息中心)、第三方解决方案或开源解决方案(例如费用归因解决方案)。
  • 实施费用分摊系统:将一部分总体云预算分摊给每个团队或项目。这种分配方式可让团队对云支出产生所有权感,并鼓励他们在分配的预算范围内做出具有成本效益的决策。
  • 提高透明度:鼓励团队在设计和决策过程中讨论成本影响。营造安全且支持性的环境,以便分享与费用优化相关的想法和疑虑。有些组织会使用排行榜或表彰计划等正向强化机制。如果您的组织因业务方面的考虑而限制共享原始费用数据,请探索共享费用信息和数据分析洞见的其他方法。例如,考虑分享汇总指标(例如环境或功能的总费用)或相对指标(例如每笔交易或用户的平均费用)。

了解云资源的结算方式

Google Cloud 资源的价格可能因地区而异。 有些资源按固定价格每月结算,有些资源则可能按用量结算。 如需了解 Google Cloud 资源的结算方式,请使用Google Cloud 价格计算器和特定于产品的价格信息(例如 Google Kubernetes Engine (GKE) 价格)。

了解基于资源的费用优化选项

针对您计划使用的每种云资源,探索可优化利用率和效率的策略。这些策略包括合理调整规模、自动扩缩,以及在适当情况下采用无服务器技术。以下是针对部分 Google Cloud 产品的费用优化选项示例:

  • Cloud Run 可让您配置始终分配的 CPU,以便以默认分配方法(即仅在请求处理期间分配 CPU)的一小部分价格来处理可预测的流量负载。
  • 您可以购买 BigQuery 槽承诺使用合约,以节省数据分析费用。
  • GKE 提供详细的指标,帮助您了解费用优化选项。
  • 了解网络价格如何影响数据传输费用,以及如何针对特定网络服务优化费用。例如,您可以使用 Cloud CDN 或 Google Cloud Armor 降低外部应用负载平衡器的数据传输费用。如需了解详情,请参阅降低外部应用负载平衡器费用的方法

了解基于折扣的费用优化选项

熟悉 Google Cloud 提供的折扣计划,例如以下示例:

  • 承诺使用折扣 (CUD):CUD 适用于使用量可预测且稳定的资源。CUD 可让您承诺在一段时间内(通常为 1 到 3 年)使用特定资源,从而大幅降低价格。您还可以使用 CUD 自动续订,以免在承诺到期时必须手动重新购买承诺。
  • 持续使用折扣:对于 Compute Engine 和 GKE 等某些 Google Cloud 产品,在持续使用资源的时间超过特定时长阈值后,您可以自动获得折扣抵扣。
  • Spot 虚拟机:对于容错型灵活工作负载,Spot 虚拟机可以帮助您降低 Compute Engine 费用。Spot 虚拟机的费用远低于常规虚拟机。不过,Compute Engine 可能会提前停止或删除 Spot 虚拟机来收回容量。Spot 虚拟机适用于可以容忍抢占且没有高可用性要求的批量作业。
  • 特定产品选项的折扣:某些托管服务(例如 BigQuery)在您购买专用或自动扩缩查询处理容量时提供折扣

评估并选择与您的工作负载特征和使用模式相符的折扣选项。

将费用估算纳入架构蓝图

鼓励团队开发架构蓝图,其中包含不同部署选项和配置的费用估算。这种实践有助于团队主动比较费用,并做出符合技术和财务目标的明智决策。

为所有资源使用一致且标准的标签集

您可以使用标签来跟踪费用,以及识别和分类资源。具体来说,您可以使用标签将费用分配给不同的项目、部门或成本中心。制定符合组织中主要利益相关方需求的正式标签政策有助于更广泛地显示费用。您还可以使用标签根据目标受众群体过滤资源费用和用量数据。

使用 Terraform 等自动化工具对创建的每个资源强制执行标签添加操作。如需进一步提高费用可见性和归因,您可以使用开源费用归因解决方案提供的工具。

与团队成员分享费用报告

通过与团队成员分享费用报告,您可以让他们负责自己的云支出。这种做法有助于您做出经济高效的决策、持续优化成本,并系统性地改进成本分摊模型。

费用报告有多种类型,包括:

  • 定期费用报告:定期报告可让团队了解当前的云支出。按照惯例,这些报告可能是电子表格导出内容。 更有效的方法包括自动发送电子邮件和使用专用信息中心。 为确保费用报告提供相关且可据以采取行动的信息,而不会因不必要的细节而让接收者感到不知所措,报告必须根据目标受众群体量身定制。设置量身定制的报告是实现更实时、更具互动性的费用可见性和管理的基础步骤。
  • 自动通知:您可以配置费用报告,以便主动通过电子邮件或聊天等方式向相关利益相关方通知费用异常、预算阈值或费用优化机会。通过直接向可采取行动的人员及时提供信息,自动提醒可促使他们迅速采取行动,并培养积极主动的成本优化方法。
  • Google Cloud 信息中心:您可以使用 Google Cloud 中的内置结算信息中心来深入了解费用明细,并发现费用优化机会。 Google Cloud 还提供 FinOps 中心,帮助您监控节省的费用并获得费用优化建议。 FinOps 中心由 AI 引擎提供支持,可针对当前部署的所有资源推荐费用优化机会。如需控制对这些建议的访问权限,您可以实现基于角色的访问权限控制 (RBAC)。
  • 自定义信息中心:您可以将费用数据导出到 BigQuery 等分析数据库,从而创建自定义信息中心。 使用 Looker Studio 等可视化工具连接到分析数据库,以构建互动式报告,并通过基于角色的权限实现精细的访问权限控制。
  • 多云费用报告:对于多云部署,您需要统一查看所有云提供商的费用,以确保进行全面的分析、预算规划和优化。使用 BigQuery 等工具集中分析来自多个云提供商的费用数据,并使用 Looker Studio 构建团队专属的互动式报告。

优化资源使用情况

Google Cloud Well-Architected Framework 的“费用优化”支柱中的这一原则提供了建议,可帮助您规划和预配资源,以满足云工作负载的要求和使用模式。

原则概览

如需优化云资源的费用,您需要全面了解工作负载的资源要求和负载模式。这种了解是明确定义成本模型的基础,可让您预测总拥有成本 (TCO),并在采用云技术的整个过程中确定费用驱动因素。通过主动分析和预测云支出,您可以就资源预配、利用率和费用优化做出明智的选择。这种方法可让您控制云支出,避免过度预配,并确保云资源与工作负载和环境的动态需求保持一致。

建议

如需有效优化云资源用量,请考虑以下建议。

选择特定于环境的资源

每个部署环境对可用性、可靠性和可伸缩性都有不同的要求。例如,开发者可能偏好能够快速部署和运行短时应用的开发环境,但可能不需要高可用性。另一方面,生产环境通常需要高可用性。为了最大限度地利用资源,请根据业务需求定义特定于环境的要求。下表列出了特定于环境的要求示例。

环境 使用要求
生产
  • 高可用性
  • 可预测的性能
  • 运营稳定性
  • 通过强大的资源确保安全
开发和测试
  • 成本效益
  • 具有突发容量的灵活基础设施
  • 在不需要数据持久性时使用临时基础架构
其他环境(例如预演和质量检查)
  • 根据特定于环境的要求量身定制的资源分配

选择特定于工作负载的资源

每个云工作负载对可用性、可伸缩性、安全性和性能的要求可能各不相同。为了优化成本,您需要根据每个工作负载的具体要求来选择资源。例如,无状态应用可能不需要与有状态后端相同的可用性或可靠性。下表列出了更多工作负载特定要求的示例。

工作负载类型 工作负载要求 资源选项
任务关键型 持续可用性、强大的安全性和高性能 优质资源和托管服务,例如 Spanner,可确保数据的高可用性和全局一致性。
非重大 经济实惠且可自动扩缩的基础设施 具有基本功能和临时资源的资源,例如 Spot 虚拟机
事件驱动 根据当前对容量和性能的需求进行动态伸缩 Cloud RunCloud Run functions 等无服务器服务。
实验性工作负载 低成本且柔性环境,可用于快速开发、迭代、测试和创新 具有基本功能的资源、临时资源(例如 Spot 虚拟机)以及具有明确支出限额的沙盒环境。

云计算的一大优势在于,您可以根据给定的工作负载选择最合适的计算能力。有些工作负载是为利用处理器指令集而开发的,而有些工作负载可能并非以这种方式设计。相应地对工作负载进行基准测试和分析。对工作负载进行分类,并根据工作负载选择特定的资源(例如,为 Compute Engine 虚拟机选择合适的机器系列)。此实践有助于优化成本、实现创新,并保持工作负载所需的可用性和性能水平。

以下示例说明了如何实现此建议:

  • 对于面向全球分布用户的任务关键型工作负载,请考虑使用 Spanner。Spanner 可确保所有区域中的数据都具有可靠性和一致性,从而无需进行复杂的数据库部署。
  • 对于负载水平波动的工作负载,请使用自动扩缩功能,以确保在负载较低时不会产生费用,同时保持足够的容量来满足当前负载。您可以为许多Google Cloud 服务配置自动扩缩,包括 Compute Engine 虚拟机Google Kubernetes Engine (GKE) 集群Cloud Run。设置自动伸缩时,您可以配置最大伸缩限制,以确保费用保持在指定预算范围内。

根据费用要求选择区域

对于云工作负载,请仔细评估可用的 Google Cloud区域,并选择符合您的成本目标的区域。费用最低的区域可能无法提供最佳延迟时间,或者可能无法满足您的可持续发展要求。明智地决定在何处部署工作负载,以实现所需的平衡。您可以使用Google Cloud 区域选择器来了解费用、可持续性、延迟时间和其他因素之间的权衡。

使用内置的费用优化选项

Google Cloud 产品提供内置功能,可帮助您优化资源使用情况并控制费用。下表列出了您可以在部分 Google Cloud 产品中使用的费用优化功能示例:

产品 费用优化功能
Compute Engine
GKE
  • 使用集群自动扩缩器,根据当前负载自动调整 GKE 集群的大小。
  • 使用 节点自动预配,根据工作负载要求自动创建和管理节点池,并确保实现最佳资源利用率。
Cloud Storage
  • 使用 对象生命周期管理,根据数据的新旧程度或访问模式,自动将数据转移到费用较低的存储类别。
  • 使用 Autoclass 根据使用模式将数据动态移动到最具成本效益的存储类别。
BigQuery
  • 使用基于容量的价格可降低稳态工作负载的查询处理费用。
  • 使用分区和聚簇技术优化查询性能和费用。
Google Cloud VMware Engine
  • 通过使用 CUD 等费用优化策略、优化存储空间消耗和合理调整 ESXi 集群规模,降低 VMware 费用。

优化资源共享

为了最大限度地提高云资源的利用率,您可以在同一基础设施上部署多个应用或服务,同时仍能满足应用的安全和其他要求。例如,在开发和测试环境中,您可以使用相同的云基础架构来测试应用的所有组件。对于生产环境,您可以将每个组件部署到单独的一组资源上,以限制发生突发事件时的影响范围。

以下示例说明了如何实现此建议:

  • 为多个非生产环境使用单个 Cloud SQL 实例。
  • 通过在 GKE Enterprise 中使用舰队团队管理功能并设置适当的访问权限控制,使多个开发团队能够共享一个 GKE 集群。
  • 使用 GKE Autopilot 可充分利用 GKE 默认实施的箱打包和自动扩缩等费用优化技术。
  • 对于 AI 和 ML 工作负载,请使用GPU 共享策略(例如多实例 GPU、分时 GPU 和 NVIDIA MPS)来节省 GPU 费用。

开发和维护参考架构

创建并维护一个参考架构库,其中包含根据不同部署环境和工作负载类型量身定制的参考架构。为了简化各个项目的设计和实施流程,可以由某个团队(例如云技术卓越中心 [CCoE])集中管理蓝图。项目团队可以根据明确定义的条件选择合适的蓝图,以确保架构一致性并采用最佳实践。对于项目特有的需求,项目团队和中央架构团队应协作设计新的参考架构。您可以在整个组织内分享参考架构,以促进知识共享并扩充可用解决方案的知识库。这种方法可确保一致性、加快开发速度、简化决策流程并提高资源利用效率。

查看 Google 针对各种使用情形和技术提供的参考架构。这些参考架构融入了资源选择、大小调整、配置和部署方面的最佳实践。通过使用这些参考架构,您可以加快开发流程,并从一开始就节省成本。

使用组织政策强制执行费用控制

考虑使用组织政策来限制团队成员可使用的 Google Cloud 位置和产品。这些政策有助于确保团队采用经济高效的解决方案,并在符合成本优化目标的位置预配资源。

估算实际预算并设置财务界限

为每个项目、工作负载和部署环境制定详细的预算。 确保预算涵盖云运营的各个方面,包括基础设施费用、软件许可、人员配备和预期增长。为防止超支并确保与您的财务目标保持一致,请为项目、服务或特定资源设置明确的支出限额或阈值。请定期根据这些限额监控云支出。您可以使用主动配额提醒来尽早发现潜在的超支情况,并及时采取纠正措施。

除了设置预算之外,您还可以使用配额和限制来帮助强制执行费用控制措施,并防止支出意外飙升。您可以通过在不同层级(包括项目、服务,甚至特定资源类型)设置配额,对资源消耗进行精细控制。

以下示例说明了如何实现此建议:

  • 项目级配额:在项目级层设置支出限额或资源配额,以确定总体财务边界并控制项目内所有服务的资源消耗。
  • 特定于服务的配额:为特定 Google Cloud服务(例如 Compute Engine 或 BigQuery)配置配额,以限制可预配的实例数、CPU 数或存储容量。
  • 资源类型专属配额:对 Compute Engine 虚拟机、Cloud Storage 存储分区、Cloud Run 实例或 GKE 节点等单个资源类型应用配额,以限制其用量并防止意外超支。
  • 配额提醒:在配额用量(项目级)达到最大值的某个百分比时收到通知。

通过将配额和限制与预算和监控相结合,您可以采取主动的多层级方法来控制费用。这种方法有助于确保您的云支出保持在限定范围内,并与您的业务目标保持一致。请注意,这些费用控制措施并非永久性或硬性规定。为确保费用控制措施始终符合当前的行业标准并反映不断变化的业务需求,您必须定期检查这些控制措施,并进行调整以纳入新技术和最佳实践。

持续优化

Google Cloud 架构完善框架的“费用优化”支柱中的这一原则提供了一些建议,可帮助您根据不断变化和发展的业务目标来优化云部署的费用。

随着业务的增长和发展,您的云工作负载需要适应资源需求和使用模式的变化。为了从云支出中获得最大价值,您必须在继续支持业务目标的同时保持成本效益。这需要采取主动式自适应方法,重点在于持续改进和优化。

原则概览

为了持续优化费用,您必须主动监控和分析云环境,并做出适当调整以满足当前要求。将监控工作重点放在直接影响最终用户体验、符合业务目标并能为持续改进提供数据洞见的关键绩效指标 (KPI) 上。这种方法可让您发现并解决效率低下的问题,适应不断变化的需求,并持续调整云支出,使其与战略性业务目标保持一致。为了在全面可观测性和成本效益之间取得平衡,请了解监控资源使用情况的成本和效益,并使用适当的流程改进和优化策略。

建议

为了有效地监控 Google Cloud 环境并持续优化费用,请考虑以下建议。

专注于与业务相关的指标

有效的监控始于确定对您的业务和客户最重要的指标。这些指标包括:

  • 用户体验指标:延迟时间、错误率、吞吐量和客户满意度指标有助于了解最终用户在使用应用时的体验。
  • 业务成果指标:收入、客户增长和互动度可以与资源用量相关联,以发现成本优化机会。
  • DevOps 研究与评估 (DORA) 指标:部署频率、更改前的准备时间、更改失败率和恢复服务所需的时长等指标可让您深入了解软件交付流程的效率和可靠性。通过改进这些指标,您可以提高工作效率、减少停机时间并优化成本。
  • 站点可靠性工程 (SRE) 指标:错误预算可帮助团队量化和管理可接受的服务中断程度。通过为可靠性设定明确的预期,错误预算可让团队更自信地进行创新和部署变更,因为他们知道自己的安全边际。这种主动式方法有助于在创新和稳定性之间取得平衡,从而避免因重大中断或长时间停机而产生过高的运营成本。

使用可观测性来优化资源

以下建议可帮助您利用可观测性来识别云部署中的资源瓶颈和未充分利用的资源:

  • 监控资源利用率:使用资源利用率指标来识别Google Cloud 利用率不足的资源。例如,使用 CPU 和内存利用率等指标来识别空闲的虚拟机资源。对于 Google Kubernetes Engine (GKE),您可以查看详细的费用明细与费用相关的优化指标。对于 Google Cloud VMware Engine,请查看资源利用率,以优化 CUD、存储消耗和 ESXi 容量调整。
  • 使用云建议Active Assist 提供了一系列智能工具,可帮助您优化云运维。这些工具可提供切实可行的建议,帮助您降低费用、提高性能、增强安全性,甚至做出以可持续性为重点的决策。例如,虚拟机合理调整规模数据分析有助于优化资源分配并避免不必要的支出。
  • 将资源利用率与性能相关联:分析资源利用率与应用性能之间的关系,以确定是否可以在不影响用户体验的情况下降级到更便宜的资源。

兼顾问题排查需求与成本

详细的可观测性数据有助于诊断和排查问题。 不过,存储过多的可观测性数据或将不必要的数据导出到外部监控工具可能会导致不必要的费用。为了高效排查问题,请考虑以下建议:

  • 收集足够的数据以进行问题排查:确保监控解决方案捕获足够的数据,以便在出现问题时高效地诊断和解决问题。这些数据可能包括各种粒度的日志、轨迹和指标。
  • 使用抽样和汇总:使用抽样和汇总技术,在详细数据需求与成本考虑因素之间取得平衡。这种方法可让您收集具有代表性的数据,而不会产生过高的存储费用。
  • 了解监控工具和服务的价格模式:评估不同的监控解决方案,并选择符合项目特定需求、预算和使用模式的选项。在做出选择时,请考虑数据量、保留要求和所需功能等因素。
  • 定期检查监控配置:移除不必要的指标或日志,避免收集过多的数据。

根据角色定制数据收集并设置特定于角色的保留政策

考虑不同角色的具体数据需求。例如,开发者可能主要需要访问轨迹和应用级日志,而 IT 管理员可能更关注系统日志和基础架构指标。通过定制数据收集,您可以减少不必要的存储费用,并避免向用户提供无关信息,以免他们感到困扰。

此外,您还可以根据每个角色的需求和任何法规要求来定义保留政策。例如,开发者可能需要在较短的时间内访问详细日志,而财务分析师可能需要更长期的历史数据。

考虑监管和合规性要求

在某些行业中,法规要求必须保留数据。为避免法律和财务风险,您需要确保自己的监控和数据保留实践有助于您遵守相关法规。与此同时,您还需要保持成本效益。请考虑以下建议:

  • 确定您所在行业或区域的具体数据保留要求,并确保您的监控策略符合这些要求。
  • 实施适当的数据归档和检索机制,以满足审核和合规性需求,同时最大限度地降低存储费用。

实现智能提醒

提醒有助于及时检测和解决问题。不过,在让您及时了解情况和让您被通知淹没之间,需要找到一个平衡点。通过设计智能提醒系统,您可以优先处理对业务影响较大的严重问题。请考虑以下建议:

  • 优先处理影响客户的问题:设计针对直接影响客户体验的问题(例如网站中断、响应时间过长或交易失败)快速触发的提醒。
  • 针对临时问题进行调整:使用适当的阈值和延迟机制,避免因临时问题或不影响客户的自愈系统问题而发出不必要的提醒。
  • 自定义提醒严重程度:区分严重和非严重提醒,确保最紧急的问题能立即得到处理。
  • 明智地使用通知渠道:根据提醒的严重程度和紧急程度,为提醒通知(电子邮件、短信或寻呼)选择合适的渠道。