良好架构框架:费用优化支柱

Google Cloud Well-Architected Framework 中的费用优化支柱介绍了优化 Google Cloud中工作负载费用的原则和建议。

目标受众群体包括:

  • 首席技术官、首席信息官、首席财务官以及其他负责战略成本管理的高管。
  • 架构师、开发者、管理员和运维人员,在组织的云迁移之旅的各个阶段做出影响费用的决策。

本地工作负载和云工作负载的费用模型存在显著差异。 本地 IT 费用包括资本支出 (CapEx) 和运营支出 (OpEx)。收购本地硬件和软件资产,且收购费用按资产的使用寿命折旧。在云端,大多数云资源的费用被视为运营支出,即使用云资源时会产生费用。这种根本区别凸显了以下费用优化核心原则的重要性。

如需了解专门针对 AI 和机器学习工作负载的费用优化原则和建议,请参阅架构完善的框架中的 AI 和机器学习视角:费用优化

核心原则

架构完善的框架的费用优化要素中的建议对应于以下核心原则:

  • 使云支出与业务价值保持一致:通过使 IT 支出与业务目标保持一致,确保您的云资源提供可衡量的业务价值。
  • 培养成本意识文化:确保组织中的人员考虑其决策和活动对成本的影响,并确保他们可以访问做出明智决策所需的成本信息。
  • 优化资源用量:仅预配所需的资源,并且只需为使用的资源付费。
  • 持续优化:持续监控云资源用量和费用,并根据需要主动进行调整以优化支出。这种方法涉及在潜在的成本效率低效问题发生之前,发现并解决它们。

这些原则与 Cloud FinOps 的核心原则密切相关。FinOps 与任何组织相关,无论其在云端的规模或成熟度如何。通过采用这些原则并遵循相关建议,您可以在整个云迁移之旅中控制和优化费用。

贡献者

作者:Nicolas Pintaux | 客户工程师兼应用现代化改造专家

其他贡献者:

根据业务价值调整云支出

Google Cloud Well-Architected Framework 的费用优化要素中的这一原则提供了相关建议,可帮助您根据组织的业务目标 Google Cloud 使用资源。

原则概览

为了有效管理云费用,您需要最大限度地提高云资源提供的业务价值,并最大限度地降低总拥有成本 (TCO)。在评估云工作负载的资源选项时,不仅要考虑预配和使用资源的成本,还要考虑管理资源的成本。例如,使用 Compute Engine 上的虚拟机 (VM) 可以经济高效地托管应用。 但是,如果考虑到维护、修补和扩缩虚拟机的开销,总拥有成本可能会增加。另一方面,Cloud Run 等无服务器服务可以提供更大的业务价值。较低的运营开销可让您的团队专注于核心活动,并有助于提高敏捷性。

为确保您的云资源提供最佳价值,请评估以下因素:

  • 预配和使用费用:您购买、预配或使用资源时产生的费用。
  • 管理费用:资源运行和维护(包括修补、监控和扩缩等任务)的周期性费用。
  • 间接成本:管理停机、数据丢失或安全漏洞等问题时可能产生的费用。
  • 业务影响:资源带来的潜在收益,例如增加收入、提高客户满意度和缩短上市期。

通过使云支出与业务价值保持一致,您可以获得以下好处:

  • 以价值为依据的决策:我们鼓励您的团队优先考虑可带来最大业务价值的解决方案,并同时考虑短期和长期的成本影响。
  • 明智的资源选择:您的团队拥有评估各种部署选项的业务价值和 TCO 所需的信息和知识,因此他们可以选择经济高效的资源。
  • 跨团队协调:业务、财务和技术团队之间跨职能协作可确保云决策与组织的总体目标保持一致。

建议

为了使云支出与业务目标保持一致,请考虑以下建议。

优先考虑托管式服务和无服务器产品

请尽可能选择托管式服务和无服务器产品,以降低运营开销和维护费用。这样,您的团队就可以专注于核心业务活动。它们可以加快新特性和新功能的交付,并帮助推动创新和创造价值。

以下示例说明了如何实施此建议:

在成本效益与业务敏捷性之间取得平衡

控制费用和优化资源利用率是重要目标。但是,您必须在这些目标与灵活基础设施需求之间取得平衡。灵活基础设施可让您快速创新、快速响应变化并更快地创造价值。以下示例说明了如何实现这种平衡:

  • 采用 DORA 指标来衡量软件交付绩效。更改失败率 (CFR)、检测时间 (TTD) 和恢复时间 (TTR) 等指标有助于识别和解决开发和部署流程中的瓶颈。通过减少停机时间和加速交付,您可以实现运营效率和业务敏捷性。
  • 遵循站点可靠性工程 (SRE) 做法来提高运营可靠性。SRE 对自动化、可观测性和突发事件响应的关注可以减少停机时间、缩短恢复时间并提高客户满意度。通过最大限度地减少停机时间并提高运营可靠性,您可以防止收入损失,并避免超额预配资源作为应对服务中断的安全网。

启用自助优化

为您的团队提供自助式费用优化工具、可观测性工具和资源管理平台,从而鼓励营造一种实验和探索文化。让他们能够自主预配、管理和优化其云资源。这种方法有助于培养主人翁意识、加速创新,并确保团队能够快速响应不断变化的需求,同时注意成本效益。

采用和实现 FinOps

采用 FinOps 建立一个协作环境,让每个人都能做出明智的决策,平衡费用与价值。FinOps 有助于加强财务责任并促进云端有效的费用优化。

培养以价值为导向、了解 TCO 的思维方式

鼓励您的团队成员对云支出采取全面的态度,重点关注总拥有成本,而不仅仅是前期费用。使用价值流映射等技术来直观呈现和分析软件交付流程中的价值流,并确定需要改进的领域。为您的应用和服务实现单位成本计算,以深入了解成本驱动因素并发现成本优化机会。如需了解详情,请参阅借助 Cloud FinOps 最大限度地提高业务价值

培养成本意识文化

Google Cloud Well-Architected Framework 的成本优化核心中的这一原则提供了有关在整个组织中提升成本意识的建议,并确保团队成员拥有做出明智决策所需的成本信息。

通常,费用管理的责任可能集中在少数几个利益相关方身上,并主要集中在初始项目架构决策上。但是,属于所有云用户角色(分析师、架构师、开发者或管理员)的团队成员都有助于降低Google Cloud中的资源费用。通过适当共享费用数据,您可以使团队成员在整个开发和部署过程中做出具有成本效益的决策。

原则概览

各种角色的利益相关方(产品所有者、开发者、部署工程师、管理员和财务分析师)需要了解相关费用数据及其与业务价值的关系。预配和管理云资源时,客户需要以下数据:

  • 预计资源费用:设计和部署时的费用估算。
  • 实时资源使用费用:可用于持续监控和预算验证的最新费用数据。
  • 与业务指标相对应的费用:深入了解云支出如何影响关键绩效指标 (KPI),使团队能够确定具有成本效益的策略。

每个人可能不需要访问原始费用数据。但是,提升所有角色的费用意识至关重要,因为个人决策可能会影响费用。

通过提高费用可见性并确保对费用管理实践拥有清晰的责任感,您可以确保每个人都了解其选择所带来的财务影响,并且每个人都能积极为组织的费用优化目标做出贡献。无论是通过集中式 FinOps 团队还是分布式模型,建立问责制对于有效的费用优化工作至关重要。

建议

如需提高费用意识,并确保您的团队成员获得做出明智决策所需的费用信息,请考虑以下建议。

提供组织级费用可见性

为了实现组织范围的费用可见性,负责费用管理的团队可以执行以下操作:

  • 标准化费用计算和预算:在考虑折扣和共担费用后,使用一致的方法确定云资源的全部费用。建立与组织目标相一致的清晰标准化的预算流程,并实现主动的费用管理。
  • 使用标准化的费用管理和可见性工具:使用适当的工具,以实时了解云支出并生成定期(例如每周)费用进度快照。借助这些工具,您可以主动制定预算、进行预测,并确定优化机会。这些工具可以是云提供商工具(如 Google Cloud Billing 信息中心)、第三方解决方案或开源解决方案(如费用归因解决方案)。
  • 实现费用分配系统:为每个团队或项目分配一部分云总预算。这样的分配可让团队对云支出有主人翁意识,并鼓励他们在所分配的预算内做出具有成本效益的决策。
  • 提高透明度:鼓励团队在设计和决策过程中讨论费用影响。营造一个安全互助的环境,以便分享与费用优化相关的想法和问题。 一些组织使用积极的强化机制,例如排行榜或认可计划。如果贵组织因业务顾虑而限制共享原始费用数据,请探索共享费用信息和数据洞见的替代方法。例如,考虑共享汇总指标(如环境或功能的总费用)或相对指标(如平均每次交易费用或用户平均费用)。

了解云资源的结算方式

Google Cloud 资源的价格可能因区域而异。一些资源每月按固定价格计费,而另一些资源则可能根据使用量计费。如需了解 Google Cloud 资源的结算方式,请使用Google Cloud 价格计算器和具体产品的价格信息(例如 Google Kubernetes Engine (GKE) 价格)。

了解基于资源的费用优化选项

对于您计划使用的每种云资源,探索各种策略以提高利用率和效率。这些策略包括合理调整容量、自动扩缩和采用无服务器技术。以下是几款产品的费用优化选项示例: Google Cloud

  • 借助 Cloud Run,您可以配置始终分配的 CPU,以比默认分配方法价格低一些的价格(即仅在请求处理期间分配的 CPU)处理可预测的流量负载。
  • 您可以购买 BigQuery 槽承诺以节省数据分析费用。
  • GKE 提供了详细的指标,可帮助您了解费用优化选项。
  • 了解网络流量价格如何影响数据传输的费用,以及如何优化特定网络服务的费用。例如,您可以使用 Cloud CDN 或 Google Cloud Armor 降低外部应用负载平衡器的数据传输费用。如需了解详情,请参阅降低外部应用负载平衡器费用的方法

了解基于折扣的费用优化选项

熟悉 Google Cloud 提供的折扣计划,如以下示例所示:

  • 承诺使用折扣 (CUD):CUD 适用于用量可预测且稳定的资源。通过 CUD,您可以大幅降低价格,以换取在一段时间内(通常是一到三年)承诺使用特定资源。您还可以使用 CUD 自动续订,避免在承诺到期后必须手动重新购买承诺。
  • 持续使用折扣:对于 Compute Engine 和 GKE 等某些 Google Cloud 产品,当持续使用资源超过特定时长阈值后,您可以获得自动折扣赠金。
  • Spot 虚拟机:对于容错且灵活的工作负载,Spot 虚拟机有助于降低 Compute Engine 费用。Spot 虚拟机的费用明显低于常规虚拟机。但是,Compute Engine 可能会提前停止或删除 Spot 虚拟机以回收容量。Spot 虚拟机适用于可以容忍抢占且没有高可用性要求的批处理作业。
  • 针对特定产品选项的折扣:当您购买专用或自动扩缩的查询处理能力时,某些托管式服务(如 BigQuery)会提供折扣

评估并选择与您的工作负载特征和使用模式相符的折扣选项。

将费用估算合并到架构蓝图中

鼓励团队开发包含不同部署选项和配置费用估算的架构蓝图。这种做法使团队能够主动比较费用,并做出符合技术和财务目标的明智决策。

为您的所有资源使用一致且标准的标签集

您可以使用标签来跟踪费用以及识别资源并对其进行分类。具体来说,您可以使用标签将费用分配给不同的项目、部门或成本中心。定义与组织中主要利益相关者的需求一致的正式标签政策有助于在更广的范围内显示费用。您还可以使用标签根据目标对象群组过滤资源费用和用量数据。

使用 Terraform 等自动化工具对创建的每项资源强制添加标签。如需进一步提高费用可见性和归因能力,您可以使用开源费用归因解决方案提供的工具。

与团队成员共享费用报告

通过与团队成员共享费用报告,使他们能够掌控自己的云支出。这种做法可实现具有成本效益的决策、持续优化费用并系统地改进您的费用分配模型。

费用报告有多种类型,其中包括:

  • 定期报告费用:定期报告可让团队了解他们当前的云支出。通常,这些报告可能是以电子表格形式导出的。 更有效的方法包括自动发送电子邮件和专门的信息中心。 为确保费用报告提供相关且富有实用价值的信息,同时避免向接收者显示不必要的细节,报告必须针对目标受众群体进行定制。通过设置量身定制的报告,可以实现更加实时、互动式的费用可见性和管理。
  • 自动通知:您可以配置费用报告,以主动(例如通过电子邮件或聊天)告知利益相关方有关费用异常、预算阈值或费用优化机会的信息。自动提醒直接向能够采取行动的用户提供及时信息,鼓励他们立即采取行动,并促进一种主动的成本优化方法。
  • Google Cloud 信息中心:您可以使用 Google Cloud 中的内置结算信息中心深入了解费用明细并找出费用优化机会。 Google Cloud 还提供 FinOps 中心,以帮助您监控费用节省并获取费用优化建议。AI 引擎为 FinOps Hub 提供支持,以便为当前部署的所有资源建议费用优化机会。如需控制对这些建议的访问权限,您可以实现基于角色的访问权限控制 (RBAC)。
  • 自定义信息中心:您可以通过将费用数据导出到 BigQuery 等分析数据库来创建自定义信息中心。使用 Looker Studio 等可视化工具连接到分析数据库以生成交互式报告,并通过基于角色的权限实现精细的访问权限控制。
  • 多云费用报告:对于多云部署,您需要跨所有云提供商的费用统一视图,以确保全面的分析、预算和优化。使用 BigQuery 等工具集中和分析来自多个云提供商的费用数据,并使用 Looker Studio 构建团队专用的交互式报告。

优化资源使用情况

Google Cloud Well-Architected Framework 的费用优化要素中的这一原则提供了一些建议,可帮助您规划和预配资源,以满足云工作负载的要求和使用模式。

原则概览

如需优化云资源的费用,您需要全面了解工作负载资源要求和负载模式。这种理解是明确定义的费用模型的基础,可让您预测总拥有成本 (TCO) 并在整个云采用历程中确定费用驱动因素。通过主动分析和预测云支出,您可以就资源预配、利用率和费用优化做出明智的选择。通过此方法,您可以控制云支出,避免过度预配,并确保云资源符合工作负载和环境的动态需求。

建议

为了有效优化云资源的使用情况,请考虑以下建议。

选择特定于环境的资源

每种部署环境在可用性、可靠性和可伸缩性方面都有不同的要求。例如,开发者可能更倾向于一个能让他们在短时间内快速部署和运行应用的环境,但可能不需要高可用性。另一方面,生产环境通常需要高可用性。为了最大限度地提高资源利用率,请根据您的业务需求定义特定于环境的要求。下表列出了环境特定要求的示例。

环境 使用要求
生产
  • 高可用性
  • 可预测的性能
  • 运营稳定性
  • 通过可靠的资源确保安全性
开发和测试
  • 成本效益
  • 具有突发容量的灵活基础设施
  • 无需持久保留数据的临时基础架构
其他环境(如预演和质量检查)
  • 根据环境特定要求量身分配资源

选择特定于工作负载的资源

您的每个云工作负载可能在可用性、可伸缩性、安全性和性能方面都有不同的要求。为了优化费用,您需要使资源选择与每个工作负载的特定要求保持一致。例如,无状态应用可能不需要与有状态后端相同级别的可用性或可靠性。下表列出了工作负载专属要求的更多示例。

工作负载类型 工作负载要求 资源选项
任务关键型 持续可用性、强大的安全性和高性能 优质资源和 Spanner 等代管式服务可实现高可用性和全球数据的一致性。
非重大 经济实惠的自动扩缩基础架构 具有基本功能和临时资源(如 Spot 虚拟机)的资源。
事件驱动 根据当前的容量和性能需求进行动态扩缩 无服务器服务,例如 Cloud RunCloud Run 函数
实验性工作负载 用于快速开发、迭代、测试和创新的低成本和柔性环境环境 具有基本功能的资源、Spot 虚拟机等临时资源以及指定了支出限额的沙盒环境。

云的优势在于,您有机会针对给定工作负载利用最合适的计算能力。一些工作负载旨在利用处理器指令集,而另一些工作负载可能不以这种方式设计。对您的工作负载进行相应的基准测试和分析。对工作负载进行分类并选择特定于工作负载的资源(例如,为 Compute Engine 虚拟机选择合适的机器系列)。这种做法有助于优化费用、实现创新,并保持工作负载所需的可用性和性能水平。

以下示例说明了如何实施此建议:

  • 对于为全球分布式用户提供服务的任务关键型工作负载,请考虑使用 Spanner。Spanner 可确保所有区域数据的可靠性和一致性,消除了对复杂数据库部署的需求。
  • 对于负载水平波动的工作负载,请使用自动扩缩功能来确保在负载较低时不会产生费用,同时保持足够的容量来满足当前负载。您可以为许多Google Cloud 服务配置自动扩缩,包括 Compute Engine 虚拟机Google Kubernetes Engine (GKE) 集群Cloud Run。设置自动扩缩时,您可以配置扩缩上限,以确保费用保持在指定预算范围内。

根据费用要求选择区域

对于云工作负载,请仔细评估可用 Google Cloud区域,并选择符合费用目标的区域。费用最低的区域可能无法提供最佳的延迟时间,或者不符合您的可持续发展要求。就在何处部署工作负载作出明智的决策,以实现所需的平衡。您可以使用Google Cloud 区域选择器来了解费用、可持续性、延迟时间和其他因素之间的权衡取舍。

使用内置的费用优化选项

Google Cloud 产品提供内置功能,可帮助您优化资源使用并控制费用。下表列出了可在某些产品中使用的费用优化功能的示例: Google Cloud

产品 费用优化功能
Compute Engine
GKE
  • 使用集群自动扩缩器,根据当前负载自动调整 GKE 集群的大小。
  • 根据工作负载要求自动创建和管理节点池,并使用 节点自动预配功能确保最佳资源利用率。
Cloud Storage
  • 使用 对象生命周期管理功能,根据数据存在时间或访问模式,自动将数据转移到费用较低的存储类别。
  • 使用 Autoclass 根据使用模式将数据动态移至最具成本效益的存储类别。
BigQuery
  • 使用基于容量的价格降低稳态工作负载的查询处理费用。
  • 使用分区和聚类技术来优化查询性能和费用。
Google Cloud VMware Engine
  • 通过使用费用优化策略(如 CUD、优化存储空间用量以及合理调整 ESXi 集群容量)来降低 VMware 费用。

优化资源共享

为了最大限度地提高云资源的利用率,您可以在同一基础架构上部署多个应用或服务,同时仍满足应用的安全性和其他要求。例如,在开发和测试环境中,您可以使用相同的云基础架构来测试应用的所有组件。对于生产环境,您可以在单独的一组资源上部署每个组件,以限制突发事件的影响范围。

以下示例说明了如何实施此建议:

  • 将一个 Cloud SQL 实例用于多个非生产环境。
  • 通过使用具有适当访问权限控制的 GKE Enterprise 中的舰队团队管理功能,使多个开发团队能够共享一个 GKE 集群。
  • 通过 GKE Autopilot,您可以利用 GKE 默认实现的装箱和自动扩缩等费用优化技术。
  • 对于 AI 和机器学习工作负载,可通过使用 GPU 共享策略(如多实例 GPU、分时 GPU 和 NVIDIA MPS)来节省 GPU 费用。

开发和维护参考架构

创建和维护一个根据不同部署环境和工作负载类型的要求量身定制的参考架构代码库。为了简化单个项目的设计和实现流程,可以让 Cloud Center of Excellence (CCoE) 等团队集中管理蓝图。项目团队可以根据明确定义的标准选择合适的蓝图,以确保架构的一致性和最佳实践的采用。针对项目特有的要求,项目团队和中央架构团队应协作设计新的参考架构。您可以在整个组织中共享参考架构,以促进知识共享并扩展可用解决方案的存储库。这种方法可确保一致性、加速开发、简化决策并促进资源利用率的高效。

查看 Google 针对各种用例和技术提供的参考架构。这些参考架构纳入了资源选择、大小调整、配置和部署方面的最佳实践。通过使用这些参考架构,您可以从一开始就加快开发流程并节省费用。

使用组织政策实施费用纪律

请考虑使用组织政策来限制团队成员可以使用的 Google Cloud 位置和产品。这些政策有助于确保团队遵循经济高效的解决方案,并在符合费用优化目标的位置预配资源。

估算合理的预算并设置财务界限

为每个项目、工作负载和部署环境制定详细的预算。 确保预算涵盖云运营的所有方面,包括基础架构费用、软件许可、人员和预期增长。为防止超支并确保符合财务目标,请为项目、服务或特定资源设定明确的支出限额或阈值。根据这些限制定期监控云支出。您可以使用主动式配额提醒尽早识别可能的费用超支并及时采取纠正措施。

除了设置预算之外,您还可以使用配额和限制来帮助执行成本节制并防止支出意外激增。您可以在各种级别(包括项目、服务甚至特定的资源类型)设置配额,从而对资源消耗进行精细控制。

以下示例说明了如何实施此建议:

  • 项目级配额:在项目级设置支出限额或资源配额,以建立总体财务边界并控制项目内所有服务的资源消耗。
  • 服务专属配额:为特定 Google Cloud服务(例如 Compute Engine 或 BigQuery)配置配额,以限制可预配的实例、CPU 或存储容量。
  • 特定于资源类型的配额:对各种资源类型(如 Compute Engine 虚拟机、Cloud Storage 存储分区、Cloud Run 实例或 GKE 节点)应用配额,以限制其用量并防止费用超支。
  • 配额提醒:当您的配额用量(在项目级)达到最大值的百分比时,您就会收到通知。

通过将配额和限制与预算和监控结合使用,您可以制定主动的多层控制方法。此方法有助于确保您的云支出保持在定义的范围内并与您的业务目标保持一致。请注意,这些费用控制不是永久性的,也并非硬性要求。为了确保费用控制措施与当前行业标准保持一致并反映您不断变化的业务需求,您必须定期审核控制措施并对其进行调整,以纳入新技术和最佳做法。

持续优化

Google Cloud Well-Architected Framework 的费用优化核心中的这一原则提供了一些建议,帮助您根据不断变化的业务目标来优化云部署的费用。

随着业务的发展和发展,您的云工作负载需要适应资源要求和使用模式的变化。为了从您的云支出中获得最大价值,您必须在继续支持业务目标的同时保持成本效益。这就需要一种积极的适应性方法,专注于持续改进和优化。

原则概览

如需持续优化费用,您必须主动监控和分析您的云环境,并做出适当的调整以满足当前要求。将监控工作重点放在直接影响最终用户体验的关键绩效指标 (KPI) 上,契合您的业务目标,并提供数据洞见以实现持续改进。此方法可让您发现和解决低效问题,适应不断变化的需求,并持续将云支出与战略性业务目标保持一致。为了平衡全面的可观测性与成本效益,了解监控资源使用情况的成本和收益,并使用适当的流程改进和优化策略。

建议

如需有效监控您的 Google Cloud 环境并持续优化费用,请考虑以下建议。

专注于与业务相关的指标

有效的监控首先要确定对您的业务和客户最重要的指标。这些指标包括:

  • 用户体验指标:延迟时间、错误率、吞吐量和客户满意度指标有助于您了解最终用户在使用应用时的体验。
  • 业务成效指标:收入、客户增长情况和互动度可与资源使用情况相关联,以发现费用优化机会。
  • DevOps 研究和评估 (DORA) 指标:部署频率、更改准备时间、更改失败率和恢复时间等指标可让您深入了解软件交付流程的效率和可靠性。通过改善这些指标,您可以提高工作效率、缩短停机时间以及优化费用。
  • 站点可靠性工程 (SRE) 指标:错误预算可帮助团队量化和管理可接受的服务中断程度。通过为可靠性建立明确的预期,错误预算使团队了解其安全边际,从而更自信地进行创新和部署更改。这种主动性方法有助于在创新与稳定性之间取得平衡,有助于防止与重大服务中断或延长停机时间相关的高运营成本。

使用可观测性优化资源

以下建议可帮助您在云部署中使用可观测性来确定资源瓶颈和未充分利用的资源:

  • 监控资源利用率:使用资源利用率指标来识别未充分利用的Google Cloud 资源。例如,使用 CPU 和内存利用率等指标来识别空闲虚拟机资源。对于 Google Kubernetes Engine (GKE),您可以查看详细的费用明细与费用相关的优化指标。对于 Google Cloud VMware Engine,请查看资源利用率,以优化 CUD、存储空间用量和 ESXi 合理大小。
  • 使用云建议Active Assist 是一系列智能工具,可帮助您优化云运营。这些工具可提供切实可行的建议,以降低费用、提高性能、提高安全性,甚至做出以可持续发展为中心的决策。例如,虚拟机合理容量分析有助于优化资源分配并避免不必要的支出。
  • 将资源利用率与性能相关联:分析资源利用率与应用性能之间的关系,以确定是否可以在不影响用户体验的情况下降级到较便宜的资源。

在问题排查需求与费用之间取得平衡

详细的可观测性数据有助于诊断和排查问题。 但是,存储过多可观测性数据或将不必要的数据导出到外部监控工具可能会产生不必要的费用。为了高效排查问题,请考虑以下建议:

  • 收集足够的数据来排查问题:确保您的监控解决方案能够捕获足够的数据,以便高效诊断和解决问题。这些数据可能包括各种粒度级别的日志、跟踪记录和指标。
  • 使用采样和汇总:使用采样和汇总方法,在对详细数据的需求与费用注意事项之间取得平衡。这种方法可让您收集代表性数据,而不会产生过多的存储费用。
  • 了解监控工具和服务的价格模式:评估不同的监控解决方案,并选择符合项目具体需求、预算和使用模式的选项。选择时,请考虑数据量、保留要求和所需功能等因素。
  • 定期检查监控配置:移除不必要的指标或日志,避免收集过多数据。

根据角色定制数据收集,并设置特定于角色的保留政策

考虑不同角色的具体数据需求。例如,开发者可能主要需要访问跟踪记录和应用级日志,而 IT 管理员可能专注于系统日志和基础架构指标。通过定制数据收集,您可以降低不必要的存储费用,并避免无关的信息让用户感到无所适从。

此外,您还可以根据每个角色的需求和任何监管要求来定义保留政策。例如,开发者可能需要在较短的时间内访问详细日志,而财务分析师可能需要长期的数据。

考虑法规和合规性要求

在某些行业,法规要求强制要求保留数据。为避免法律和财务风险,您需要确保您的监控和数据保留做法有助于您遵守相关法规。同时,您需要保持成本效益请考虑以下建议:

  • 确定您所在行业或地区的具体数据保留要求,并确保您的监控策略满足这些要求的要求。
  • 实施适当的数据归档和检索机制,以满足审核和合规性需求,同时最大限度地降低存储费用。

实现智能提醒

提醒有助于及时检测和解决问题。不过,在让您了解相关信息的方法与给您发送大量通知让您不堪重负的方法之间需要权衡。通过设计智能提醒系统,您可以优先解决对业务影响更大的关键问题。请考虑以下建议:

  • 优先解决影响客户的问题:设计提醒,针对直接影响客户体验的问题(例如网站服务中断、响应速度慢或事务失败)快速触发提醒。
  • 针对暂时性问题进行微调:使用适当的阈值和延迟机制,以避免针对暂时性问题或对客户没有影响的自我修复系统问题发出不必要的提醒。
  • 自定义提醒严重程度:区分严重提醒和非关键提醒,确保最紧急的问题立即得到关注。
  • 明智地使用通知渠道:根据提醒的严重程度和紧急程度,选择合适的提醒通知渠道(电子邮件、短信或分页)。