良好架构框架:卓越运营支柱

Google Cloud Well-Architected Framework 中的卓越运营支柱提供了有关在 Google Cloud上高效运行工作负载的建议。要打造卓越的云端运营服务,您需要设计、实施和管理能够提供价值、性能、安全性和可靠性的云解决方案。此核心中的建议可帮助您不断改进和调整工作负载,以满足不断变化的云需求。

实现卓越运营的要素与以下受众群体相关:

  • 经理和领导者:一个框架,用于在云端建立和维护卓越的运营能力,并确保云投资带来价值并支持业务目标。
  • 云运营团队:管理突发事件和问题、规划容量、优化性能以及管理变更的指导。
  • 站点可靠性工程师 (SRE):帮助您实现高水平服务可靠性的最佳做法,包括监控、突发事件响应和自动化。
  • 云架构师和工程师:设计和实现阶段的运营要求和最佳做法,旨在帮助确保解决方案在设计上提升运营效率和可伸缩性。
  • DevOps 团队:有关自动化、CI/CD 流水线和变更管理的指南,以帮助实现更快、更可靠的软件交付。

为了实现卓越运营,您应该积极利用自动化、编排和以数据为依据的分析洞见。自动化有助于减少重复劳动。它还可以简化重复性任务并构建保护措施。编排有助于协调复杂的进程。以数据为依据的分析洞见有助于基于证据做出决策通过使用这些做法,您可以优化云运营、降低费用、提高服务可用性并增强安全性。

云运维的卓越性超越了云运营的技术水平。其中包括鼓励持续学习和实验的文化转变。团队必须有权创新、迭代和采用成长型思维。卓越运营文化营造了一种协作环境,在这种环境中,我们鼓励员工分享想法、挑战假设并推动改进。

如需了解专门针对 AI 和机器学习工作负载的卓越运营原则和建议,请参阅架构完善的框架中的 AI 和机器学习视角:卓越运营

核心原则

Well-Architected Framework 的卓越运营要素中的建议对应以下核心原则:

  • 使用 CloudOps 确保运营就绪性和性能:通过确定服务等级目标 (SLO) 并执行全面的监控、性能测试和容量规划,确保云解决方案满足运营和性能要求。
  • 管理突发事件和问题:通过全面的可观测性、清晰的突发事件响应程序、全面的回顾和预防措施,最大限度地降低云突发事件的影响并防止再次发生。
  • 管理和优化云资源:通过合理调整容量、自动扩缩等策略以及使用有效的费用监控工具,优化和管理云资源。
  • 自动执行和管理变更:自动执行流程,简化变更管理,并减轻手动工作的负担。
  • 持续改进和创新:专注于持续增强和引入新解决方案以保持竞争力。

贡献者

作者:

其他贡献者:

利用 CloudOps 确保做好运营准备并提升性能

Google Cloud Well-Architected Framework 的卓越运营核心,此原则可帮助您确保云工作负载的运营就绪性和性能。它侧重于为服务性能确立明确的预期和承诺,实现强大的监控和提醒功能,执行性能测试,以及针对容量需求主动规划。

原则概览

不同组织对运营准备情况的解读可能不同。 运营就绪是组织为在 Google Cloud上成功运行工作负载做好准备的方式。要准备运行复杂的多层云工作负载,需要为上线和第 2 天操作仔细规划。这些操作通常称为 CloudOps

运营准备工作的重点领域

运营准备工作包括四个重点领域。每个焦点区域均由一组 activity 和组件组成,这些 activity 和组件是在 Google Cloud中运行复杂应用或环境所必需的。下表列出了每个焦点区域的组件和活动:

运营准备工作的重点领域 activity 和组件
员工
  • 为管理和运营云资源的团队定义明确的角色和职责。
  • 确保团队成员具备适当的技能。
  • 制定学习计划。
  • 建立清晰的团队结构。
  • 招聘所需人才。
进程
  • 可观测性。
  • 管理服务中断。
  • 云端交付。
  • 核心云运维。
工具 支持 CloudOps 流程所需的工具。
治理
  • 服务等级和报告。
  • Cloud 财务。
  • 云运营模式
  • 架构审查和治理委员会。
  • 云架构和合规性。

建议

为确保使用 CloudOps 做好运营准备和性能,请考虑以下部分中的建议。本文档中的每条建议都与一个或多个运营准备工作的重点领域相关。

定义 SLO 和 SLA

云运营团队的核心职责是为所有关键工作负载制定服务等级协议 (SLO) 和服务等级协议 (SLA)。此建议与运营准备工作的治理重点领域相关。

SLO 必须是具体、可衡量、可实现、相关且有时限 (SMART),并且必须反映您期望的服务水平和性能。

  • 具体:清晰阐述了所需的服务级别和性能。
  • 可衡量:可量化和可跟踪。
  • 可实现:可在组织的功能和资源限制内实现。
  • 相关性:与业务目标和优先事项保持一致。
  • 有时限:已定义的衡量和评估时间范围。

例如,Web 应用的 SLO 可能是“99.9% 可用性”或“平均响应时间低于 200 毫秒”。此类 SLO 明确定义了 Web 应用所需的服务等级和性能水平,并且可随时间推移衡量和跟踪 SLO。

SLA 概述了客户关于服务可用性、性能和支持的承诺,包括因不合规而受到的任何惩罚或补救措施。SLA 必须包含有关所提供服务的具体细节、预期的服务级别、服务提供商和客户的责任,以及因不合规而受到的任何惩罚或补救措施。SLA 充当双方之间的合同协议,确保双方清楚了解与云服务相关的预期和义务。

Google Cloud 提供 Cloud Monitoring 和服务等级指标 (SLI) 等工具,可帮助您定义和跟踪 SLO。Cloud Monitoring 提供全面的监控和可观测性功能,使您的组织能够收集和分析与云端应用和服务的可用性、性能和延迟时间相关的指标。SLI 是特定指标 可用于衡量和跟踪 SLO 随时间而的变化通过利用这些工具,您可以有效监控和管理云服务,并确保它们达到 SLO 和 SLA。

明确定义并传达所有关键云服务的 SLO 和 SLA 有助于确保您部署的应用和服务的可靠性和性能。

实现全面的可观测性

如需实时了解云环境的运行状况和性能,我们建议您结合使用 Google Cloud Observability 工具 和第三方解决方案。此建议与运营准备工作的这些重点领域(流程和工具)相关。

通过实施一系列可观测性解决方案,您可以获得全面的可观测性策略,其中涵盖云基础架构和应用的各个方面。Google Cloud Observability 是一个统一平台,用于收集、分析和直观呈现来自各种Google Cloud 服务、应用和外部来源的指标、日志和跟踪记录。通过使用 Cloud Monitoring,您可以深入了解资源的资源利用率、性能特征和整体健康状况。

为确保全面监控,请监控与系统运行状况指标相对应的重要指标,例如 CPU 利用率、内存使用情况、网络流量、磁盘 I/O 和应用响应时间。您还必须考虑特定于业务的指标。通过跟踪这些指标,您可以发现潜在瓶颈、性能问题和资源限制。此外,您还可以设置提醒,以主动通知相关团队有关潜在问题或异常情况。

如需进一步增强监控功能,您可以将第三方解决方案与 Google Cloud Observability 集成。这些解决方案可以提供额外的功能,例如高级分析、机器学习驱动的异常值检测和突发事件管理功能。将 Google Cloud Observability 工具与第三方解决方案相结合,可让您根据自己的特定需求打造强大且可自定义的监控生态系统。通过这种组合方法,您可以主动识别和解决问题,优化资源利用率,并确保云应用和服务的整体可靠性和可用性。

实现性能和负载测试

执行定期性能测试有助于确保云端应用和基础架构能够处理峰值负载并保持最佳性能。负载测试会模拟真实的流量模式。压力测试会将系统推向极限,以确定潜在的瓶颈和性能限制。此建议与运营准备工作的这些重点领域(流程和工具)相关。

Cloud Load Balancing负载测试服务等工具可帮助您模拟真实的流量模式并对应用进行压力测试。这些工具可让您深入了解系统在各种负载条件下的行为,并帮助您确定需要优化的方面。

根据性能测试结果,您可以决策优化云基础架构和应用,以实现最佳性能和可伸缩性。此优化可能涉及调整资源分配、调整配置或实现缓存机制。

例如,如果您发现应用在高流量期间运行速度变慢,则可能需要增加分配给应用的虚拟机或容器数量。或者,您可能需要调整 Web 服务器或数据库的配置以提高性能。

通过定期执行性能测试并实施必要的优化,您可以确保云端应用和基础架构始终以最佳性能运行,并为用户提供无缝响应体验。这样做可以帮助您保持竞争优势,并赢得客户的信任。

规划和管理容量

主动规划未来的容量需求(自然或非自然)有助于确保您的云端系统平稳运行和可伸缩。此建议与流程运营准备工作的重点领域相关。

规划未来的容量包括了解和管理各种资源(例如计算实例、存储空间和 API 请求)的配额。通过分析历史使用模式、增长预测和业务需求,您可以准确预测未来的容量需求。您可以使用 Cloud MonitoringBigQuery 等工具收集和分析使用情况数据、识别趋势并预测未来需求。

历史使用模式提供有关一段时间内资源利用率的宝贵数据洞见。通过检查 CPU 利用率、内存用量和网络流量等指标,您可以识别高需求时段和潜在瓶颈。此外,您可以根据用户群的增长情况、新产品和新功能以及营销活动等因素来预测增长情况,从而帮助预估未来的容量需求。在评估容量需求时,您还应考虑服务等级协议 (SLA) 和性能目标等业务要求。

确定工作负载的资源大小时,请考虑可能影响资源利用率的因素。节假日购物期或季末促销等季节性变化可能会导致需求出现暂时性高峰。产品发布或营销活动等计划内事件也可以显著增加流量。为了确保您的主要系统和灾难恢复 (DR) 系统可以应对意外的需求激增,请规划在自然灾害和网络攻击等中断期间支持安全故障切换的容量。

自动扩缩是一种根据工作负载的波动动态调整云资源的重要策略。通过使用自动扩缩政策,您可以根据不断变化的需求自动扩缩计算实例、存储空间和其他资源。这可确保在高峰时段实现最佳性能,同时在资源利用率较低时最大限度地降低费用。自动扩缩算法使用 CPU 利用率、内存用量和队列深度等指标来确定何时扩缩资源。

持续监控和优化

如需管理和优化云工作负载,您必须建立持续监控和分析性能指标的流程。此建议与运营准备工作的这些重点领域(流程和工具)相关。

为了建立持续监控和分析流程,您需要跟踪、收集和评估与云环境各个方面相关的数据。通过使用此数据,您可以主动确定需要改进的领域,优化资源利用率,并确保您的云基础架构始终达到或超过您的性能预期。

性能监控的一个重要方面是定期检查日志和跟踪记录。日志可提供有关系统事件、错误和警告的宝贵数据洞见。跟踪记录提供有关应用请求流的详细信息。通过分析日志和跟踪记录,您可以识别潜在问题,确定问题的根本原因,并更好地了解应用在不同条件下的行为。服务之间的往返时间等指标可以帮助您识别和了解工作负载中的瓶颈。

此外,您可以使用性能调整技术来显著缩短应用响应时间和整体效率。以下是您可以使用的技术示例:

  • 缓存:将经常访问的数据存储在内存中,以减少重复的数据库查询或 API 调用的需求。
  • 数据库优化:使用索引和查询优化等技术来提高数据库操作的性能。
  • 代码分析:找出代码消耗过多资源或导致性能问题的区域。

通过运用这些方法,您可以优化应用,并确保应用在云端高效运行。

管理突发事件和问题

Google Cloud Well-Architected Framework 的卓越运营要素中的这一原则提供了一些建议,可帮助您管理与云工作负载相关的突发事件和问题。它涉及实施全面的监控和可观测性,建立明确的突发事件响应程序,进行全面的根本原因分析,以及实施预防措施。可靠性部分详细介绍了此原则中讨论的许多主题。

原则概览

突发事件管理和问题管理是功能性运营环境的重要组成部分。对于不同严重程度的突发事件,您响应、分类和解决的方式可能会显著影响您的运营。您还必须主动并不断进行调整,以优化可靠性和性能。有效的突发事件和问题管理流程依赖于以下基本要素:

  • 持续监控:快速发现并解决问题。
  • 自动化:简化任务并提高效率。
  • 编排:有效地协调和管理云资源。
  • 数据驱动的数据分析:优化云运营并做出明智的决策。

这些要素可帮助您构建能够应对各种挑战和中断的弹性云环境。这些元素还有助于降低代价高昂的突发事件和停机的风险,并帮助您实现更高的业务敏捷性并取得成功。这些基本要素涵盖运营准备的四个重点领域:员工、流程、工具和治理。

建议

为了有效管理突发事件和问题,请考虑以下部分中的建议。本文档中的每条建议都与一个或多个运营准备工作的重点领域相关。

建立明确的突发事件响应程序

明确的角色和职责对于确保有效、协调地应对突发事件至关重要。此外,清晰的通信协议和上报路径有助于确保在突发事件期间及时有效地共享信息。此建议与运营准备工作的这些重点领域有关:人力、流程和工具。

如需建立突发事件响应程序,您需要定义每个团队成员的角色和期望,例如突发事件指挥官、调查员、沟通人员和技术专家。建立沟通和上报路径包括识别重要联系人、设置沟通渠道,以及确定必要时将突发事件上报给更高层级管理层的流程。定期培训和准备有助于确保团队具备有效应对突发事件的知识和技能。

通过在 Runbook 或策略方案中记录突发事件响应流程,您可以为团队提供标准化参考指南,供团队在突发事件期间遵循。Runbook 必须概述突发事件响应流程的每个阶段(包括通信、分类、调查和解决)应采取的步骤。还必须包含相关工具和资源的信息以及重要人员的联系信息。您必须定期查看并更新 Runbook,以确保它保持最新状态且有效。

集中管理突发事件

为了在整个突发事件生命周期内有效跟踪和管理,请考虑使用集中式突发事件管理系统。此建议与运营准备工作的这些重点领域有关,即流程和工具。

集中式突发事件管理系统具有以下优势:

  • 提高可见性:通过在一个位置整合所有与突发事件相关的数据,团队无需在各种渠道或系统中搜索上下文。这种方法节省时间并减少混淆,并让利益相关方全面了解突发事件,包括其状态、影响和进度。
  • 更好地协调和协作:集中式系统提供用于通信和任务管理的统一平台。它有助于促进突发事件响应中涉及的不同部门和职能部门之间的无缝协作。这种方法可确保每个人都可以访问最新信息,并降低沟通不畅的风险。
  • 增强问责制和责任感:通过集中式突发事件管理系统,您的组织可以将任务分配给特定的个人或团队,并确保明确定义和跟踪责任。此方法有助于增强责任感并鼓励积极主动地解决问题,因为团队成员可以轻松监控自己的进度和贡献。

集中式突发事件管理系统必须为突发事件跟踪、任务分配和通信管理提供强大的功能。借助这些功能,您可以自定义工作流、设置优先级并集成监控工具和工单系统等其他系统。

通过实施集中式突发事件管理系统,您可以优化组织的突发事件响应流程,改善协作并提高可见性。这样可以更快地解决突发事件,缩短停机时间并提高客户满意度。它还有助于培养持续改进的文化,因为您可以从过去的突发事件中学习,并识别有待改进的领域。

进行突发事件后周详的审核

发生突发事件后,您必须进行详细的突发事件后审核 (PIR),这也称为事后分析,以确定根本原因、影响因素和经验教训。这种全面的审核有助于您防止将来再发生类似突发事件。此建议与运营准备工作的这些重点领域(流程和治理)相关。

PIR 流程必须让具备突发事件各方面专业知识的多学科团队参与。该团队必须通过面试、文件审核和现场检查收集所有相关信息。必须创建事件时间轴,以确定导致突发事件的操作顺序。

团队收集所需信息后,必须进行根本原因分析,以确定导致突发事件的因素。此分析必须确定导致突发事件的直接原因和系统性问题。

除了确定根本原因,PIR 团队还必须确定可能导致该事件的其他任何影响因素。这些因素可能包括人为错误、设备故障或组织因素(如通信故障和缺乏培训)。

PIR 报告必须记录调查结果,包括事件时间轴、根本原因分析和建议采取的措施。该报告是实施纠正措施和防止重复出现的宝贵资源。报告必须与所有利益相关方共享,并且必须用于制定安全培训和程序。

为确保 PIR 流程顺利完成,您的组织必须培养不责罚的文化,专注于学习和改进,而不是指责。这种文化鼓励个人在报告事件时不必担心受到报复,这可以帮助您解决系统性问题并进行有意义的改进。

通过全面实施 PIR,并根据结果采取纠正措施,可以显著降低将来发生类似突发事件的风险。这种主动的突发事件调查和预防方法有助于为涉及的所有人打造更安全、更高效的工作环境。

维护知识库

已知问题、解决方案和问题排查指南的知识库对于管理和解决突发事件至关重要。团队成员可以使用知识库快速识别和解决常见问题。实现知识库有助于减少上报需求,并提高整体效率。此建议与运营准备工作的这些重点领域有关,即人力和流程。

知识库的一个主要优势是,可让团队从过往经验中学习,并避免重复错误。通过捕获和分享已知问题的解决方案,团队可以共同了解如何解决突发事件管理方面的常见问题和最佳做法。使用知识库可以节省时间和精力,有助于实现流程标准化,并确保突发事件解决方案的一致性。

知识库不仅有助于缩短突发事件解决时间,还有助于促进团队间知识共享和协作。通过集中的信息存储库,团队可以轻松访问知识库并做出贡献,从而促进形成持续学习和改进的文化。 这种文化鼓励团队分享专业知识和经验,从而建立更全面、更有价值的知识库。

要有效地创建和管理知识库,请使用适当的工具和技术。Google Workspace 等协作平台非常适合这一用途,因为它们可让您轻松地协作创建、编辑和共享文档。这些工具还支持版本控制和变更跟踪,可确保知识库保持最新且准确无误。

让所有相关团队都能轻松访问知识库。为此,您可以将知识库与现有突发事件管理系统集成,或者提供专用门户或内网网站。团队可以利用可以随时使用的知识库快速访问高效解决突发事件所需的信息。这种可用性有助于缩短停机时间,并最大限度地减少对业务运营的影响。

定期审核和更新知识库,以确保其保持相关性和实用性。监控突发事件报告,识别常见问题和趋势,并将新的解决方案和问题排查指南纳入知识库。最新的知识库可帮助您的团队更快速、更高效地解决突发事件。

自动响应突发事件

自动化有助于简化突发事件响应和修复流程。它可以帮助您快速高效地解决安全漏洞和系统故障。通过使用 Google Cloud Cloud Run 函数Cloud Run 等产品,您可以自动执行各种通常耗时的手动任务。此建议与运营准备工作的这些重点领域(流程和工具)相关。

自动事件响应具有以下优势:

  • 缩短突发事件检测和解决时间:自动化工具可以持续监控系统和应用、实时检测可疑或异常活动,并通知利益相关方或做出响应,而无需干预。这种自动化功能可让您在潜在威胁或问题升级为重大突发事件之前加以识别。检测到突发事件时,自动化工具可能会触发预定义的补救操作,例如隔离受影响的系统、隔离恶意文件或回滚更改,以将系统恢复到已知的良好状态。
  • 减少安全和运营团队的负担:自动突发事件响应可让安全和运营团队专注于更具战略意义的任务。通过自动执行日常任务和重复性任务,例如收集诊断信息或触发提醒,您的组织可以腾出人员来处理更复杂和重要的突发事件。这种自动化可以提高整体突发事件响应效率和效率。
  • 提高修复流程的一致性和准确性:自动化工具可确保在所有受影响的系统中统一执行修复措施,从而最大限度地降低人为错误或不一致的风险。这种修复流程的标准化有助于最大限度地减少突发事件对用户和业务的影响。

管理和优化云资源

Google Cloud Well-Architected Framework 的卓越运营要素中,此原则提供了一些建议,旨在帮助您管理和优化云工作负载所使用的资源。它涉及根据实际使用情况和需求合理调整资源大小、使用自动扩缩功能进行动态资源分配、实施费用优化策略,以及定期检查资源利用率和费用。费用优化核心部分详细介绍了此原则中讨论的许多主题。

原则概览

云资源管理和优化在优化云支出、资源用量和基础架构效率方面起着至关重要的作用。它包含各种策略和最佳做法,旨在最大化您的云支出的价值和回报。

这一要素对优化的关注不仅仅是降低成本。它着重实现以下目标:

  • 效率:使用自动化和数据分析来实现最佳性能并节省费用。
  • 性能:您可以轻松扩缩资源以满足波动的需求并实现最佳效果。
  • 可伸缩性:调整基础架构和流程,以适应快速增长和多样化的工作负载。

通过专注于这些目标,您可以在费用和功能之间取得平衡。您可以在资源预配、扩缩和迁移方面做出明智的决策。此外,您还可以获得有关资源消耗模式的宝贵数据洞见,从而在潜在问题上报之前主动识别并解决它们。

建议

如需管理和优化资源,请考虑以下部分中的建议。本文档中的每条建议都与一个或多个运营准备的重点领域相关。

合理调整资源大小

持续监控资源利用率并根据实际需求调整资源分配对于高效的云资源管理至关重要。过度预配资源可能会产生不必要的费用,预配不足可能会导致性能瓶颈,从而影响应用性能和用户体验。为实现最佳平衡,您必须采用主动方法来合理调整云资源的容量。此建议与运营准备工作的治理重点领域相关。

Cloud MonitoringRecommender 可以帮助您发现合理调整容量的机会。Cloud Monitoring 可帮助您实时了解资源利用率指标。通过这种可见性,您可以跟踪资源使用模式并识别潜在的低效问题。Recommender 会分析资源利用率数据,以提出智能的建议来优化资源分配。通过使用这些工具,您可以深入了解资源使用情况,并就合理调整资源大小做出明智的决策。

除了 Cloud Monitoring 和 Recommender,请考虑使用自定义指标来触发自动合理调整容量的操作。通过自定义指标,您可以跟踪与应用和工作负载相关的特定资源利用率指标。您还可以配置提醒,以便在达到预定义的阈值时通知管理员。然后,管理员可以采取必要的措施来调整资源分配。这种主动式方法可确保资源及时扩缩,这有助于优化云费用并防止性能问题。

使用自动扩缩功能

自动扩缩计算和其他资源,有助于确保云端应用的最佳性能和成本效益。自动扩缩可让您根据工作负载的波动情况动态调整资源的容量,以便在需要资源时获得所需的资源,并避免过度预配和不必要的费用。此建议与流程运营准备工作的重点领域相关。

为了满足不同应用和工作负载的多样化需求,Google Cloud 提供了各种自动扩缩选项,包括:

  • Compute Engine 代管式实例组 (MIG) 是作为单个实体进行管理和扩缩的虚拟机组。使用 MIG,您可以定义自动扩缩政策,用于指定要在实例组中维护的虚拟机数量下限和上限,以及触发自动扩缩的条件。例如,您可以配置政策,以在 CPU 利用率达到特定阈值时在 MIG 中添加虚拟机,并在利用率降至其他阈值以下时移除虚拟机。
  • Google Kubernetes Engine (GKE) 自动扩缩功能会动态调整集群资源,以满足应用的需求。它提供以下工具:

    • 集群自动扩缩器根据 Pod 资源需求添加或移除节点。
    • Pod 横向自动扩缩器根据 CPU、内存或自定义指标更改 Pod 副本的数量。
    • Pod 纵向自动扩缩器根据使用模式微调 Pod 资源请求和限制。
    • 节点自动预配功能会自动为您的工作负载创建优化的节点池。

    这些工具可以协同工作,以优化资源利用率、确保应用性能并简化集群管理。

  • Cloud Run 是一个无服务器平台,让您无需管理基础架构即可运行代码。Cloud Run 提供内置的自动扩缩功能,可根据传入流量自动调整实例数量。当流量增加时,Cloud Run 会增加实例数以处理负载。当流量减少时,Cloud Run 会缩减实例数量以降低费用。

通过使用这些自动扩缩选项,您可以确保基于云的应用具有处理不同工作负载所需的资源,同时避免过度预配和不必要的费用。使用自动扩缩可以提高性能、节省费用以及更高效地利用云资源。

利用费用优化策略

优化云支出有助于您有效管理组织的 IT 预算。此建议与运营准备工作的治理重点领域相关。

Google Cloud 提供了多种工具和方法,可帮助您优化云费用。通过使用这些工具和技术,您可以充分发掘云支出的价值。这些工具和技术可帮助您确定可降低费用的领域,例如识别利用率过低的资源或建议更经济实惠的实例类型。有助于优化云费用的 Google Cloud 选项包括:

  • 承诺使用折扣 (CUD) 是指在一段时间内承诺使用量一定水平的折扣。
  • Compute Engine 中的持续使用折扣会在确保持续使用服务时提供折扣。
  • 与常规虚拟机相比,Spot 虚拟机能够以更低的费用访问未使用的虚拟机容量。

价格模式可能会随时间而变化,并且可能会引入新的功能,以提供比现有方案更好的性能或更低的费用。因此,您应定期查看价格模式并考虑采用替代功能。通过随时了解最新的价格模式和功能,您可以就云架构做出明智的决策,从而最大限度地降低费用。

Google Cloud的费用管理工具(如预算和提醒)可提供有关云支出的宝贵数据洞见。通过预算和提醒,用户可以设置预算,并在超出预算时收到提醒。这些工具有助于用户跟踪其云支出,并确定可以降低费用的领域。

跟踪资源用量和费用

您可以使用标记和标签来跟踪资源用量和费用。通过为云资源(如项目、部门或其他相关维度)分配标记和标签,您可以对资源进行分类和整理。这样,您就可以监控和分析特定资源的支出模式,并确定高使用率或可能节省费用的方面。此建议与运营准备工作的这些重点领域有关,即治理和工具。

Cloud Billing 和费用管理等工具可帮助您全面了解自己的支出模式。这些工具可提供有关您的云使用情况的详细数据分析,可让您识别趋势、预测费用并做出明智的决策。通过分析历史数据和当前支出模式,您可以确定费用优化工作的重点领域。

自定义信息中心和报告可帮助您直观呈现费用数据,并深入了解支出趋势。通过使用相关指标和维度自定义信息中心,您可以监控关键绩效指标 (KPI) 并跟踪费用优化目标的实现进度。报告可让您更深入地了解费用数据。通过报告,您可以按特定时间段或资源类型过滤数据,以了解影响云支出的底层因素。

定期审核并更新您的标记、标签和费用分析工具,以确保您获取有关云使用情况和费用的最新信息。通过随时了解情况并进行费用事后分析或主动费用审查,您可以及时发现任何意外的支出增加。这样,您就可以做出主动决策,优化云资源和控制费用。

制定费用分配和预算

云费用管理的问责制和透明度对于优化资源利用率和确保财务控制至关重要。此建议与运营准备的重点领域的治理相关。

为了确保问责制和透明度,您需要建立明确的费用分配和退款机制。通过将费用分配给特定的团队、项目或个人,您的组织可以确保其中每个实体对其云使用负责。这种做法可以培养主人翁意识,鼓励负责任地管理资源。此外,退款机制使您的组织能够从内部客户处收回云费用,使激励措施与性能保持一致,并加强财务管控。

为不同团队或项目制定预算是云费用管理的另一个基本方面。预算使您的组织能够定义支出限制,并根据这些限制跟踪实际费用。通过这种方法,您可以做出主动决策,防止支出受到不受控制。通过设置切实可行的预算,您可以确保高效使用云资源并使其与业务目标保持一致。根据预算定期监控实际支出,有助于您识别差异并及时解决潜在的超量问题。

如需监控预算,您可以使用 Cloud Billing 预算和提醒等工具。这些工具可提供对云支出的实时数据分析,并通知利益相关者潜在溢出。通过使用这些功能,您可以跟踪云费用,并在出现重大偏差之前采取纠正措施。这种主动式方法有助于防止财务意外,并确保负责任地使用云资源。

自动执行和管理变更

Google Cloud Well-Architected Framework 的卓越运营要素中的这一原则提供了一些建议,可帮助您自动处理和管理云工作负载的更改。它涉及实现基础架构即代码 (IaC)、建立标准操作流程、实现结构化变更管理流程以及使用自动化和编排。

原则概览

变更管理和自动化在确保云环境中的平稳、可控转换方面发挥着至关重要的作用。为了实现有效的变更管理,您需要利用策略和最佳做法来最大限度地减少中断,并确保变更与现有系统无缝集成。

有效的变更管理和自动化包含以下基本要素:

  • 变更治理:制定明确的变更管理政策和程序,包括审批流程和沟通计划。
  • 风险评估:识别与变更相关的潜在风险,并通过风险管理技术缓解风险。
  • 测试和验证:全面测试更改,确保它们符合功能和性能要求,并减少潜在的回归问题。
  • 受控部署:以受控方式实施更改,确保用户无缝过渡到新环境,并采用根据需要无缝回滚的机制。

这些基本要素有助于最大限度地减少变更的影响,并确保变更对业务运营产生积极影响。这些元素由流程、工具和治理运营准备的重点领域表示。

建议

如需自动执行和管理更改,请考虑以下部分中的建议。本文档中的每条建议都与一个或多个运营准备工作的重点领域相关。

采用 IaC

基础架构即代码 (IaC) 是管理云基础架构的一种变革性方法。您可以使用 Terraform 等工具以声明方式定义和管理云基础架构。IaC 可帮助您实现一致性、可重复性并简化变更管理。它还可实现更快、更可靠的部署。此建议与运营准备工作的这些重点领域(流程和工具)相关。

为云部署采用 IaC 方法的主要好处如下:

  • 人类可读的资源配置:借助 IaC 方法,您能够以人类可读的格式(如 JSON 或 YAML)声明云基础架构资源。基础架构管理员和运维人员可以轻松理解和修改基础架构并与他人协作。
  • 一致性和可重复性:IaC 可在您的基础架构部署中实现一致性和可重复性。无论谁执行部署,您都可以确保基础架构每次都以相同的方式预配和配置。此方法有助于减少错误,并确保您的基础架构始终处于已知状态。
  • 问责制原则和简化的问题排查:IaC 方法有助于提高问责制原则,使问题排查变得更轻松。通过将 IaC 代码存储在版本控制系统中,您可以跟踪更改,并确定更改时间和更改者。如有必要,您可以轻松回滚到以前的版本。

实现版本控制

Git 等版本控制系统是 IaC 流程的关键组成部分。它提供强大的变更管理和风险缓释功能,因此通过内部开发或 SaaS 解决方案得到了广泛采用。此建议与运营准备工作的这些重点领域有关,即治理和工具。

通过跟踪 IaC 代码和配置的更改,版本控制可让您了解代码的变化,从而更轻松地了解更改的影响并发现潜在问题。这种增强的可见性可以促进参与同一 IaC 项目的团队成员之间的协作。

大多数版本控制系统可让您根据需要轻松回滚更改。此功能有助于降低发生意外后果或错误的风险。通过在 IaC 工作流中使用 Git 等工具,您可以显著改进变更管理流程、促进协作并降低风险,从而更高效、更可靠地实现 IaC。

构建 CI/CD 流水线

持续集成和持续交付 (CI/CD) 流水线可简化云应用的开发和部署过程。CI/CD 流水线自动执行构建、测试和部署阶段,从而通过改进的质量控制实现更快、更频繁的发布。此建议与工具的运营准备重点领域相关。

CI/CD 流水线可确保代码更改持续集成到中央代码库(通常是 Git 等版本控制系统)中。持续集成有助于及早检测和解决问题,并降低出现错误或兼容性问题的可能性。

如需为云应用创建和管理 CI/CD 流水线,您可以使用 Cloud Build Cloud Deploy 等工具。

  • Cloud Build 是一项全代管式构建服务,可让开发者以声明方式定义和执行构建步骤。它与热门的源代码管理平台无缝集成,并且可以由代码推送和拉取请求等事件触发。
  • Cloud Deploy 是一种无服务器部署服务,可自动将应用部署到各种环境(例如测试环境、预演环境和生产环境)。它提供蓝绿部署、流量拆分和回滚功能,可让您更轻松地管理和监控应用部署。

将 CI/CD 流水线与版本控制系统和测试框架集成有助于确保云应用的质量和可靠性。通过在 CI/CD 流程中运行自动化测试,开发团队可以在将代码部署到生产环境之前快速识别和修复任何问题。这种集成有助于提高云应用的整体稳定性和性能。

使用配置管理工具

Puppet、Chef、Ansible 和 VM Manager 等工具可帮助您自动配置和管理云资源。使用这些工具,您可以确保云环境中的资源一致性和合规性。此建议与工具的运营准备重点领域相关。

自动配置和管理云资源具有以下优势:

  • 显著降低出现人为错误的风险:如果涉及手动流程,因人为错误导致错误的可能性更高。配置管理工具可通过自动执行流程来降低此风险,以便在所有云资源中一致且准确地应用配置。这种自动化可以提高云环境的可靠性和稳定性。
  • 提高运营效率:通过自动执行重复性任务,您的组织可以解放 IT 人员,从而专注于更具战略意义的计划。这种自动化可以提高工作效率和节省费用,并更好地响应不断变化的业务需求。
  • 简化复杂云基础架构的管理:随着云环境规模和复杂性不断增长,资源管理也会变得越来越困难。配置管理工具提供了用于管理云资源的集中平台。借助这些工具,您可以更轻松地跟踪配置、发现问题和实施更改。使用这些工具可以提高云环境的可见性、控制力和安全性。

自动执行测试

将自动化测试集成到 CI/CD 流水线中有助于确保云应用的质量和可靠性。通过在部署前验证更改,您可以显著降低错误和回归的风险,从而实现更稳定、更强大的软件系统。此建议与运营准备工作的这些重点领域有关,即流程和工具。

将自动化测试整合到 CI/CD 流水线中的主要好处如下:

  • 及早检测出 bug 和缺陷:自动测试有助于在开发过程的早期阶段检测到 bug 和缺陷,以免它们导致生产环境中出现重大问题。此功能可防止在开发过程的后期进行高昂的返工和 bug 修复,从而节省时间和资源。
  • 基于标准的高质量代码:自动化测试可确保代码符合特定标准和最佳实践,有助于提高代码的整体质量。这种能力使应用的可维护性和可靠性更高,不易出错。

您可以在 CI/CD 流水线中使用各种类型的测试方法。每种测试类型都有特定的用途。

  • 单元测试侧重于测试各个代码单元(例如函数或方法),以确保它们按预期运行。
  • 集成测试会测试应用的不同组件或模块之间的交互,以验证它们是否能够正常运行。
  • 端到端测试通常与单元测试和集成测试一起使用。端到端测试可模拟真实场景,对整个应用进行测试,并有助于确保应用符合最终用户的要求。

为了有效地将自动化测试集成到 CI/CD 流水线,您必须选择适当的测试工具和框架。该平台有许多不同的选项,每种方案都有自己的优缺点。您还必须制定明确的测试策略,其中要概述要执行的测试类型、测试频率以及测试通过或失败的标准。通过遵循这些建议,您可以确保自动化测试流程高效且有效。此流程可让您深入了解云应用的质量和可靠性。

持续改进和创新

Google Cloud Well-Architected Framework 的卓越运营要素中的这一原则提供了一些建议,可帮助您持续优化云运营并推动创新。

原则概览

为了在云端持续改进和创新,您需要专注于持续学习、实验和适应。这有助于您探索新技术并优化现有流程,还可促进组织建立并保持行业领先地位的卓越文化。

通过持续改进和创新,您可以实现以下目标:

  • 加速创新:探索新技术和服务,以增强能力并实现差异化。
  • 降低费用:通过流程改进计划发现并消除效率低下问题。
  • 提高敏捷性:快速适应不断变化的市场需求和客户需求。
  • 改进决策流程:从数据和分析中获得宝贵的数据洞见,做出数据驱动型决策。

遵循“持续改进和创新”原则的组织可以释放云环境的全部潜力,实现可持续增长。此原则主要对应于员工运营准备工作的重点领域。创新文化让团队可以试验新的工具和技术,以扩展功能并降低费用。

建议

如需持续改进和创新云工作负载,请考虑以下部分中的建议。本文档中的每条建议都与一个或多个运营准备工作的重点领域相关。

营造学习文化

鼓励团队开展实验、分享知识并不断学习。采用不责罚的文化,将失败视为发展和改进机会。此建议与员工运营准备的重点领域相关。

如果您培养了学习文化,团队就可以从错误中吸取教训,并快速迭代。这种方法可以鼓励团队成员勇于冒险、尝试新想法并拓展工作边界。这还可以营造一个心理安全的环境,让每个人都可以放心分享失败的经历并从中学习。以这种方式共享可以打造更加开放和协作的环境。

为了促进知识分享和持续学习,为团队创造分享知识并相互学习的机会。您可以通过非正式和正式的学习会议和会议来实现此目的。

通过培养实验、知识共享和持续学习的文化,您可以创造一个让团队能够冒险、创新和成长的环境。这种环境可以提高生产力,提高问题解决能力,使员工参与度和工作积极性更高。此外,通过提倡无责备的文化,您可以为员工创造一个安全的空间,让他们可以从错误中吸取教训,并为团队的集体知识做出贡献。这种文化最终会培养出更有弹性和适应性更强的员工队伍,让他们更有能力应对挑战并实现长期成功。

定期回顾

回顾让团队有机会反思自己的体验,找出表现较好的方面,并确定可以改进的方面。通过在项目或重大突发事件后进行回顾,团队可以从成功和失败中学习,并不断改进其流程和做法。此建议与运营准备工作的这些重点领域(流程和治理)相关。

构建回溯期的有效方法是使用“开始-停止-继续”模型:

  • 开始:在回顾的开始阶段,团队成员会确定他们认为可以增强其工作的新做法、流程和行为。他们讨论了为什么需要进行更改以及如何实施这些更改。
  • 停止:在“停止”阶段,团队成员会识别并消除不再有效或阻碍进度的做法、流程和行为。并讨论了为什么需要进行这些更改以及如何实施这些更改。
  • 继续:在继续阶段,团队成员会确定良好且必须继续的做法、流程和行为。他们讨论了这些元素为何重要以及如何加强它们。

通过使用“开始-停止-继续”模型等结构化格式,团队可以确保回顾工作富有成效且重点突出。此模型有助于促进讨论,确定要点,并确定可实施未来增强功能的步骤。

及时了解云技术

为了最大限度地发挥 Google Cloud 服务的潜力,您必须及时了解最新的改进、功能和最佳做法。此建议与员工运营准备工作的重点领域相关。

参加相关会议、在线讲座和培训课程是拓展知识面的一种宝贵方法。这些活动提供了向专家学习、 Google Cloud 了解新功能的机会,并与可能面临类似挑战的行业同行互动。通过参加这些会议,您可以深入了解如何有效使用新功能、优化云运营并在组织内推动创新。

为了确保您的团队成员掌握云技术的相关动态,请鼓励他们获得认证并参加培训课程。 Google Cloud提供了各种认证,旨在验证特定云领域的技能和知识。获得这些认证可以证明您对卓越组织的承诺,并有力证明您精通云技术。这些培训课程由 Google Cloud 和我们的合作伙伴提供,其中会深入研究特定主题。他们提供可直接应用于实际项目的直接经验和实践技能。通过对团队的职业发展进行投资,您可以培养持续学习的文化,并确保每个人都拥有在云端取得成功所需的技能。

积极征求并采纳反馈意见

收集用户、利益相关方和团队成员的反馈。根据反馈找出改进云解决方案的机会。此建议与员工运营准备工作的重点领域相关。

您收集的反馈可以帮助您了解解决方案用户不断变化的需求、问题和期望。这些反馈是宝贵的意见,可以推动改进工作以及确定未来改进工作的轻重缓急。您可以使用各种机制收集反馈:

  • 问卷调查是从大量用户和利益相关方那里收集定量数据的有效方法。
  • 用户访谈提供了深入的定性数据收集机会。通过访谈,您可以了解用户的具体挑战和体验。
  • 放置在云解决方案中的反馈表单可让用户便捷地对其体验提供反馈。
  • 与团队成员定期会议有助于收集有关技术方面和实施挑战的反馈。

您必须分析和整合您通过这些机制收集的反馈,以确定共同的主题和模式。此分析可帮助您根据建议改进的影响和可行性确定未来改进措施的优先级。通过解决通过反馈发现的需求和问题,您可以确保您的云解决方案继续满足用户和利益相关方不断变化的要求。

衡量和跟踪进度

关键绩效指标 (KPI) 和指标对于跟踪进度和衡量云运营的有效性至关重要。KPI 是反映整体性能的可量化衡量指标指标是有助于计算 KPI 的具体数据点。定期查看指标并使用它们来发现改进机会并衡量进度。这有助于您持续改进和优化云环境。 此建议与运营准备工作的这些重点领域有关,即治理和流程。

使用 KPI 和指标的一个主要好处是,它们使您的组织能够采用数据驱动的云运营方法。通过跟踪和分析运营数据,您可以就如何改善云环境做出明智的决策。这种以数据为依据的方法可帮助您识别如果不使用系统指标,您可能看不到的趋势、模式和异常。

如需收集和分析运营数据,您可以使用 Cloud MonitoringBigQuery 等工具。Cloud Monitoring 支持实时监控云资源和服务。借助 BigQuery,您可以存储和分析通过监控收集的数据。通过结合使用这些工具,您可以创建自定义信息中心,以直观呈现重要指标和趋势。

运营信息中心可以集中显示最重要的指标,以便您快速识别需要注意的任何方面。例如,信息中心可能包含特定应用或服务的 CPU 利用率、内存用量、网络流量和延迟时间等指标。通过监控这些指标,您可以快速发现任何潜在问题并采取措施加以解决。