Last reviewed 2024-10-31 UTC
Google Cloud Well-Architected Framework 中的“卓越运营”支柱提供了一些建议,可帮助您在 Google Cloud上高效运行工作负载。云中的卓越运营包括设计、实现和管理可提供价值、性能、安全性和可靠性的云解决方案。此支柱中的建议可帮助您不断改进和调整工作负载,以满足云中不断变化的需求。
卓越运营支柱适用于以下受众群体:
- 经理和领导者:一个框架,用于在云中建立和保持卓越的运营,并确保云投资能够带来价值并支持业务目标。
- 云运营团队:提供有关管理突发事件和问题、规划容量、优化性能和管理变更的指南。
- 站点可靠性工程师 (SRE):可帮助您实现高水平服务可靠性的最佳实践,包括监控、突发事件响应和自动化。
- 云架构师和工程师:设计和实现阶段的运营要求和最佳实践,有助于确保解决方案在设计时就考虑到了运营效率和可伸缩性。
- DevOps 团队:提供有关自动化、CI/CD 流水线和变更管理的指南,帮助实现更快、更可靠的软件交付。
为了实现卓越的运营,您应采用自动化、编排和数据驱动型数据洞见。Automation 有助于消除重复劳动。它还可以简化重复性任务并为其设置安全措施。编排有助于协调复杂的流程。以数据为依据的分析洞见有助于做出基于证据的决策。通过采用这些实践,您可以优化云运营、降低成本、提高服务可用性并增强安全性。
云端的卓越运营不仅仅是云运营方面的技术熟练程度。它包括一种鼓励持续学习和实验的文化转变。必须赋予团队创新、迭代和采用成长型思维模式的权力。卓越运营文化有助于营造协作环境,鼓励个人分享想法、质疑假设并推动改进。
如需了解针对 AI 和机器学习工作负载的卓越运营原则和建议,请参阅架构完善框架中的 AI 和机器学习视角:卓越运营。
核心原则
架构完善框架的卓越运营支柱中的建议与以下核心原则相对应:
- 使用 CloudOps 确保运营就绪状态和性能:通过定义服务等级目标 (SLO) 并执行全面的监控、性能测试和容量规划,确保云解决方案满足运营和性能要求。
- 管理突发事件和问题:通过全面的可观测性、清晰的突发事件响应程序、全面的回顾和预防措施,最大限度地减少云端突发事件的影响并防止再次发生。
- 管理和优化云资源:通过适当调整大小、自动扩缩等策略以及使用有效的费用监控工具来优化和管理云资源。
- 自动执行和管理变更: 自动执行流程、简化变更管理,并减轻人工操作负担。
- 不断改进和创新:专注于持续增强功能和推出新解决方案,以保持竞争力。
贡献者
作者:
- Ryan Cox | 首席架构师
- Hadrian Knotz | 企业架构师
其他贡献者:
- Daniel Lees | 云安全架构师
- Filipe Gracio 博士 | 客户工程师
- Gary Harmson | 首席架构师
- Jose Andrade | 企业基础架构客户工程师
- Kumar Dhanagopal | 跨产品解决方案开发者
- Nicolas Pintaux | 客户工程师,应用现代化改造专家
- Radhika Kanakam | 高级计划经理,Cloud GTM
- Samantha He | 技术文档工程师
- Zach Seils | 网络专家
- Wade Holmes | 全球解决方案总监