管理和监控您的 Google Cloud 基础设施

Last reviewed 2024-11-20 UTC

将应用部署到 Google Cloud 的生产环境后,您可能需要修改其使用的基础架构。例如,您可能需要更改虚拟机的机器类型或更改 Cloud Storage 存储桶的存储类别。Google Cloud 基础架构可靠性指南的这一部分总结了可供您遵循的变更管理指南,以降低基础架构资源的可靠性风险。本部分还介绍了如何监控 Google Cloud 基础架构的可用性。

逐步部署基础架构更改

如果您需要尽可能更改 Google Cloud 基础架构,请逐步将更改部署到生产环境中。例如,如果您需要更改虚拟机的机器类型,请将更改部署到一个可用区中的一些虚拟机,并监控更改的效果。如果您发现任何问题,请将基础架构快速还原到先前的稳定状态。诊断并解决问题,然后重启渐进式部署流程。验证工作负载是否按预期运行后,请在整个基础架构中逐步部署更改。

控制对全球性资源的更改

如果您修改了全球性资源(例如 VPC 网络和全球负载均衡器),那么在将更改部署到生产环境之前,请务必谨慎验证更改。

由于全球性资源可以灵活应对可用区和区域服务中断,因此您可能会决定在架构中使用某些全球性资源的单个实例。在此类部署中,全球性资源可能会发生单点故障。例如,如果您无意中错误配置了全球负载均衡器的转发规则,则前端可能会停止接收或处理用户请求。在这种情况下,虽然后端完好无损,但用户实际上无法使用该应用。为避免这种情况,请严格控制全球性资源的更改。例如,在变更审核流程中,您可以将对全球性资源的任何修改归类为高风险变更,必须由其他审核者进行验证和批准。

监控 Google Cloud 基础架构的可用性

您可以使用 Google Cloud Service Health 信息中心监控所有区域的 Google Cloud 服务的当前状态。您还可以查看每项服务的基础架构故障(称为突发事件)的历史记录。历史记录页面提供每个突发事件的详细信息,例如突发事件时长、受影响的可用区和区域、受影响的服务,以及任何建议的解决方法。

您还可以使用 Personalized Service Health 查看与项目相关的突发事件。借助 Service Health,您还可以使用 API 根据每个项目或每个组织请求事件信息,并配置提醒。

Google 会定期对每个突发事件的状态提供更新,包括预计下次更新的时间。您可以使用 RSS Feed 以编程方式获取突发事件的状态更新。如需了解详情,请参阅突发事件和 Google Cloud Service Health 信息中心