此页面由 Cloud Translation API 翻译。

管理和监控您的 Google Cloud 基础架构

Last reviewed 2024-11-20 UTC

将应用部署到 Google Cloud的生产环境后，您可能需要修改其使用的基础架构。例如，您可能需要更改虚拟机的机器类型或更改 Cloud Storage 存储桶的存储类别。Google Cloud 基础架构可靠性指南的这一部分总结了可供您遵循的变更管理指南，以降低基础架构资源的可靠性风险。本部分还介绍了如何监控基础架构的可用性。 Google Cloud

逐步部署基础架构更改

如果您需要尽可能更改 Google Cloud 基础架构，请逐步将更改部署到生产环境中。例如，如果您需要更改虚拟机的机器类型，请将更改部署到一个可用区中的一些虚拟机，并监控更改的效果。如果您发现任何问题，请将基础架构快速还原到先前的稳定状态。诊断并解决问题，然后重启渐进式部署流程。验证工作负载是否按预期运行后，请在整个基础架构中逐步部署更改。

控制对全球性资源的更改

如果您修改了全球性资源（例如 VPC 网络和全球负载均衡器），那么在将更改部署到生产环境之前，请务必谨慎验证更改。

由于全球性资源可以灵活应对可用区和区域服务中断，因此您可能会决定在架构中使用某些全球性资源的单个实例。在此类部署中，全球性资源可能会发生单点故障。例如，如果您无意中错误配置了全球负载均衡器的转发规则，则前端可能会停止接收或处理用户请求。在这种情况下，虽然后端完好无损，但用户实际上无法使用该应用。为避免这种情况，请严格控制全球性资源的更改。例如，在变更审核流程中，您可以将对全球性资源的任何修改归类为高风险变更，必须由其他审核者进行验证和批准。

监控 Google Cloud 基础架构的可用性

您可以使用 Google Cloud Service Health 信息中心监控所有区域的 Google Cloud 服务的当前状态。您还可以查看每项服务的基础架构故障（称为突发事件）的历史记录。历史记录页面提供每个突发事件的详细信息，例如突发事件时长、受影响的可用区和区域、受影响的服务，以及任何建议的解决方法。

您还可以使用 Personalized Service Health 查看与项目相关的突发事件。借助 Service Health，您还可以使用 API 根据每个项目或每个组织请求事件信息，并配置提醒。

Google 会定期对每个突发事件的状态提供更新，包括预计下次更新的时间。您可以使用 RSS Feed 以编程方式获取突发事件的状态更新。如需了解详情，请参阅突发事件和 Google Cloud 服务运行状况信息中心。

管理流量和负载

后续步骤