此页面由 Cloud Translation API 翻译。

Google Cloud 基础架构可靠性指南

Last reviewed 2024-11-20 UTC

可靠的基础设施是云端工作负载的关键要求。作为云架构师，如需为您的工作负载设计可靠的基础设施，您需要充分了解所选云服务商的可靠性功能。本文档介绍了Google Cloud 中的可靠性基础组件（可用区、区域和位置范围的资源）及其提供的可用性级别。本指南还提供了评估工作负载可靠性要求的指南，并提供了在 Google Cloud中构建和管理可靠基础设施的架构建议。

本文档分为以下几个部分：

如果您之前阅读过本指南，并且想了解其中的变化，请参阅版本说明。

可靠性概览

在满足当前可用性和故障恢复能力的情况下，应用或工作负载是可靠的。

可用性（即正常运行时间）是指应用可用的时间百分比。例如，对于可用性目标为 99.99% 的应用，24 小时内的总停机时间不得超过 8.64 秒。有时，可用性按应用在给定时间段内成功处理的请求所占的比例来计算。例如，对于可用性目标为 99.99% 的应用，每接收 10 万个请求，失败的请求数不得超过 10 个。可用性通常表示为百分比中有几个 9。例如，99.99% 可用性表示为“4 个 9”。

根据应用的用途，您可以使用不同的指标集来确定应用的可靠性。以下是此类可靠性指标的示例：

对于传送内容的应用，可用性、延迟时间和吞吐量是重要的可靠性指标。这些指标指示应用是否可以响应请求、应用响应请求所需的时间，以及应用在给定时间段内可以成功处理的请求数量。
对于数据库和存储系统，延迟时间、吞吐量、可用性和耐用性（避免数据丢失或损坏的性能）是可靠性的指标。它们指示系统读取或写入数据所需的时间，以及是否可以按需访问数据。
对于大数据和分析工作负载（例如数据处理流水线），一致的流水线性能（吞吐量和延迟时间）对于确保数据产品新鲜度至关重要，同时也是重要的可靠性指标。它指示可以处理的数据量，以及流水线从数据注入到数据处理需要多长时间。
大多数应用将数据正确性作为基本的可靠性指标。

如需查看为应用定义可靠性目标的更多准则，请参阅评估云工作负载的可靠性要求。

影响应用可靠性的因素

在 Google Cloud 中部署的应用的可靠性取决于以下因素：

应用的内部设计。
应用所依赖的次要应用或组件。
运行应用的Google Cloud 基础设施资源（例如计算、网络、存储空间、数据库和安全性），以及应用使用基础设施的方式。
您预配的基础设施容量，以及容量的扩缩方式。
用于构建、部署和维护应用及其依赖项和 Google Cloud基础设施的 DevOps 流程和工具。

下图中汇总了这些因素：

应用可靠性依赖项。

如上图所示，在 Google Cloud 中部署的应用的可靠性取决于多种因素。本指南重点介绍 Google Cloud 基础设施的可靠性。

后续步骤

贡献者

作者：

Nir Tarcic | 云生命周期 SRE UTL
Kumar Dhanagopal | 跨产品解决方案开发者

其他贡献者：

Alok Kumar | 杰出工程师
Andrew Fikes | 可靠性工程研究员
Chris Heiser | SRE TL
David Ferguson | 站点可靠性工程总监
Joe Tan | 高级产品顾问
Krzysztof Duleba | 首席工程师
Narayan Desai | 首席 SRE
Sailesh Krishnamurthy | 工程副总裁
Steve McGhee | 可靠性技术推广工程师
Sudhanshu Jain | 产品经理
Yaniv Aknin | 软件工程师

可靠性要素