雲端工作負載必須有可靠的基礎架構。身為雲端架構師,如要為工作負載設計可靠的基礎架構,您必須充分瞭解所選雲端供應商的可靠性功能。本文說明Google Cloud 中的可靠性建構區塊(可用區、區域和位置範圍資源),以及這些建構區塊提供的可用性等級。本文也提供評估工作負載可靠性需求的指南,並提出架構建議,協助您在 Google Cloud中建構及管理可靠的基礎架構。
本文件分為以下幾個部分:
- 可靠性總覽 (本部分)
- Google Cloud中的可靠性構成要素
- 評估雲端工作負載的可靠性需求
- 在 Google Cloud中為工作負載設計可靠的基礎架構
- 在 Google Cloud 中管理工作負載的流量和負載
- 管理及監控基礎架構 Google Cloud
如果您先前已閱讀本指南,並想瞭解異動內容,請參閱「版本資訊」。
可靠性總覽
如果應用程式或工作負載符合您目前對可用性和故障復原能力的目標,就是可靠的應用程式或工作負載。
可用性 (或運作時間) 是指應用程式可供使用的時間百分比。舉例來說,如果應用程式的可用性目標為 99.99%,則 24 小時內總停機時間不得超過 8.64 秒。有時,可用性會以應用程式在指定期間內成功處理的要求比例來衡量。舉例來說,如果應用程式的可用性目標為 99.99%,則每收到 100,000 個要求,最多只能有 10 個要求失敗。可用性通常以百分比表示,並以百分比中的 9 數量表示。舉例來說,99.99% 的可用性稱為「4 個 9」。
視應用程式的用途而定,您可能會有不同的指標集,用來判斷應用程式的可靠程度。以下是這類可靠性指標的範例:
- 對於提供內容的應用程式而言,可用性、延遲時間和輸送量都是重要的可靠性指標。這些指標會指出應用程式是否能回應要求、應用程式回應要求所需的時間,以及應用程式在特定時間內成功處理的要求數量。
- 對於資料庫和儲存系統而言,延遲時間、輸送量、可用性和耐久性 (資料受到保護的程度,可避免遺失或損毀) 都是可靠性的指標。這些指標會指出系統讀取或寫入資料所需的時間,以及是否可隨選存取資料。
- 對於資料處理管道等大數據和分析工作負載,管道效能 (總處理量和延遲時間) 必須保持一致,才能確保資料產品的即時性,也是重要的可靠性指標。這項指標會顯示可處理的資料量,以及管道從擷取資料到處理資料的進度所需時間。
- 大多數應用程式都將資料正確性視為重要的可靠性指標。
如需定義應用程式可靠性目標的進一步指南,請參閱「評估雲端工作負載的可靠性需求」。
影響應用程式穩定性的因素
部署於 Google Cloud 的應用程式可靠性取決於下列因素:
- 應用程式的內部設計。
- 應用程式所依附的次要應用程式或元件。
- Google Cloud 應用程式執行的基礎架構資源,例如運算、網路、儲存空間、資料庫和安全性,以及應用程式使用基礎架構的方式。
- 您佈建的基礎架構容量,以及容量的擴充方式。
- 您用來建構、部署及維護應用程式、應用程式依附元件和 Google Cloud基礎架構的 DevOps 程序和工具。
下圖匯總了這些因素:
如上圖所示,在 Google Cloud 中部署的應用程式可靠性取決於多項因素。本指南的重點是 Google Cloud 基礎架構的可靠性。
後續步驟
- Google Cloud中的可靠性構成要素
- 評估雲端工作負載的可靠性需求
- 在 Google Cloud中為工作負載設計可靠的基礎架構
- 在 Google Cloud 中管理工作負載的流量和負載
- 管理及監控基礎架構 Google Cloud
貢獻者
作者:
- Nir Tarcic | Cloud Lifecycle SRE UTL
- Kumar Dhanagopal | 跨產品解決方案開發人員
其他貢獻者:
- Alok Kumar | 傑出工程師
- Andrew Fikes | 工程研究員,可靠性
- Chris Heiser | 網站可靠性工程師團隊領導人
- David Ferguson | 網站可靠性工程部門總監
- Joe Tan | 資深產品顧問
- Krzysztof Duleba | 主任工程師
- Narayan Desai | Principal SRE
- Sailesh Krishnamurthy | 工程部門副總裁
- Steve McGhee | 可靠性做法倡議者
- Sudhanshu Jain | 產品經理
- Yaniv Aknin | 軟體工程師