本頁面由 Cloud Translation API 翻譯而成。

透過資源備援機制建構高可用性系統

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework 的可靠性支柱中，這項原則提供相關建議，協助您規劃、建構及管理資源備援，避免發生故障。

這項原則與可靠性的範圍重點領域相關。

原則總覽

決定所需的可靠性等級後，您必須設計系統，避免出現任何單點故障。系統中的每個重要元件都必須在多部機器、區域和地區之間複製。舉例來說，重要資料庫不能只位於一個區域，中繼資料伺服器也不能只部署在單一可用區或區域。在這些範例中，如果唯一的可用區或區域發生中斷，系統就會發生全球性中斷。

如要建構備援系統，請參考下列小節的建議。

從個別 VM 到區域，規劃系統的故障網域，並設計故障網域的備援機制。

為確保高可用性，請將服務和應用程式分散並複製到多個可用區和區域。設定系統自動容錯移轉，確保服務和應用程式在區域或地區中斷時仍可使用。

如需多區域和多地區架構的範例，請參閱「在 Google Cloud中為工作負載設計可靠的基礎架構」。

持續追蹤失敗網域的狀態，以便及時偵測及解決問題。

您可以透過Google Cloud 服務健康狀態資訊主頁，監控所有區域的 Google Cloud 服務目前狀態。您也可以使用 Personalized Service Health 查看與專案相關的事件。您可以使用負載平衡器偵測資源健康狀態，並自動將流量導向健康狀態良好的後端。詳情請參閱健康狀態檢查總覽。

就像消防演習一樣，定期模擬故障狀況，驗證複製和容錯移轉策略的成效。