透過資源備援機制建構高可用性系統

Last reviewed 2024-12-30 UTC

Google Cloud 架構完善架構的可靠性支柱中,這項原則提供相關建議,協助您規劃、建構及管理資源備援,避免發生故障。

這項原則與可靠性的範圍 焦點領域相關。

原則總覽

決定所需的可靠性等級後,您必須設計系統,避免出現任何單一故障點。系統中的每個重要元件都必須在多部機器、區域和地區之間複製。 舉例來說,重要資料庫不能只位於一個區域,中繼資料伺服器也不能只部署在單一可用區或區域。在這些範例中,如果唯一的可用區或區域發生中斷,系統就會發生全球性中斷。

建議

如要建構備援系統,請參考下列小節的建議。

找出故障網域並複製服務

從個別 VM 到區域,規劃系統的故障網域,並設計故障網域的備援機制。

為確保高可用性,請將服務和應用程式分散並複製到多個可用區和區域。設定系統自動容錯移轉,確保服務和應用程式在區域或地區中斷時仍可使用。

如需多區域和多地區架構的範例,請參閱「在 Google Cloud中為工作負載設計可靠的基礎架構」。

及時偵測及解決問題

持續追蹤失敗網域的狀態,以便及時偵測及解決問題。

您可以透過 Google Cloud Service Health 資訊主頁,監控所有區域的 Google Cloud 服務目前狀態。您也可以使用 Personalized Service Health 查看與專案相關的事件。 您可以使用負載平衡器偵測資源健康狀態,並自動將流量導向健康狀態良好的後端。詳情請參閱健康狀態檢查總覽

測試容錯移轉情境

就像消防演習一樣,定期模擬故障狀況,驗證複製和容錯移轉策略的成效。

詳情請參閱「模擬區域 MIG 的可用區中斷情形」和「在 GKE 區域叢集中模擬可用區故障」。