執行資料遺失復原測試

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework 的可靠性支柱中,這項原則提供相關建議,協助您設計及執行資料遺失復原測試。

這項原則與可靠性的學習 重點領域相關。

原則總覽

為確保系統能在資料遺失或損毀時復原,您需要針對這些情境執行測試。資料遺失可能是軟體錯誤或某種天災所致。發生這類事件後,您需要從備份還原資料,並使用剛還原的資料,讓所有服務再次上線。

建議您使用三項條件判斷這類復原測試是否成功:資料完整性、復原時間目標 (RTO) 和復原點目標 (RPO)。如要進一步瞭解 RTO 和 RPO 指標,請參閱「DR 規劃的基本概念」。

資料還原測試的目標是定期驗證貴機構是否能持續滿足業務持續性需求。除了評估復原時間目標 (RTO) 和復原點目標 (RPO) 之外,資料還原測試也必須包含整個應用程式堆疊和所有重要基礎架構服務的測試,並使用還原的資料。這是為了確認整個部署的應用程式在測試環境中運作無誤。

建議

設計及執行資料遺失復原測試時,請參考下列小節的建議。

確認備份一致性並測試還原程序

您必須確認備份內容包含一致且可用的資料快照,以便還原資料,立即讓應用程式恢復運作。如要驗證資料完整性,請設定自動一致性檢查,在每次備份後執行。

如要測試備份,請在非正式環境中還原備份。為確保備份資料能有效率地還原,且還原的資料符合應用程式需求,請定期模擬資料復原情境。記錄資料還原步驟,並訓練團隊在發生故障時有效執行這些步驟。

安排定期備份

為盡量減少還原期間的資料遺失,並達到 RPO 目標,請務必定期排定備份作業。根據復原點目標設定備份頻率。舉例來說,如果 RPO 為 15 分鐘,請安排備份作業至少每 15 分鐘執行一次。調整備份間隔,降低資料遺失的風險。

使用 Cloud Storage、Cloud SQL 自動備份或 Spanner 備份等 Google Cloud 工具,排定及管理備份作業。對於重要應用程式,請使用近乎連續的備份解決方案,例如 Cloud SQL 的時間點復原 (PITR) 功能,或是大型資料集的增量備份。

定義及監控 RPO

根據業務需求設定明確的 RPO,並監控是否符合 RPO。 如果備份間隔超過定義的 RPO,請使用 Cloud Monitoring 設定快訊。

監控備份健康狀態

使用Google Cloud 備份和 DR 服務或類似工具追蹤備份的健康狀態,並確認備份內容儲存在安全可靠的位置。確保備份資料複製到多個區域,進一步提升復原能力。

規劃備份以外的情境

結合備份與災難復原策略,例如主動-主動容錯移轉設定或跨區域複製,可在極端情況下縮短復原時間。詳情請參閱「災難復原規劃指南」。