Tests zur Wiederherstellung nach Datenverlust durchführen

Dieses Prinzip in der Säule Zuverlässigkeit des Google Cloud Well-Architected Framework enthält Empfehlungen, die Ihnen beim Entwerfen und Ausführen von Tests zur Wiederherstellung nach Datenverlust helfen.

Dieses Prinzip ist für den Schwerpunkt der Zuverlässigkeit beim Lernen relevant.

Prinzip – Übersicht

Damit Ihr System sich nach einem Datenverlust oder einer Beschädigung wiederherstellen kann, müssen Sie für diese Szenarien Tests ausführen. Datenverluste können durch einen Softwarefehler oder eine Naturkatastrophe verursacht werden. Nach solchen Ereignissen müssen Sie Daten aus Sicherungen wiederherstellen und alle Dienste mithilfe der frisch wiederhergestellten Daten neu sichern.

Wir empfehlen, drei Kriterien zu verwenden, um den Erfolg oder Misserfolg dieser Art von Wiederherstellungstest zu bewerten: Datenintegrität, Wiederherstellungszeit (Recovery Time Objective, RTO) und Recovery Point Objective (RPO). Ausführliche Informationen zu den RTO- und RPO-Messwerten finden Sie unter Grundlagen der DR-Planung.

Ziel von Tests zur Datenwiederherstellung besteht darin, regelmäßig zu prüfen, ob Ihr Unternehmen die Anforderungen an die Geschäftskontinuität weiterhin erfüllen kann. Neben der Messung von RTO und RPO muss ein Datenwiederherstellungstest das Testen des gesamten Anwendungspakets und aller kritischen Infrastrukturdienste mit den wiederhergestellten Daten umfassen. Dies ist erforderlich, um zu prüfen, ob die gesamte bereitgestellte Anwendung in der Testumgebung ordnungsgemäß funktioniert.

Empfehlungen

Beachten Sie beim Entwerfen und Ausführen von Tests zur Wiederherstellung nach Datenverlust die Empfehlungen in den folgenden Unterabschnitten.

Konsistenz von Sicherungen überprüfen und Wiederherstellungsprozesse testen

Sie müssen überprüfen, ob Ihre Sicherungen konsistente und nutzbare Snapshots von Daten enthalten, die Sie wiederherstellen können, um Anwendungen sofort wieder bereitzustellen. Richten Sie zur Validierung der Datenintegrität automatisierte Konsistenzprüfungen ein, die nach jeder Sicherung ausgeführt werden.

Wenn Sie Sicherungen testen möchten, stellen Sie sie in einer Nicht-Produktionsumgebung wieder her. Simulieren Sie regelmäßig Szenarien der Datenwiederherstellung, damit Ihre Sicherungen effizient wiederhergestellt werden können und die wiederhergestellten Daten den Anwendungsanforderungen entsprechen. Dokumentieren Sie die Schritte für die Datenwiederherstellung und schulen Sie Ihre Teams, um die Schritte bei einem Ausfall effektiv auszuführen.

Regelmäßige und häufige Sicherungen planen

Um den Datenverlust während der Wiederherstellung zu minimieren und die RPO-Ziele zu erreichen, sind regelmäßige Sicherungen wichtig. Legen Sie eine Sicherungshäufigkeit fest, die Ihrem RPO entspricht. Wenn Ihr RPO beispielsweise 15 Minuten beträgt, planen Sie die Sicherungen so, dass sie mindestens alle 15 Minuten ausgeführt werden. Optimieren Sie die Sicherungsintervalle, um das Risiko eines Datenverlusts zu verringern.

Verwenden Sie Google Cloud -Tools wie Cloud Storage, automatische Cloud SQL-Sicherungen oder Spanner-Sicherungen, um Sicherungen zu planen und zu verwalten. Verwenden Sie für kritische Anwendungen Nahezu kontinuierliche Sicherungslösungen wie die Wiederherstellung zu einem bestimmten Zeitpunkt für Cloud SQL oder inkrementelle Sicherungen für große Datasets.

RPO definieren und überwachen

Legen Sie basierend auf Ihren Geschäftsanforderungen ein klares RPO fest und überwachen Sie die Einhaltung des RPO. Wenn die Sicherungsintervalle das definierte RPO überschreiten, verwenden Sie Cloud Monitoring, um Benachrichtigungen einzurichten.

Sicherungsstatus überwachen

Verwenden Sie den Google Cloud Sicherungs- und Notfallwiederherstellungsdienst oder ähnliche Tools, um den Zustand Ihrer Sicherungen zu verfolgen und zu bestätigen, dass sie an sicheren und zuverlässigen Orten gespeichert sind. Für zusätzliche Ausfallsicherheit sollten die Sicherungen über mehrere Regionen hinweg repliziert werden.

Szenarien über die Sicherung hinaus planen

Kombinieren Sie Sicherungen mit Notfallwiederherstellungsstrategien wie Aktiv-Aktiv-Failover-Einrichtungen oder regionsübergreifende Replikation, um die Wiederherstellungszeit in extremen Fällen zu verkürzen. Weitere Informationen finden Sie im Leitfaden zur Planung der Notfallwiederherstellung.