Tests zur Wiederherstellung nach Datenverlust durchführen

Last reviewed 2024-12-30 UTC

Dieses Prinzip im Bereich „Zuverlässigkeit“ des Google Cloud Well-Architected Framework enthält Empfehlungen, die Ihnen helfen, Tests für die Wiederherstellung nach Datenverlust zu entwickeln und auszuführen.

Dieses Prinzip ist für den Lernbereich Zuverlässigkeit relevant.

Übersicht über die Grundsätze

Damit Ihr System sich von Situationen erholen kann, in denen Daten verloren gehen oder beschädigt werden, müssen Sie Tests für diese Szenarien durchführen. Datenverlust kann durch einen Softwarefehler oder eine Naturkatastrophe verursacht werden. Nach solchen Ereignissen müssen Sie Daten aus Sicherungen wiederherstellen und alle Dienste mit den neu wiederhergestellten Daten wieder in Betrieb nehmen.

Wir empfehlen, den Erfolg oder Misserfolg dieser Art von Wiederherstellungstest anhand von drei Kriterien zu beurteilen: Datenintegrität, Recovery Time Objective (RTO) und Recovery Point Objective (RPO). Weitere Informationen zu den Messwerten RTO und RPO finden Sie unter Grundlagen der Planung der Notfallwiederherstellung.

Ziel von Tests zur Datenwiederherstellung ist es, regelmäßig zu überprüfen, ob Ihre Organisation weiterhin die Anforderungen an die Geschäftskontinuität erfüllen kann. Neben der Messung von RTO und RPO muss ein Test zur Datenwiederherstellung auch Tests des gesamten Anwendungsstacks und aller kritischen Infrastrukturdienste mit den wiederhergestellten Daten umfassen. Das ist erforderlich, um zu bestätigen, dass die gesamte bereitgestellte Anwendung in der Testumgebung richtig funktioniert.

Empfehlungen

Beachten Sie beim Entwerfen und Ausführen von Tests zur Wiederherstellung nach Datenverlust die Empfehlungen in den folgenden Unterabschnitten.

Sicherungskonsistenz prüfen und Wiederherstellungsprozesse testen

Sie müssen prüfen, ob Ihre Sicherungen konsistente und nutzbare Snapshots von Daten enthalten, die Sie wiederherstellen können, um Anwendungen sofort wieder in Betrieb zu nehmen. Um die Datenintegrität zu prüfen, richten Sie automatische Konsistenzprüfungen ein, die nach jeder Sicherung ausgeführt werden.

Wenn Sie Sicherungen testen möchten, stellen Sie sie in einer Nicht-Produktionsumgebung wieder her. Damit Ihre Sicherungen effizient wiederhergestellt werden können und die wiederhergestellten Daten den Anwendungsanforderungen entsprechen, sollten Sie regelmäßig Datenwiederherstellungsszenarien simulieren. Dokumentieren Sie die Schritte zur Datenwiederherstellung und schulen Sie Ihre Teams, damit sie die Schritte im Fehlerfall effektiv ausführen können.

Regelmäßige und häufige Sicherungen planen

Um Datenverluste während der Wiederherstellung zu minimieren und RPO-Ziele zu erreichen, sind regelmäßig geplante Sicherungen unerlässlich. Legen Sie eine Sicherungshäufigkeit fest, die Ihrem RPO entspricht. Wenn Ihr RPO beispielsweise 15 Minuten beträgt, planen Sie Sicherungen mindestens alle 15 Minuten. Sicherungsintervalle optimieren, um das Risiko von Datenverlust zu verringern.

Verwenden Sie Google Cloud Tools wie Cloud Storage, automatische Cloud SQL-Sicherungen oder Spanner-Sicherungen, um Sicherungen zu planen und zu verwalten. Verwenden Sie für kritische Anwendungen Lösungen für nahezu kontinuierliche Sicherungen wie die Wiederherstellung zu einem bestimmten Zeitpunkt (Point-in-Time Recovery, PITR) für Cloud SQL oder inkrementelle Sicherungen für große Datasets.

RPO definieren und überwachen

Legen Sie ein klares RPO basierend auf Ihren Geschäftsanforderungen fest und überwachen Sie die Einhaltung des RPO. Wenn die Sicherungsintervalle den definierten RPO überschreiten, können Sie mit Cloud Monitoring Benachrichtigungen einrichten.

Sicherungsstatus überwachen

Verwenden Sie den Google Cloud Backup- und DR-Dienst oder ähnliche Tools, um den Zustand Ihrer Back-ups zu verfolgen und zu bestätigen, dass sie an sicheren und zuverlässigen Orten gespeichert sind. Achten Sie darauf, dass die Sicherungen zur Erhöhung der Ausfallsicherheit in mehreren Regionen repliziert werden.

Szenarien über die Sicherung hinaus planen

Kombinieren Sie Sicherungen mit Strategien zur Notfallwiederherstellung wie Active-Active-Failover-Konfigurationen oder regionsübergreifender Replikation, um die Wiederherstellungszeit in Extremfällen zu verkürzen. Weitere Informationen finden Sie im Leitfaden zur Planung der Notfallwiederherstellung.