Effectuer des tests de récupération après perte de données

Last reviewed 2024-12-30 UTC

Ce principe du pilier de fiabilité du Google Cloud Well-Architected Framework fournit des recommandations pour vous aider à concevoir et à exécuter des tests de récupération en cas de perte de données.

Ce principe s'applique au domaine d'apprentissage Fiabilité.

Présentation des principes

Pour vous assurer que votre système peut se rétablir en cas de perte ou de corruption de données, vous devez exécuter des tests pour ces scénarios. Les pertes de données peuvent être dues à un bug logiciel ou à une catastrophe naturelle. Après de tels événements, vous devez restaurer les données à partir des sauvegardes et rétablir tous les services à l'aide des données fraîchement restaurées.

Nous vous recommandons d'utiliser trois critères pour évaluer la réussite ou l'échec de ce type de test de récupération : l'intégrité des données, la durée maximale d'interruption admissible (DMIA) et la perte de données maximale admissible (RPO). Pour en savoir plus sur les métriques RTO et RPO, consultez Principes de base d'un plan de reprise après sinistre.

L'objectif des tests de restauration de données est de vérifier régulièrement que votre organisation peut continuer à répondre aux exigences de continuité des activités. En plus de mesurer le RTO et le RPO, un test de restauration des données doit inclure le test de l'ensemble de la pile d'applications et de tous les services d'infrastructure critiques avec les données restaurées. Cette étape est nécessaire pour confirmer que l'ensemble de l'application déployée fonctionne correctement dans l'environnement de test.

Recommandations

Lorsque vous concevez et exécutez des tests de récupération après une perte de données, tenez compte des recommandations des sous-sections suivantes.

Vérifier la cohérence des sauvegardes et tester les processus de restauration

Vous devez vérifier que vos sauvegardes contiennent des instantanés cohérents et utilisables des données que vous pouvez restaurer pour remettre immédiatement les applications en service. Pour valider l'intégrité des données, configurez des vérifications de cohérence automatiques à exécuter après chaque sauvegarde.

Pour tester les sauvegardes, restaurez-les dans un environnement hors production. Pour vous assurer que vos sauvegardes peuvent être restaurées efficacement et que les données restaurées répondent aux exigences des applications, simulez régulièrement des scénarios de récupération de données. Documentez les étapes de restauration des données et formez vos équipes à les exécuter efficacement en cas de défaillance.

Programmer des sauvegardes régulières et fréquentes

Pour minimiser la perte de données lors de la restauration et respecter les objectifs de perte de données maximale admissible (RPO), il est essentiel de planifier des sauvegardes régulières. Établissez une fréquence de sauvegarde conforme à votre RPO. Par exemple, si votre RPO est de 15 minutes, planifiez l'exécution des sauvegardes au moins toutes les 15 minutes. Optimisez les intervalles de sauvegarde pour réduire le risque de perte de données.

Utilisez des outils tels que Cloud Storage, les sauvegardes automatiques Cloud SQL ou les sauvegardes Spanner pour planifier et gérer les sauvegardes. Google Cloud Pour les applications critiques, utilisez des solutions de sauvegarde quasi continues telles que la récupération à un moment précis (PITR) pour Cloud SQL ou les sauvegardes incrémentielles pour les grands ensembles de données.

Définir et surveiller le RPO

Définissez un RPO clair en fonction des besoins de votre entreprise et vérifiez qu'il est respecté. Si les intervalles de sauvegarde dépassent le RPO défini, utilisez Cloud Monitoring pour configurer des alertes.

Surveiller l'état des sauvegardes

Utilisez le service Backup and DR ou des outils similaires pour suivre l'état de vos sauvegardes et vérifier qu'elles sont stockées dans des emplacements sécurisés et fiables.Google Cloud Assurez-vous que les sauvegardes sont répliquées dans plusieurs régions pour plus de résilience.

Planifier des scénarios au-delà de la sauvegarde

Combinez les sauvegardes avec des stratégies de reprise après sinistre telles que les configurations de basculement actif-actif ou la réplication interrégionale pour améliorer le temps de récupération dans les cas extrêmes. Pour en savoir plus, consultez le Guide de planification de reprise après sinistre.