Questo principio del pilastro dell'affidabilità del Google Cloud Well-Architected Framework fornisce consigli per aiutarti a progettare ed eseguire test per il ripristino dalla perdita di dati.
Questo principio è pertinente all'area di interesse dell'apprendimento dell'affidabilità.
Panoramica del principio
Per assicurarti che il sistema possa ripristinare le situazioni in cui i dati vengono persi o danneggiati, devi eseguire test per questi scenari. Le istanze di perdita di dati potrebbero essere causate da un bug software o da un tipo di calamità naturale. Dopo questi eventi, devi ripristinare i dati dai backup e ripristinare tutti i servizi utilizzando i dati appena ripristinati.
Ti consigliamo di utilizzare tre criteri per valutare la riuscita o il fallimento di questo tipo di test di ripristino: integrità dei dati, tempo di ripristino del servizio (RTO) e perdita dati tollerata (RPO). Per informazioni dettagliate sulle metriche RTO e RPO, consulta Nozioni di RE emergenza.
Lo scopo dei test di ripristino dei dati è verificare periodicamente che la tua organizzazione possa continuare a soddisfare i requisiti di continuità aziendale. Oltre a misurare RTO e RPO, un test di ripristino dei dati deve includere il test dell'intero stack di applicazioni e di tutti i servizi di infrastruttura critici con i dati ripristinati. Questa operazione è necessaria per verificare che l'intera applicazione di cui è stato eseguito il deployment funzioni correttamente nell'ambiente di test.
Consigli
Quando progetti ed esegui test per il recupero dalla perdita di dati, tieni in considerazione i suggerimenti riportati nelle seguenti sezioni.
Verifica la coerenza del backup e testa le procedure di ripristino
Devi verificare che i backup contengano snapshot coerenti e utilizzabili dei dati che puoi ripristinare per ripristinare immediatamente il servizio delle applicazioni. Per convalidare l'integrità dei dati, configura controlli di coerenza automatici da eseguire dopo ogni backup.
Per testare i backup, ripristinali in un ambiente non di produzione. Per assicurarti che i backup possano essere ripristinati in modo efficiente e che i dati ripristinati soddisfino i requisiti dell'applicazione, simula regolarmente scenari di recupero dei dati. Documenta i passaggi per il ripristino dei dati e forma i tuoi team per eseguirli in modo efficace in caso di errore.
Pianificare backup regolari e frequenti
Per ridurre al minimo la perdita di dati durante il ripristino e soddisfare gli obiettivi RPO, è essenziale disporre di backup pianificati regolarmente. Stabilisci una frequenza di backup in linea con il tuo RPO. Ad esempio, se l'RPO è di 15 minuti, pianifica l'esecuzione dei backup almeno ogni 15 minuti. Ottimizza gli intervalli di backup per ridurre il rischio di perdita di dati.
Utilizza Google Cloud strumenti come Cloud Storage, backup automatici di Cloud SQL o backup di Spanner per pianificare e gestire i backup. Per le applicazioni critiche, utilizza soluzioni di backup quasi continue come il recupero point-in-time (PITR) per Cloud SQL o i backup incrementali per set di dati di grandi dimensioni.
Definisci e monitora l'RPO
Imposta un RPO chiaro in base alle esigenze aziendali e monitora il rispetto dell'RPO. Se gli intervalli di backup superano l'RPO definito, utilizza Cloud Monitoring per configurare gli avvisi.
Monitorare l'integrità del backup
Utilizza Google Cloud il RE e DR o strumenti simili per monitorare l'integrità dei backup e verificare che siano archiviati in posizioni sicure e affidabili. Assicurati che i backup vengano replicati in più regioni per una maggiore resilienza.
Pianificare scenari oltre il backup
Combina i backup con strategie di ripristino di emergenza come configurazioni di failover active-active o replica tra regioni per migliorare il tempo di ripristino in casi estremi. Per ulteriori informazioni, vedi la Guida alla pianificazione del disaster recovery.