Realizar testes de recuperação de perda de dados

Last reviewed 2024-12-30 UTC

Esse princípio no pilar de confiabilidade do Google Cloud Well-Architected Framework fornece recomendações para ajudar você a projetar e executar testes de recuperação de perda de dados.

Esse princípio é relevante para a área de foco de aprendizagem da confiabilidade.

Visão geral do princípio

Para garantir que seu sistema possa se recuperar de situações em que os dados são perdidos ou corrompidos, é necessário executar testes para esses cenários. As instâncias de perda de dados podem ser causadas por um bug de software ou algum tipo de desastre natural. Depois desses eventos, é necessário restaurar os dados dos backups e colocar todos os serviços de volta em funcionamento usando os dados recém-restaurados.

Recomendamos que você use três critérios para julgar o sucesso ou a falha desse tipo de teste de recuperação: integridade dos dados, objetivo de tempo de recuperação (RTO) e objetivo de ponto de recuperação (RPO). Para mais detalhes sobre as métricas de RTO e RPO, consulte Noções básicas do planejamento de DR.

O objetivo dos testes de restauração de dados é verificar periodicamente se sua organização pode continuar atendendo aos requisitos de continuidade de negócios. Além de medir o RTO e o RPO, um teste de restauração de dados precisa incluir o teste de toda a pilha de aplicativos e de todos os serviços de infraestrutura críticos com os dados restaurados. Isso é necessário para confirmar se todo o aplicativo implantado funciona corretamente no ambiente de teste.

Recomendações

Ao projetar e executar testes para recuperação de perda de dados, considere as recomendações nas subseções a seguir.

Verificar a consistência do backup e testar os processos de restauração

Verifique se os backups contêm snapshots consistentes e utilizáveis de dados que podem ser restaurados para colocar os aplicativos em serviço imediatamente. Para validar a integridade dos dados, configure verificações de consistência automatizadas para serem executadas após cada backup.

Para testar os backups, restaure-os em um ambiente que não seja de produção. Para garantir que os backups possam ser restaurados de forma eficiente e que os dados restaurados atendam aos requisitos do aplicativo, simule regularmente cenários de recuperação de dados. Documente as etapas para restauração de dados e treine suas equipes para executá-las de maneira eficaz durante uma falha.

Agendar backups regulares e frequentes

Para minimizar a perda de dados durante a restauração e atender às metas de RPO, é essencial ter backups programados regularmente. Estabeleça uma frequência de backup que se alinhe ao seu RPO. Por exemplo, se o RPO for de 15 minutos, programe os backups para serem executados pelo menos a cada 15 minutos. Otimize os intervalos de backup para reduzir o risco de perda de dados.

Use ferramentas como o Cloud Storage, os backups automáticos do Cloud SQL ou os backups do Spanner para programar e gerenciar backups. Google Cloud Para aplicativos críticos, use soluções de backup quase contínuas, como a recuperação pontual (PITR) para o Cloud SQL ou backups incrementais para grandes conjuntos de dados.

Definir e monitorar o RPO

Defina um RPO claro com base nas necessidades da sua empresa e monitore a adesão a ele. Se os intervalos de backup excederem o RPO definido, use o Cloud Monitoring para configurar<<a href="https://www.youtube.com/watch?v=4_4-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-

Monitorar a integridade do backup

Use o Google Cloud serviço de backup e DR ou ferramentas semelhantes para acompanhar a integridade dos backups e confirmar que eles estão armazenados em locais seguros e confiáveis. Verifique se os backups são replicados em várias regiões para aumentar a resiliência.

Planejar cenários além do backup

Combine backups com estratégias de recuperação de desastres, como configurações de failover ativo-ativo ou replicação entre regiões, para melhorar o tempo de recuperação em casos extremos. Para mais informações, consulte o Guia de planejamento de recuperação de desastres.