Esse princípio no pilar de confiabilidade do Google Cloud Well-Architected Framework fornece recomendações para ajudar você a projetar e executar testes de recuperação de perda de dados.
Esse princípio é relevante para a área de foco de aprendizagem da confiabilidade.
Visão geral do princípio
Para garantir que seu sistema possa se recuperar de situações em que os dados são perdidos ou corrompidos, é necessário executar testes para esses cenários. As instâncias de perda de dados podem ser causadas por um bug de software ou algum tipo de desastre natural. Depois desses eventos, é necessário restaurar os dados dos backups e colocar todos os serviços de volta em funcionamento usando os dados recém-restaurados.
Recomendamos que você use três critérios para julgar o sucesso ou a falha desse tipo de teste de recuperação: integridade dos dados, objetivo de tempo de recuperação (RTO) e objetivo de ponto de recuperação (RPO). Para mais detalhes sobre as métricas de RTO e RPO, consulte Noções básicas do planejamento de DR.
O objetivo dos testes de restauração de dados é verificar periodicamente se sua organização pode continuar atendendo aos requisitos de continuidade de negócios. Além de medir o RTO e o RPO, um teste de restauração de dados precisa incluir o teste de toda a pilha de aplicativos e de todos os serviços de infraestrutura críticos com os dados restaurados. Isso é necessário para confirmar se todo o aplicativo implantado funciona corretamente no ambiente de teste.
Recomendações
Ao projetar e executar testes para recuperação de perda de dados, considere as recomendações nas subseções a seguir.
Verificar a consistência do backup e testar os processos de restauração
Verifique se os backups contêm snapshots consistentes e utilizáveis de dados que podem ser restaurados para colocar os aplicativos em serviço imediatamente. Para validar a integridade dos dados, configure verificações de consistência automatizadas para serem executadas após cada backup.
Para testar os backups, restaure-os em um ambiente que não seja de produção. Para garantir que os backups possam ser restaurados de forma eficiente e que os dados restaurados atendam aos requisitos do aplicativo, simule regularmente cenários de recuperação de dados. Documente as etapas para restauração de dados e treine suas equipes para executá-las de maneira eficaz durante uma falha.
Agendar backups regulares e frequentes
Para minimizar a perda de dados durante a restauração e atender às metas de RPO, é essencial ter backups programados regularmente. Estabeleça uma frequência de backup que se alinhe ao seu RPO. Por exemplo, se o RPO for de 15 minutos, programe os backups para serem executados pelo menos a cada 15 minutos. Otimize os intervalos de backup para reduzir o risco de perda de dados.
Use ferramentas como o Cloud Storage, os backups automáticos do Cloud SQL ou os backups do Spanner para programar e gerenciar backups. Google Cloud Para aplicativos críticos, use soluções de backup quase contínuas, como a recuperação pontual (PITR) para o Cloud SQL ou backups incrementais para grandes conjuntos de dados.
Definir e monitorar o RPO
Defina um RPO claro com base nas necessidades da sua empresa e monitore a adesão a ele. Se os intervalos de backup excederem o RPO definido, use o Cloud Monitoring para configurar<<a href="https://www.youtube.com/watch?v=4_4-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-
Monitorar a integridade do backup
Use o Google Cloud serviço de backup e DR ou ferramentas semelhantes para acompanhar a integridade dos backups e confirmar que eles estão armazenados em locais seguros e confiáveis. Verifique se os backups são replicados em várias regiões para aumentar a resiliência.
Planejar cenários além do backup
Combine backups com estratégias de recuperação de desastres, como configurações de failover ativo-ativo ou replicação entre regiões, para melhorar o tempo de recuperação em casos extremos. Para mais informações, consulte o Guia de planejamento de recuperação de desastres.