Esse princípio no pilar de confiabilidade do Google Cloud Framework bem arquitetado fornece recomendações para planejar, criar e gerenciar a redundância de recursos, o que pode ajudar você a evitar falhas.
Esse princípio é relevante para a área de foco de escopo da confiabilidade.
Visão geral do princípio
Depois de decidir o nível de confiabilidade necessário, projete seus sistemas para evitar pontos únicos de falha. Todos os componentes críticos do sistema precisam ser replicados em várias máquinas, zonas e regiões. Por exemplo, um banco de dados crítico não pode estar localizado em apenas uma região, e um servidor de metadados não pode ser implantado em apenas uma zona ou região. Nesses exemplos, se a única zona ou região tiver uma interrupção, o sistema terá uma interrupção global.
Recomendações
Para criar sistemas redundantes, considere as recomendações nas subseções a seguir.
Identificar domínios de falha e replicar serviços
Mapeie os domínios de falha do sistema, desde VMs individuais até regiões, e crie redundância em todos os domínios.
Para garantir alta disponibilidade, distribua e replique seus serviços e aplicativos em várias zonas e regiões. Configure o sistema para failover automático e garanta que os serviços e aplicativos continuem disponíveis em caso de interrupções na zona ou região.
Para exemplos de arquiteturas multizona e multirregionais, consulte Projetar infraestrutura confiável para suas cargas de trabalho em Google Cloud.
Detectar e resolver problemas rapidamente
Acompanhe continuamente o status dos seus domínios de falha para detectar e resolver problemas imediatamente.
É possível monitorar o status atual dos serviços do Google Cloud em todas as regiões usando o Painel de integridade do serviço doGoogle Cloud . Também é possível visualizar incidentes relevantes para seu projeto usando o Personalized Service Health. É possível usar balanceadores de carga para detectar a integridade dos recursos e rotear automaticamente o tráfego para back-ends íntegros. Para mais informações, consulte Visão geral das verificações de integridade.
Testar cenários de failover
Assim como um simulado de incêndio, simule falhas regularmente para validar a eficácia das suas estratégias de replicação e failover.
Para mais informações, consulte Simular uma interrupção de zona em um MIG regional e Simular uma falha de zona em clusters regionais do GKE.