Criar sistemas altamente disponíveis com redundância de recursos

Esse princípio do pilar de confiabilidade do Google Cloud framework bem arquitetado (em inglês) oferece recomendações para planejar, criar e gerenciar a redundância de recursos, o que pode ajudar a evitar falhas.

Esse princípio é relevante para a área de foco da confiabilidade do escopo.

Visão geral do princípio

Depois de decidir o nível de confiabilidade necessário, projete seus sistemas para evitar pontos únicos de falha. Todos os componentes essenciais do sistema precisam ser replicados em várias máquinas, zonas e regiões. Por exemplo, um banco de dados crítico não pode estar localizado em apenas uma região, e um servidor de metadados não pode ser implantado em apenas uma única zona ou região. Nesses exemplos, se a única zona ou região sofrer uma interrupção, o sistema terá uma interrupção global.

Recomendações

Para criar sistemas redundantes, considere as recomendações nas subseções a seguir.

Identifique domínios de falha e replique os serviços

Mapeie os domínios de falha do sistema, de VMs individuais a regiões, e projete a redundância nos domínios de falha.

Para garantir alta disponibilidade, distribua e replique seus serviços e aplicativos em várias zonas e regiões. Configure o sistema para failover automático para garantir que os serviços e aplicativos continuem disponíveis em caso de interrupções de zona ou região.

Para exemplos de arquiteturas de várias zonas e multirregiões, consulte Projetar uma infraestrutura confiável para suas cargas de trabalho em Google Cloud.

Detectar e resolver problemas imediatamente

Acompanhe continuamente o status dos domínios de falha para detectar e resolver problemas de imediato.

É possível monitorar o status atual dos Google Cloud serviços em todas as regiões usando o Google Cloud painel Service Health. Também é possível visualizar incidentes relevantes para seu projeto usando o Personalized Service Health. É possível usar balanceadores de carga para detectar a integridade dos recursos e rotear o tráfego automaticamente para back-ends íntegros. Para mais informações, consulte Visão geral das verificações de integridade.

Testar cenários de failover

Como uma simulação de incêndio, simule falhas regularmente para validar a eficácia de suas estratégias de replicação e failover.

Para mais informações, consulte Simular uma interrupção de zona para um MIG regional e Simular uma falha de zona em clusters regionais do GKE.