Criar sistemas altamente disponíveis com redundância de recursos
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Last reviewed 2024-12-30 UTC
Esse princípio no pilar de confiabilidade do
Google Cloud Framework bem arquitetado
fornece recomendações para planejar, criar e gerenciar a redundância de recursos, o que
pode ajudar você a evitar falhas.
Esse princípio é relevante para a área de focode escopo da confiabilidade.
Visão geral do princípio
Depois de
decidir o nível de confiabilidade
necessário, projete seus sistemas para evitar
pontos únicos de falha.
Todos os componentes críticos do sistema precisam ser replicados em várias máquinas, zonas e regiões.
Por exemplo, um banco de dados crítico não pode estar localizado em apenas uma região, e um servidor de metadados não pode ser implantado em apenas uma zona ou região. Nesses exemplos, se a única zona ou região tiver uma interrupção, o sistema terá uma interrupção global.
Recomendações
Para criar sistemas redundantes, considere as recomendações nas subseções a seguir.
Identificar domínios de falha e replicar serviços
Mapeie os domínios de falha do sistema, de VMs individuais a regiões, e crie redundância em todos os domínios.
Para garantir alta disponibilidade, distribua e replique seus serviços e aplicativos em várias zonas e regiões. Configure o sistema para
failover automático e garanta que os serviços e aplicativos continuem
disponíveis em caso de interrupções na zona ou região.
Acompanhe continuamente o status dos seus domínios de falha para detectar e resolver problemas imediatamente.
É possível monitorar o status atual dos serviços do Google Cloud em todas as regiões
usando o
Painel de integridade do serviçoGoogle Cloud .
Também é possível visualizar incidentes relevantes para seu projeto usando o
Personalized Service Health.
É possível usar balanceadores de carga para detectar a integridade dos recursos e rotear automaticamente o tráfego para back-ends íntegros. Para mais informações, consulte
Visão geral das verificações de integridade.
Testar cenários de failover
Assim como um simulado de incêndio, simule falhas regularmente para validar a eficácia das
estratégias de replicação e failover.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2024-12-30 UTC."],[[["\u003cp\u003eThis content emphasizes the importance of resource redundancy in the Google Cloud Well-Architected Framework's reliability pillar, helping to prevent system failures.\u003c/p\u003e\n"],["\u003cp\u003eSystems should be designed to avoid single points of failure by replicating critical components across multiple machines, zones, and regions.\u003c/p\u003e\n"],["\u003cp\u003eTo achieve high availability, services and applications should be distributed across multiple zones and regions, with automatic failover mechanisms implemented for outages.\u003c/p\u003e\n"],["\u003cp\u003eIt is crucial to monitor failure domains and address any detected issues promptly, using tools like the Google Cloud Service Health dashboard.\u003c/p\u003e\n"],["\u003cp\u003eRegularly simulating failures, similar to a fire drill, is recommended to validate replication and failover strategies' effectiveness.\u003c/p\u003e\n"]]],[],null,["# Build highly available systems through resource redundancy\n\nThis principle in the reliability pillar of the\n[Google Cloud Well-Architected Framework](/architecture/framework)\nprovides recommendations to plan, build, and manage resource redundancy, which\ncan help you to avoid failures.\n\nThis principle is relevant to the *scoping*\n[focus area](/architecture/framework/reliability#focus-areas)\nof reliability.\n\nPrinciple overview\n------------------\n\nAfter you\n[decide the level of reliability](/architecture/framework/reliability/set-targets)\nthat you need, you must design your systems to avoid any\n[single points of failure](/architecture/infra-reliability-guide/design#avoid_single_points_of_failure).\nEvery critical component in the system must be replicated across multiple\nmachines, zones, and\n[regions](/docs/geography-and-regions#regions_and_zones).\nFor example, a critical database can't be located in only one region, and a\nmetadata server can't be deployed in only one single zone or region. In those\nexamples, if the sole zone or region has an outage, the system has a global\noutage.\n\nRecommendations\n---------------\n\nTo build redundant systems, consider the recommendations in the following\nsubsections.\n\n### Identify failure domains and replicate services\n\nMap out your system's\n[failure domains](/architecture/infra-reliability-guide/building-blocks),\nfrom individual VMs to regions, and design for redundancy across the failure\ndomains.\n\nTo ensure high availability, distribute and replicate your services and\napplications across multiple zones and regions. Configure the system for\nautomatic failover to make sure that the services and applications continue to\nbe available in the event of zone or region outages.\n\nFor examples of multi-zone and multi-region architectures, see\n[Design reliable infrastructure for your workloads in Google Cloud](/architecture/infra-reliability-guide/design#deployment_architectures).\n\n### Detect and address issues promptly\n\nContinuously track the status of your failure domains to detect and address\nissues promptly.\n\nYou can monitor the current status of Google Cloud services in all regions\nby using the\n[Google Cloud Service Health dashboard](https://status.cloud.google.com/).\nYou can also view incidents relevant to your project by using\n[Personalized Service Health](https://cloud.google.com/service-health).\nYou can use load balancers to detect resource health and automatically route\ntraffic to healthy backends. For more information, see\n[Health checks overview](/load-balancing/docs/health-check-concepts).\n\n### Test failover scenarios\n\nLike a fire drill, regularly simulate failures to validate the effectiveness of\nyour replication and failover strategies.\n\nFor more information, see\n[Simulate a zone outage for a regional MIG](/compute/docs/instance-groups/regional-mig-simulate-zonal-outage)\nand\n[Simulate a zone failure in GKE regional clusters](/kubernetes-engine/docs/tutorials/simulate-zone-failure)."]]