리소스 중복을 통해 가용성이 높은 시스템 빌드

Google Cloud Well-Architected Framework의 안정성 원칙에서 이 원칙은 장애를 방지하는 데 도움이 될 수 있는 리소스 중복을 계획, 빌드, 관리하기 위한 권장사항을 제공합니다.

이 원칙은 신뢰성의 범위 지정 중점 영역과 관련이 있습니다.

원칙 개요

필요한 안정성 수준을 결정한 후에는 단일 장애점을 방지하도록 시스템을 설계해야 합니다. 시스템의 모든 중요한 구성요소는 여러 머신, 영역, 리전에 복제되어야 합니다. 예를 들어 중요한 데이터베이스는 한 리전에만 위치할 수 없으며 메타데이터 서버를 단일 영역 또는 리전에만 배포할 수 없습니다. 이러한 예시에서 단독 영역 또는 리전에 서비스 중단이 발생하면 시스템에 전역 서비스 중단이 발생합니다.

권장사항

중복 시스템을 빌드하려면 다음 하위 섹션의 권장사항을 고려하세요.

장애 도메인 식별 및 서비스 복제

개별 VM에서 리전으로 시스템의 장애 도메인을 매핑하고 장애 도메인 간 중복성을 위해 설계합니다.

고가용성을 보장하기 위해 여러 영역 및 리전에 서비스와 애플리케이션을 배포하고 복제합니다. 영역 또는 리전에 서비스 중단이 발생하더라도 서비스와 애플리케이션을 계속 사용할 수 있도록 시스템을 자동 장애 조치용으로 구성합니다.

멀티 영역 및 멀티 리전 아키텍처의 예시는 Google Cloud에서 워크로드를 위한 안정적인 인프라 설계를 참조하세요.

신속한 문제 감지 및 해결

장애 도메인 상태를 지속적으로 추적하여 문제를 즉시 감지하고 해결하세요.

Google Cloud Service Health 대시보드를 사용하여 모든 리전에서 Google Cloud 서비스의 현재 상태를 모니터링할 수 있습니다. Personalized Service Health를 사용하여 프로젝트와 관련된 이슈를 볼 수도 있습니다. 부하 분산기를 사용하여 리소스 상태를 감지하고 트래픽을 정상 백엔드로 자동으로 라우팅할 수 있습니다. 자세한 내용은 상태 점검 개요를 참조하세요.

장애 조치 시나리오 테스트

화재 훈련과 마찬가지로 정기적으로 장애를 시뮬레이션하여 복제 및 장애 조치 전략의 효과를 검증합니다.

자세한 내용은 리전 MIG의 영역 서비스 중단 시뮬레이션GKE 리전 클러스터에서 영역 장애 시뮬레이션을 참조하세요.