관측 가능성을 사용하여 잠재적 장애 감지

Google Cloud Well-Architected Framework의 안정성 원칙에서 이 원칙은 오류 및 장애가 발생할 수 있는 영역을 사전에 식별하는 데 도움이 되는 권장사항을 제공합니다.

이 원칙은 신뢰성의 관찰 중점 영역과 관련이 있습니다.

원칙 개요

Google Cloud에서 워크로드의 안정성을 유지하고 개선하려면 측정항목, 로그, trace를 사용하여 효과적인 관측 가능성을 구현해야 합니다.

  • 측정항목은 특정 시간 간격으로 애플리케이션에서 추적하려는 활동을 수치적으로 측정한 것입니다. 예를 들어 서비스 수준 지표 (SLI)로 사용할 수 있는 요청 비율 및 오류율과 같은 기술 측정항목을 추적할 수 있습니다. 주문 및 결제 금액과 같은 애플리케이션별 비즈니스 측정항목을 추적해야 할 수도 있습니다.
  • 로그는 애플리케이션 또는 시스템 내에서 발생하는 개별 이벤트의 타임스탬프가 찍힌 기록입니다. 이벤트는 실패, 오류 또는 상태 변경일 수 있습니다. 로그에는 측정항목이 포함될 수 있으며 SLI에 로그를 사용할 수도 있습니다.
  • trace는 여러 개별 애플리케이션 또는 애플리케이션의 구성요소를 통한 단일 사용자 또는 트랜잭션의 여정을 나타냅니다. 예를 들어 이러한 구성요소는 마이크로서비스일 수 있습니다. trace를 사용하면 여정에 사용된 구성요소, 병목 현상이 있는 위치, 여정에 걸린 시간을 추적할 수 있습니다.

측정항목, 로그, trace는 시스템을 지속적으로 모니터링하는 데 도움이 됩니다. 포괄적인 모니터링을 통해 오류가 발생한 위치와 이유를 파악할 수 있습니다. 또한 오류가 발생하기 전에 잠재적인 오류를 감지할 수 있습니다.

권장사항

잠재적인 장애를 효율적으로 감지하려면 다음 하위 섹션의 권장사항을 고려하세요.

종합적인 통계 확보

응답 시간 및 오류율과 같은 주요 측정항목을 추적하려면 Cloud MonitoringCloud Logging을 사용합니다. 이러한 도구는 측정항목이 워크로드의 요구사항을 일관되게 충족하는지 확인하는 데도 도움이 됩니다.

데이터에 기반한 의사 결정을 내리려면 기본 서비스 측정항목을 분석하여 구성요소 종속 항목과 이러한 종속 항목이 전반적인 워크로드 성능에 미치는 영향을 파악해야 합니다.

모니터링 전략을 맞춤설정하려면 Google Cloud SDK를 사용하여 자체 측정항목을 만들고 게시합니다.

사전 문제 해결 진행

Google Cloud에서 강력한 오류 처리를 구현하고 워크로드의 모든 구성요소에 로깅을 사용 설정합니다. Cloud Storage 액세스 로그VPC 흐름 로그와 같은 로그를 활성화합니다.

로깅을 구성할 때는 관련 비용을 고려해야 합니다. 로깅 비용을 제어하려면 로그 싱크에 제외 필터를 구성하여 특정 로그가 저장되지 않도록 하면 됩니다.

리소스 사용률 최적화

CPU 소비, 네트워크 I/O 측정항목, 디스크 I/O 측정항목을 모니터링하여 GKE, Compute Engine, Dataproc과 같은 서비스에서 과소 프로비저닝되거나 초과 프로비저닝된 리소스를 감지합니다. 지원되는 서비스의 전체 목록은 Cloud Monitoring 개요를 참조하세요.

알림 우선순위 지정

알림의 경우 중요한 측정항목에 집중하고 적절한 임곗값을 설정하여 알림 피로를 최소화하고 중요한 문제에 시의적절하게 대응합니다. 이처럼 타겟팅된 접근 방식을 통해 워크로드 안정성을 사전에 유지할 수 있습니다. 자세한 내용은 알림 개요를 참조하세요.