이 페이지는 Cloud Translation API를 통해 번역되었습니다.

모니터링 가능성을 사용하여 잠재적 장애 감지

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework의 안정성 부문에서 이 원칙을 따르면 오류와 장애가 발생할 수 있는 영역을 사전 예방적으로 파악하는 데 도움이 되는 권장사항을 확인할 수 있습니다.

이 원칙은 안정성의 관찰 중점사항과 관련이 있습니다.

원칙 개요

Google Cloud에서 워크로드의 안정성을 유지하고 개선하려면 측정항목, 로그, 추적을 사용하여 효과적인 모니터링 가능성을 구현해야 합니다.

측정항목은 특정 시간 간격으로 애플리케이션에 대해 추적하려는 활동의 수치 측정값입니다. 예를 들어 서비스 수준 지표 (SLI)로 사용할 수 있는 요청 비율 및 오류 비율과 같은 기술 측정항목을 추적할 수 있습니다. 주문 건수 및 수령한 결제 금액과 같은 애플리케이션별 비즈니스 측정항목을 추적해야 할 수도 있습니다.
로그는 애플리케이션 또는 시스템 내에서 발생하는 개별 이벤트의 타임스탬프가 지정된 기록입니다. 이벤트는 실패, 오류 또는 상태 변경일 수 있습니다. 로그에는 측정항목이 포함될 수 있으며 SLI에 로그를 사용할 수도 있습니다.
트레이스는 여러 개별 애플리케이션 또는 애플리케이션의 구성요소를 통한 단일 사용자 또는 트랜잭션의 여정을 나타냅니다. 예를 들어 이러한 구성요소는 마이크로서비스일 수 있습니다. 트레이스를 사용하면 여정에서 사용된 구성요소, 병목 현상이 있는 위치, 여정에 걸린 시간을 추적할 수 있습니다.

측정항목, 로그, 트레이스를 사용하면 시스템을 지속적으로 모니터링할 수 있습니다. 포괄적인 모니터링을 통해 오류가 발생한 위치와 이유를 파악할 수 있습니다. 오류가 발생하기 전에 잠재적인 장애를 감지할 수도 있습니다.

권장사항

잠재적인 장애를 효율적으로 감지하려면 다음 하위 섹션의 권장사항을 고려하세요.

종합적인 통계 확보

응답 시간과 오류율 같은 주요 측정항목을 추적하려면 Cloud Monitoring 및 Cloud Logging을 사용하세요. 또한 이러한 도구를 사용하면 측정항목이 워크로드의 요구사항을 일관되게 충족하는지 확인할 수 있습니다.

데이터 기반 결정을 내리려면 기본 서비스 측정항목을 분석하여 구성요소 종속 항목과 전체 워크로드 성능에 미치는 영향을 파악하세요.

모니터링 전략을 맞춤설정하려면 Google Cloud SDK를 사용하여 자체 측정항목을 만들고 게시하세요.

사전 문제 해결 실행

Google Cloud에서 워크로드의 모든 구성요소에 걸쳐 강력한 오류 처리를 구현하고 로깅을 사용 설정합니다. Cloud Storage 액세스 로그 및 VPC 흐름 로그와 같은 로그를 활성화합니다.

로깅을 구성할 때는 관련 비용을 고려하세요. 로깅 비용을 관리하려면 로그 싱크에서 제외 필터를 구성하여 특정 로그가 저장되지 않도록 하면 됩니다.

리소스 사용률 최적화

CPU 사용량, 네트워크 I/O 측정항목, 디스크 I/O 측정항목을 모니터링하여 GKE, Compute Engine, Dataproc과 같은 서비스에서 프로비저닝 부족 및 과다 프로비저닝된 리소스를 감지합니다. 지원되는 전체 서비스 목록은 Cloud Monitoring 개요를 참고하세요.

알림 우선순위 지정

알림의 경우 중요한 측정항목에 집중하고 적절한 기준점을 설정하여 알림 피로를 최소화하고 중요한 문제에 시의적절하게 대응하세요. 이 타겟팅된 접근 방식을 사용하면 워크로드 안정성을 사전 예방적으로 유지할 수 있습니다. 자세한 내용은 알림 개요를 참고하세요.

수평 확장성 활용

단계적 성능 저하를 위한 설계