이 페이지는 Cloud Translation API를 통해 번역되었습니다.

단계적 성능 저하를 위한 설계

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework의 안정성 부문에서 이 원칙을 따르면 Google Cloud 워크로드의 장애를 우아하게 처리할 수 있도록 설계하는 데 도움이 되는 권장사항을 확인할 수 있습니다.

이 원칙은 안정성의 응답 중점사항과 관련이 있습니다.

원칙 개요

그레이스풀 디그레이션은 부하가 높은 시스템이 성능이나 정확도가 저하될 수 있지만 계속 작동하는 설계 접근 방식입니다. 단계적 저하는 시스템의 작업이 최적화되지 않더라도 시스템의 지속적인 가용성을 보장하고 완전한 장애를 방지합니다. 부하가 관리 가능한 수준으로 돌아가면 시스템은 전체 기능을 다시 시작합니다.

예를 들어 부하가 높은 기간에는 Google 검색에서 순위가 높은 웹페이지의 결과를 우선적으로 표시하여 정확도가 다소 떨어질 수 있습니다. 부하가 감소하면 Google 검색에서 검색 결과를 다시 계산합니다.

권장사항

그레이스풀 디그레이션을 위해 시스템을 설계하려면 다음 하위 섹션의 권장사항을 고려하세요.

제한 구현

복제본이 과부하를 독립적으로 처리하고 트래픽이 많은 시나리오에서 수신 요청을 제한할 수 있는지 확인합니다. 이 접근 방식을 사용하면 영역 간 과도한 트래픽의 이동으로 인해 발생하는 연속 장애를 방지할 수 있습니다.

Apigee와 같은 도구를 사용하여 트래픽이 많은 시간대에 API 요청 비율을 제어합니다. 요청을 축소하는 방법을 반영하도록 정책 규칙을 구성할 수 있습니다.

초과 요청을 일찍 삭제

백엔드 구성요소를 보호하기 위해 프런트엔드 레이어에서 과도한 요청을 삭제하도록 시스템을 구성합니다. 일부 요청을 삭제하면 전역 오류를 방지하고 시스템이 더 원활하게 복구될 수 있습니다.이 접근 방식을 사용하면 일부 사용자에게 오류가 발생할 수 있습니다. 하지만 과부하 중에 모든 트래픽이 삭제되는 서킷 브레이킹과 같은 접근 방식과 달리 중단으로 인한 영향을 최소화할 수 있습니다.

부분 오류 및 재시도 처리

부분 오류와 재시도를 원활하게 처리하도록 애플리케이션을 빌드합니다. 이 설계는 부하가 높은 시나리오에서 최대한 많은 트래픽이 처리되도록 지원합니다.

오버로드 시나리오 테스트

제한 및 요청 삭제 메커니즘이 효과적으로 작동하는지 검증하려면 시스템에서 과부하 조건을 정기적으로 시뮬레이션하세요. 테스트를 통해 시스템이 실제 트래픽 급증에 대비할 수 있습니다.

트래픽 급증 모니터링

분석 및 모니터링 도구를 사용하여 트래픽 급증이 과부하로 확대되기 전에 예측하고 대응하세요. 조기 감지 및 대응은 수요가 많은 기간 동안 서비스 가용성을 유지하는 데 도움이 됩니다.

모니터링 가능성을 사용하여 잠재적 장애 감지

장애 복구 테스트 실행