이 페이지는 Cloud Translation API를 통해 번역되었습니다.

사고 및 문제 관리

Last reviewed 2024-10-31 UTC

Google Cloud Well-Architected Framework의 운영 우수성 부문에서 이 원칙을 따르면 클라우드 워크로드와 관련된 인시던트 및 문제를 관리하는 데 도움이 되는 권장사항을 확인할 수 있습니다. 여기에는 포괄적인 모니터링 및 관측 가능성 구현, 명확한 사고 대응 절차 수립, 철저한 근본 원인 분석 수행, 예방 조치 구현이 포함됩니다. 이 원칙에서 설명하는 많은 주제는 안정성 필라에서 자세히 다룹니다.

원칙 개요

사고 관리와 문제 관리는 기능적 운영 환경의 중요한 구성요소입니다. 심각도가 다른 사고에 대응하고, 분류하고, 해결하는 방법은 운영에 상당한 영향을 미칠 수 있습니다. 또한 안정성과 성능을 최적화하기 위해 사전 대응 방식으로 지속적으로 조정해야 합니다. 효율적인 사고 및 문제 관리 프로세스는 다음 기본 요소를 기반으로 합니다.

지속적인 모니터링: 문제를 신속하게 식별하고 해결합니다.
자동화: 작업을 간소화하고 효율성을 개선합니다.
오케스트레이션: 클라우드 리소스를 효과적으로 조정하고 관리합니다.
데이터 기반 통계: 클라우드 운영을 최적화하고 정보에 입각한 결정을 내립니다.

이러한 요소는 다양한 문제와 중단을 처리할 수 있는 복원력 있는 클라우드 환경을 구축하는 데 도움이 됩니다. 이러한 요소는 비용이 많이 드는 사고와 다운타임의 위험을 줄이는 데도 도움이 되며, 비즈니스 민첩성과 성공을 높이는 데도 도움이 됩니다. 이러한 기본 요소는 운영 준비의 네 가지 중점 분야인 인력, 프로세스, 도구, 거버넌스에 걸쳐 있습니다.

권장사항

인시던트와 문제를 효과적으로 관리하려면 다음 섹션의 권장사항을 고려하세요. 이 문서의 각 권장사항은 하나 이상의 운영 준비 중점사항과 관련이 있습니다.

명확한 사고 대응 절차 수립

사고에 효과적이고 조율된 방식으로 대응하려면 명확한 역할과 책임이 필수적입니다. 또한 명확한 커뮤니케이션 프로토콜과 에스컬레이션 경로를 통해 사고 발생 시 정보를 신속하고 효과적으로 공유할 수 있습니다. 이 권장사항은 인력, 프로세스, 도구라는 운영 준비의 중점사항과 관련이 있습니다.

사고 대응 절차를 수립하려면 사고 책임자, 조사자, 커뮤니케이터, 기술 전문가 등 각 팀원의 역할과 기대치를 정의해야 합니다. 커뮤니케이션 및 에스컬레이션 경로를 설정하는 데는 중요한 연락처를 식별하고, 커뮤니케이션 채널을 설정하고, 필요한 경우 상위 관리 수준으로 인시던트를 에스컬레이션하는 프로세스를 정의하는 것이 포함됩니다. 정기적인 교육과 준비를 통해 팀이 사고에 효과적으로 대응할 수 있는 지식과 기술을 갖출 수 있습니다.

런북이나 플레이북에 사고 대응 절차를 문서화하면 사고 중에 팀이 따라야 하는 표준 참조 가이드를 제공할 수 있습니다. 런북에는 커뮤니케이션, 트리아지, 조사, 해결 등 인시던트 대응 프로세스의 각 단계에서 취해야 할 조치가 간략하게 설명되어야 합니다. 또한 관련 도구 및 리소스에 관한 정보와 중요한 인력의 연락처 정보도 포함해야 합니다. 런북이 최신 상태로 유지되고 효과적인지 정기적으로 검토하고 업데이트해야 합니다.

중앙 집중식 사고 관리

사고 수명 주기 전반에서 효과적으로 추적하고 관리하려면 중앙 집중식 사고 관리 시스템을 사용하는 것이 좋습니다. 이 권장사항은 프로세스 및 도구라는 운영 준비의 중점사항과 관련이 있습니다.

중앙 집중식 사고 관리 시스템은 다음과 같은 이점을 제공합니다.

가시성 개선: 모든 인시던트 관련 데이터를 한곳에 통합하면 팀이 다양한 채널이나 시스템에서 컨텍스트를 검색할 필요가 없습니다. 이 접근 방식은 시간을 절약하고 혼란을 줄여주며, 이해관계자에게 상태, 영향, 진행 상황 등 인시던트에 대한 포괄적인 정보를 제공합니다.
조정 및 협업 개선: 중앙 집중식 시스템은 커뮤니케이션 및 작업 관리를 위한 통합 플랫폼을 제공합니다. 이 도구는 이슈 대응에 관여하는 다양한 부서와 기능 간의 원활한 협업을 촉진합니다. 이 접근 방식을 사용하면 모든 사람이 최신 정보에 액세스할 수 있으며 의사소통 오류 및 불일치 위험을 줄일 수 있습니다.
책임 및 소유권 강화: 중앙 집중식 인시던트 관리 시스템을 사용하면 조직에서 특정 개인 또는 팀에 작업을 할당할 수 있으며 책임이 명확하게 정의되고 추적됩니다. 이 접근 방식은 팀원이 진행 상황과 기여도를 쉽게 모니터링할 수 있으므로 책임감을 높이고 사전 문제 해결을 장려합니다.

중앙 집중식 사고 관리 시스템은 사고 추적, 작업 할당, 커뮤니케이션 관리를 위한 강력한 기능을 제공해야 합니다. 이러한 기능을 사용하면 워크플로를 맞춤설정하고, 우선순위를 설정하고, 모니터링 도구 및 티켓팅 시스템과 같은 다른 시스템과 통합할 수 있습니다.

중앙 집중식 사고 관리 시스템을 구현하면 조직의 사고 대응 프로세스를 최적화하고, 공동작업을 개선하고, 가시성을 향상할 수 있습니다. 이렇게 하면 사고 해결 시간이 단축되고, 다운타임이 줄어들며, 고객 만족도가 향상됩니다. 또한 과거 사고에서 배우고 개선이 필요한 영역을 파악할 수 있으므로 지속적인 개선 문화를 조성하는 데도 도움이 됩니다.

철저한 사고 후 검토 실시

사고가 발생한 후에는 근본 원인, 기여 요인, 교훈을 파악하기 위해 자세한 사고 후 검토(PIR)(사후 분석이라고도 함)를 실시해야 합니다. 이렇게 철저하게 검토하면 향후 비슷한 사건을 방지하는 데 도움이 됩니다. 이 권장사항은 프로세스 및 거버넌스라는 운영 준비의 중점사항과 관련이 있습니다.

PIR 프로세스에는 침해 사고의 다양한 측면에 전문 지식이 있는 다학제적 팀이 참여해야 합니다. 팀은 인터뷰, 문서 검토, 현장 검사를 통해 모든 관련 정보를 수집해야 합니다. 인시던트로 이어진 일련의 작업을 파악하기 위해 이벤트 타임라인을 만들어야 합니다.

팀에서 필요한 정보를 수집한 후에는 근본 원인 분석을 실시하여 인시던트의 원인이 된 요인을 파악해야 합니다. 이 분석에서는 사고의 직접적인 원인과 사고에 기여한 시스템 문제를 모두 식별해야 합니다.

근본 원인을 파악하는 것과 함께 PIR팀은 사고를 유발했을 수 있는 다른 요인을 파악해야 합니다. 이러한 요인에는 인적 오류, 장비 고장, 조직적 요인(예: 커뮤니케이션 장애, 교육 부족)이 포함될 수 있습니다.

PIR 보고서에는 이벤트 타임라인, 근본 원인 분석, 권장 조치를 비롯한 조사 결과가 문서화되어야 합니다. 이 보고서는 수정 조치를 구현하고 재발을 방지하는 데 유용한 리소스입니다. 보고서는 모든 관련 이해관계자와 공유해야 하며 안전 교육 및 절차를 개발하는 데 사용해야 합니다.

성공적인 PIR 프로세스를 위해서는 조직에서 비난보다는 학습과 개선에 초점을 맞춘 비난 없는 문화를 조성해야 합니다. 이러한 문화는 보복에 대한 두려움 없이 개인이 문제를 신고하도록 장려하며, 시스템 문제를 해결하고 의미 있는 개선을 할 수 있도록 지원합니다.

철저한 PIR을 수행하고 조사 결과에 따라 시정 조치를 구현하면 향후 유사한 사고가 발생할 위험을 크게 줄일 수 있습니다. 사고 조사 및 예방에 대한 이러한 사전 대응 방식은 관련된 모든 사람을 위해 더 안전하고 효율적인 작업 환경을 만드는 데 도움이 됩니다.

기술 자료 유지관리

알려진 문제, 해결 방법, 문제 해결 가이드로 구성된 지식 기반은 인시던트 관리 및 해결에 필수적입니다. 팀 구성원은 기술 자료를 사용하여 일반적인 문제를 신속하게 파악하고 해결할 수 있습니다. 지식 베이스를 구현하면 에스컬레이션의 필요성이 줄어들고 전반적인 효율성이 향상됩니다. 이 권장사항은 인력 및 프로세스라는 운영 준비의 중점사항과 관련이 있습니다.

지식 베이스의 주요 이점은 팀이 과거 경험을 통해 배우고 실수를 반복하지 않도록 지원한다는 것입니다. 알려진 문제에 대한 해결 방법을 포착하고 공유함으로써 팀은 일반적인 문제 해결 방법과 인시던트 관리에 관한 권장사항을 집단적으로 이해할 수 있습니다. 기술 자료를 사용하면 시간과 노력을 절약하고 프로세스를 표준화하며 사고 해결의 일관성을 보장할 수 있습니다.

기술 자료는 문제 해결 시간을 개선하는 데 도움이 될 뿐만 아니라 팀 간의 지식 공유와 협업을 촉진합니다. 중앙 정보 저장소를 사용하면 팀에서 기술 자료에 쉽게 액세스하고 기여할 수 있으므로 지속적인 학습 및 개선 문화가 촉진됩니다. 이러한 문화는 팀이 전문성과 경험을 공유하도록 장려하여 더 포괄적이고 가치 있는 지식 기반을 구축할 수 있습니다.

기술 자료를 효과적으로 만들고 관리하려면 적절한 도구와 기술을 사용하세요. Google Workspace와 같은 공동작업 플랫폼은 문서를 공동으로 쉽게 만들고, 수정하고, 공유할 수 있으므로 이러한 목적에 적합합니다. 이러한 도구는 버전 관리 및 변경사항 추적도 지원하므로 기술 자료를 최신 상태로 유지하고 정확성을 유지할 수 있습니다.

관련된 모든 팀이 기술 자료에 쉽게 액세스할 수 있도록 합니다. 지식 베이스를 기존 인시던트 관리 시스템과 통합하거나 전용 포털 또는 인트라넷 사이트를 제공하여 이를 달성할 수 있습니다. 쉽게 사용할 수 있는 기술 자료를 통해 팀은 인시던트를 효율적으로 해결하는 데 필요한 정보에 빠르게 액세스할 수 있습니다. 이러한 가용성은 다운타임을 줄이고 비즈니스 운영에 미치는 영향을 최소화하는 데 도움이 됩니다.

지식 베이스를 정기적으로 검토하고 업데이트하여 관련성이 있고 유용하도록 유지하세요. 인시던트 신고를 모니터링하고, 일반적인 문제와 추세를 파악하고, 새로운 해결 방법과 문제 해결 가이드를 기술 자료에 통합합니다. 최신 기술 자료는 팀이 인시던트를 더 빠르고 효과적으로 해결하는 데 도움이 됩니다.

사고 대응 자동화

자동화는 사고 대응 및 해결 프로세스를 간소화하는 데 도움이 됩니다. 이를 통해 보안 침해 및 시스템 장애에 신속하고 효율적으로 대처할 수 있습니다. Cloud Run Functions 또는 Cloud Run과 같은 Google Cloud 제품을 사용하면 일반적으로 수동으로 수행하며 시간이 오래 걸리는 다양한 작업을 자동화할 수 있습니다. 이 권장사항은 프로세스 및 도구라는 운영 준비 중점사항과 관련이 있습니다.

자동화된 사고 대응은 다음과 같은 이점을 제공합니다.

사고 감지 및 해결 시간 단축: 자동화된 도구는 시스템과 애플리케이션을 지속적으로 모니터링하고, 의심스럽거나 비정상적인 활동을 실시간으로 감지하며, 이해관계자에게 알리거나 개입 없이 대응할 수 있습니다. 이 자동화를 통해 심각한 문제로 확대되기 전에 잠재적인 위협이나 문제를 식별할 수 있습니다. 문제가 감지되면 자동화된 도구는 영향을 받는 시스템 격리, 악성 파일 격리, 변경사항 롤백과 같은 사전 정의된 해결 작업을 트리거하여 시스템을 알려진 정상 상태로 복원할 수 있습니다.
보안 및 운영팀의 부담 감소: 자동화된 인시던트 대응을 통해 보안 및 운영팀이 더 전략적인 작업에 집중할 수 있습니다. 진단 정보 수집이나 알림 트리거와 같은 일상적이고 반복적인 작업을 자동화하면 조직에서 인력을 확보하여 더 복잡하고 중요한 인시던트를 처리할 수 있습니다. 이 자동화를 통해 전반적인 사고 대응 효과와 효율성을 개선할 수 있습니다.
해결 프로세스의 일관성 및 정확성 향상: 자동화된 도구를 사용하면 영향을 받는 모든 시스템에 해결 작업이 균일하게 적용되어 인적 오류나 불일치의 위험을 최소화할 수 있습니다. 이러한 시정 절차의 표준화는 사용자 및 비즈니스에 미치는 인시던트의 영향을 최소화하는 데 도움이 됩니다.

CloudOps를 사용하여 운영 준비 상태 및 성능 보장

클라우드 리소스 관리 및 최적화