클라우드에서 성수기 또는 트래픽이 많은 이벤트를 관리할 때는 세 가지 주요 단계가 있습니다.
- 준비: 아키텍처 검토, 용량 계획, 예약 생성 등 이벤트를 준비하기 위한 활동과 작업을 완료합니다.
- 실행: 이벤트가 시작되면 이를 면밀히 모니터링하고 적절하게 대응합니다.
- 분석: 이벤트가 완료된 후 잘된 점과 그렇지 않은 점, 향후 이벤트를 개선하는 방법을 분석합니다.
이러한 단계에서는 다운타임을 최소화하거나 없애고 이벤트 중에 성능이나 사용자 환경이 저하되지 않도록 서비스를 제공할 수 있도록 특정 권장사항을 이해하고 따라야 합니다.
준비: 이벤트 계획 절차 세부정보
최대 용량 이벤트 준비 단계에서는 계정팀 또는 TAM과 협력하여 아키텍처를 검토하고, 다이어그램, 타임라인, 시작 체크리스트를 만들고, 예상 트래픽 프로필을 기반으로 서비스 할당량을 확인하고, 프로젝트에 미치는 전반적인 영향을 파악해야 합니다.
이벤트 날짜가 되기 훨씬 전에 계획을 시작해야 합니다. 서비스가 아직 개발 중일 때 몇 개월 전에 계획을 시작해야 하는 경우도 있습니다. 제안된 이벤트 워크플로, 예상 시청자층, 요구사항 및 성공 기준, 엔드 투 엔드 미디어 전송 체인을 검토하는 데 도움을 줄 수 있는 팀을 구성합니다. 준비 단계에는 워크플로가 잘 설계되었는지 확인하기 위한 위험 평가, 완화 계획, 운영 준비 상태 검토가 포함되어야 합니다.
자세한 내용은 설계자, 개발자, 관리자, 기타 클라우드 실무자가 안전하고 효율적이며 복원력이 우수하고 성능이 탁월하며 비용 효율적인 클라우드 토폴로지를 설계하고 운영하는 데 도움이 되는 권장사항을 제공하는 Google Cloud 아키텍처 프레임워크를 참고하세요.
실행: 실행 중 모니터링 및 반응
성수기 또는 출시 이벤트가 시작되면 활동을 면밀히 모니터링하고 필요에 따라 대응해야 합니다. 준비 단계에서 모니터링, 알림, 로깅을 설정하면 비즈니스상 중요한 트래픽, 로그, 할당량 수준을 모니터링하고 이 정보를 사용하여 근본 원인을 파악하고 문제를 신속하게 해결할 수 있습니다. 자세한 내용은 알림 및 대시보드 검토를 참고하세요.
문제가 발생하면 잘 정의된 문제 관리 및 에스컬레이션 프로세스가 문제를 해결하는 데 드는 노력과 시간을 줄이는 데 중요합니다. 아직 구축하지 않았다면 이슈 관리 프로세스를 수립합니다. 자세한 내용은 이벤트 중에 문제를 해결할 준비하기를 참고하세요.
분석: 분석 검토 및 문서화
성수기 또는 출시 이벤트가 끝나면 이벤트를 검토하고 분석한 후 다음 주요 이벤트에 적용할 수 있도록 학습한 내용을 문서화합니다.
다음 영역에 중점을 두세요.
타임라인 요약: 트래픽이 증가하기 시작한 시점과 이벤트 기간 동안의 주요 이벤트 (최대치)를 포착합니다. 문제가 발생한 시점을 파악합니다.
근본 원인 분석: 발생한 문제를 조사합니다. 나 또는 Google Cloud 님이 다르게 할 수 있었던 점이 있나요? 다음번에 고려해야 할 사항인가요? 얻은 교훈과 향후 개선을 위해 필요한 단계를 문서화합니다.
예측과 실제 비교: 트래픽 예측과 기록된 실제 트래픽을 분석합니다. 추가 리소스가 필요한 영역은 어디인가요? 리소스가 활용되지 않거나 불필요한 영역은 어디인가요?
사후 검토: 주요 이해관계자와 이전 정보를 공유하고 검토합니다. 관련된 모든 사람이 선의의 의도를 가지고 있다고 가정하고 개인이나 팀을 지목하지 않고 원인을 파악하는 데 집중하는 비난 없는 문화를 조성하세요.