이 가이드에서는 최대 용량 이벤트와 트래픽 급증에 대비하여 다운타임을 최소화하거나 없애고 성능이나 사용자 환경이 저하되지 않도록 서비스를 제공하는 방법을 설명합니다.
클라우드에서 이벤트를 관리할 때는 세 가지 주요 단계가 있습니다.
- 준비: 아키텍처 검토, 용량 계획, 예약 생성 등 이벤트를 준비하기 위한 활동과 작업을 완료합니다.
- 실행: 이벤트가 시작되면 면밀히 모니터링하고 그에 따라 대응합니다.
- 분석: 이벤트가 완료된 후 잘된 점과 그렇지 않은 점, 향후 이벤트를 개선하는 방법을 분석합니다.
이 가이드에서는 준비 단계에 중점을 둡니다.
체크리스트
다음 작업을 완료하여 용량이 최고치가 되는 경우를 대비하는 방법을 알아보세요.
Google Cloud 콘솔에서 이 태스크에 대한 단계별 안내를 직접 수행하려면 둘러보기를 클릭합니다.
시작하기 전에
구매한 Customer Care 지원 패키지에 따라 이용 가능한 이벤트 준비 서비스를 확인하세요.
고급 지원: 오프닝 이벤트, 새 제품 출시 또는 데이터 마이그레이션과 같이 트래픽이 높은 단기 디지털 이벤트의 중요한 단계를 지원하는 부가 가치 서비스인 계획된 이벤트 지원을 사용하여 이벤트, 출시, 이전에 대한 준비 상태를 최적화할 수 있습니다.
Premium Support: 제품 출시 또는 주요 판매 이벤트와 같은 계획된 피크 이벤트에 이벤트 관리 서비스를 사용할 수 있습니다. 이 서비스를 사용하면 고객 관리 파트너가 계획을 세우고 이벤트 기간 동안 안내를 제공하며 다음과 같은 지원을 제공합니다.
- 중요한 부분 및 대규모 워크로드를 대비해 시스템 준비
- 재해 테스트를 실행하여 잠재적 문제를 사전에 해결
- 발생할 수 있는 문제의 영향을 줄이도록 더 빠른 해결 경로 개발 및 구현
이벤트 후 기술계정 관리자 (TAM)와 협력하여 결과를 검토하고 향후 이벤트에 대한 추천 사항을 제공합니다. 시작하거나 자세히 알아보려면 TAM에 문의하세요.
이벤트 관리 권장사항 이해
다음과 같은 특정 이벤트 관리 권장사항을 이해하고 따라야 합니다.
이벤트 계획 프로세스 세부정보: 용량이 최고치가 되는 이벤트 준비 단계에서 계정팀 또는 TAM과 협력하여 아키텍처를 검토하고, 다이어그램, 타임라인, 출시 체크리스트를 만들고, 예상 트래픽 프로필을 기반으로 서비스 할당량을 확인하고, 프로젝트에 미치는 전반적인 영향을 파악해야 합니다.
실행 중 모니터링 및 대응: 성수기 또는 출시 이벤트가 시작되면 활동을 면밀히 모니터링하고 필요에 따라 대응해야 합니다. 문제가 발생하면 잘 정의된 사고 관리 및 에스컬레이션 프로세스가 문제를 해결하는 데 드는 노력과 시간을 줄이는 데 중요합니다.
분석 검토 및 문서화: 성수기 또는 출시 이벤트가 끝나면 이벤트를 검토하고 분석한 후 다음 주요 이벤트에 적용할 수 있도록 학습한 내용을 문서화합니다.
자세한 내용은 이벤트 관리 권장사항을 참조하세요.
이벤트에 적합한 용량을 요청하고 확보
준비 단계의 중요한 구성요소는 용량 계획으로, 워크로드가 효과적으로 작동하는 데 필요한 것을 갖추기 위해 필요한 클라우드 리소스의 양을 결정합니다. 트래픽이 많은 이벤트나 성수기에 대비할 때는 할당량이 리소스 요구사항과 일치하는지 확인하여 예기치 않은 오류가 발생하지 않도록 하세요. 자세한 내용은 이벤트 용량 확보를 참고하세요.
용량 플래너 사용
용량 플래너를 사용하면 가상 머신 (VM) 인스턴스, Persistent Disk 볼륨, GPU의 과거 및 예측 사용량을 확인할 수 있습니다. 예약을 확인하고, 리소스를 미리 예약하고, 프로젝트의 할당량 한도를 관리하고, 자동 할당량 증가 요청을 설정할 수도 있습니다. 자세한 내용은 용량 플래너에서 사용량 및 예측 데이터 보기를 참고하세요.
Google Cloud 콘솔에서 용량 플래너 페이지로 이동합니다.
콘솔 툴바의 리소스 선택기를 사용하여 프로젝트, 폴더 또는 조직을 선택합니다.
사용 데이터를 확인할 Compute Engine 리소스 유형을 선택합니다.
VM의 사용 데이터를 보려면 아직 선택하지 않았다면 가상 머신 탭을 클릭합니다.
영구 디스크 볼륨의 사용량 데이터를 보려면 디스크 탭을 클릭합니다.
GPU 사용량 데이터를 보려면 GPU 탭을 클릭합니다.
요소를 필터링하여 리소스의 사용 및 예측 데이터에 관한 다양한 데이터 시각화를 확인할 수 있습니다.
할당량 조정자 사용 설정
할당량 조정자는 리소스 소비를 모니터링하고 직접 요청할 필요가 없도록 사용자 대신 할당량 조정 요청을 사전에 제출합니다. 자세한 내용은 할당량 조정기 작동 방식을 참고하세요.
Google Cloud 콘솔에서 IAM 및 관리자 > 할당량 및 시스템 한도 페이지로 이동합니다.
구성 탭을 클릭합니다.
할당량 조정자를 사용 설정하려면 사용 설정 전환 버튼을 클릭하여 사용 위치로 전환합니다.
상태 열에 사용 설정됨이 표시되면 할당량 조정자가 사용량을 모니터링하고 리소스 사용량이 할당량 값에 가까워지면 할당량 조정 요청을 실행합니다.
할당량 조정 요청
필요한 할당량이 충분하지 않은 경우 할당량 조정을 요청할 수 있습니다. 자세한 내용은 할당량 보기 및 관리를 참고하세요.
Google Cloud 콘솔에서 IAM 및 관리자 > 할당량 및 시스템 한도 페이지로 이동합니다.
업데이트할 할당량 옆에 있는 체크박스를 선택합니다.
원하는 경우 할당량을 검색하려면
필터를 사용하세요.수정을 클릭하면 할당량 변경사항 창이 표시됩니다.
새 값 입력란에 원하는 할당량 값을 입력합니다. 일부 할당량 값에는 측정 단위가 있습니다. 이 경우 인접한 목록에서 원하는 단위를 선택합니다.
재정의보다 큰 할당량을 요청하여 할당량 재정의가 삭제된다는 메시지가 표시되면 체크박스를 선택하여 계속 진행한 다음 할당량 상향 신청을 선택합니다.
요청 설명 입력란에 설명을 입력하고 완료를 클릭합니다.
다음을 클릭하고 연락처 세부정보를 입력합니다.
요청 제출을 클릭합니다.
요청이 거부된 경우 지원 케이스를 생성하거나 계정팀 또는 TAM에 문의하여 할당량 증가를 요청할 수 있습니다.
예약 만들기
예약을 하면 필요할 때마다 동일한 하드웨어 (메모리 및 vCPU)와 선택적 리소스 (GPU 및 로컬 SSD 디스크)를 사용하여 VM을 만들 수 있는 Compute Engine 리소스를 확보할 수 있습니다.
주문형 예약은 요청된 용량을 사용할 수 있는 경우 요청 시 프로비저닝됩니다. 미래용 예약을 사용하면 용량을 미리 요청할 수 있습니다. 이벤트가 있기 훨씬 전에 예약을 확보하는 것이 좋습니다. 자세한 내용은 Compute Engine 영역별 리소스 예약을 참고하세요.
단일 프로젝트 온디맨드 예약 만들기
Google Cloud 콘솔에서 예약 페이지로 이동합니다.
온디맨드 예약 탭(기본값)에서
예약 만들기를 클릭합니다.예약 만들기 페이지가 열립니다.
예약의 이름을 입력합니다.
리소스를 예약할 리전 및 영역을 선택합니다.
공유 유형에서 로컬을 선택합니다(아직 선택하지 않은 경우).
Vertex AI의 커스텀 학습 작업 또는 예측 작업에서 GPU VM 예약을 사용할 수 있게 하려면 Google Cloud 서비스 섹션에서 예약 공유를 선택합니다.
VM 인스턴스와 함께 사용 옵션을 선택합니다.
일치하는 VM에서 이 예약을 자동으로 사용할 수 있게 하려면 예약 자동 사용을 선택합니다(아직 선택하지 않은 경우).
이름을 통해 이 예약을 명시적으로 타겟팅하는 일치하는 VM을 만들 때만 이 예약의 리소스를 소비하려면 특정 예약 선택을 선택합니다.
예약할 VM 인스턴스 수를 입력합니다.
머신 구성 섹션에서 다음을 수행합니다.
기존 인스턴스 템플릿에서 VM의 속성을 지정하려면 인스턴스 템플릿 사용을 선택합니다.
인스턴스 템플릿을 지정합니다. 리전 템플릿을 선택하면 해당 리전의 리소스만 예약할 수 있습니다.
지정된 시간에 예약을 자동으로 삭제하려면 자동 삭제 사용 설정 체크박스를 선택합니다. 예약 자동 삭제는 예약 사용을 중지할 때 불필요한 비용이 발생하는 것을 방지하는 데 유용할 수 있습니다.
예약을 만들려면 만들기를 클릭합니다.
예약 페이지가 열립니다. 예약을 생성하는 데 최대 1분이 걸릴 수 있습니다.
단일 프로젝트 미래용 예약 만들기
Google Cloud 콘솔에서 예약 페이지로 이동합니다.
미래용 예약 탭을 클릭합니다.
미래용 예약 만들기를 클릭합니다.
미래용 예약 만들기 페이지가 열립니다.
이름에 미래용 예약 요청을 위한 이름을 입력합니다.
접두사에 이름 접두사를 입력합니다. 이 미래용 예약 요청에서 자동 생성된 각 예약의 이름은 이 접두사로 시작합니다.
리전 및 영역에 리소스를 예약할 리전과 영역을 선택합니다.
시작 시간에 예약 기간의 시작 시간을 입력합니다. 시작 시간은 검토를 위해 미래용 예약 요청을 제출하는 날짜 및 시간을 기준으로 1년 이내여야 합니다. 잠금 시간에 들어가기 전에 미래용 예약을 수정, 취소 또는 삭제할 수 있는 충분한 시간을 확보하려면 시작 시간에 권장되는 값을 지정합니다.
종료 시간에 예약 기간의 종료 시간을 입력합니다(최소 14일). 기간 요약 섹션에서 예약 기간의 길이를 확인할 수 있습니다. 검토를 위해 미래용 예약 요청을 제출한 후 Google Cloud에서 이를 승인할 가능성을 높이려면 예약 기간에 권장 값을 지정해야 합니다.
공유 유형 섹션에서 로컬을 선택합니다(아직 선택하지 않은 경우).
필요한 총용량에 해당 기간 동안 예약하려는 VM의 총 개수, VM 구성, 미래용 예약 요청에 지정된 프로젝트를 입력합니다.
머신 구성 섹션에서 다음을 수행합니다.
인스턴스 템플릿 사용을 선택합니다.
인스턴스 템플릿에서 원하는 인스턴스 템플릿을 선택합니다. 리전 인스턴스 템플릿을 선택하면 템플릿의 리전과 동일한 리전 내에서만 리소스를 예약할 수 있습니다.
자동 생성된 예약 자동 삭제 섹션에서 다음 중 하나를 수행합니다.
Compute Engine이 미래용 예약 요청을 위해 자동 생성된 예약을 자동으로 삭제하도록 하려면 다음 안내를 따르세요.
아직 사용 설정되지 않은 경우 자동 삭제 사용 설정 전환 버튼을 클릭하여 사용 위치로 전환합니다.
(선택사항) 자동 삭제 시간에 자동 생성된 예약을 삭제할 날짜와 시간을 입력합니다. 날짜와 시간은 예약 기간의 종료 시간보다 이후여야 합니다. 이 필드를 비워 두면 예약 기간이 종료되고 2시간 이내에 자동 생성된 예약이 삭제됩니다.
그렇지 않으면 자동 삭제 사용 설정 전환 버튼을 클릭하여 해제 위치로 전환합니다.
미래용 예약 요청 초안 만들기를 완료하려면 초안 저장을 클릭합니다.
예약 페이지가 열립니다. 미래용 예약 요청 만들기를 완료하는 데 최대 1분이 걸릴 수 있습니다.
이벤트 중에 신속하게 문제를 해결할 수 있도록 준비
심각도가 다른 사고에 대응하고, 분류하고, 해결하는 방법에 따라 이벤트 중 운영에 상당한 영향을 미칠 수 있습니다. 중앙 집중식 사고 관리 시스템을 사용하여 사고 수명 주기 전반에서 효과적으로 추적해야 합니다.
연락처를 검토하고 Personalized Service Health를 사용 설정하는 것 외에도 다음을 수행해야 합니다.
- Customer Care 사용 시 권장사항 검토
- 커뮤니케이션 계획 수립
- 액세스 권한 부여
자세한 내용은 이벤트 중에 발생하는 문제를 해결하기 위한 준비를 참고하세요.
연락처 검토
많은 Google Cloud 서비스에서 사용자에게 중요한 정보를 공유하기 위해 알림을 Google Cloud 전송합니다. 기본적으로 이러한 알림은 특정 Identity and Access Management (IAM) 역할이 있는 멤버에게 전송됩니다. 필수 연락처를 사용하면 자체 연락처 목록을 제공하여 알림을 받을 사람을 맞춤설정할 수 있습니다. 자세한 내용은 알림 연락처 관리를 참고하세요.
Google Cloud 콘솔에서 IAM 및 관리자 > 필수 연락처 페이지로 이동합니다.
프로젝트, 폴더 또는 조직의 이름이 콘솔 툴바의 리소스 선택기에 표시되는지 확인합니다. 리소스 선택기는 현재 연락처를 관리 중인 프로젝트, 폴더 또는 조직을 알려줍니다.
카테고리별로 연락처를 나열하려면 카테고리를 선택합니다. 연락처를 알파벳 순으로 나열하려면 연락처를 선택합니다.
Personalized Service Health 사용 설정
Personalized Service Health를 사용하면 프로젝트와 관련된 Google Cloud 서비스 중단을 파악하여 효율적으로 관리하고 대응할 수 있습니다. 자세한 내용은 Personalized Service Health 개요를 참고하세요.
이벤트 전에 Service Health API를 사용 설정했는지, 조직에서 대시보드에 액세스하고 알림을 구성할 수 있는지 확인합니다. 자세한 내용은 맞춤 서비스 상태 액세스 관리를 참고하세요.
- Google Cloud 콘솔의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.
-
Enable the Service Health API.
클라우드 리소스 관리 및 최적화
Google Cloud워크로드에서 사용하는 리소스를 관리하고 최적화합니다. 여기에는 실제 사용량과 수요에 따라 리소스를 적절하게 조정하고, 동적 리소스 할당에 자동 확장을 사용하고, 아키텍처 및 보안 권장사항을 검토하는 것이 포함됩니다.
Active Assist 권장사항을 검토하는 것 외에도 다음을 수행해야 합니다.
- Google Cloud 권장사항 검토
- 확장성 검토
- 제품 버전 검토
- 알림 및 대시보드 검토
자세한 내용은 클라우드 리소스 최적화를 참고하세요.
Active Assist 권장사항 검토
Active Assist는 Google Cloud 프로젝트를 최적화하는 데 도움이 되는 권장사항과 통계를 생성하기 위해Google Cloud 에서 사용되는 도구의 포트폴리오를 나타냅니다. 자세한 내용은 Active Assist란 무엇인가요?를 참고하세요.
Google Cloud 콘솔에서 권장사항 허브로 이동합니다.
콘솔 툴바의 리소스 선택기를 사용하여Google Cloud 프로젝트, 폴더 또는 조직을 선택합니다.
조직 또는 폴더에 대한 권한이 있는 경우 내부의 폴더 또는 프로젝트에 대한 권한에 관계없이 조직 또는 폴더 수준에서만 권장사항을 볼 수 있습니다.
탐색 창에서 모든 추천을 클릭합니다.
필터링, 정렬, 공유할 수 있는 권장사항이 표시됩니다. 권장사항을 자세히 살펴보고 영향을 받는 리소스, 권장사항을 적용할 경우 미치는 영향을 확인할 수 있습니다.
권장사항에 대해 자세히 알아보려면 권장사항 열에서 권장사항을 클릭합니다.
권장사항을 적용할지 닫을지 결정하는 데 도움이 될 수 있는 관련 데이터가 표시됩니다.
권한이 있는 경우 해당 버튼을 클릭하여 권장사항을 적용하거나 닫을 수 있습니다.
일부 권장사항은 직접 적용되지 않을 수도 있습니다. 적용하려면 콘솔에 자세히 설명된 안내를 따르세요.
부하 테스트 예약 및 수행
부하 테스트를 통해 프로덕션 사용 중에 시스템이 성공적으로 확장되는지 확인하고 확장을 방해하는 병목 현상을 찾을 수 있습니다.
이벤트 3~5개월 전에 중요한 프로젝트와 워크로드에서 부하 테스트를 수행하여 최대 트래픽을 시뮬레이션해야 합니다.
부하 테스트의 할당량 및 비용 영향을 조사하고 가장 많은 스트레스를 줄 서비스의 비용을 모니터링하는 Cloud Billing 예산 알림을 만드는 것이 좋습니다.
각 테스트 후에는 결과를 평가하고 용량 플래너를 사용하여 사용량 및 예측 데이터를 시각화하고 필요한 경우 할당량 증대를 요청합니다. 이 문서에서 용량 플래너 사용 및 할당량 조정 요청을 참고하세요.
도움이 필요한 경우 계정팀 또는 TAM에 문의하세요. 이를 통해 아키텍처 변경사항을 파악하고 계획하여 서비스의 전반적인 안정성과 가용성을 개선할 수 있습니다.
재해 복구 테스트 예약 및 수행
견고하고 철저한 테스트를 거친 재해 복구(DR) 전략을 갖추면 문제가 발생했을 때 서비스 중단의 영향을 최소화하고, 복구 시간을 단축하며, 핵심 작업을 신속하게 재개할 수 있습니다.
DR 전략에는 상세한 비상 대응 요구사항, 백업 작업, 복구 절차가 포함되어야 합니다.
이벤트 1~3개월 전에 재해 시나리오 시뮬레이션을 실행하여 DR 계획 및 준비 상태의 공백을 파악해야 합니다.
각 테스트 후에 결과를 평가하여 아키텍처 변경이 필요한지 확인합니다. 필요에 따라 리소스를 검토하고 최적화합니다. 이 문서에서 클라우드 리소스 관리 및 최적화를 참고하세요.
계정팀 또는 TAM에서 DR 테스트와 더불어 사고 대응 프로세스를 이해하고 개선하는 방법을 도와드릴 수 있습니다. 자세한 내용은 재해 복구 계획 가이드를 참고하세요.
리소스 요약
다음 표에는 이 문서에서 참조하는 가이드가 나와 있습니다.
이벤트 관리 권장사항 이해 |
---|
이벤트에 적합한 용량을 요청하고 확보 |
이벤트 중에 신속하게 문제를 해결할 수 있도록 준비 |
클라우드 리소스 관리 및 최적화 |
부하 테스트 예약 및 수행 |
재해 복구 테스트 예약 및 수행 |