Google Cloud 인프라 관리 및 모니터링

Last reviewed 2024-11-20 UTC

Google Cloud에서 애플리케이션을 프로덕션에 배포한 후에는 애플리케이션에서 사용하는 인프라를 수정해야 할 수 있습니다. 예를 들어 VM의 머신 유형을 변경하거나 Cloud Storage 버킷의 스토리지 클래스를 변경해야 할 수 있습니다. Google Cloud 인프라 안정성 가이드의 이 부분에서는 인프라 리소스의 안정성 위험을 줄이기 위해 따라야 할 변경 관리 가이드라인을 요약합니다. 이 부분에서는 Google Cloud 인프라의 가용성을 모니터링하는 방법도 설명합니다.

점진적으로 인프라 변경사항 배포

Google Cloud 인프라를 변경해야 하는 경우 최대한 변경사항을 프로덕션에 점진적으로 배포하세요. 예를 들어 VM의 머신 유형을 변경해야 하는 경우 한 영역의 일부 VM에 변경사항을 배포하고 변경사항이 미치는 영향을 모니터링합니다. 문제가 발견되면 인프라를 이전의 안정적인 상태로 빠르게 되돌립니다. 문제를 진단하고 해결한 후 점진적 배포 프로세스를 다시 시작합니다. 워크로드가 예상대로 실행되는지 확인한 후 모든 인프라에 변경사항을 점진적으로 배포합니다.

전역 리소스 변경사항 제어

VPC 네트워크 및 전역 부하 분산기와 같은 전역 리소스를 수정하는 경우 변경사항을 프로덕션에 배포하기 전에 특히 주의하여 확인해야 합니다.

전역 리소스는 영역 및 리전 중단에 대해 복원력이 있으므로 아키텍처에서 특정 전역 리소스의 단일 인스턴스를 사용할 수 있습니다. 이러한 배포에서는 전역 리소스가 단일 장애점이 될 수 있습니다. 예를 들어 전역 부하 분산기의 전달 규칙을 실수로 잘못 구성하면 프런트엔드에서 사용자 요청 수신 또는 처리를 중지할 수 있습니다. 이 경우 백엔드는 손상되지 않았지만 사용자는 애플리케이션을 사용할 수 없습니다. 이러한 상황을 방지하려면 전역 리소스의 변경사항을 엄격하게 제어하세요. 예를 들어 변경사항 검토 프로세스에서 전역 리소스의 수정사항을 추가 검토자가 확인하고 승인해야 하는 고위험 변경사항으로 분류할 수 있습니다.

Google Cloud 인프라 가용성 모니터링

Google Cloud Service Health 대시보드를 사용하여 모든 지역의 Google Cloud 서비스의 현재 상태를 모니터링할 수 있습니다. 각 서비스의 인프라 오류 (이슈라고 함) 기록을 볼 수도 있습니다. 기록 페이지에서는 이슈 기간, 영향을 받은 영역 및 리전, 영향을 받은 서비스, 추천되는 해결 방법과 같은 각 이슈의 세부정보를 제공합니다.

Personalized Service Health를 사용하여 프로젝트와 관련된 이슈를 볼 수도 있습니다. 또한 Service Health를 사용하면 프로젝트 또는 조직별로 API를 사용하여 이슈 정보를 요청하고 알림을 구성할 수 있습니다.

Google은 다음 업데이트 예상 시간을 포함하여 각 문제의 상태에 관한 정기적인 업데이트를 제공합니다. RSS 피드를 사용하여 프로그래매틱 방식으로 이슈의 상태 업데이트를 가져올 수 있습니다. 자세한 내용은 이슈 및 Google Cloud Service Health 대시보드를 참조하세요.