Google Cloud 서비스 상태 문제 모니터링

Google Cloud 제품의 상태와 상태에 대한 정보를 확인하려면 Google Cloud Service Health에서 특정 기준을 충족하는 광범위한 진행 중인 문제에 대한 정보를 확인하세요. 이 정보에는 제품 장애, 서비스 중단, 일시적인 문제에 관한 정보 메시지가 포함될 수 있습니다.

Google Cloud Service Health는 드물지만 Personalized Service Health 자체를 사용할 수 없거나 서비스 중단의 영향을 받거나 영향을 받은 제품이 아직 Personalized Service Health에 온보딩되지 않은 경우에도 사용할 수 있도록 설계되었습니다.

Personalized Service Health는 조직 전반에서 지원되는 Google Cloud 제품 및 위치를 맞춤설정된 방식으로 볼 수 있습니다. 서비스 중단이 발생했을 때 가장 먼저 Personalized Service Health를 사용하고 프로젝트에 영향을 줄 수 있는 활성 및 과거Google Cloud 이슈에 관한 커뮤니케이션을 확인하세요. Personalized Service Health에는 항상Google Cloud 고객에게 제공되는 가장 많은 정보가 있습니다. Google Cloud 콘솔을 통해, 알림을 구성하거나 Personalized Service Health API를 통해 맞춤 서비스 상태에 액세스할 수 있습니다.

이 문서에서는 Google Cloud 서비스 상태에 중점을 둡니다.

Google Cloud Service Health 액세스

다음을 통해 Google Cloud Service Health에 액세스할 수 있습니다.

  • 공개 상태 대시보드인 Google Cloud Service Health
  • 공개 RSS 피드
  • Google Cloud 콘솔:

    1. Google Cloud 콘솔에서 지원 > 케이스 페이지로 이동합니다.

      케이스로 이동

    2. 콘솔 툴바의 리소스 선택기를 사용하여 알려진 문제를 나열할 리소스를 선택합니다.

    3. 알려진 문제 탭을 클릭합니다.

      알려진 문제에는 제한된 범위 내의 사소한 이슈도 포함됩니다. 지원 케이스를 알려진 문제에 연결하여 정기적인 업데이트를 받고 지원 담당자와 소통할 수 있습니다. 지원 케이스는 이슈로 검증되지 않거나 직접 상호작용이 필요한 문제에 적합합니다. 프리미엄, 향상, 스탠더드 지원을 사용하는 경우 지원 케이스를 생성하여 이슈를 신고할 수 있습니다.

이전 리소스를 통해 Google Cloud 서비스 상태에 액세스할 수 없는 경우 Google Cloud 플랫폼 지원 질문 양식을 사용할 수 있습니다.

지원되는 Google Cloud Service Health 이슈

대부분의 Google Cloud 이슈의 경우 영향을 받는 고객은 Google Cloud 콘솔의 Personalized Service Health를 통해 직접 이슈 관련 커뮤니케이션을 수신합니다. 알림 조건을 충족하는 경우 이러한 이슈는 구성된 Service Health 알림도 트리거합니다.

다음 기준 중 하나를 충족하는 이슈는 Google Cloud 서비스 상태에 표시됩니다.

  • 공개적인 주요 이슈
  • Personalized Service Health 대시보드를 사용할 수 없을 때 발생하는 이슈

주요 이슈

Google Cloud 에서는 다음 조건을 모두 충족하는 이슈를 주요 이슈로 정의합니다.

  • 범위가 넓음: 이슈가 전 세계에 영향을 미치거나 여러 지역에서 상당한 비율의 고객 프로젝트에 영향을 미치고 있습니다.
  • 심각도 높음: 하나 이상의 제품을 사용할 수 없거나 성능이 심각하게 저하되었습니다.

드물지만 주요 이슈가 발생하면 Google에서 신속하게 문제가 해결되도록 조치합니다.

주요 이슈 발생 시 Google Cloud Service Health 대시보드를 통해 문제의 상태를 전달합니다. 주요 이슈는 대시보드에 서비스 중단으로 표시됩니다. 문제가 해결되면 Google에서는 이슈에 기여한 요소에 대한 세부정보와 이러한 이슈가 재발하지 않도록 방지하기 위한 단계가 포함된 공개 이슈 보고서를 게시합니다.

이슈의 범위가 작으면 고객에게 비공개 보고서가 제공될 수 있습니다.

이슈의 수명 주기

제품 품질 저하가 감지되면 Google Cloud 지원팀과 제품 엔지니어링팀이 협업하여 이슈를 해결하고 관련 업데이트를 제공합니다.

다음 다이어그램은 제품 엔지니어링팀 및 지원팀의 책임을 보여줍니다.

수명 주기 다이어그램

다음 섹션에서 이러한 각 책임에 대해 자세히 알아볼 수 있습니다.

감지

Google Cloud 는 내부 및 합성 모니터링을 통해 이슈를 감지합니다. 자세한 내용은 사이트 안정성 엔지니어링 교재의 6장을 참고하세요.

초기 응답

이슈가 감지되면 Google Cloud Customer Care팀이 고객 커뮤니케이션을 관리합니다. 이슈의 초기 알림에 포함된 정보는 부족한 경우가 많으며, 문제가 되는 제품만 언급하는 경우가 종종 있습니다. 이는 Google에서 세부정보보다 신속한 알림에 우선순위를 두기 때문이며 세부정보는 이후 업데이트에서 제공합니다.

사용자와 관련 없는 문제로 혼동을 주지 않으면서 가능한 많은 정보를 제공하기 위해 문제의 범위와 심각도에 따라 서로 다른 커뮤니케이션 채널을 사용합니다.

커뮤니케이션 다이어그램

조사

제품 엔지니어링팀은 이슈의 근본 원인을 조사할 책임이 있습니다. 이슈 관리는 사이트 안정성 엔지니어가 수행하는 경우가 많지만 상황이나 제품에 따라 소프트웨어 엔지니어 또는 다른 엔지니어가 수행할 수도 있습니다. 자세한 내용은 사이트 안정성 엔지니어링 도서의 12장을 참조하세요.

완화 및 해결

변경사항을 통해 이슈의 영향이 없어졌다고 Google이 확신하는 경우에만 문제가 해결된 것으로 간주됩니다. 예를 들어 이슈를 트리거한 변경사항을 롤백하는 것도 해결로 간주될 수 있습니다.

이슈가 계속되는 동안 Customer Care 및 제품팀은 문제를 완화하기 위해 노력합니다. 완화란 문제의 영향 또는 범위를 줄이는 것을 의미하며, 예를 들면 과부하가 발생한 제품에 추가 리소스를 임시로 제공하는 방식입니다.

완화되지 않으면 Customer Care팀이 해결 방법을 찾아 전달합니다. 해결 방법이란 이슈에도 불구하고 기본적인 요구사항을 해결하기 위해 취할 수 있는 단계입니다. 예를 들어 문제가 있는 코드 경로를 회피하기 위해 API 호출에 다른 설정을 사용하는 것이 해결 방법이 될 수 있습니다.

후속 조치

이슈가 계속되는 동안 Customer Care팀은 정기적인 업데이트를 제공합니다. 업데이트에는 일반적으로 다음 내용이 포함됩니다.

  • 오류 메시지, 영향을 받은 영역 또는 리전, 영향을 받은 기능, 영향을 받은 비율 등 이슈에 대한 자세한 정보

  • 해결 방법을 포함한 문제 완화 진행 상태

  • 이슈에 맞춤화된 커뮤니케이션의 타임라인

  • 이슈 해결 시점 등 상태 변경

회고

모든 이슈는 이슈를 완전히 이해하고 Google이 취할 수 있는 안정성 개선 조치를 파악하기 위해 내부적으로 회고 분석을 거칩니다. 그런 다음 이러한 개선 작업을 구현하고 추적합니다. 자세한 내용은 사이트 안정성 엔지니어링 교재의 15장을 참고하세요.

이슈 보고서

이슈가 매우 광범위하고 심각한 영향을 미치는 경우 Google은 증상, 영향, 근본 원인, 구제 조치, 이슈의 향후 방지 대책을 개략적으로 설명하는 이슈 보고서를 제공합니다. 사후 검토와 마찬가지로 Google은 문제로부터 학습을 시작하고 안정성을 개선하는 데 필요한 조치에 각별히 주의를 기울입니다. 사후 검토에 따른 보고서 작성 및 배포에 대한 Google의 목표는 고객을 위해 안정적인 제품을 구축하려는 Google의 노력을 투명하게 보여주는 것입니다.

이슈 데이터 모델

하나 이상의 위치에서 하나 이상의 제품에 영향을 미칠 수 있는 이슈입니다. 이슈에는 시작 시간과 종료 시간, 전반적인 심각도가 있습니다. 이슈에는 상태 및 영향을 받은 위치를 비롯하여 시간 경과에 따라 이슈가 어떻게 변경되는지를 설명하는 업데이트가 있습니다. 이슈 정보는 JSON 스키마를 통해 사용할 수 있습니다.

JSON 스키마에는 안정불안정 필드가 있습니다. 일반적으로 ID 필드는 안정된 것으로 간주되는 반면 표시 이름과 같은 필드는 불안정으로 간주되며 경고 없이 변경될 수 있습니다. 외부 시스템 또는 빌딩 자동화와 통합할 때만 안정 필드를 사용합니다. 자세한 내용은 이 문서의 Service Health 데이터를 프로그래매틱 방식으로 사용하는 통합을 빌드할 수 있나요?를 참고하세요. Google Cloud

FAQ

다음 자주 묻는 질문은 Google Cloud 제품의 상태와 상태를 모니터링할 때 도움이 될 수 있습니다.

과거 제품 장애 및 중단에 대한 정보는 어디에서 확인할 수 있나요?

Google Cloud Service Health는Google Cloud 제품의 장애 및 중단 기록을 최대 5년 동안 유지합니다. 대시보드에는 언어별 제품의 현재 상태가 표시됩니다. 작년에 발생한 제품 장애 및 중단에 대한 정보를 보려면 이슈 기록 보기를 클릭합니다. 지난 5년 동안의 제품 중단 기록을 보려면 해당 제품의 더보기를 클릭합니다.

제품의 리전화된 상태 정보를 확인하려면 어떻게 해야 하나요? Google Cloud

Google Cloud Service Health에는 리전 및 전역 언어로 구성된 모든 Google Cloud 제품의 상태가 표시됩니다. 멀티 리전 상태를 보려면 리전별 탭을 선택합니다.

Google Cloud 서비스 상태 데이터를 프로그래매틱 방식으로 사용하는 통합을 빌드할 수 있나요?

예. 다음과 같은 방법으로 Google Cloud Service Health에 표시되는 데이터를 사용할 수 있습니다.

  • RSS 피드 사용
  • JSON 기록 파일 사용

    공개 상태 대시보드에서 JSON 파일의 스키마를 다운로드할 수 있습니다.

RSS 피드와 JSON 기록 파일에서는 통합을 통해 사용할 수 있는 이슈 상태 정보를 제공합니다.

불안정으로 표시된 필드 대신 JSON 기록 파일에서 안정으로 표시된 필드를 사용합니다. 예를 들어 특정 제품에 영향을 미치는 이슈를 프로그래매틱 방식으로 식별하려는 경우 표시 이름이 아닌 제품 ID(affected_products>id)를 사용합니다.

제품 ID와 제품 이름 비교

이전에는 Google Cloud Service Health에서 특정 제품의 ID를 찾을 수 있는 메커니즘을 제공하지 않았습니다. 2023년 초부터 Google Cloud Service Health에서 모든 제품에 이 매핑을 제공하는 제품 카탈로그를 사용할 수 있게 되었습니다. 제품 ID는 제품의 표시 이름이 변경되어도 입력 데이터를 제어할 수 있는 안정 필드를 제공합니다. 제품 모음에 영향을 주는 이슈를 프로그래매틱 방식으로 식별할 때는 제품 ID를 참조해야 합니다.

이전 Google Cloud Service Health 구현을 기반으로 통합이 이루어진 경우 어떻게 해야 하나요?

RSS 피드와 JSON 파일 모두에서 리전 상태 정보는 리전화된 상태 보고 도입 및Google Cloud Service Health 이름 변경 전에 이미 게시되어 있습니다. 따라서 기존 통합을 계속 사용할 수 있습니다. 그러나 통합을 통해 지역 상태 정보를 사용하려면 이를 수정해야 합니다.

다음에서는 리전 정보가 RSS 피드와 JSON 파일 모두에 표시되는 방식을 자세히 설명합니다.

  • RSS 피드

    리전 상태 정보는 리전화된 상태가 도입되기 전에 제공된 피드 정보에 새로 추가된 정보입니다. 영향을 받은 것으로 보고된 모든 위치가 RSS 메시지에 추가됩니다.

  • JSON 파일

    리전 상태 업데이트 전에 Google Cloud는 영향을 받는 제품 목록과 각각의 상태 업데이트 목록(있는 경우)에 포함된 각 이슈의 이슈 스트림을 게시했습니다. Google Cloud 이러한 상태 업데이트에는 위치 정보가 포함되거나 포함되지 않은 비정형 문자열 필드가 포함되었습니다.

    이제 Google Cloud 는 이전과 마찬가지로 이슈 스트림을 게시합니다. 그러나 모든 이슈에 대한 각 상태 업데이트에는 다음과 같은 새 필드가 포함됩니다.

    • updates.affected_locations: 업데이트가 게시된 시점에서 영향을 받는 위치의 구조화된 목록을 포함합니다. 모든 업데이트 레코드와 most_recent_update 레코드에 이 필드가 있습니다.
    • currently_affected_locations: 적극적으로 이슈의 영향을 받은 위치에 대한 최신 정보를 포함합니다. updates.affected_locations와 달리 이 목록은 이슈가 해결되면(즉, end가 비어 있지 않은 값으로 설정된 경우) 비게 됩니다.
    • previously_affected_locations: 이전에 이슈 중에 영향을 받았지만 현재는 그렇지 않은 위치 목록을 포함합니다. 이슈가 진행됨에 따라 일부 위치에서 서비스 중단이 해결될 수 있습니다. 이러한 위치는 계속 previously_affected_locations field에 있습니다. 이슈가 해결되면 (즉, end가 비어 있지 않은 값으로 설정된 경우) 이 필드에 이 이슈 중에 영향을 받은 모든 위치의 목록이 포함됩니다.

문제가 발생했지만 Google Cloud 서비스 상태에 표시되지 않는 경우 어떻게 해야 하나요?

Google Cloud Service Health는 제품 및 서비스에 영향을 미치는 모든 주요 이슈의 현재 상태 정보와 이전 상태 정보를 제공합니다. Google Cloud Google Cloud 서비스 상태에 표시되지 않은 문제가 발생하는 경우 문제가 프로젝트 또는 인스턴스로 격리되거나 제한된 수의 고객에게만 영향을 주는 것일 수 있습니다. 범위가 작은 이슈는 지원 포털에 표시될 수 있습니다. 서비스 상태에 표시되지 않은 문제가 발생한 경우 고객 관리팀에 문의할 수 있습니다. Google Cloud

이미 Personalized Service Health를 사용하는 경우 문제가 표시되었는지 확인하여 프로젝트 또는 인스턴스가 영향을 받는지 확인합니다.

Google Cloud 콘솔을 사용하는 경우 상단 툴바에서 > 의견 보내기를 선택합니다.

Google Cloud 서비스 상태는 누가 업데이트하나요?

전 세계 고객 관리팀에서 다양한 유형의 신호를 사용하여 제품 상태를 모니터링하고 광범위한 문제 발생 시 Google Cloud 서비스 상태를 업데이트합니다. 필요한 경우 이슈가 해결된 후 자세한 이슈 분석 보고서를 게시합니다.

다음 단계